专题04 统计
1.三种抽样方法的特点及其适用范围如下表:
抽样方法
共同点
特点
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽到的可能性都相等
从总体中逐个抽取
样本容量较小
系统抽样
将总体平均分成若干部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
总体容量较大
分层抽样
将总体分成互不交叉的层,然后分层进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
2.在绘制频率分布直方图时,要注意:
(1)所有的数据都必须在所分的组内,可适当将区间两端点的数据调整以便于分组;
(2)落在各小组内的频数必须计算正确.
在根据频率分布直方图进行相关计算时,需掌握下列关系式:
(1);
(2),
及其变形:,.
数字特征:
众数只与这组数据中的部分数据有关,当一组数据中有不少数据重复出现时,众数往往更能反映
问题.众数可以有一个,也可以有多个.
(2)中位数仅与数据的排列位置有关,中位数可能在所给数据中,也可能不在所给数据中.当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.中位数只有一个.
(3)平均数受个别极端数据的影响较大,因此若在数据中存在少量极端数据时,平均数对总体估计的可靠性较差,往往用众数或中位数去估计总体.有时也采用剔除最大值与最小值后所得的平均数去估计总体.平均数只有一个.
4.回归方程的求解
(1)求回归方程的步骤:列表→计算相关量的值→代入公式计算,的值→写出回归方程.
(2)回归直线一定经过样本点的中心.
【热点难点突破】
例1.【2018全国1卷】某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是
A. 新农村建设后,种植收入减少
B. 新农村建设后,其他收入增加了一倍以上
C. 新农村建设后,养殖收入增加了一倍
D. 新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【答案】A
新农村建设前其他收入我0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项正确;
新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项正确;
新农村建设后,养殖收入与第三产业收入的综合占经济收入的,所以超过了经济收入的一半,所以D正确;
故选A.
点睛:该题考查的是有关新农村建设前后的经济收入的构成比例的饼形图,要会从图中读出相应的信息即可得结果.
例2.某初级中学有学生300人,其中一年级120人,二,三年级各90人,现要利用抽样方法取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一,二,三年级依次统一编号为1,2,…300;使用系统抽样时,将学生统一编号为1,2,…300,并将整个编号依次分为10段.如果抽得的号码有下列四种情况:
①7,37,67,97,127,157,187,217,247,277;②5,9,100,107,121,180,195,221,265,299;
③11,41,71,101,131,161,191,221,251,281;④31,61,91,121,151,181,211,241,271,300
关于上述样本的下列结论中,正确的是
A.②③都不能为系统抽样 B.②④都不能为分层抽样
C.①④都可能为系统抽样 D.①③都可能为分层抽样
【答案】D
【解析】在系统抽样中,将学生统一编号为1,2,…300,并将整个编号依次分为10段.则每一段的号码数为30.
④中数据31,61,91,121,151,181,211,241,271,300,数据相差30,但第一个数据大于30,所以④不可能是系统抽样.故D正确.故选D.
例3.经统计,用于数学学习的时间(单位:小时)与成绩(单位:分)近似于线性相关关系.对某小组学生每周用于数学的学习时间与数学成绩进行数据收集如下:
由样本中样本数据求得回归直线方程为,则点与直线的位置关系是( )
A. B.
C. D. 与的大小无法确定
【答案】B
【解析】分析:由样本数据可得,利用公式,求出b,a,点(a,b)代入x+18y,求出值与100比较即可得到选项.
详解:由题意,(15+16+18+19+22)=18,(102+98+115+115+120)=110,
,5=9900,=1650,n=5?324=1620,
∴b==3.1,
∴a=110﹣3.1×18=54.2,
∵点(a,b)代入x+18y,
∴54.2+18×3.1=110>100.
即a+18b>100.故答案为:B
点睛:本题主要考查回归直线方程的求法,意在考查学生对该基础知识的掌握能力和运算能力.
例4.某厂对一批产品进行抽样检测,如图是抽检产品净重(单位:克)的频率分布直方图,样本数据分组为.若这批产品有120个,估计其中净重大于或等于78克且小于84克的产品的个数是
A.12 B.18 C.25 D.90
【答案】D
【解析】净重大于或等于78克且小于84克的频率为,所以在该范围内的产品个数为.
例5.【2018全国1文】某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用
水量
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用
水量
频数
1
5
13
10
16
5
(1)在答题卡上作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
【答案】(1)直方图见解析.
(2) 0.48.
(3).
详解:(1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35m3的频率为
0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
.
该家庭使用了节水龙头后50天日用水量的平均数为
.
估计使用节水龙头后,一年可节省水.
点睛:该题考查的是有关统计的问题,涉及到的知识点有频率分布直方图的绘制、利用频率分布直方图计算变量落在相应区间上的概率、利用频率分布直方图求平均数,在解题的过程中,需要认真审题,细心运算,仔细求解,就可以得出正确结果.
例6.【2018全国3卷文】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
超过
不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:,.
【答案】(1)第二种生产方式的效率更高.理由见解析
(2)
超过
不超过
第一种生产方式
15
5
第二种生产方式
5
15
(3)有
【解析】分析:(1)计算两种生产方式的平均时间即可。
(2)计算出中位数,再由茎叶图数据完成列联表。
(3)由公式计算出,再与6.635比较可得结果。
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知.
列联表如下:
超过
不超过
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于,所以有99%的把握认为两种生产方式的效率有差异.
点睛:本题主要考查了茎叶图和独立性检验,考察学生的计算能力和分析问题的能力,贴近生活。
【方法总结】
1. 随机数表法的步骤
①编号.将N个个体编号,这里所谓的编号,实际上是编数字号码.
例如:将100个个体编号成00,01,02,…,99,而不是编号成0,1,2,…,99.
此外,将起始号码选为00,而不是01,这样可使100个个体都可用两位数字号码表表示,便于运用随机数表取数.
②选定初始值(数).为了保证所选数字的随机性,在查看随机数表前就指出开始数字的横、纵位置.
③选号.从选定的数字开始按照一定的方向读下去,得到的号码若不在编号中或已被选用,则跳过,直到选满n个为止.
④确定样本.按步骤③选出的号码从总体中找出与其对应的个体,组成样本.
2.在频率分布直方图中,纵坐标表示的是频率与组距的比,不要误以为是频率,解题时要格外注意.在频率分布直方图中,各个小长方形的面积等于相应各组的频率,又各组的频率之和为1,所以所有长方形的面积之和等于1,由此可以判断画出的频率分布直方图是否正确.
3.计算平均数时,可以先估计一下平均数,然后再用这个估计值加上所有数据与其差的平均值就是精确的平均数,这样计算平均数能减少计算量.
4.相关关系的强与弱
若相应于变量的取值,变量的观测值为,则变量与的相关系数,即,通常用来衡量与之间的线性关系的强弱.的范围为,为正时,与正相关;为负时,与负相关.越接近于1,与的相关程度越大;越接近于0,二者的相关程度越小.当时,所以数据点都在一条直线上.
【精选精练】
1.随着中央决定在海南省全岛建立自贸区的政策公布以来,海南各地逐步成为投资热点.有24名投资者想到海南某地投资,他们年龄的茎叶图如图所示,先将他们的年龄从小到大编号为1-24号,再用系统抽样方法抽出6名投资者,邀请他们到海南某地实地考察.其中年龄不超过55岁的人数为( )
3
9
4
0
1
1
2
5
5
1
3
6
6
7
7
8
8
8
9
6
0
0
1
2
3
3
4
5
A. 1 B. 2 C. 3 D. 不确定
【答案】B
点睛:系统抽样方法是等距性抽样,分层抽样是比例抽样.
2.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
若线性相关,线性回归方程为,估计该制药厂6月份生产甲胶囊产量为( )
A. 万盒 B. 万盒 C. 万盒 D. 万盒
【答案】C
【解析】分析:由题意,根据表格中的数据求得样本中心为,代入回归直线,解得,得到回归直线的方程,即可作出预测.
详解:由题意,根据表格中的数据可知:,
即样本中心为,代入回归直线,解得,即
令,解得万盒,故选C.
点睛:本题主要考查了回归直线分析问题,其中牢记回归直线的特征是解答的关键,着重考查了推理与运算能力.
3.下图是2017年1-11月汽油、柴油价格走势图(单位:元/吨),据此下列说法错误的是( )
A. 从1月到11月,三种油里面柴油的价格波动最大
B. 从7月份开始,汽油、柴油的价格都在上涨,而且柴油价格涨速最快
C. 92汽油与95汽油价格成正相关
D. 2月份以后,汽油、柴油的价格同时上涨或同时下跌
【答案】D
【解析】分析:根据折线图,依次逐步判断即可.
详解:
由价格折线图,不难发现4月份到5月份汽油价格上涨,而柴油价格下跌,
故选:D
点睛:本题考查折线图的识别,解题关键理解折线图的含义,属于基础题.
4.某校李老师本学期任高一A班、B班两个班数学课教学,两个班都是50个学生,下图反映的是两个班在本学期5次数学检测中的班级平均分对比,根据图表信息,下列不正确的结论是( )
A. A班的数学成绩平均水平好于B班
B. B班的数学成绩没有A班稳定
C. 下次B班的数学平均分高于A班
D. 在第一次考试中,A、B两个班总平均分为78分
【答案】C
【解析】分析:根据图表,分别求出A,B班的平均分以及方差,再得出四个选项中哪一个是不正确的即可。
详解:A班的5次数学测试平均分分别为81,80,81,80,85,5次的平均分,B班的5次数学测试平均分分别为75,80,76,85,80,5次的平均分为,A班的数学平均分好于B班,选项A正确;由于A班的成绩都在80分附近,而B班的平均分变化很大,所以A班成绩稳定些,选项B正确;下次考试A,B班的平均分不能预料,所以选项C错误;在第一次考试中,总平均分为分,选项D正确,故选C.
点睛:本题主要考查了根据图表求平均分等,属于中档题。根据图表求平均数和方差时要细心,不能看错数据和用错公式。
5.已知数据,,…,,2的平均值为2,方差为1,则数据,,…,相对于原数据( )
A. 一样稳定 B. 变得比较稳定 C. 变得比较不稳定 D. 稳定性不可以判断
【答案】C
【解析】分析:由条件可得,,…,的平均值为2,然后计算,,…,的方差即可得出结论.
详解:由题可得:平均值为2,由得:>1,所以变得不稳定.故选C.
点睛:考查平均值、方差的计算,熟悉公式时解题关键,然后根据方差的意义即可得出答案.
6.【2018江苏卷】已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为________.
【答案】90
【解析】分析:先由茎叶图得数据,再根据平均数公式求平均数.
详解:由茎叶图可知,5位裁判打出的分数分别为,故平均数为.
点睛:的平均数为.
7.【2018全国3卷】某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
【答案】分层抽样
【解析】分析:由题可知满足分层抽样特点
详解:由于从不同龄段客户中抽取,故采用分层抽样
故答案为:分层抽样。
点睛:本题主要考查简单随机抽样,属于基础题。
8.设某总体是由编号为,,…,,的个个体组成,利用下面的随机数表选取个个体,选取方法是从随机数表第行的第列数字开始从左到右依次选取两个数字,则选出来的第个个体编号为__________.
...............第行
...............第行
【答案】.
点睛:随机数表中的每个位置上出现各个数字的机会都是相等的,在使用随机数表时,如遇到两位数或三位数时,可从选择的随机数表中的某行某列的数字计起,每两个或每三个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字时应舍去.
9.为了了解一批产品的长度(单位:毫米)情况,现抽取容量为400的样本进行检测,如图是检测结果的频率分布直方图,根据产品标准,单件产品长度在区间的一等品,在区间和的为二等品,其余均为三等品,则样本中三等品的件数为__________.
【答案】100.
【解析】分析:根据频率分布直方图得到三等品的频率,然后可求得样本中三等品的件数.
详解:由题意得,三等品的长度在区间,和内,
根据频率分布直方图可得三等品的频率为,
∴样本中三等品的件数为.
点睛:频率分布直方图的纵坐标为,因此每一个小矩形的面积表示样本个体落在该区间内的频率,把小矩形的高视为频率时常犯的错误.
10.为了缓解日益拥堵的交通状况,不少城市实施车牌竞价策略,以控制车辆数量.某地车牌竞价的基本规则是:①“盲拍”,即所有参与竞拍的人都要网络报价一次,每个人不知晓其他人的报价,也不知道参与当期竞拍的总人数;②竞价时间截止后,系统根据当期车牌配额,按照竞拍人的出价从高到低分配名额.某人拟参加年月份的车牌竞拍,他为了预测最低成交价,根据竞拍网站的数据,统计了最近个月参与竞拍的人数(见下表):
月份
月份编号
竞拍人数(万人)
(1)由收集数据的散点图发现,可用线性回归模型拟合竞拍人数(万人)与月份编号之间的相关关系.请用最小二乘法求关于的线性回归方程:,并预测年月份参与竞拍的人数.
(2)某市场调研机构从拟参加年月份车牌竞拍人员中,随机抽取了人,对他们的拟报价价格进行了调查,得到如下频数分布表和频率分布直方图:
报价区间(万元)
频数
(i)求、的值及这位竞拍人员中报价大于万元的概率;
(ii)若年月份车牌配额数量为,假设竞拍报价在各区间分布是均匀的,请你根据以上抽样的数据信息,预测(需说明理由)竞拍的最低成交价.
参考公式及数据:①回归方程,其中,;
②,.
【答案】(1)2018年5月份参与竞拍的人数估计为2万人;(2)①
概率为②最低成交价为万元..
【解析】分析:(1)先求均值 , ,代入公式得 ,再根据 得 ,最后根据线性回归方程求预估值,(2) ①根据频数等于总数与频率的乘积得a,根据频率分布直方图中所有小长方体面积和为1求b,再根据频率等于频数除以总数得结果;②先求报价在最低成交价以上人数占总人数比例,再对应频率分布直方图频率,确定结果.
详解:(1)易知,,
,
,
则关于的线性回归方程为,
当时,,即2018年5月份参与竞拍的人数估计为2万人.
(ii)2018年5月份实际发放车牌数量为3000,根据竞价规则,报价在最低成交价以上人数占总人数比例为;又由频率分布直方图知竞拍报价大于6万元的频率为;
所以,根据统计思想(样本估计总体)可预测2018年5月份竞拍的最低成交价为万元.
点睛:函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.如果线性相关,则直接根据用公式求,写出回归方程,回归直线方程恒过点.
11.海水养殖场使用网箱养殖的方法,收获时随机抽取了 100个网箱,测量各箱水产品的产量(单位:),其产量都属于区间,按如下形式分成5组,第一组:,第二组:,第三组:,第四组:,第五组:,得到频率分布直方图如图:
定义箱产量在(单位:)的网箱为“低产网箱”, 箱产量在区间的网箱为“高产网箱”.
(1)若同一组中的每个数据可用该组区间的中点值代替,试计算样本中的100个网箱的产量的平均数;
(2)按照分层抽样的方法,从这100个样本中抽取25个网箱,试计算各组中抽取的网箱数;
(3)若在(2)抽取到的“低产网箱”及“高产网箱”中再抽取2箱,记其产量分别,求的概率.
【答案】(1)37.5(2)3,5,8,7,2.(3)
【解析】分析:(1)根据组中值与对应区间概率乘积的和计算平均数,(2)按照分层抽样,应抽数按各箱数的比例分配,(3)先确定5箱中要抽取2箱的总事件数,再确定的含义为高低产箱中各取一箱,以及对应事件数,最后根据古典概型概率公式求概率.
详解:
解: (1)样本中的100个网箱的产量的平均数
(2)各组网箱数分别为:12,20,32,28,8,
要在此100 箱中抽25箱,所以分层抽样各组应抽数为:3,5,8,7,2.
(3)由(2)知低产箱3箱和高产箱2箱共5箱中要抽取2箱,设低产箱中三箱编号为1,2,3,高产箱中两箱编号为4,5,则一共有抽法10种,样本空间为
满足条件|m-n|>10的情况为高低产箱中各取一箱,基本事件为
共6种,
所以满足事件A:|m-n|>10的概率为
点睛:古典概型中基本事件数的探求方法
(1)列举法.
(2)树状图法:适合于较为复杂的问题中的基本事件的探求.对于基本事件有“有序”与“无序”区别的题目,常采用树状图法.
(3)列表法:适用于多元素基本事件的求解问题,通过列表把复杂的题目简单化、抽象的题目具体化.
(4)排列组合法:适用于限制条件较多且元素数目较多的题目.
12.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标
值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125)
频数
6
26
38
22
8
(Ⅰ)在答题卡上作出这些数据的频率分布直方图;
(Ⅱ)估计这种产品质量指标值的平均数.
【解析】(Ⅰ)由频数分布表作出频率分布直方图如下:
(Ⅱ)估计这种产品质量指标值的平均数为:
80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.