统计与统计分析
考点一 抽样方法
【经典再现】
[例1] (课标全国Ⅰ文,6,5分)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
[例2] (课标全国Ⅲ文,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是_______________.
【总结提升】
两种抽样方法的注意点
1.系统抽样
(1)所分段数等于样本容量,即每段取一个.
(2)第一段入样个体编号为a1,当每段含有n0个个体时,第k段入样个体编号为a1+(k-1)·n0.
(3)当总体不能分成整数段时,要先在总体中等可能剔除若干个个体.
2.分层抽样
(1)适用于总体由差异明显的几部分组成的情况.
(2)当总体容量为N,样本容量为n时,有下列关系式:
=
【对点训练】
1.(安徽六校教育研究会第二次联考)某工厂生产的A,B,C三种不同型号的产品的数量之比为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A, B,C三种产品中抽出样本容量为n的样本,若样本中A型产品有10件,则n的值为( )
A.15 B.25 C.50 D.60
2.(福建漳州第二次教学质量监测)某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600,从中抽取60个个体,如下提供随机数表的第4行到第6行:
3221 1834 2978 6454 0732 5242 0644 3812 2343 5677 3578 9056 42(第4行)
8442 1253 3134 5786 0736 2530 0732 8623 4578 8907 2368 9608 04(第5行)
3256 7808 4367 8953 5577 3489 9483 7522 5355 7832 4577 8923 45(第6行)
若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个个体编号为( )
A.522 B.324 C.535 D.578
考点二 统计图表及数字特征
[例3] (课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
[例4] (课标全国Ⅲ,17,12分)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.
根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【总结提升】
1.关于平均数、方差的计算
样本数据的平均数与方差的计算关键在于准确记忆公式,要特别注意区分方差与标准差,不能混淆,标准差是方差的算术平方根.
2.求解频率分布直方图中相关数据的两个注意点
(1)小长方形的面积表示频率,直方图中的纵轴是,而不是频率.
(2)各组数据频率之比等于对应小长方形的高度之比.
【对点训练】
1.某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m的值是( )
A.5 B.6 C.7 D.8
2. (江西新余二模,18) “一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称. 某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高). 现从参赛者中抽取了x人,按年龄分成5组,第一组:
[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45),得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛, 分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
(i)分别求5个年龄组和5个职业组成绩的平均数和方差;
(ii)以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
考点三 回归分析
【经典再现】
[例5] (课标全国Ⅱ,18,12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠 并说明理由.
【总结提升】
(1)样本数据的相关系数r,
反映样本数据的相关程度,|r|越大,则相关性越强.
(2)样本数据的均值反映样本数据的平均水平;
样本数据的方差反映样本数据的稳定性,方差越小,数据越稳定;
样本数据的标准差为方差的算术平方根.
【对点训练】
随着人民生活水平的日益提高,某小区居民拥有私家车的数量与日俱增.该小区建成时间较早,没有配套建造地下停车场,小区内无序停放的车辆造成居民出行不便.物业公司统计了近五年(截至2018年年底)小区登记在册的私家车数量(每位业主至多有一辆车),得到如下表格:
年份 2014 2015 2016 2017 2018
年份编号x 1 2 3 4 5
私家车数量y(单位:辆) 34 95 124 181 216
(1)若私家车数量y与年份编号x满足线性相关关系,求y关于x的线性回归方程,并预测截至2020年年底该小区的私家车数量;
(2)该小区于2018年年底完成了基础设施改造,划设了120个停车位.为解决小区车辆乱停乱放的问题,物业公司决定禁止无车位的车辆进入小区.由于车位有限,物业公司决定在2019年度采用网络竞拍的方式将车位对业主出租,租期为一年,竞拍方案如下:①截至2018年年底已登记在册的私家车业主拥有竞拍资格;②每辆车至多申请一个车位,由车主在竞拍网站上提出申请并给出自己的报价;③根据物价部门的规定,竞价不得超过1 200元;④申请阶段截止后将所有申请的业主的报价自高到低排列,排在前120位的业主以其报价成交;⑤若最后出现并列的报价,则提出申请在前的业主获得车位.为预测本次竞拍的成交最低价,物业公司随机抽取了有竞拍资格的40位业主进行竞拍意向的调查,统计了他们的拟报竞价(单位:百元),得到如下频率分布直方图.
(i)求所抽取的业主中有意向竞拍且拟报竞价不低于1 000元的人数;
(ii)如果所有符合条件的业主均参与竞拍,利用样本估计总体的思想,请你预测至少需要报价多少元才能竞拍车位成功.(精确到整数)
参考公式:
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程=x+ 的 斜 率 和 截 距 的 最 小 二 乘 估 计 分 别 为
考点四 独立性检验
【经典再现】
[例6] (课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;
超过m 不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异
附:K2=,
【总结提升】
独立性检验的关键
(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
(2)K2的观测值k越大,对应的假设事件H0成立的概率越小,H0不成立的概率越大.
【对点训练】
(河南名校联盟尖子生第六次联合调研)随着智能手机的普及,手机计步软件迅速流行开来,这类软件能自动记载每个人每日健步的步数,从而为科学健身提供了一定的帮助.某市工会为了解该市市民每日健步走的情况,从本市市民中随机抽取了2 000名市民(其中不超过40岁的市民恰好有1 000名),利用手机计步软件统计了他们某天健步的步数,并将样本数据分为
[3,5),[5,7),[7,9),[9,11),[11,13),[13,15),[15,17),[17,19),[19,21]九组(单位:千步),将抽取的不超过40岁的市民的样本数据绘制成频率分布直方图,
如图,将40岁以上的市民的样本数据绘制成如下频数分布表,并利用该样本的频率分布估计总体的概率分布.
分组 (单位:千步) [3,5) [5,7) [7,9) [9,11) [11,13) [13,15) [15,17) [17,19) [19,21]
频数 10 20 20 30 400 200 200 100 20
(1)现规定,日健步步数不低于13 000步的为“健步达人”,填写下面列联表,
并根据列联表判断能否有99.9%的把握认为“健步达人”与年龄有关;
健步达人 非健步达人 总计
40岁以上的市民
不超过40岁的市民
总计
(2)利用样本平均数和中位数估计该市不超过40岁的市民日健步步数(单位:千步)的平均数和中位数;
(3)若日健步步数落在区间(-2s, +2s)内,则可认为该市民“运动适量”,其中 ,s分别为样本平均数和样本标准差,计算可求得频率分布直方图中数据的标准差s约为3.64.若一市民某天的健步步数为2万步,试判断该市民这天是否“运动适量”.
参考公式:K2=,
其中n=a+b+c+d.
参考数据:
P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.001
k0 2.072 2.706 3.841 5.024 6.635 10.828
参考答案
考点一 抽样方法
【经典再现】
[例1] 答案:C
解析:将1000名学生分成100组,每组10人,则每组抽取的号码构成公差为10的等差数列{an},由题意知a5=46,则an=a5+(n-5)×10=10n-4,n∈,易知只有C选项满足题意.故选C.
[例2] 答案:分层抽样
解析:因为不同年龄段客户对其服务的评价有较大差异,所以根据三种抽样方法的特点可知最合适的抽样方法是分层抽样.
【对点训练】
1. 答案:C
解析:由分层抽样的特征知= ,解得n=50.
2. 答案:D
解析:由题意知前6个编号为436,535,577,348,522,578,则第6个个体编号为578.
考点二 统计图表及数字特征
[例3] 答案:A
解析:本题主要考查统计图.
设建设前经济收入为a,则建设后经济收入为2a,由题图可得下表:
种植收入 第三产业 收入 其他收入 养殖收入
建设前 经济收入 0.6a 0.06a 0.04a 0.3a
建设后 经济收入 0.74a 0.56a 0.1a 0.6a
根据上表可知B、C、D中的结论均正确,A中的结论不正确,故选A.
[例4] 解析:(1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
【对点训练】
1. 答案:B
解析:由题意得,,
解得m=3,n=9,所以n-m=9-3=6.
2. 解析:(1)根据频率分布直方图得第一组的频率为0.01×5=0.05,∴=0.05,∴x=120.
(2)设中位数为a,
则0.01×5+0.07×5+(a-30)×0.06=0.5,
∴a=≈32,则中位数为32.
(3)(i)5个年龄组成绩的平均数=×(93+96+97+94+90)=94,
方差=×[(-1)2+22+32+02+(-4)2]=6.
5个职业组成绩的平均数= ×(93+98+94+95+90)=94,
方差= ×[(-1)2+42+02+12+(-4)2]=6.8.
(ii)从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定.(感想合理即可)
考点三 回归分析
【经典再现】
[例5] 解析:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了2种理由,答出其中任意一种或其他合理理由均可.
【对点训练】
解析:(1)由题表中数据,计算得=×(1+2+3+4+5)=3,
=×(34+95+124+181+216)=130,
则=== 45,
=-=130-45×3=-5,
故所求线性回归方程为=45x-5,
令x=7,得=310,
所以预测截至2020年年底该小区的私家车数量为310辆.
(2)(i)由频率分布直方图可知,有意向竞拍且拟报竞价不低于1000元的频率为(0.25+0.05)×1=0.3,40×0.3=12,
所以有意向竞拍且拟报竞价不低于1 000元的人数为12.
(ii)因为= ,
所以竞价自高到低排列位于前的业主可以竞拍成功,
结合频率分布直方图,预测竞拍成功的最低报价为1000-÷0.4×100≈937(元).
考点四 独立性检验
【经典再现】
[例6] 解析:(1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
以上给出了4种理由,答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知m==80.
列联表如下:
超过m 不超过m
第一种生产方式 15 5
第二种生产方式 5 15
(3)由于 K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
【对点训练】
解析:(1)列联表为
健步达人 非健步达人 总计
40岁以上的市民 520 480 1 000
不超过40岁的市民 400 600 1 000
总计 920 1 080 2 000
K2=≈29>10.828,
所以有99.9%的把握认为“健步达人”与年龄有关.
(2)样本平均数
=4×0.04+6×0.06+8×0.1+10×0.1+12×0.3+14×0.2+16×0.1+18×0.08+20×0.02=12.16.
由前4组的频率之和为0.04+0.06+0.1+0.1=0.3,前5组的频率之和为0.3+0.3=0.6,知样本中位数落在第5组,设样本中位数为t,则(t-11)×0.15=0.5-0.3,所以t=.
故可以估计,该市不超过40岁的市民日健步步数的平均数为12.16,中位数为.
(3)( -2s, +2s)=(4.88,19.44),
所以可据此判断该市民这天“运动不适量”.