第九章 统计 复 习
构建《统计》知识网络,解决实际问题.
活动一 知识结构及回顾
1. 知识结构
2. 回顾
本章我们首先通过实例学习了简单随机抽样、分层随机抽样等常用的抽样方法,并在简单的实际情境中,讨论了如何根据实际问题的特点设计抽样方法.接着,我们学习了根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述的方法,从中我们看到,合理使用统计图表对于从数据中获取信息是非常重要的.在此基础上,我们研究了用样本估计总体的取值规律、百分位数、集中趋势参数(平均数、中位数、众数)和离散程度参数(标准差、方差、极差)等问题,了解了百分位数、集中趋势参数、离散程度参数的统计含义.这个学习过程实际上反映了用统计方法解决实际问题的基本过程.
活动二 典型例题导学
例1 简单随机抽样,分层随机抽样之间的共同点是________.(填序号)
①都是从整体中逐个抽取;
②将总体分成几层,然后按各层个数之比抽取;
③抽样过程中,每个个体被抽到的可能性相同.
抽样调查是获取数据的重要途径,而样本具有随机性,其好坏直接影响统计分析结论的可靠性,所以要根据实际情况合理选择抽样方法.
从某地区中小学生中抽取部分学生,进行肺活量调查.经了解,该地区小学、初中、高中三个学段学生的肺活量有较大差异,而同一学段男、女生的肺活量差异不大.在下面的抽样方法中,最合理的抽样方法是( )
A. 抽签法
B. 按性别分层随机抽样
C. 按学段分层随机抽样
D. 随机数法
例2 (1) 如果一组样本数据a1,a2,…,a7的平均数是6,方差是2,那么a1-3,a2-3,…,a7-3的平均数与方差分别是________,________;
(2) 对甲、乙两所学校某年的高考数学成绩进行统计分析,得到样本平均分为甲=85,乙=85,样本方差分别为s=20.9,s=34.5,由此估计两校考生中成绩较为均衡的是________校.
平均数、众数、中位数都是反映数据的集中趋势,极差、方差(或标准差)反映的是数据的离散程度,各有特点和侧重.
2020年2月8日,在韩国首尔举行的四大洲花样滑冰锦标赛双人自由滑比赛中,中国组合隋文静、韩聪以总分217.51分拿下四大洲赛冠军,这也是他们第六次获得四大洲冠军.中国另一对组合彭程、金杨以213.29分摘得银牌.颁奖仪式上,国歌奏响!五星红旗升起!团结一心!中国加油!花样滑冰锦标赛有9位评委进行评分,首先这9位评委给出某对选手的原始分数,评定该对选手的成绩时从9个原始成绩中去掉一个最高分、一个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,不变的数字特征是( )
A. 中位数 B. 平均数
C. 方差 D. 极差
例3 下面是某校40个学生在课外读物上的支出(单位:元):23,31,29,24,27,18,21,14,34,27,22,25,26,17,27,18,18,29,21,18,12,19,31,14,28,19,13,12,13,18,19,13,12,16,12,31,10,17,18,19.要求将数据分成7组.
(1) 列出频率分布表;
(2) 画出频率分布直方图和频率折线图;
(3) 根据直方图的各组中值估计总体平均数及方差并与实际结果进行比较.
按照所学的统计知识解决实际问题.
某地区100位居民的人均月用水量(单位:t)的分组及各组的频数如下:[0,0.5),4;[0.5,1.0),8;[1.0,1.5),15;[1.5,2.0),22;[2.0,2.5),25;[2.5,3.0),14;[3.0,3.5),6;[3.5,4.0),4;[4.0,4.5],2.
(1) 列出样本的频率分布表;
(2) 画出频率分布直方图,并根据频率分布直方图估计这组数据的平均数、中位数、众数;
(3) 当地政府制定了人均月用水量为3 t的标准,若超出标准加倍收费,当地政府说,85%以上的居民不超过这个标准,这个解释对吗?为什么?
例4 下表为30位学生参加语文竞赛的成绩,并由小到大排列.求:
42 49 55 58 60
62 63 65 66 68
70 70 72 74 75
76 76 77 79 80
81 82 85 91 96
97 97 98 99 100
(1) 第一、二、三四分位数;
(2) 第10百分位数;
(3) 第95百分位数.
求总体百分位数的估计,首先要从小到大排列数据,然后计算出i=n×p%,当i不是整数要取整,频率分布直方图要计算出比例值.
下表记录了某地区一年之内的月降水量.
月份 1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月
月降水量/mm 58 48 53 45 56 56 51 71 56 53 64 66
把这组数据由小到大排序,得45,48,51,53,53,56,56,56,58,64,66,71,求该地区的月降水量的25%,50%,75%三个分位数.
1. 某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种.现从中抽取一个容量为20的样本进行食品安全检测,若采用分层随机抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是( )
A. 4 B. 5 C. 6 D. 7
2. 某校为了了解高三学生的身体状况,抽取了100名女生测量体重.将所得的数据整理后,画出了如图所示的频率分布直方图,则所抽取的女生中体重在40~45kg的人数是( )
A. 10 B. 2
C. 5 D. 15
3. (多选)在某地区某高传染性病毒流行期间,为了建立指标来显示疫情已受控制,以便向该地区居民通报可以正常生活,有公共卫生专家建议的指标是“连续7天每天新增感染人数不超过5人”,根据连续7天的新增病例数进行计算,则下列各选项中,一定符合上述指标的是( )
A. 平均数≤3
B. 平均数≤3且标准差s≤2
C. 平均数≤3且极差小于或等于2
D. 众数等于1且极差小于或等于4
4. (2022沧州期末)数据8,6,4,4,3,3,2,2,2,1的85%分位数为________.
5. (2022十堰期末)盐碱地里面所含的盐分会影响到作物的正常生长,我国约有15亿亩盐碱地,其中约有2~3亿亩具备改造为农田的潜力,可以种植海水稻.2020年10月14日,由袁隆平“海水稻”团队和江苏省农业技术推广总站合作试验种植的耐盐水稻在江苏如东栟茶方凌垦区进行测产,袁隆平“超优千号”的盐碱地水稻平均亩产量为802.9 kg,某统计员对100亩试验田种植的“超优千号”杂交水稻的亩产量(单位:kg)进行了统计调查,将得到的数据进行适当分组后(每组为左闭右开区间),画出的频率分布直方图如图所示.
(1) 规定试验田种植的“超优千号”杂交水稻的平均亩产量不低于800 kg为高产,试问这100亩试验田种植的“超优千号”杂交水稻是否高产?(同一组中的数据用该组区间的中点值作为代表)
(2) 若某地有2 000亩试验田种植“超优千号”杂交水稻,试估计这2 000亩试验田中亩产量低于750 kg的试验田有多少亩.
【答案解析】
第九章 统计 复 习
【活动方案】
例1 ③
跟踪训练 C 解析: 因为小学、初中、高中三个学段学生的肺活量有较大差异,所以学段对统计结果影响较大.因为同一学段男、女生肺活量差异不大,所以性别对统计结果无明显影响,所以最合理的抽样方法是按学段分层随机抽样.
例2 (1) 0 (2) 甲
跟踪训练 A 解析:对于A,去掉最高分、最低分后,中位数仍旧是处于中间位置(从小到大排列)的那个数,不发生改变;对于B,去掉最高分、最低分后,平均数是否发生改变与去掉的分数有关,不能确定是否变化;对于C,去掉最高分、最低分后,方差的确定和平均数、数据个数有关,因此方差也不确定;对于D,去掉最高分、最低分后,极差可能发生改变,也可能不改变.
例3 (1) 分组的组数为7,组距为4,频率分布表如下:
分组 频数 频率
[8,12) 1 0.025
[12,16) 9 0.225
[16,20) 13 0.325
[20,24) 4 0.100
[24,28) 6 0.150
[28,32) 6 0.150
[32,36] 1 0.025
合计 40 1
(2) 略
(3) 根据频率分布直方图的各组中值估计总体的平均数为20.7,方差为37.11;根据实际结果算得的平均数为20.375,方差为41.38,比较略.
跟踪训练 (1) 频率分布表如下:
分组 频数 频率
[0,0.5) 4 0.04
[0.5,1.0) 8 0.08
[1.0,1.5) 15 0.15
[1.5,2.0) 22 0.22
[2.0,2.5) 25 0.25
[2.5,3.0) 14 0.14
[3.0,3.5) 6 0.06
[3.5,4.0) 4 0.04
[4.0,4.5] 2 0.02
合计 100 1
(2) 频率分布直方图如图:
众数为=2.25,
月用水量在[0,2)的频率为0.04+0.08+0.15+0.22=0.49,所以=0.02,
所以中位数为2+0.02=2.02.
平均数为0.04×0.25+0.08×0.75+0.15×1.25+0.22×1.75+0.25×2.25+0.14×2.75+0.06×3.25+0.04×3.75+0.02×4.25=2.02.
(3)人均月用水量在3 t以上的居民所占的比例为6%+4%+2%=12%,
即大约有12%的居民月用水量在3 t以上,则88%的居民月用水量在3 t以下,因此政府的解释是正确的.
例4 (1) 30×25%=7.5,取第8项数据,所以第一四分位数为65;30×50%=15,取第15,16项数据的平均数,所以第二四分位数为=75.5;30×75%=22.5,取第23项数据,所以第三四分位数为85.
(2) 30×10%=3,取第3,4项数据的平均数,所以第10百分位数为=56.5.
(3)30×95%=28.5,取第29项数据,所以第95百分位数为99.
跟踪训练 因为当p%=25%时,i=np%=12×0.25=3,所以25%分位数为=52(mm).
因为当p%=50%时,i=np%=12×0.5=6,
所以50%分位数为=56(mm).
当p%=75%时,i=np%=12×0.75=9,
所以75%分位数为=61(mm).
【检测反馈】
1. C 解析:食品共有40+10+30+20=100(种),抽取容量为20的样本,即抽样比为,故抽取植物油类与果蔬类食品种数之和为(10+20)×=6.
2. A 解析:由图可知频率=×组距,故频率=0.02×5=0.1,所以所抽取的女生中体重在40~45 kg的人数是0.1×100=10.
3. CD 解析:对于A,举反例:0,0,0,0,2,6,6,其平均数=2≤3,不符合指标,故A错误;对于B,举反例:0,3,3,3,3,3,6,其平均数=3,且标准差s=≤2,不符合指标,故B错误;对于C,若极差等于0或1,在≤3的条件下,显然符合指标;若极差等于2且≤3,则每天新增感染人数的最小值与最大值有下列可能:①0,2;②1,3;③2,4,符合指标,故C正确;对于D,若众数等于1且极差小于或等于4,则最大值不超过5,符合指标,故D正确.故选CD.
4. 6 解析:10×85%=8.5,故从小到大,选择第9个数作为85%分位数,即为6.
5. (1) 该试验田种植的“超优千号”杂交水稻的平均亩产量为600×100×0.001 0+700×100×0.002 0+800×100×0.003 5+900×100×0.002 5+1 000×100×0.001 0=805>800,
所以这100亩试验田种植的“超优千号”杂交水稻高产.
(2) 该试验田中亩产量低于750 kg的频率为100×0.001 0+100×0.002 0=0.3,
所以估计2 000亩试验田中亩产量低于750 kg的试验田有2 000×0.3=600(亩).