第14章 统计
构建《统计》知识网络,解决实际问题.
活动一 基本知识整理与提炼
1. 重点知识.
两种抽样方法,三种统计图,样本估计总体的“代表值”.
平均数:=;
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2],
s2=(x+x+…+x)-()2;
标准差:s=.
2. 方法要点.
(1) 关于抽样方法.
两种抽样方法共同的特点是在抽样过程中每一个个体被抽取的可能性相同,体现了这些抽样方法的客观性和公平性,其中简单随机抽样是最简单、最基本的抽样方法,在进行分层抽样时,要应用到简单随机抽样方法.一般地,当已知总体由差异明显的几部分组成时,常采用分层抽样.
(2) 关于总体分布的估计.
常常通过选择合理的样本,对获取的样本数据用扇形统计图、频率直方图或频率折线图表示,由这些图表直观地反映样本数据的分布规律,进而估计总体分布.
(3) 关于集中趋势参数与离散程度参数.
用样本数据的平均数、众数、中位数估计总体的集中趋势,用样本的极差、方差(或标准差)估计总体的离散程度,当几组数据的平均数相同时,方差(或标准差)越小,波动就越小.
(4) 百分位数.
用样本数据的k百分位数估计总体的k百分位数.在频率直方图中,k百分位数的值可以根据累计频率先推算这个值所在的区间,再把区间内的数据看成均匀分布,估计这个值.
3. 常见题型.
选择适当的抽样方法解决具体环境下的抽样问题;画扇形统计图、频率直方图、频率折线图;计算样本数据的“代表值”,根据这些值对总体进行估计.
4. 思想整合.
用数据说话是统计特有的思维模式与思维习惯.统计的基本思想是从样本数据中发现统计规律,实现对总体的估计.
5. 友情提醒.
注意两种抽样方法适用的环境;对样本中重复出现的数据要重复记录,不能遗漏;注意运用频率计算平均数的方法;注意频率直方图与频率折线图的区别.
活动二 典型例题导学
例1 简单随机抽样,分层抽样之间的共同点是________.(填序号)
①都是从整体中逐个抽取;
②将总体分成几层,然后按各层个数之比抽取;
③抽样过程中,每个个体被抽到的可能性相同.
抽样调查是获取数据的重要途径,而样本具有随机性,其好坏直接影响统计分析结论的可靠性,所以要根据实际情况合理选择抽样方法.
从某地区中小学生中抽取部分学生,进行肺活量调查.经了解,该地区小学、初中、高中三个学段学生的肺活量有较大差异,而同一学段男、女生的肺活量差异不大.在下列的抽样方法中,最合理的抽样方法是( )
A. 抽签法
B. 按性别分层抽样
C. 按学段分层抽样
D. 随机数法
例2 (1) 如果一组样本数据a1,a2,…,a7的平均数是6,方差是2,那么a1-3,a2-3,…,a7-3的平均数与方差分别是________,________;
(2) 对甲、乙两所学校某年的高考数学成绩进行统计分析,得到样本平均分为甲=85,乙=85,样本方差分别为s=20.9,s=34.5,由此估计两校考生中成绩较为均衡的是________学校.
平均数、众数、中位数都是反映数据的集中趋势,极差、方差(或标准差)反映的是数据的离散程度,各有特点和侧重.
(2024苏州期末)某射击运动员射击6次,命中的环数如下:7,9,6,9,10,7,则关于这组数据的说法中正确的是( )
A. 极差为10
B. 中位数为7.5
C. 平均数为8.5
D. 标准差为
例3 下面是某校40个学生在课外读物上的支出(单位:元):
23,31,29,24,27,18,21,14,34,27,22,25,
26,17,27,18,18,29,21,18,12,19,31,14,
28,19,13,12,13,18,19,13,12,16,12,31,
10,17,18,19.
要求将数据分成7组.
(1) 列出频率分布表;
(2) 画出频率直方图和频率折线图;
(3) 根据频率直方图中各区间的组中值估计总体的平均数及方差并与实际结果进行比较.
按照所学的统计知识解决实际问题.
某地区100位居民的人均月用水量(单位:t)的分组及各组的频数如下:
[0.0,0.5),4; [0.5,1.0),8; [1.0,1.5),15;
[1.5,2.0),22; [2.0,2.5),25; [2.5,3.0),14;
[3.0,3.5),6; [3.5,4.0),4; [4.0,4.5],2.
(1) 列出样本的频率分布表;
(2) 画出频率直方图,并根据频率直方图估计这组数据的平均数、中位数和众数;
(3) 当地政府制定了人均月用水量为3 t的标准,若超出标准加倍收费,当地政府说,85%以上的居民不超过这个标准,这个说法对吗?为什么?
例4 某校对2024年春高一学生的期中数学考试成绩(单位:分)进行分析,随机抽取100名学生,将分数按照[30,50),[50,70),[70,90),[90,110),[110,130),[130,150]分成 6组,制成了如图所示的频率直方图.
(1) 估计该校高一学生的期中数学考试成绩的平均数;
(2) 估计该校高一学生的期中数学考试成绩的80百分位数.
求总体百分位数的估计,首先要从小到大排列数据,频率直方图看作数据在区间上均匀分布,然后计算出n·,当n·不是整数时取整,频率直方图要计算出比例值.
下表记录了某地区一年之内的月降水量.
月份 1月 2月 3月 4月 5月 6月
月降水量/mm 58 48 53 45 56 56
月份 7月 8月 9月 10月 11月 12月
月降水量/mm 51 71 56 53 64 66
求该地区的月降水量的25,50,75百分位数.
1. (2023大理期末)某单位共有老年人120人,中年人360人,青年人n人,为调查身体健康状况,需要从中抽取一个容量为22的样本,用分层抽样的方法进行抽样调查,样本中的中年人有9人,则n的值是( )
A. 360 B. 400 C. 420 D. 480
2. (2023温州期末)某同学投掷一枚骰子5次,分别记录每次骰子出现的点数,已知这组数据的平均数为3,方差为0.4,则点数2出现的次数为( )
A. 0 B. 1 C. 2 D. 3
3. (多选)(2024天津期末)某市6月1日至14日的空气质量指数变化趋势如图所示,空气质量指数小于100表示空气质量优良,空气质量指数大于200表示空气重度污染,则下列说法中正确的是( )
A. 该市14天空气质量指数的中位数为78.5
B. 该市14天空气质量指数的30百分位数为55
C. 该市14天空气质量指数的平均值大于100
D. 计算连续3天空气质量指数的方差,其中6日到8日的方差最大
4. (2024邯郸期末)某校高一年级有1 250人,全年级学生的近视率为60%,男生中有390人近视.学校医务室计划通过抽样的方法估计高一年级所有近视学生的平均度数.现从近视的学生中通过按比例分配的分层随机抽样的方法得到容量为100的样本,样本中男生的平均度数为300度,女生的平均度数为350度,则估计高一年级近视学生的平均度数为________度.
5. (2024十堰期末)某中学地理组教师团队研发了《听歌曲学地理》校本课程并对高一年级共1 200名学生进行了授课,授课结束后对学生进行了知识测验,从所有答卷中随机抽取了100份作为样本,将样本的成绩(满分100分,成绩均为不低于50分的整数)整理后得到如图所示的频率直方图.
(1) 求实数a的值;
(2) 估计样本成绩的中位数(结果精确到小数点后1位);
(3) 若测验成绩不低于80分的同学被定义为“地理爱好者”,试估计全年级“地理爱好者”的人数.
第14章 统 计
【活动方案】
例1 ③
跟踪训练 C 因为小学、初中、高中三个学段学生的肺活量有较大差异,所以学段对统计结果影响较大.因为同一学段男、女生肺活量差异不大,所以性别对统计结果无明显影响,所以最合理的抽样方法是按学段分层随机抽样.
例2 (1) 0 (2) 甲
跟踪训练 D 某射击运动员射击6次,命中的环数从小到大排列如下:6,7,7,9,9,10.对于A,极差为10-6=4,故A错误;对于B,中位数为=8,故B错误;对于C,平均数为=8,故C错误;对于D,方差为[(6-8)2+(7-8)2+(7-8)2+(9-8)2+(9-8)2+(10-8)2]=2,则标准差为,故D正确.
例3 (1) 分组的组数为7,组距为4,频率分布表如下:
分组 频数 频率
[8,12) 1 0.025
[12,16) 9 0.225
[16,20) 13 0.325
[20,24) 4 0.100
[24,28) 6 0.150
[28,32) 6 0.150
[32,36] 1 0.025
合计 40 1
(2) 略
(3) 根据频率直方图中各区间的组中值估计总体的平均数为20.7,方差为37.11;根据实际结果算得的平均数为20.375,方差为41.38,比较略.
跟踪训练 (1) 频率分布表如下:
分组 频数 频率
[0.0,0.5) 4 0.04
[0.5,1.0) 8 0.08
[1.0,1.5) 15 0.15
[1.5,2.0) 22 0.22
[2.0,2.5) 25 0.25
[2.5,3.0) 14 0.14
[3.0,3.5) 6 0.06
[3.5,4.0) 4 0.04
[4.0,4.5] 2 0.02
合计 100 1
(2) 频率直方图如下:
众数为=2.25.
因为月用水量在区间[0,2)的频率为0.04+0.08+0.15+0.22=0.49,所以=0.02,
所以中位数为2+0.02=2.02.
平均数为0.04×0.25+0.08×0.75+0.15×1.25+0.22×1.75+0.25×2.25+0.14×2.75+0.06×3.25+0.04×3.75+0.02×4.25=2.02.
(3) 人均月用水量在3 t以上的居民所占的比例为6%+4%+2%=12%,
即大约有12%的居民月用水量在3 t以上,则88%的居民月用水量在3 t以下,因此政府的说法是正确的.
例4 (1) 数学成绩在区间[30,50)的频率为0.005 0×20=0.1,在区间[50,70)的频率为0.005 0×20=0.1,在区间[70,90)的频率为0.007 5×20=0.15,在区间[90,110)的频率为0.020 0×20=0.4,在区间[110,130)的频率为0.010 0×20=0.2,在区间[130,150]的频率为0.002 5×20=0.05,
所以样本平均数为40×0.1+60×0.1+80×0.15+100×0.4+120×0.2+140×0.05=93,
据此可以估计该校高一学生的期中数学考试成绩的平均数为93分.
(2) 由(1)知样本数据中数学考试成绩在110分以下所占比例为0.1+0.1+0.15+0.4=0.75,在130分以下所占比例为0.75+0.2=0.95,
所以80百分位数位于区间[110,130)内,
由110+20×=115,
估计该校高一学生的期中数学考试成绩的80百分位数约为115分.
跟踪训练 将这组数据由小到大排序,得45,48,51,53,53,56,56,56,58,64,66,71.
因为12×=3,12×=6,12×=9,
所以这组数据的25百分位数是=52,
50百分位数是=56,
75百分位数是=61.
【检测反馈】
1. B 若样本中的中年人的人数为9,则老年人的人数为120×=3,青年人的人数为n×=,所以3+9+=22,解得n=400.
2. B 设这五个数为x1,x2,x3,x4,x5,则(x1-3)2+(x2-3)2+(x3-3)2+(x4-3)2+(x5-3)2=2.因为(xi-3)2,xi为正整数,所以这五个数中有3个3,另外两个为2或4,所以这五个数为3,3,3,2,4.故点数2出现的次数为1.
3. ABD 对于A,将14天的空气质量指数由小到大排列为33,38,52,53,55,65,76,81,102,102,116,122,158,163,则该市14天空气质量指数的中位数为=78.5,故A正确;对于B,因为14×30%=4.2,所以该市14天空气质量指数的30百分位数为55,故B正确;对于C,=×(122+102+116+81+163+158+76+33+102+65+53+38+55+52)≈87,则该市14天空气质量指数的平均值小于100,故C错误;对于D,因为连续3天空气质量指数,6日到8日的波动最大,也即方差最大,故D正确.故选ABD.
4. 324 由题意,得高一年级女生近视人数为1 250×60%-390=360,则高一年级近视学生的平均度数为×300+×350=324.
5. (1) 由题意,得(0.01+0.01+a+0.035+0.02)×10=1,解得a=0.025.
(2) 因为10×(0.01×2+0.025)=0.45<0.5,10×(0.01×2+0.025+0.035)=0.8>0.5,
所以中位数在区间[80,90)内,
设中位数的估计值为x,
则0.45+(x-80)×0.035=0.5,
解得x≈81.4,
即样本成绩的中位数约为81.4.
(3) 全年级“地理爱好者”的人数约为1 200×(0.035+0.02)×10=660.