(共41张PPT)
章末总结
第九章 统计
数学
学习目标
①能够选择恰当的抽样方法获取样本数据,并从样本数据中提取需要的数字特征,能够通过样本数字特征推断总体相应的数字特征.
②能够选择适当的统计图表描述和表达数据,根据样本数据的取值规律估计总体的统计规律.
④能够在本章的学习中,提升数据分析、数学建模、逻辑推理和数学运算素养.
③能够结合具体问题,正确运用样本估计百分位数,用样本估计总体的集中趋势以及离散程度,正确运用统计结果解释实际问题.
学习重难点
重点:
随机抽样方法,利用样本数据特征估计总体数据特征.
难点:
理解随机抽样的随机性,理解按比例分配的含义,正确求百分位数.
课堂导入
复习旧知,完成本章知识结构图
课堂探究
问题1
抽样方法的选取原则是什么
当总体容量较小,样本容量也较小时,可采用抽签法;
当总体容量较大,样本容量较小时,可采用随机数法;
当总体中个体差异较显著时,可采用分层随机抽样,但是要明确是否按比例分配.
知识点一 随机抽样
课堂探究
追问1 从特点、范围、共性等方面比较一下简单随机抽样及分层随机抽样.
知识点一 随机抽样
课堂探究
问题2
获取数据的途径有哪些 如何合理选择
知识点一 随机抽样
【例1】
甲校有3 600名学生,乙校有5 400名学生,丙校有1 800 名学生,为统计这三所学校学生某方面的情况,计划采用分层随机抽样的方法抽取一个样本量为90的样本,应从甲、乙、丙三所学校分别抽取学生( )
A.30人、30人、30人 B.30人、45人、15人
C.20人、30人、40人 D.30人、50人、10人
课堂探究
解析 根据各校人数比例为,样本量为90,可求出应从甲校抽取30人,从乙校抽取45人,从丙校抽取15人.故选B.
【反思感悟】分层抽样的特点是按比例分配,即
B
课堂探究
【跟踪训练1】
以下抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2 709的是三等奖
B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见
D.用抽签法从10件产品中选取3件进行质量检验
解析 选项A,B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.
D
课堂探究
【跟踪训练2】
假设要考查某公司生产的狂犬疫苗的剂量是否达标,现从500支疫苗中抽取50支进行检验,利用随机数表抽取样本时,先将500支疫苗按000,001,…,499进行编号,如果从随机数表第1行第8列的数开始向右读,请写出第3支疫苗的编号 .
8442175331 5724550688 7704744767 2176335025
8392120676 6301637859 1695566719 9810507175
1286735807 4439523879 3321123429 7864560782
解析 从随机数表第1行第8列的数开始向右读,编号分别为331,455,068,则第3支疫苗的编号为068.
068
课堂探究
问题3
绘制频率分布直方图的步骤是什么
知识点二 用样本的取值规律、百分位数估计总体的取值规律
课堂探究
知识点二 用样本的取值规律、百分位数估计总体的取值规律
问题4
常见统计图如条形图、扇形图、折线图有何区别与联系
统计图表 主要应用
扇形图 直观描述各部分数据在全部数据中所占的比例
条形图和直方图 直观描述不同类别或分组数据的频数和频率
折线图 反映统计对象在不同时间(或其他合适情形)的发展变化情况
课堂探究
问题5 第p百分位数的概念是什么 有什么作用
一般的,一组数据的第p百分位数是这样一个值,它使得这组数据中至少p%的数据小于或等于这个值,且至少有的数据大于或等于这个数.
第p百分位数是估计该组数据取值规律的依据.用样本数据的第p百分位数估计总体的第p百分位数可能存在偏差,但样本容量越大,偏差会越小.另外,百分位数只是研究一组数据取值规律的一个统计量.
【例2】
为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
课堂探究
C
课堂探究
解析 对于A,根据频率分布直方图可知,家庭年收入低于4.5万元的农户比率约为(0.02+0.04)×1×100%=6%,故A正确;
对于B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;
对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;
对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.
课堂探究
【反思感悟】
1.绘制频率分布直方图时需注意的两点
(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;
(2)频率分布直方图的纵坐标是,而不是频率.
2.与频率分布直方图计算有关的两个关系式
(1)×组距=频率;
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
课堂探究
【例3】下表为某市2024年月平均降水量:
月份 1 2 3 4 5 6
月平均降水量/cm 5.8 4.8 5.3 4.6 5.6 5.6
月份 7 8 9 10 11 12
月平均降水量/cm 5.1 7.1 5.6 5.3 6.4 6.6
则该市2024年月平均降水量的四分位数分别为 , , .
解析 将12个月的月平均降水量的数据由小到大排列得4.6,4.8,5.1,5.3,5.3,5.6,5.6,5.6,5.8,6.4,6.6,7.1,那么①i=12×0.25=3,∴第25百分位数为=5.2;②i=12×0.50=6,∴第50百分位数为=5.6;③i=12×0.75=9,∴第75百分位数为=6.1.
5.2
5.6
6.1
课堂探究
【例4】某品牌家电公司从其全部200名销售员工中随机抽出50名调查销售情况,销售额(单位:百万元)都在区间内,将其分成5组:,,,并整理得到如图所示的频率分布直方图,下列说法正确的是( )
A.频率分布直方图中的值为0.06
B.估计全部销售员工销售额的第50百分位数为15
C.估计全部销售员工中销售额在区间内有6人
D.估计全部销售员工销售额的第76百分位数为17
解析 由题中频率分布直方图可得,解得,故A错误;设第50百分位数为,则,解得,故B错误;估计全部销售员工中销售额在区间 内的人数为,故C错误;因为,故17为第76百分位数,故D正确.
D
课堂探究
【反思感悟】
1.求一组n个数据的第p百分位数的步骤
第1步:按从小到大排列原始数据;
第2步:计算i=n×p%;
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.由频率分布直方图求第p百分位数的方法
确定要求的p%分位数所在分组[A,B),由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×.
课堂探究
【跟踪训练1】(多选)空气质量指数AQI是反映空气质量状况的指数,AQI指数的值越小,表明空气质量越好,AQI指数不超过50,空气质量为“优”;AQI指数大于50且不超过100,空气质量为“良”;AQI指数大于100,空气质量为“污染”.如图是某市2023年空气质量指数(AQI)的月折线图.下列关于该市2023年空气质量的叙述中,正确的是( )
A.全年的平均AQI指数对应的空气质量等级为优或良
B.每月都至少有一天空气质量为优
C.2月,8月,9月和12月均出现污染天气
D.空气质量为“污染”的天数最多的月份是2月份
解析 对于A,根据AQI指数月折线图可知,全年的平均AQI指数都小于100,故全年的平均AQI指数对应的空气质量等级为优或良,故A正确;对于B,每月中AQI指数的最小值都不超过50,故B正确;对于C,2月,8月,9月和12月的AQI指数的最大值都超过了100,故C正确;对于D,从折线图只能知道,2月AQI指数的最大值最大,不能说明2月的空气质量为“污染”的天数最多,故D不正确.
ABC
课堂探究
知识点三 用样本的集中趋势、离散程度估计总体
问题6 在频率分布直方图中如何求众数、中位数、平均数
追问 样本的数字特征是如何描述总体的数字特征的
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
众数 在频率分布直方图中,最高矩形的底边中点的横坐标.
中位数 在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x
轴交点的横坐标.
平均数 在频率分布直方图中,等于每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.
课堂探究
(2)众数、中位数和平均数的比较:
名称 优点 缺点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众数 体现了样本数据的最大集中点 众数只能传递数据中信息很少的一部分,对极端值不敏感
【例5】某班全体学生数学测试成绩(单位:分)的频率分布直方图如图所示,则估计该班数学测试成绩的众数、中位数、平均数分别是( )
A.70,70,70 B.70,70,68 C.70,68,70 D.68,70,70
课堂探究
解析 由题意知众数为=70;因为(0.005+0.010)×20=0.3<0.5,(0.005+0.010+0.020)×20=0.7>0.5,所以中位数位于[60,80)中,设中位数为x,则(0.005+0.010)×20+(x-60)×0.020=0.5,解得x=70;平均数为30×0.1+50×0.2+70×0.4+90×0.3=68.
B
【例6】高一A班参加合唱比赛,有8位评委,演唱结束后,各位评委打分的平均数为9,方差为3,又加入一位特邀嘉宾,他的打分为9,此时这9个分数的平均数为,方差为,则( )
A., B.,
C., D.,
课堂探究
解析 由题意得,.故选B.
B
【例7】某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验序号i 1 2 3 4 5
伸缩率xi 545 533 551 522 575
伸缩率yi 536 527 543 530 560
试验序号i 6 7 8 9 10
伸缩率xi 544 541 568 596 548
伸缩率yi 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2的值;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
课堂探究
试验序号i 6 7 8 9 10
伸缩率xi 544 541 568 596 548
伸缩率yi 533 522 550 576 536
课堂探究
解(1)由题意,求出zi的值如表所示,
试验序号i 1 2 3 4 5 6 7 8 9 10
zi 9 6 8 -8 15 11 19 18 20 12
则=×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)因为2=2=,=11=>,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
课堂探究
【反思感悟】
1.标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
2.计算分层随机抽样的方差的步骤
(1)确定,,,;
(2)确定;
(3)应用公式s2=[+(-)2]+·[+(-)2],计算s2.
【跟踪训练1】(多选)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
课堂探究
解析 设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为+c,m+c,σ,t,因为c≠0,所以C , D正确,故选CD.
CD
【跟踪训练2】某市环境保护局公布了该市,两个景区2018年至2024年各年的全年空气质量优良天数的数据,并根据这组数据绘制了如图所示的折线图,则下列结论中正确的是( )
A.这7年景区的全年空气质量优良天数的极差为100
B.这7年,景区的全年空气质量优良天数在2020年相差最多
C.这7年景区的全年空气质量优良天数的第60百分位数为273
D.这7年景区的全年空气质量优良天数的标准差比景区的全年空气质量优良天数的标准差大
D
课堂探究
【跟踪训练3】 据统计某市学生的男、女生人数比为,为了调查该市学生每天睡眠时长的情况,按照男、女生人数比用分层随机抽样的方法抽取样本.根据样本数据计算得男生每天睡眠时长的平均数为7.3小时,方差为2,女生每天睡眠时长的平均数为6.8小时,方差为,则可估计该市学生每天睡眠时长的平均数为______小时,方差为______.
参考公式:分层随机抽样中,假设第一层有个数,平均数为,方差为;第二层有个数,平均数为,方差为.则样本方差.
课堂探究
【解析】由题意可得男生每天睡眠时长的平均数,方差,女生每天睡眠时长的平均数,方差.因为该市学生的男、女生人数比为,所以设男、女生人数分别为,,所以该市学生每天睡眠时长的平均数为,该市学生每天睡眠时长的方差为.
7
2
评价反馈
解析 在高二年级12个班中抽取3个班,可用抽签法,按男女生比例抽取样本可用分层随机抽样,所以是先用抽签法,再用分层随机抽样.故选D.
1.某校为了了解高二年级学生的身高情况,打算在高二年级12个班中抽取3个班,再按每个班男女生比例抽取样本,正确的抽样方法是( )
A.简单随机抽样
B.先用分层随机抽样,再用随机数法
C.分层随机抽样
D.先用抽签法,再用分层随机抽样
D
解析 选样本中共有五个个体,其值分别是a,1,2,3,4,样本的平均数是2,
∴ a+1+2+3+4=5×2,解得a=0,
∴样本的极差为4﹣0=4, 样本的方差为
= [(0﹣2)2+(1﹣2)2+(2﹣2)2+(3﹣2)2+(4﹣2)2]=2,∴标准差为.
2.样本中共有五个个体,其值分别是a,1,2,3,4,若样本的平均数是2,则样本的极差和标准差分别是( )
评价反馈
A.5和2 B.5和 C.4和2 D.4和
D
解析 估计该校学生数学竞赛成绩的平均分,故选C.
3.某校高二年级有50人参加2024“希望杯”数学竞赛,将他们竞赛的成绩制成了如下的频率分布表,根据该表估计该校学生数学竞赛成绩的平均分为( )
评价反馈
分组
频率 0.2 0.4 0.3 0.1
A.70 B.73 C.78 D.81.5
C
解析 由题图可知,这10天的最低气温按照从小到大排列为,,,,0,0,1,2,2,2,因为共有10个数据,所以 是整数,则这10天的最低气温的第40百分位数是.故选C.
4. 根据某市2025年1月1日至1月10日的最低气温(单位:)的情况绘制的折线图如图所示,由图可知这10天的最低气温的第40百分位数是( )
评价反馈
A. B. C. D.
C
解析 某单位共有老年人120人、中年人360人、青年人 人,样本中的中年人为6人,则样本中的老年人为(人),青年人为(人),故,即.结合选项计算,可知 符合.故选.
5.(多选)某单位共有老年人120人、中年人360人、青年人人,为调查身体健康状况,需要从中抽取一个容量为的样本,用分层随机抽样的方法进行抽样调查,样本中的中年人为6人,则和的值可以是( )
A., B.,
C., D.,
评价反馈
6.已知,两家公司的员工月均工资(单位:万元)情况分别如图1,图2所示:
评价反馈
(1)以每组数据的区间中点值为代表,根据图1估计公司员工月均工资的平均数、中位数,你认为用哪个数据更能反映该公司普通员工的工资水平 请说明理由;
(2)小明拟到,两家公司中的一家应聘,以公司普通员工的工资水平作为决策依据,他应该选哪个公司
评价反馈
解 (1)公司员工月均工资的平均数为(万元).
由题图1可知公司员工月均工资在0.6万元以下的比例为,所以公司员工月均工资的中位数约为0.6万元,用中位数更能反映该公司普通员工的工资水平,理由如下:因为平均数受每一个数据的影响,越离群的数据对平均数的影响越大,该公司少数员工的月收入很高,在这种情况下平均数并不能较好地反映普通员工的收入水平,而中位数不受少数极端数据的影响,可以较好地反映普通员工的收入水平.
评价反馈
(2)公司员工月均工资的平均数为(万元),
由题图2知,公司员工月均工资在0.6万元以下的频率为,在0.8万元以下的频率为.
设公司员工月均工资的中位数为 万元,则,得.
小明应选择公司应聘.理由如下:
B公司员工工资数据较为集中,月均工资的平均数和中位数均能反映该公司普通员工的平均收入水平,公司员工月均工资平均数为,中位数为,均大于公司员工月均工资的中位数,所以以公司普通员工的工资水平作为决策依据,小明应该选公司应聘.
课堂小结
总结归纳
回顾本节课的内容,同学们互相交流学到了什么
布置作业
必做题:教科书复习参考题9复习巩固第1,2,3,4,5题.
选做题:教科书复习参考题9复习巩固第9,10题.
谢谢大家