第六章 统计
§4 用样本估计总体的数字特征
4.1 样本的数字特征
基础过关练
题组一 平均数、中位数、众数
1.运动员参加体操比赛,当评委亮分后,往往是先去掉一个最高分和一个最低分,再计算剩下分数的平均值,这是为了( )
A.减少计算量 B.避免故障
C.剔除异常值 D.活跃赛场气氛
2.共享充电宝是指企业提供给用户的充电租赁设备,使用者可以随借随还,非常方便,某品牌的共享充电宝由甲、乙、丙三家工厂供货,相关统计数据如下表所示:
工厂名称 合格率 供货量占比
甲 99.0% 0.6
乙 98.0% 0.3
丙 98.0% 0.1
则该品牌共享充电宝的平均合格率的估计值为( )
A.0.975 B.0.980 C.0.986 D.0.988
3.已知甲、乙两支篮球队各6名队员某场比赛的得分(单位:分)数据从小到大排列如下:
甲队:7,12,12,20,20+x,31;
乙队:8,9,10+y,19,25,28.
这两组数据的中位数相等,且平均数也相等,则x和y的值分别为( )
A.2和3 B.0和2 C.0和3 D.2和4
4.(多选题)为提高疫情防控意识,某学校举办了一次疫情防控知识竞赛(满分100分),并规定成绩不低于90分为优秀.现该校从高一、高二两个年级分别随机抽取了10名参赛学生的成绩(单位:分),如下表所示:
高一 74 78 84 89 89 93 95 97 99 100
高二 77 78 84 87 88 91 94 94 95 96
则下列说法正确的是( )
A.高一年级所抽取参赛学生成绩的中位数为91分
B.高二年级所抽取参赛学生成绩的众数为94分
C.两个年级所抽取参赛学生的优秀率相同
D.两个年级所抽取参赛学生的平均成绩相同
题组二 极差、方差、标准差
5.样本中共有5个个体,其中四个个体的值分别为2,2,3,3,第五个个体的值丢失,若该样本的平均数为3,则该样本的方差为( )
A.1 B.3
C. D.
6.已知样本数据x1,x2,…,x2 022的平均数和方差分别为3和56,若yi=2xi+3(i=1,2,…,2 022),则y1,y2,…,y2 022的平均数和方差分别是( )
A.12,115 B.12,224
C.9,115 D.9,224
7.已知一组样本数据1,2,m,8的极差为8,若m>0,则其方差为 .
8.某中学数学组积极研讨网上教学策略,决定先采用甲、乙两套方案教学,并对分别采用两套方案教学的班级进行了7次测试,各班学生每次的平均成绩统计结果如图所示.
(1)分别计算采用两套方案教学的班级7次测试成绩的平均数和方差,并填写下表(要求写出计算过程):
平均数/分 方差
甲
乙
(2)从下列两个不同的角度对这次方案选择的结果进行分析:
①从平均数和方差相结合看,分析采用哪种方案的班级成绩更好;
②从折线图上采用两种方案班级成绩的走势看,分析哪种方案更有潜力.
题组三 频率分布直方图中的数字特征
9.某市政府部门为了解该市的“全国文明城市”创建情况,在该市的12个区县(市)中随机抽查了甲、乙两县,考核组对他们的创建工作进行量化考核.在这两个县的量化考核分数(均为整数)中各随机抽取20个,得到如图所示的统计图(用频率分布直方图估计总体时,同一组中的数据用该组区间的中点值作代表).关于甲、乙两县的量化考核分数,下列结论正确的是( )
A.甲县量化考核分数的平均数小于乙县量化考核分数的平均数
B.甲县量化考核分数的中位数小于乙县量化考核分数的中位数
C.甲县量化考核分数的众数不小于乙县量化考核分数的众数
D.甲县量化考核分数不低于80的个数多于乙县
10.在某次全校体能测试中,高三某班40名学生体能测试成绩(满分100分)恰在[60,90]内,绘成如下频率分布直方图,下列说法正确的是( )
A.该班学生体能测试成绩的中位数是75分
B.该班40%的学生体能测试成绩达到优秀(80分及以上为优秀)
C.该班学生体能测试成绩的平均数是77分
D.该班学生体能测试成绩的众数是78分
11.某超市从甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,整理得到甲种酸奶日销售量的频率分布表和乙种酸奶日销售量的频率分布直方图.
甲种酸奶日销售量/箱 频率
[0,10) 0.10
[10,20) 0.20
[20,30) 0.30
[30,40) 0.25
[40,50] 0.15
合计 1
(1)求出频率分布直方图中a的值,并作出甲种酸奶日销售量的频率分布直方图;
(2)记甲种酸奶与乙种酸奶日销售量(单位:箱)的方差分别为,试比较的大小;
(3)试估计乙种酸奶在未来一个月(按30天计算)的销售总量(同一组中的数据用该组区间的中点值作代表).
能力提升练
题组 样本的数字特征及其应用
1.为了普及环保知识,增强环保意识,某大学随机抽取了30名学生参
加环保知识测试,得分情况(十分制)如图所示,假设得分的中位数为m1,众数为m2,平均数为,则( )
A.m1=m2= B.m1=m2<
C.m12.下列结论中正确的是( )
A.若数据的频率分布直方图单峰不对称,且在右边“拖尾”,则平均数小于中位数
B.一组数据中的每个数都减去同一个非零常数a,则这组数据的平均数改变,方差改变
C.一个样本的方差s2=+…+],则这组样本数据的总和为60
D.数据a1,a2,a3,…,an的方差为M,则数据2a1,2a2,2a3,…,2an的方差为2M
3.(多选题)中国营养学会把走路称为“最简单、最优良的锻炼方式”,它不仅可以帮助减肥,还可以增强心肺功能、血管弹性、肌肉力量等.甲、乙两人利用手机记录了去年下半年每月的走路里程(单位:千米),现将两人的数据绘制成如图所示的折线图,则下列结论中正确的是( )
A.甲走路里程的极差为 11千米
B.乙走路里程的中位数是27千米
C.甲下半年每月走路里程的平均数大于乙下半年每月走路里程的平均数
D.甲下半年每月走路里程的标准差大于乙下半年每月走路里程的标准差
4.一段时间内没有发生大规模集体流感的标志为“连续10天,每天新增病例不超过7人”.过去10天,甲、乙、丙、丁四地新增病例数据情况如下,则一定符合该标志的是( )
A.甲地:平均数为3,中位数为4
B.乙地:平均数为1,方差大于0
C.丙地:中位数为2,众数为3
D.丁地:平均数为2,方差为3
5.某单位举办演讲比赛,最终来自A,B,C,D四个部门共12人进入决赛,把这四个部门进入决赛的人数作为样本数据.已知样本方差为2.5,且样本数据互不相同,则样本数据中的最大值为 .
6.某居民住宅小区图书室准备购买一定数量的书籍,为了满足不同年龄段居民的阅读需求,现随机抽取了40名阅读者进行调查,得到如图所示的频率分布直方图,则这40名阅读者年龄的平均数为 岁,中位数为 岁.(注:同一组中的数据用该组区间的中点值作代表)
7.某学校举办了一场党史知识竞赛活动,共有500名学生参加.为了解本次知识竞赛活动的成绩,从中抽取了50名学生的分数(分数均为整数,满分为100分)进行统计,所有学生的分数都不低于60,将这50名学生的分数进行分组,第一组[60,70),第二组[70,80),第三组[80,90),第四组[90,100],得到如下频率分布直方图.
(1)求图中m的值,并估计此次知识竞赛活动学生分数的中位数;
(2)根据频率分布直方图,估计此次知识竞赛活动学生分数的平均数(同一组中的数据用该组区间的中点值作代表).若对分数不低于平均数的同学进行奖励,请估计参赛的500名学生中获奖的人数.
8.为了比较两种用复合材料制造的轴承(分别称为类型Ⅰ轴承和类型Ⅱ轴承)的使用寿命,检验了两种类型轴承各30个,它们的使用寿命(单位:百万圈)如表:
类型Ⅰ
6.2 6.4 8.3 8.6 9.4 9.8
10.3 10.6 11.2 11.4 11.6 11.6
11.7 11.8 11.8 12.2 12.3 12.3
12.5 12.5 12.6 12.7 12.8 13.3
13.3 13.4 13.6 13.8 14.2 14.5
类型Ⅱ
8.4 8.5 8.7 9.2 9.2 9.5
9.7 9.7 9.8 9.8 10.1 10.2
10.3 10.3 10.4 10.6 10.8 10.9
11.2 11.2 11.3 11.5 11.5 11.6
11.8 12.3 12.4 12.7 13.1 13.4
根据表中的数据回答下列问题:
(1)对于类型Ⅰ轴承,应该用平均数还是中位数度量其使用寿命分布的中心 说明理由;
(2)若需要使用寿命尽可能大的轴承,从(1)中所选的数字特征的角度判断应选哪种轴承,说明理由;
(3)若需要使用寿命的波动性尽可能小的轴承,应选哪种轴承 说明理由.
答案与分层梯度式解析
第六章 统计
§4 用样本估计总体的数字特征
4.1 样本的数字特征
基础过关练
1.C 在体操比赛的评分中使用的是平均分,记分过程中采用“去掉一个最高分和一个最低分”的方法,就是为了防止个别评委因人为因素而给出过高或过低的分数,对运动员的得分造成较大的影响.
导师点睛 平均数受样本中的每个数据的影响,越“离群”的数据,对平均数的影响越大,这样的数据一般是一组数据中的最大值和最小值.
2.C 由题表中数据可以估计该品牌共享充电宝的平均合格率为99.0%×0.6+98.0%×0.3+98.0%×0.1=0.986.故选C.
3.C 由题意得,甲队得分数据的中位数为=16,故乙队得分数据的中位数为=16,∴y=3,
又,
=17,
∴=17,∴x=0.
故选C.
4.ABC 对于A,高一年级所抽取参赛学生成绩的中位数为=91(分),A正确;
对于B,高二年级所抽取参赛学生的成绩中,94出现了2次,出现次数最多,故众数为94分, B正确;
对于C,高一、高二年级参赛学生中成绩不低于90分的都有5人,故优秀率都为50%,C正确;
对于D,高一年级所抽取参赛学生的平均成绩为
×(74+78+84+89+89+93+95+97+99+100)=89.8(分),
高二年级所抽取参赛学生的平均成绩为
×(77+78+84+87+88+91+94+94+95+96)=88.4(分), D错误.
故选ABC.
5.C 设第五个个体的值为x,则2+2+3+3+x=3×5,即x=5,
则该样本的方差为.故选C.
6.D 设数据x1,x2,…,xn的平均数和方差分别为和s2,则数据ax1+b,ax2+b,…,axn+b的平均数和方差分别为a+b和a2s2,所以y1,y2,…,y2 022的平均数为2×3+3=9,方差为22×56=224.
故选D.
规律总结 一组数据的平均数为,方差为s2,将这组数据分别加上(减去)同一个常数a,所得数据的平均数为-a),方差不变;将这组数据分别乘同一个常数b(b≠0),所得数据的平均数为b,方差为b2s2.
7.答案
解析 因为该组数据的极差为8,所以m-1=8,解得m=9.
则这组数据的平均数=5,所以这组数据的方差s2=.
8.解析 (1)由题中折线图中的数据可得采用甲方案的班级7次测试成绩的平均数×(109+111+113+115+117+119+121)=115(分),
方差×[(109-115)2+(111-115)2+…+(121-115)2]=16,
采用乙方案的班级7次测试成绩的平均数×(121+115+109+115+113+117+115)=115(分),
方差×[(121-115)2+(115-115)2+…+(115-115)2]=.
填表如下:
平均数/分 方差
甲 115 16
乙 115
(2)①因为,且,
所以采用乙方案的班级成绩更稳定,故采用乙方案的班级成绩更好.
②从折线图的走势上看甲方案更有潜力,
因为采用甲方案的班级成绩稳步提高,而采用乙方案的班级成绩不稳定,忽高忽低.
9.C 由题中条形图知甲县量化考核分数的平均数为×(57×2+58×1+59×1+67×1+68×2+69×2+79×6+87×1+88×2+89×1+98×1)=74.8,中位数为79,众数为79,量化考核分数不低于80的个数为1+2+1+1=5.
由题中频率分布直方图知乙县量化考核分数的平均数为(55×0.02+65×0.025+75×0.03+85×0.02+95×0.005)×10=71.5,中位数为70+,众数为75,量化考核分数不低于80的个数为(0.02+0.005)×10×20=5.
综上,A,B,D错误,C正确.
10.C 设中位数为x分,则0.01×5+0.02×5+0.04×5+(x-75)×0.06=0.5,解得x=77.5,故A错误;
成绩为80分及以上的频率为0.05×5+0.02×5=0.35,所以有35%的学生体能测试成绩达到优秀,故B错误;
=(62.5×0.01+67.5×0.02+72.5×0.04+77.5×0.06+82.5×0.05+87.5×0.02)×5=77(分),故C正确;
众数是77.5分,故D错误.
故选C.
11.解析 (1)由乙种酸奶日销售量的频率分布直方图可得10a=1-(0.020+0.010+0.030+0.025)×10,解得a=0.015.
根据题表中数据可作出甲种酸奶日销售量的频率分布直方图如图所示:
(2)解法一:记甲、乙两种酸奶日销售量的平均数分别为箱,箱,
则=5×0.1+15×0.2+25×0.3+35×0.25+45×0.15=26.5,
=5×0.2+15×0.1+25×0.3+35×0.15+45×0.25=26.5,
所以=(5-26.5)2×0.1+(15-26.5)2×0.2+(25-26.5)2×0.3+(35-26.5)2×0.25+(45-26.5)2×0.15=142.75,
=(5-26.5)2×0.2+(15-26.5)2×0.1+(25-26.5)2×0.3+(35-26.5)2×0.15+(45-26.5)2×0.25=202.75,所以.
解法二:比较两种酸奶的频率分布直方图,数据越集中,则方差越小,由频率分布直方图可得,甲种酸奶对应的数据更集中,故甲的方差小于乙的方差,即.
(3)由(2)得乙种酸奶的平均日销售量为26.5箱,
故乙种酸奶未来一个月的销售总量为26.5×30=795(箱).
能力提升练
1.D 由题图可知,30名学生得分的中位数为5和6的平均数,即m1=5.5;又5出现的次数最多,故m2=5;×(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97.所以m22.C 对于A,频率分布直方图大致如图:
因为在右边“拖尾”,最高峰偏左,所以中位数靠近高峰处,平均数则靠近中点处,所以平均数大于中位数,故A错误;
由平均数和方差的性质知B,D错误;
对于C,由题意可知平均数为3,共有20个数据,所以这组样本数据的总和为3×20=60,故C正确.故选C.
3.ABD 由题图可知,甲各月的走路里程(单位:千米)为31,25,21,24,20,30,
乙各月的走路里程(单位:千米)为29,28,26,28,25,26.
甲走路里程的极差为31-20=11(千米),故A正确;
乙走路里程的中位数是=27(千米),故B正确;
甲下半年每月走路里程的平均数为(千米),
乙下半年每月走路里程的平均数为=27(千米),故C错误;
由题图可知,甲下半年每月走路里程的数据波动程度大于乙下半年每月走路里程的数据波动程度,所以甲下半年每月走路里程的标准差大于乙下半年每月走路里程的标准差,故D正确.
故选ABD.
4.D 对于A,当甲地过去10天每天新增病例人数分别为0,0,0,2,4,4,4,4,4,8时,满足平均数为3,中位数为4,但不满足每天新增病例不超过7人,故A错误;
对于B,当乙地过去10天每天新增病例人数分别为0,0,0,0,0,0,0,0,1,9时,满足平均数为1,方差大于0,但不满足每天新增病例不超过7人,故B错误;
对于C,当丙地过去10天每天新增病例人数分别为0,0,1,1,2,2,3,3,3,8时,满足中位数为2,众数为3,但不满足每天新增病例不超过7人,故C错误;
对于D,若至少有一天新增病例超过7人,则方差大于×(8-2)2=3.6,与题意矛盾,故丁地连续10天每天新增病例不超过7人,故D正确.故选D.
5.答案 5
解析 设样本数据为a,b,c,d,且a则样本平均数为=3,样本方差为,
则(a-3)2+(b-3)2+(c-3)2+(d-3)2=10,
所以(d-3)2≤10,解得d≤+3.
当d=6时,(a-3)2+(b-3)2+(c-3)2=1,因为样本数据互不相同,所以不存在a,b,c使得等式成立.
当d=5时,(a-3)2+(b-3)2+(c-3)2=6,存在a=1,b=2,c=4,使得等式成立,故样本数据中的最大值为5.
6.答案 54;55
解析 由题图得区间[20,30),[30,40),[40,50),[50,60),[60,70),[70,80]对应的频率分别为0.05,0.1,0.2,0.3,0.25,0.1,因为同一组中的数据用该组区间的中点值作代表,
所以这40名阅读者年龄的平均数为25×0.05+35×0.1+45×0.2+55×0.3+65×0.25+75×0.1=54(岁).
前3个区间的频率之和为0.05+0.1+0.2=0.35,前4个区间的频率之和为0.35+0.3=0.65,
故中位数为50+×10=55(岁).
7.解析 (1)由题中频率分布直方图知(0.01+m+0.04+0.02)×10=1,解得m=0.03.
设此次知识竞赛活动学生分数的中位数为x0,
因为数据落在[60,80)内的频率为0.4,落在[60,90)内的频率为0.8,所以80由(x0-80)×0.04=0.5-0.4,得x0=82.5,
故估计此次知识竞赛活动学生分数的中位数为82.5.
(2)由题中频率分布直方图及(1)知数据落在[60,70),[70,80),[80,90),[90,100]内的频率分别为0.1,0.3,0.4,0.2,则估计此次知识竞赛活动学生分数的平均数为65×0.1+75×0.3+85×0.4+95×0.2=82.
此次知识竞赛活动学生分数不低于82的频率为0.2+×0.4=0.52,
故估计参赛的500名学生中获奖的人数为500×0.52=260.
8.解析 (1)从题表可以看出类型Ⅰ轴承的使用寿命的数据大多集中在[11.2,13.8]这个区间内,6.2,6.4有严重的偏离,所以不宜使用平均数度量其使用寿命分布的中心,由于极端值的大小对中位数没有影响,所以应使用中位数度量类型Ⅰ轴承的使用寿命分布的中心.
(2)由题表可知,将类型Ⅰ轴承的使用寿命由小到大排序后,排在第15,16个的数据分别是11.8,12.2,故中位数为12百万圈;
将类型Ⅱ轴承的使用寿命由小到大排序后,排在第15,16个的数据分别是10.4,10.6,故中位数为10.5百万圈.
因为12>10.5,所以应选类型Ⅰ轴承.
(3)由题表可得类型Ⅰ中,极差=14.5-6.2=8.3,多数的数据集中在[11.2,13.8]这个区间内,6.2,6.4,8.3,8.6严重偏离分布中心,即波动较大,标准差必定较大,
类型Ⅱ中,极差=13.4-8.4=5,相对较小,数据的分布比较集中、均匀,标准差必定比类型Ⅰ小,
故应选类型Ⅱ轴承.
2(共15张PPT)
§4 用样本估计总体的数字特征
知识点 1 分层随机抽样的平均数与方差
知识 清单破
4.2 分层随机抽样的均值与方差 4.3 百分位数
1.分层随机抽样的平均数
一般地,将样本a1,a2,…,am和样本b1,b2,…,bn合并成一个新样本,则这个新样本的平均数为
= · + · .
于是,当已知上述两层构成的新样本中每层的平均数分别为 和 时,可得这个新样本的平
均数为w1 +w2 ,其中w1= ,w2= ,w1,w2称为权重.
更一般地,设样本中不同层的平均数和相应权重分别为 , ,…, 和w1,w2,…,wn,则这个样本
的平均数为w1 +w2 +…+wn = wi .
2.分层随机抽样的方差
设样本中不同层的平均数分别为 , ,…, ,方差分别为 , ,…, ,相应的权重分别为w1,w2,
…,wn,则这个样本的方差为s2= wi[ +( - )2],其中 为这个样本的平均数.
知识点 2 百分位数
1.百分位数的定义
一般地,当总体是连续变量时,给定一个百分数p∈(0,1),总体的p分位数有这样的特点:总体数
据中的任意一个数小于或等于它的可能性是p.
2.四分位数
25%,50%,75%分位数是三个常用的百分位数.把总体数据按照从小到大排列后,这三个百分
位数把总体数据分成了4个部分,在这4个部分取值的可能性都是 .因此这三个百分位数也
称为总体的四分位数.
其他常用的百分位数有1%,5%,10%,90%,95%,99%.
3.求百分位数的步骤
计算一组n个数据的p分位数的一般步骤如下:
第一步,按照从小到大排列原始数据;
第二步,计算i=np;
第三步,若i不是整数,大于i的最小整数为j,则p分位数为第j项数据;若i是整数,则p分位数为
第i项与第(i+1)项数据的平均数.
知识辨析 判断正误,正确的画“ √” ,错误的画“ ” 。
1.分层随机抽样中全体的平均数等于各层的平均数的平均数. ( )
2.分层随机抽样中全体的方差等于各层的方差的平均数. ( )
3.某次数学测试成绩的70%分位数是85分,则有70%的同学测试成绩小于或等于85分.( )
√
4.分层随机抽样中全体的方差与各层的平均数、方差和权重有关. ( )
√
讲解分析
疑难 情境破
疑难 1分层随机抽样的平均数与方差的理解与应用
1.平均数相同,方差小说明成绩比较稳定.平均数大且方差小说明成绩比较优秀而且稳定.
2.平均数 、方差 的求解公式分别为 =wA +wB ,
=wA[ +( - )2]+wB[ +( - )2],其中,wA,wB为权重.
典例1 从市场上流行的甲、乙两种品牌同型号干电池中各随机抽取10节,测试每一节的使用
寿命(单位:h),数据如表:
电池编号 甲 乙
1 23 20
2 22 12
3 16 26
4 28 25
5 14 19
6 10 12
7 22 15
8 22 28
9 11 13
10 11 22
现在分析市场上流行的甲、乙两种品牌同型号干电池使用寿命情况.
(1)甲、乙两种品牌同型号干电池的权重各为多少
(2)甲种干电池的平均使用寿命 、方差 分别是多少
(3)乙种干电池的平均使用寿命 、方差 分别是多少
(4)计算甲、乙两种干电池的平均使用寿命 、方差 .
解析 (1)都为50%.
(2)设甲种干电池的使用寿命为ai(i=1,2,…,10),则 = =17.9(h),
= =35.49.
(3)设乙种干电池的使用寿命为bi(i=1,2,…,10),则 = =19.2(h),
= =32.56.
(4)解法一:同(2)(3)中所设,
平均使用寿命 = (a1+a2+…+a10+b1+b2+…+b10)=18.55(h),
方差 = [(a1- )2+(a2- )2+…+(a10- )2+(b1- )2+(b2- )2+…+(b10- )2]=34.447 5.
解法二:平均使用寿命 =w甲 +w乙 = ×17.9+ ×19.2=18.55(h),
方差 =w甲[ +( - )2]+w乙[ +( - )2]= ×[35.49+(17.9-18.55)2]+ ×[32.56+(19.2-18.5
5)2]=34.447 5.
典例2 某学校有高中学生500人,其中男生300人,女生200人.为了获得该校全体高中学生的身
高信息,采用分层随机抽样的方法抽取样本,并测量样本的指标值,计算得男生样本的均值为1
75,方差为20,女生样本的均值为165,方差为30.
(1)如果男、女生的样本量按比例分配,请计算总样本的均值和方差各为多少;
(2)如果男、女生的样本量都是25,请计算总样本的均值和方差各为多少.
解析 (1)男、女生的样本量按比例分配,
总样本的均值为 ×175+ ×165=171,
总样本的方差为 ×[20+(175-171)2]+ ×[30+(165-171)2]=48.
(2)男、女生的样本量都是25,
总样本的均值为 ×175+ ×165=170,
总样本的方差为 ×[20+(175-170)2]+ ×[30+(165-170)2]=50.
讲解分析
疑难 2 百分位数的求解
1.计算n个数据的p分位数时的注意事项:
(1)将数据按从小到大进行排序;
(2)若i(i=np)为整数,则p分位数为第i项与第(i+1)项数据的平均数,而不是第i项数据.
2.根据频率分布直方图计算样本数据的百分位数,首先计算频率分布直方图中各组数据的频
率,然后估计百分位数在哪一组,最后应用方程思想设出百分位数,解方程即可.
典例1 已知一组数据为7,10,14,8,7,12,11,10,8,10,13,10,8,11,8,9,12,9,13,20,那么这组数据的2
5%分位数是 ( )
A.8 B.9 C.10 D.11
思路点拨 排序 计算 确定25%分位数.
解析 把这组数据由小到大排序,得7,7,8,8,8,8,9,9,10,10,10,10,11,11,12,12,13,13,14,20,共20个
数据,20×25%=5,
所以这组数据的25%分位数是第5项与第6项数据的平均数,即8,故选A.
A
典例2 某年级120名学生在一次百米测试中的成绩全部介于13秒与18秒之间.将测试成绩(秒)
分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到
右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么测试成绩(秒)的70%分位数约为 .
16.5
思路点拨 由频率分布直方图得到各组的频率,确定百分位数在哪一组,再利用小矩形的面
积就是频率列方程求出百分位数.
解析 设测试成绩(秒)的70%分位数为x.
因为 =0.55, =0.85,
所以 x∈[16,17),
因此0.55+(x-16)× =0.70,
解得x=16.5.第六章 统计
§4 用样本估计总体的数字特征
4.2 分层随机抽样的均值与方差 4.3 百分位数
基础过关练
题组一 分层随机抽样的均值与方差
1.为调查某地区中学生的每天睡眠时间,采用分层随机抽样的方法抽取初中生800人,其每天睡眠时间的平均数为9小时,方差为1,抽取高中生1 200人,其每天睡眠时间的平均数为8小时,方差为0.5,则估计该地区中学生每天睡眠时间的方差为( )
A.0.96 B.0.94 C.0.79 D.0.75
2.某班50名学生骑自行车和骑电动车到校所需时间统计如下:
到校方式 人数 平均用时/分钟 方差
骑自行车 20 30 36
骑电动车 30 20 16
则这50名学生到校时间的方差为( )
A.48 B.46 C.28 D.24
3.(多选题)某学校高一年级有学生900人,其中男生500人,女生400人,为了获得该校高一全体学生的身高信息,现采用分层随机抽样的方法抽取容量为180的样本,经计算得男生样本数据的均值为170,方差为19,女生样本数据的均值为161,方差为28,则下列说法中正确的是( )
A.样本中男生有100人
B.抽取的样本数据的方差为43
C.抽取的样本数据的均值为166
D.抽取的样本数据的均值为165.5
4.A,B两个班共100人参加同一次期末考试,考试成绩情况见下表:
班级 人数 平均分
A m x
B n y
(1)已知A,B两个班总的平均成绩=93分.若x=95,y=90,则m= ,n= ;
(2)已知A,B两个班总的平均成绩=85.5分.若m=55,x=90,则n= ,y= .
5.某公司共有A,B两个部门,A,B两个部门的人员2024年度业绩考核分数表分别如下:
A部门:
人员序号 1 2 3 4 5 6 7 8 9 10
分数 98 96 92 94 95 95 97 93 86 85
人员序号 11 12 13 14 15 16 17 18 19 20
分数 95 87 93 92 98 96 94 87 83 86
人员序号 21 22 23 24 25 26 27 28 29 30
分数 91 89 94 92 93 88 87 96 92 93
B部门:
人员序号 1 2 3 4 5 6 7 8 9 10
分数 97 96 97 94 95 96 97 94 86 88
人员序号 11 12 13 14 15 16 17 18 19 20
分数 97 83 93 96 98 92 91 87 83 89
求:(1)该公司2024年度业绩考核分数的平均数;
(2)该公司2024年度业绩考核分数的方差(结果保留2位小数).
题组二 百分位数
6.“幸福感指数”是指某个人主观地评价他对自己目前生活状态的满意程度的指标,常用区间[0,10]内的一个数来表示,该数越接近10表示满意程度越高,现随机抽取7位小区居民,他们的幸福感指数分别为5,6,7,8,9,5,4,则这组数据的75%分位数是( )
A.7 B.7.5 C.8 D.9
7.某地区为了解最近11天该地区的空气质量,调查了该地区过去11天PM2.5的浓度(单位:μg/m3),数据依次为53,56,69,70,72,79,65,80,45,41,m(m>50).已知这组数据的极差为40,则这组数据的m%分位数为( )
A.71 B.75.5 C.79 D.72
8.已知一组数据按从小到大的顺序排列为0,4,5,x,8,10,12,15,且这组数据的中位数是7,则这组数据的45%分位数、75%分位数分别是( )
A.5.5,10 B.5.5,12 C.6,11 D.6,10
9.(多选题)为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化”的党史知识竞赛,并将1 000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法正确的是( )
A.a的值为0.005
B.估计成绩低于60分的有25人
C.估计这组数据的众数为75
D.估计这组数据的85%分位数为86
10.某单位为了解该单位党员开展学习党史知识活动情况,随机抽取了部分党员,对他们一周的党史学习时间进行了统计,统计数据如表所示,则该单位党员一周的党史学习时间的40%分位数是 小时.
党史学习时间/小时 7 8 9 10 11
党员人数 6 10 9 8 7
11.某校为了调查学生的数学学习情况,在某次数学测试后,抽取了100位同学的成绩,并绘制成如图所示的频率分布直方图,已知这100位同学的成绩范围是[50,100],数据分组为[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求x的值;
(2)估计这100位同学成绩的75%分位数.
答案与分层梯度式解析
第六章 统计
§4 用样本估计总体的数字特征
4.2 分层随机抽样的均值与方差 4.3 百分位数
基础过关练
1.B 估计该地区中学生每天睡眠时间的平均数为×8=8.4(小时),
估计该地区中学生每天睡眠时间的方差为×[0.5+(8-8.4)2]=0.94.故选B.
2.A 由已知可得,骑自行车平均用时(单位:分钟)=30,方差=36,
骑电动车平均用时(单位:分钟)=20,方差=16,
骑自行车人数占总数的,骑电动车人数占总数的.
故这50名学生到校所需时间的平均数×20=24,
方差s2=×[16+(20-24)2]=48.
故选A.
3.ABC 样本中男生有×180=100(人),故A正确;
抽取的样本数据的均值为×161=166,故C正确,D错误;
抽取的样本数据的方差为×[28+(161-166)2]=43.故B正确.
故选ABC.
4.答案 (1)60;40 (2)45;80
解析 (1)A,B两个班总的平均成绩×90=93,且m+n=100,解得m=60,n=40.
(2)A,B两个班总的平均成绩×y=85.5,且55+n=100,解得n=45,y=80.
5.解析 (1)用ai(i=1,2,…,30)表示A部门人员的分数,用bi(i=1,2,…,20)表示B部门人员的分数.
由题意得,=91.9,
=92.45,
所以该公司2024年度业绩考核分数的平均数×92.45=92.12.
(2)因为≈16.36,
≈22.35,
所以该公司2024年度业绩考核分数的方差)2]
=×[22.35+(92.45-92.12)2]≈18.83.
6.C 这组数据从小到大排列为4,5,5,6,7,8,9,7×75%=5.25,所以这组数据的75%分位数是8.故选C.
7.C 因为这组数据的极差为40,最小值为41,所以m应为最大值,为40+41=81,
将这组数据从小到大排列为41,45,53,56,65,69,70,72,79,80,81,
因为81%×11=8.91,所以这组数据的81%分位数为79,故选C.
8.C 因为中位数为7,所以=7,所以x=6.
8×45%=3.6,所以45%分位数为从小到大排列后的第4个数据,即6;
8×75%=6,所以75%分位数为从小到大排列后的第6个数据与第7个数据的平均数,即=11.
故选C.
9.ACD 对于A,由(a+2a+3a+3a+5a+6a)×10=1,得a=0.005,故A正确;
对于B,估计成绩低于60分的有1 000×(2a+3a)×10=50 000a=250(人),故B错误;
对于C,估计这组数据的众数为75,故C正确;
对于D,设这组数据的85%分位数为m,则(90-m)×5×0.005+0.005×10=1-85%=0.15,解得m=86,故D正确.故选ACD.
10.答案 8.5
解析 因为(6+10+9+8+7)×40%=16,
所以40%分位数为从小到大排列后的第16个数和第17个数的平均数,即=8.5(小时).
11.解析 (1)由(0.005+0.016+0.039+x+0.01)×10=1,得x=0.03.
(2)设这100位同学成绩的75%分位数为m,
由0.05+0.16+0.39=0.6,0.05+0.16+0.39+0.3=0.9,得m∈[80,90),
由(m-80)×0.03=0.15,得m=85.
所以这100位同学成绩的75%分位数为85.
1(共10张PPT)
§4 用样本估计总体的数字特征
知识点 样本的数字特征
知识 清单破
4.1 样本的数字特征
1.样本的数字特征
(1)平均数是指一组数据的平均值.
(2)中位数是将一组数据按从小到大的顺序排列后,“中间”的那个数据,或中间两个数据的
平均数.
(3)众数是指一组数据中出现次数最多的数据.
(4)极差和方差都刻画数据的离散程度.极差是数据中最大值和最小值的差.方差刻画的是数
据偏离平均数的离散程度.
定义方差的算术平方根s= = 为标准差,其中x1,x2,…,xn是样
本数据,n是样本容量, 是样本平均数.
ax1+b,ax2+b,…,axn+b
(a,b为常数) a +b a2s2 |a|s
2.若x1,x2,…,xn的平均数为 ,方差为s2,标准差为s,则有如下规律:
数据 平均数 方差 标准差
x1,x2,…,xn s2 s
x1+b,x2+b,…,xn+b(b为常数) +b s2 s
ax1,ax2,…,axn(a为常数) a a2s2 |a|s
知识辨析 判断正误,正确的画“ √” ,错误的画“ ” 。
1.标准差的大小不会超过极差. ( )
√
2.若一组数据的值大小相等,没有波动变化,则标准差为0. ( )
√
3.标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据
在样本平均数周围越分散. ( )
4.在记录两个人射击环数的两组数据中,方差大的表示射击水平高. ( )
5.中位数和众数一定不相等. ( )
讲解分析
疑难 情境破
疑难 1 样本的数字特征的应用
在实际问题中,通常把平均数与标准差(方差)结合起来进行决策.在平均数相等的情况下,标
准差(方差)越小,数据越稳定.
典例 甲、乙两人在一次射击比赛中中靶的情况如图所示(击中靶中心的圆面为10环,靶中各
数字表示该数字所在圆环被击中时所得的环数),每人射击了6次.
(1)请用列表法将甲、乙两人的射击成绩统计出来;
(2)请用学过的统计知识对甲、乙两人这次的射击情况进行比较.
解析 (1)甲、乙两人的射击成绩统计如下表:
环数 6 7 8 9 10
甲命中次数 0 0 2 2 2
乙命中次数 0 1 0 3 2
(2) = ×(8×2+9×2+10×2)=9(环),
= ×(7×1+9×3+10×2)=9(环),
= ×[(8-9)2×2+(9-9)2×2+(10-9)2×2]= ,
= ×[(7-9)2+(9-9)2×3+(10-9)2×2]=1,
因为 = , < ,
所以甲与乙的平均成绩相同,但甲的发挥比乙稳定.
讲解分析
疑难 2 用样本的数字特征估计总体的数字特征
1.一般情况下,如果样本容量恰当,抽样的方法比较合理,那么样本的数字特征能够反映总体
的数字特征.在允许一定误差存在的前提下,可以用样本的数字特征去估计总体的数字特征.
2.平均数、中位数、众数与频率分布直方图的关系:
(1)众数的估计值通常用最高小矩形所在区间的中点对应的数据作代表.
(2)中位数左侧和右侧的小矩形的面积和应该相等,据此可以估计中位数的值.
(3)平均数是频率分布直方图的“重心”,平均数的估计值等于各个小矩形的面积与小矩形
底边中点的横坐标(组中值)之积的和.
典例 近年来,“直播带货”受到越来越多人的喜爱,目前已经成为推动消费的一种流行的营
销形式.某直播平台有800个直播商家,对其进行调查统计,发现所售商品多为小吃、衣帽、生
鲜、玩具、饰品类等.该直播平台为了更好地服务买卖双方,随机抽取40个直播商家进行问
询交流, 对他们的平均日利润
(单位:元)进行了统计,所得频率分布直方图如图所示.
请根据频率分布直方图计算下面的问题.
(1)估计该直播平台商家平均日利润的中位数与平均数(结果保留一位小数,同一组中的数据
用该组区间的中点值作代表);
(2)若将平均日利润超过420元的商家称为“优秀商家”,估计该直播平台“优秀商家”的个
数.
解析 (1)根据题意可得(0.001×3+a+0.003+0.005+0.007)×50=1,解得a=0.002.
设中位数为x元,
因为(0.001+0.003)×50=0.2,(0.001+0.003+0.007)×50=0.55,
所以(x-300)×0.007+0.2=0.5,解得x≈342.9.
平均数为(225×0.001+275×0.003+325×0.007+375×0.005+425×0.002+475×0.001+525×0.001)×
50=352.5(元).
所以估计该直播平台商家平均日利润的中位数为342.9元,平均数为352.5元.
(2) ×50×800=128,
所以估计该直播平台“优秀商家”的个数为128.