9.2.2 总体百分位数的估计
【学习目标】
1.结合具体实例,理解百分位数的含义,并用样本百分位数估计总体百分位数,提高学生对统计意义的理解程度.
2.在样本估计总体的过程中,逐步形成统计思维,提高学生数据分析能力和数据表达能力,逐步树立用数据分析问题、解释生活现象的意识.
◆ 知识点 百分位数
1.第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按 排列原始数据.
第2步,计算i= .
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第 项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的 .
3.四分位数
, , 这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
其中第25百分位数也称为 或 等,第75百分位数也称为第三四分位数或 等.
【诊断分析】 1.判断下列说法的正误.(正确的打“√”,错误的打“×”)
(1)若一组样本数据各不相等,则其第75百分位数大于第25百分位数. ( )
(2)若一组样本数据的第10百分位数是23,则在这组数据中有10%的数据大于23. ( )
(3)若一组样本数据的第24百分位数是24,则在这组数据中至少有76%的数据大于或等于24. ( )
(4)在1~100这100个整数中,上四分位数是75.5.( )
(5)中位数相当于是第50百分位数. ( )
2.某组数据的第p百分位数在此组数据中一定存在吗 为什么
◆ 探究点一 百分位数的概念
例1 下列关于百分位数的说法中,正确的是 ( )
A.百分位数一定是数据中的某一项
B.恰好有k%的数据比第k百分位数小
C.样本的第k百分位数一定是总体的第k百分位数
D.一组数据中不同的百分位数可能相等
变式 15%分位数的含义是 ( )
A.总体中任何一个数小于它的可能性是15%
B.总体中任何一个数小于或等于它的可能性是15%
C.总体中任何一个数大于它的可能性是15%
D.总体中任何一个数大于或等于它的可能性是15%
[素养小结]
百分位数是用于衡量数据的位置的量度,但它所衡量的不一定是中心位置.百分位数提供了有关数据如何在最小值与最大值之间分布的信息.
◆ 探究点二 由样本数据求百分位数
例2 (1)从某果树上随机摘下11个水果,其直径(单位:cm)为12,13,14,14,16,20,20,21,22,23,25,则这组数据的第60百分位数为 .
(2)求下列数据的四分位数.
13,15,12,27,22,24,28,30,31,18,19,20.
变式 (1)某地区某年的月降水量如下表:
月份 1 2 3 4 5 6 7 8 9 10 11 12
月降水量(单位:mm) 58 48 53 46 56 56 51 71 56 53 64 66
根据表中数据,可知该地区该年月降水量的80%分位数是 .
(2)5名学生期中考试的数学成绩(单位:分)分别为98,120,105,110,m,若这5名学生成绩的第60百分位数为111,则m= .
[素养小结]
设一组数按照从小到大的顺序排列后为x1,x2,…,xn,要求这组数的第p百分位数,先计算i=n×p%的值,如果i不是整数,设i0为大于i的最小整数,那么取为第p百分位数;如果i是整数,那么取为第p百分位数.
◆ 探究点三 由频数(频率)分布表求百分位数
例3 某企业成立的党史学习教育督查组为调研本单位的党史学习情况,采用比例分配的分层随机抽样方法从该企业抽取一个容量为100的样本,经过数据搜集与处理,得到如下频数分布表:
周学习党史时间(单位:分钟) [0,30) [30,60) [60,90) [90,120) [120,150]
高层管理人员 0 0 1 0 2
中层管理人员 1 0 2 2 4
普通员工 9 12 45 20 2
(1)已知该企业的中、高层管理人员共有120人,求该企业普通员工的人数;
(2)为激励先进、鞭策后进,督查组拟公布该企业全体人员的周学习党史时间的平均数P(同一组中的数据用该组区间的中点值作为代表)、第25百分位数M及第75百分位数N,试求P,M,N的估计值(精确到0.1).
变式 (1)从某地区抽取100户居民进行月用电量调查,发现月用电量都在50~350 kW·h之间.将数据分组后得到如下所示的频率分布表,据此估计此地区月用电量的第80百分位数为 ( )
分组 [50, 100) [100, 150) [150, 200) [200, 250) [250, 300) [250, 300] 合计
频率 0.12 0.18 0.30 0.25 0.10 0.05 1
A.230 B.235 C.240 D.245
(2)[2024·昆明部分学校高一期中] 某面包店记录了最近一周A,B两种口味的面包的销售情况,如表所示:
A口味
星期 一 二 三 四 五 六 日
销量(个) 16 12 14 10 18 19 13
B口味
星期 一 二 三 四 五 六 日
销量(个) 13 18 10 20 12 9 14
①试比较最近一周A,B两种口味面包的日销量的第60百分位数的大小.
②该面包店店主将在下一周每天都制作n个A口味的面包,假设下一周A口味面包的日销量和被记录的这一周的日销量保持一致,每个面包当天售出可获利6元,当天未售出将损失5元,从n=14,15,16中,你认为应该选择哪一个 请说明理由.
◆ 探究点四 由频率分布直方图求百分位数
例4 我国是一个严重缺水的国家,城市缺水问题较为突出.某市政府为了节约生活用水,计划在本市实行居民生活用水定额管理,即确定一个居民用水量标准m吨,使得86%的居民生活用水不超过这个标准.在本市居民中随机抽取了100户家庭,统计其某年的月均用水量(单位:吨),通过数据分析得到如图所示的频率分布直方图.
(1)求a的值,并估计m的值;
(2)如果我们称m为这组数据的86%分位数,那么估计这组数据的50%分位数.
变式1 根据例2中的频率分布直方图,估计月均用水量的15%分位数.
变式2 [2024·上海黄浦区高一期末] 某营养学研究人员用随机抽样的方法获得了某高校100名女大学生平均每日摄取的热量(单位:千大卡,1千大卡=1000千卡),这组数据的频率分布直方图如图所示.
(1)健康的成年女性每天需要摄取1.80~1.90千大卡(不含1.90千大卡)的热量,试估计该校有百分之多少的女大学生摄取的热量在此范围之内;
(2)已知[1.9,2.0)内的数据为1.9,1.9,1.91,1.91,1.91,1.93,1.94,1.94,1.95,1.95,1.96,1.96, 1.97, 1.98,1.99,若1.91是这100个样本数据的第k百分位数,求正整数k的值.
[素养小结]
根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算,其次估计百分位数在哪一组,再利用方程的思想方法,设出百分位数,解方程可得.
9.2.2 总体百分位数的估计
【课前预习】
知识点
2.从小到大 n×p% j 平均数
3.第25百分位数 第50百分位数 第75百分位数 第一四分位数 下四分位数 上四分位数
诊断分析
1.(1)√ (2)× (3)√ (4)√ (5)√ [解析] (2)这组数据中应至少有10%的数据小于或等于23.
2.解:不一定.因为按照计算第p百分位数的步骤,第2步计算i=n×p%,若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数,若第i项与第(i+1)项数据不相等,则第p百分位数在此组数据中就不存在.
【课中探究】
探究点一
例1 D [解析] 对于A,百分位数可能是数据中的某一项,也可能是某两个数据的平均数,故A错误;对于B,不一定恰好有k%的数据比第k百分位数小,故B错误;对于C,样本的第k百分位数和总体的第k百分位数不一定是同一个数据,故C错误;对于D,根据百分位数的定义,可知一组数据中不同的百分位数可能相等,故D正确.故选D.
变式 B [解析] 根据百分位数的定义可知应选B.
探究点二
例2 (1)20 [解析] 因为11×60%=6.6,所以第60百分位数为将这组数据按从小到大的顺序排列后的第7个数,故这组数据的第60百分位数为20.
(2)解:把这12个数据按从小到大的顺序排列,可得12,13,15,18,19,20,22,24,27,28,30,31.因为12×25%=3,12×50%=6,12×75%=9,所以这组数据的第25百分位数为=16.5,第50百分位数为=21,第75百分位数为=27.5.
变式 (1)64 (2)112 [解析] (1)将表中数据按照从小到大的顺序排列,得46,48,51,53,53,56,56,56,58,64,66,71,因为12×80%=9.6,所以80%分位数是第10个数据,即为64.
(2)由5×60%=3,可知第60百分位数即为将这组数据按从小到大的顺序排列后的第3个数据和第4个数据的平均数,所以=111,解得m=112.
探究点三
例3 解:(1)设该企业普通员工的人数为n,因为样本中普通员工有88人,高层管理人员和中层管理人员共有12人,
所以=,解得n=880,
所以该企业普通员工的人数为880.
(2)根据样本数据可得频数分布表如下:
周学习党史时间 (单位:分钟) [0,30) [30,60) [60,90) [90,120) [120,150]
企业人员 10 12 48 22 8
所以估计周学习党史时间的样本数据的平均数为×(15×10+45×12+75×48+105×22+135×8)=×7680=76.8(分钟).
因为10+12<25<10+12+48,所以周学习党史时间的样本数据的第25百分位数在区间[60,90)内,
由60+30×≈61.9,可以估计周学习党史时间的样本数据的第25百分位数约为61.9.
因为10+12+48<75<10+12+48+22,所以周学习党史时间的样本数据的第75百分位数在区间[90,120)内,
由90+30×≈96.8,可以估计周学习党史时间的样本数据的第75百分位数约为96.8,
用样本估计总体,可知P的估计值为76.8,M的估计值约为61.9,N的估计值约为96.8.
变式 (1)C [解析] 估计此地区月用电量的第80百分位数为200+50×=240,故选C.
(2)解:①最近一周A口味面包的日销量按照从小到大的顺序排列为10,12,13,14,16,18,19.
因为7×60%=4.2,所以A口味面包的日销量的第60百分位数为16.
最近一周B口味面包的日销量按照从小到大的顺序排列为9,10,12,13,14,18,20,因为7×60%=4.2,
所以B口味面包的日销量的第60百分位数为14.
故最近一周A口味面包的日销量的第60百分位数大于B口味面包的日销量的第60百分位数.
②当n=14时,下一周A口味的面包可获利(14+12+14+10+14+14+13)×6-[(14-12)+(14-10)+(14-13)]×5=511(元);
当n=15时,下一周A口味的面包可获利(15+12+14+10+15+15+13)×6-[(15-12)+(15-14)+(15-10)+(15-13)]×5=509(元);
当n=16时,下一周A口味的面包可获利(16+12+14+10+16+16+13)×6-[(16-12)+(16-14)+(16-10)+(16-13)]×5=507(元).
因为511>509>507,所以应该选择n=14.
探究点四
例4 解:(1)由频率分布直方图得(0.16+0.30+0.40+0.50+0.30+0.16+a+a+a)×0.5=1,解得a=0.06.
由频率分布直方图得月均用水量在[0,3)内的频率为1-(0.16+0.06+0.06)×0.5=0.86.
∵计划在本市实行居民生活用水定额管理,即确定一个居民用水量标准m吨,使得86%的居民生活用水不超过这个标准,∴估计m=3.
(2)由频率分布直方图知,月均用水量在[0,2)内的频率为(0.06+0.16+0.30+0.40)×0.5=0.46,在[2,2.5)内的频率为0.50×0.5=0.25,
∴估计这组数据的50%分位数是2+×0.5=2.08.
变式1 解:由例2的频率分布直方图知,月均用水量在[0,1)内的频率为(0.06+0.16)×0.5=0.11,在[1,1.5)内的频率为0.3×0.5=0.15,∴估计月均用水量的15%分位数为1+×0.5≈1.133.
变式2 解:(1)由题意得0.1×(0.6+1.1+1.1+1.8+a+1.5+0.8+0.6+0.4)=1,
解得a=2.1,故估计该校有2.1×0.1×100%=21%的女大学生摄取的热量在此范围之内.
(2)在区间[1.4,1.9)内有100×0.1×(0.6+1.1+1.1+1.8+2.1)=67(个)数据,所以1.91是这100个样本数据的第70,71,72个数据,则第70,71个数据的平均数,和第71,72个数据的平均数均为1.91,同时,第69,70个数据的平均数,和第72,73个数据的平均数都不是1.91,所以当1.91是这100个样本数据的第k百分位数时,必有k=70或k=71,故k的值为70或71.