(共17张PPT)
第九章 统计
9.2 用样本估计总体
9.2.2 总体百分位数的估计
一
二
三
学习目标
理解百分位数的概念及其简单应用
掌握求一组数据的百分位的基本步骤
通过学习和应用百分位数,重点培养数据分析素养、数学运算和数学建模素养
学习目标
复习回顾
前面我们用频率分布表、频率分布直方图描述了居民用户月均用水量的样本数据,通过对图表的观察与分析,得出了一些样本数据的频率分布规律,由此推测了该市全体居民用户月均用水量的分布情况,得出了“大部分居民用户的月均用水量集中在一个较低值区域”等推断.
接下来的问题是,如何利用这些信息,为政府决策服务呢?下面我们对此进行讨论.
新课导入
问题2 如果该市政府希望使80%的居民用户生活用水费支出不受影响,根据9.2.1节中100户居民用户的月均用水量数据,你能给市政府提出确定居民用户月均用水量标准的建议吗?
根据市政府的要求:确定居民用户月均用水量标准,要寻找一个数a,使全市居民用户月均用水量中不超过a的占80%,大于a的占20%.
下面我们通过样本数据对a的值进行估计.
(1)我们首先把100个样本数据按从小到大排序.
1.3 1.3 1.8 2.0 2.0 2.0 2.0 2.1 2.2 2.3 2.3 2.4 2.4 2.6 3.0 3.2 3.2 3.6 3.6 3.7 3.8 4.0 4.1 4.3 4.4 4.6 4.7 4.9 4.9 4.9 5.1 5.1 5.1 5.2 5.3 5.4 5.4 5.5 5.5 5.5 5.5 5.6 5.7 5.7 5.9 6.0 6.0 6.4 6.4 6.8 6.8 7.0 7.1 7.1 7.1 7.5 7.7 7.8 7.8 7.9 8.1 8.6 8.8 9.0 9.5 9.9 10.0 10.1 10.2 10.2 10.5 10.8 11.1 11.2 12.0 12.0 12.4 13.3 13.6 13.6 13.8 13.8 14.0 14.9 15.7 16.0 16.7 19.4 16.8 17.0 17.9 18.3 20.5 21.6 22.2 24.3 22.4 24.5 25.6 28.0
可以发现,区间(13.6,13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.
(2)由数据可得,第80个和第81个数据分别为13.6和13.8.
新知探究
称此数13.7为这组数据的第80百分位数或80%分位数
(3)一般地,我们取这两个数的平均数
根据样本数据的第80百分位数,我们可以估计总体数据的第80百分位数为13.7左右. 由于样本的取值规律与总体的取值规律之间会存在偏差,而在决策何題中,只要临界值近似为第80百分位数即可,因此为了实际中操作的方便,可以建议市政府把月均用水量标准定为14t,或者把年用水量标准定为168t
概念生成
百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
注意:求百分位数时,一定要将数据按照从小到大的顺序排列.
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步:按从小到大排列原始数据.
第2步:计算i=n×p%.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据
若i是整数,则第p百分位数是第i项与第(i+1)项数据的平均数.
我们在初中学过的中位数,相当于是第50百分位数.
跟踪练习
1.判断正误:
(1)若一组样本数据的10%分位数是23,则在这组数据中有10%的数据大于23.( )
(2)若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24.( )
(3)若一组样本数据各不相等,则其75%分位数大于25%分位数.( )
×
√
√
2.一个容量为20的样本,其数据按从小到大的顺序排列为:
1, 2, 2, 2, 5, 6, 6, 7, 8, 8, 9, 10, 13, 13, 14, 14, 17, 17, 18, 18,
则(1)该组数据的第75百分位数为_______,
(2)该组数据的第86百分位数为_______.
概念生成
四分位数
常见的分位数:第25百分位数,第50百分位数(中位数),第75百分位数.
这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
25%
第一四分位数或下四分位数
50%
75%
中位数
第三四分位数或上四分位数
第25百分位数也称为第一四分位数或下四分位数.
第75百分位数也称为第三四分位数或上四分位数.
像第1百分位数,第5百分位数,第95百分位数,第99百分位数也常用
巩固练习
课本P204
解:将100户居民的月均用水量按小到大的顺序排列如下:
1.3 1.3 1.8 2.0 2.0 2.0 2.0 2.1 2.2 2.3 2.3 2.4 2.4 2.6 3.0 3.2 3.2 3.6 3.6 3.7 3.8 4.0 4.1 4.3 4.4 4.6 4.7 4.9 4.9 4.9 5.1 5.1 5.1 5.2 5.3 5.4 5.4 5.5 5.5 5.5 5.5 5.6 5.7 5.7 5.9 6.0 6.0 6.4 6.4 6.8 6.8 7.0 7.1 7.1 7.1 7.5 7.7 7.8 7.8 7.9 8.1 8.6 8.8 9.0 9.5 9.9 10.0 10.1 10.2 10.2 10.5 10.8 11.1 11.2 12.0 12.0 12.4 13.3 13.6 13.6 13.8 13.8 14.0 14.9 15.7 16.0 16.7 16.8 17.0 17.9 18.3 19.4 20.5 21.6 22.2 22.4 24.3 24.5 25.6 28.0
由于100×60%=60.
∴第60百分位数为第60个和第61个数据的平均数,即
因此居民用户月均用水量标准应定为8.0合适.
1. 在居民用户月均用水量标准制定的问题中,根据教科书中的调查数据,如果要让60%的居民不超出标准,居民用户月均用水量标准定为多少合适
典例解析
例2 根据9.1.2节问题3中27名女生的样本数据,估计树人中学高一年级女生的第25,50,75百分位数.
163.0 164.0 161.0 157.0 162.0 165.0 158.0 155.0 164.0
162.5 154.0 154.0 164.0 149.0 159.0 161.0 170.0 171.0
155.0 148.0 172.0 162.5 158.0 155.5 157.0 163.0 172.0
解:
把27名女生的样本数据按从小到大排序,可得
148.0 149.0 154.0 154.0 155.0 155.0 155.5 157.0 157.0
158.0 158.0 159.0 161.0 161.0 162.0 162.5 162.5 163.0
163.0 164.0 164.0 165.0 170.0 171.0 172.0 172.0 172.0
由25%×27=6.75,50%×27=13.5,75%×27=20.25,可知
样本数据的第25,50,75百分位数为第7,14,21项数据,分别为155.5,161,164.
据此估计树人中学高一年级女生的第25,50,75百分位数分别约为155.5,161和164.
解:把23名男生的样本数据按从小到大排序,结果如下:
164.0 165.0 165.0 166.0 167.0 168.0 168.0 168.0 170.0 170.0 170.0 172.0
172.0 172.0 173.0 173.0 173.0 173.0 174.0 175.0 175.0 175.0 176.0
由23×25%=5.75,23×50%=11.5,23×75%=17.25,可知样本数据的第25,50,75百分位数为第6,12,18项数据,分别为168.0,172.0,173.0.
据此可以估计树人中学高一年级男生的第25,50,75百分位数分别约为168.0,172.0,173.0.
通过增加样本量,可以减少估计的误差.
2. 根据9.1.2节问题3中男生的样本数据,请你估计树人中学高一年级男生的第25,50,75百分位数. 如果要减少估计的误差,你觉得应该怎么做
巩固练习
课本P204
典例解析
例3 根据下列图表,估计月均用水量的样本数据的80%和95%分位数.
分析:有些情况下,我们只能获得整理好的统计表或统计图与原始数据相比,它们损失了一些信息。例如由上表中可以知道在[16.2,19.2)内有5个数据,但不知道这5个数据具体是多少.此时,我们通常把它们看成均匀地分布在此区间上.
解:
由频率分布表可知,月均用水量在13.2t以下的居民用户所占比例为
在16.2t以下的居民用户所占比例为
∴80%分位数一定位于[13.2,16.2)内.由
可以估计月均用水量的样本数据的80%分位数约为14.2
分组 频数 频率
[1.2,4.2) 23 0.23
[4.2,7.2) 32 0.32
[7.2,10.2) 13 0.13
[10.2,13.2) 9 0.09
[13.2,16.2) 9 0.09
[16.2,19.2) 5 0.05
[19.2,22.2) 3 0.03
[22.2,25.2) 4 0.04
[25.2,28.2] 2 0.02
合计 100 1.00
类似地,由
可以估计月均用水量的样本数据的95%分位数约为22.95
典例解析
典例解析
变式 根据下图估计月均用水量的样本数据的80%和95%分位数.
先算各组的频率,解题步骤如上
月平均用水量/t
0.12
0.1
0.08
0.06
0.04
0.02
0
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
0.077
频率/组距
设80%分位数为m,则
0.77+(m-13.2)×0.030=0.80,解得
m=14.2.
设95%分位数为n,则
0.94+(n-22.2)×0.013=0.95,解得
n=22.97.
0.32
0.13
0.09
0.09
0.05
0.03
0.04
0.23
0.02
根据某地区气象局发布的气象数据,未来十天内该地区每天的最高温
度(单位: )分别为31,29,24,27,26,25,24,26,26,23,则这
组数据的第40百分位数为( )
C
A. 27 B. 26.5 C. 25.5 D. 25
[解析] 先将这些数据按照从小到大进行排序,
可得23,24,24,25,26,26,26,27,29,31,
又 ,
所以该组数据的第40百分位数为排序后的第4个数和第5个数的平均数,
即 ,故选C.
巩固练习
某市举行中学生诗词大赛,分初赛和复赛两个阶段进行.规定:初赛成绩大于90分的具有参加复赛的资格.
某校有800名学生参加了初赛,所有
学生的成绩(单位:分)均在区间[30,150]内,其频率分布直方图如图.估计初赛成绩的第80百分位数.
解 由题图得(0.0025+0.0075+0.0075+a+0.0125+0.0050)×20=1,
a=0.0150
初赛成绩在110分以下的频率为(0.0025+0.0075+0.0075+0.0150)×20=0.65
初赛成绩在130分以下的频率为0.65+0.0125×20=0.90
初赛成绩的第80百分位数一定在[110,130]内.
由 ,可估计初赛成绩的第80百分位数是122.
巩固练习
课堂小结
本节课你学会了哪些主要内容?
①按从小到大排列原始数据.
②计算i=n×p%.
③若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;
若i是整数,则第p百分位数是第i项与第(i+1)项数据的平均数.
2.用原始数据求百分位数
3.用频率分布表、频率分布直方图估算百分位数
1.百分位数定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.