(共15张PPT)
9.2.2总体百分数的估计
前面我们用频率分布表、频率分布直方图描述了居民用户月均用水量的样本数据,通过对图表的观察与分析,得出了一些样本数据的频率分布规律,并由此推测了该市全体居民用户月均用水量的分布情况,得出了“大部分居民用户的月均用水量集中在一个较低值区域”等推断,接下来的问题是,如何利用这些信息,为政府决策服务呢?下面我们对此进行讨论.
创设情境
通过简单随机抽样,获得某市100户居民用户的月均用水量数据(单位:t)
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0 2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5 2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9 2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4 3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0 22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9 5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7 5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3 5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8 7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
我们可以发现,区间(13.6,13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.
称13.7为这组数据的第80百分位数或80%分位数
学习新知
思考1:你认为14t这个标准一定能够保证80%的居民用水不超标吗?如果不一定,那么哪些环节可能会导致结论的差别
根据样本数据的第80百分位数,我们可以估计总体数据的第80百分位数为13.7左右.由于样本的取值规律与总体的取值规律之间会存在偏差,而在决策问题中,只要临界值近似为第80百分位数即可,因此为了实际中操作的方便,可以建议市政府把月均用水量标准定为14t,或者把年用水量标准定为168t.
思考2:如果要让60%的居民不超出标准,居民用户月均用水量标准定为多少合适?
判断正误
1.若一组样本数据的10%分位数是23,则在这组数据中有10%的数据大于23.( )
2.若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24.( )
学习新知
×
√
(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值。百分位数也称为分位数。
(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值。百分位数也称为分位数。
(2)计算步骤:计算一组n个数据的第p百分位数的步骤:
第1步,按_____________排列原始数据。
第2步,计算i=_________。
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第_______项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的_______。
从小到大
n×p%
j
平均数
学习新知
学习新知
3.概念拓展
中位数,相当于是第50百分位数.
常用的分位数还有第25百分位数,第75百分位数.
这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,
第75百分位数也称为第三四分位数或上四分位数等,
第1百分位数第5百分位数,第95百分位数和第99百分位数在统计中也经常被使用.
典型例题
163.0 164.0 161.0 157.0 162.0 165.0 158.0 155.0 164.0 162.5 154.0 154.0 164.0 149.0 159.0 161.0 170.0 171.0 155.0 148.0 172.0 162.5 158.0 155.5 157.0 163.0 172.0
例2根据下面女生的身高的样本数据,估计树人中学高一年级女生的第25,50,75百分位数.
解:把27名女生的样本数据按从小到大排序,可得
148.0 149.0 154.0 154.0 155.0 155.0 155.5 157.0 157.0 158.0 158.0 159.0 161.0 161.0 162.0 162.5 162.5 163.0 163.0 164.0 164.0 164.0 165.0 170.0 171.0 172.0 172.0
由25%×27=6.75, 50%×27=13.5, 75%×27=20.25,
可知样本数据的第25,50,75百分位数为第7, 14,21项数据,分别为155.5,161,164.
据此可以估计树人中学高一年级女生的第25,50,75百分位数分别约为155.5,161和164.
典型例题
例3根据下表或下图,估计月均用水量的样本数据的80%和95%分位数.
分析:统计表或统计图,与原始数据相比,它们损失了一些信息,例如由上表中可以知道在[16.2,19.2)内有5个数据,但不知道这5个数据具体是多少.此时,我们通常把它们看成均匀地分布在此区间上.
解:由表可知,月均用水量在13.2t以下的居民用户所占比例为23%+32%+13%+9%=77%.
在16.2t以下的居民用户所占的比例为77%+9%=86%.
因此,80%分位数一定位于[13.2,16.2)内.
由13.2+3× =14.2, 可以估计月均用水量的样本
数据的80%分位数约为14.2.
类似地,由22.2+3× =22.95,
可以估计月均用水量的样本数据的95%分位数约为22.95.
计算方法和计算中位数是一样的
1.数据1,3,8,5的中位数是 ,第50百分位数是 ,第75百分位数是 .
2.判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
①任何一组数据的第50百分位数与中位数的值是相同的.( )
②第25百分位数也可以称为第一四分位数或上四分位数.( )
当堂小测
4
4
6.5
√
×
3.某车间12名工人一天生产某产品(单位:kg)的数量分别为13.8,13,13.5,15.7,13.6,14.8,14,14.6,15,15.2,15.8,15.4 ,则所给数据的第25,50,75百分位数分别
是 .
13.7 14.7 15.3
4为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,你能估计一下60株树木的第50百分位数和第75百分位数吗
解:由题意知分别落在各区间上的频数为
在[80,90)上有60×0.15=9,
在[90,100)上有60×0.25=15,
在[100,110)上有60×0.3=18,
在[110,120)上有60×0.2=12,
在[120,130]上有60×0.1=6.
从以上数据可知第50百分位数一定落在区间[100,110)上,
当堂小测
综上可知,第50百分位数和第75百分位数分别估计为103.3 cm,112.5 cm.
1.通过学习和应用百分位数,重点培养数据分析素养、数学运算和数学建模素养.
2.求一组数据的百分位数时,掌握其步骤:①按照从小到大排列原始数据;②计算i=n×p%;③若i不是整数,大于i的最小整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
小 结
课后作业
分层练习:9.2.2总体百分数的估计