(共19张PPT)
9.2.3 总体集中趋势的估计
1.能利用频率分布直方图估计总体的众数、中位数、平均数
2.能用样本的数字特征估计总体的数字特征,并结合实际对问题作出合理判断
问题:以下是一支足球队运动员的身高:
183cm 182cm 178cm 182cm 183cm 177cm
185cm 170cm 174cm 176cm 183cm
运动员身高的平均数、中位数、众数是什么?这些统计量刻画了数据的什么特点?
平均数、中位数、众数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.
知识点:用平均数、中位数、众数表示数据的集中趋势
有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的特征,便需要选择恰当的样本数字特征估计总体的集中趋势.
例1:利用100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
解:由样本平均数的定义,可得
即100户居民的月均用水量的平均数为8.79t.
因为数据是抽自全市居民户的简单随机样本,据此估计全市居民的月均用水量约为8.79t,其中位数约为6.8t.
由中位数的定义,可得
即100户居民的月均用水量的中位数为6.8t.
平均数由8.79t变为9.481t,中位数没有变化,还是6.8t
思考:用统计软件计算了100 户居民月用水量的平均数和中位数,但录入数据时把一个数据7.7录成了77. 其产生的平均数和中位数有何变化?原因是什么?
样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;
中位数只利用了样本数据中间位置的一个或两个值,所以不是任何一个样本数据的改变都会引起中位数的改变.
归纳总结
与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.
问题:平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在下图的三种分布形态中,平均数和中位数的大小存在什么关系?
(1)直方图的形状是对称的,平均数和中位数应该大体上差不多
和中位数相比,平均数总是在“长尾巴”那边.
(2)直方图在右边“拖尾”,平均数大于中位数
(3)直方图在左边“拖尾”,那么平均数小于中位数
如果一组数据的平均数和中位数相差较大,那么可以推断这组数据一定是不对称的.
如果样本平均数大于样本中位数,说明数据中存在较大的极端值;反之,说明数据中不存在较大的极端值.
例2:某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.据统计,高一年级女生需要不同规格校服的频数如下表所示
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?
校服规格 155 160 165 170 175 合计
频数 39 64 167 90 26 386
试讨论用上表中的数据估计全国高一年级女生校服规格的合理性.
解:为了更直观地观察数据的特征,用条形图表示表中的数据.
由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理.
可以发现,选择校服规格为“165”的女生的频数最高,
所以用众数165作为该校高一年级女生校服的规格比较合适.
归纳总结
众数只利用了出现次数最多的那个值的信息.对极端值也不敏感.
对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;
对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
思考:如何由频率分布直方图估计样本的平均数、中位数和众数?
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的.此时,通常假设它们在组内均匀分布.
样本平均数可以表示为数据与它的频率的乘积之和.所以样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
与根据原始数据计算的样本平均数8.79相差不大.
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
与根据原始数据求得的中位数6.6相差不大.
在频率分布直方图中,中位数左边和右边的直方图的面积相等.
因此中位数落在区间[4.2,7.2)内
设中位数是x,则
在频率分布直方图中,月均用水量在区间[4.2,7.2)内的居民最多,可以将这个区间的中点5.7作为众数的估计值.
众数常用在描述分类型数据中,众数5.7让我们知道月均用水量在区间[4.2,7.2)的居民用户最多.
即
归纳总结
由频率分布直方图估计总体的集中趋势
众数:最高矩形的中点
中位数:中位数左边的直方图面积和右边的直方图面积相等
平均数:每个小矩形底边中点的横坐标与小矩形的面积的乘积之和
要点概括整合
总体集中趋势的估计
统计量
平均数、中位数、众数的区别与联系
平均数、中位数、众数在频率分布直方图中的计算
平均数、中位数、众数