(共22张PPT)
第一章 统计案例
9.2.3
总体集中趋势的估计
一、众数、中位数、平均数的概念
2.中位数:将一组数据按大小依次排列后处在最中间位置的一个数据(或最中间两个数据的平均数)
1.众数:在一组数据中,出现次数最多的数据
3.平均数:反映所有数据的平均水平
1、求下列各组数据的众数
(1)1 ,2,3,3,3,5,5,8,8,8,9,9
众数是:3和8
(2)1 ,2,3,3,3,5,5,8,8,9,9
众数是:3
2、求下列各组数据的中位数
(1)1 ,2,3,3,3,4,6,8,8,8,9,9
(2)1 ,2,3,3,3,4,8,8,8,9,9
中位数是:5
中位数是:4
学以致用:
例4.利用9.2.1节中100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
解:
思考:小明用统计软件计算了100 户居民月用水量的平均数和中位数,但录入数据时把一个数据7.7录成了77.请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较.哪个量的值变化更大?你能解释其中的原因吗?
解:通过计算可以发现,平均数由8.79t变为9.483t,中位数没有变化,还是6.6t.
这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变.因此,与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感。
平均数和中位数都描述了数据的集中趋势它们的大小关系和数据分布的形态有关
(1)平均数和中位数应该大体上差不多;
(2)平均数大于中位数;(右边”拖尾”)
(3)平均数小于中位数.(左边”拖尾”)
在直方图中,平均数总在“长尾巴”那边
例5.某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.据统计,高一年级女生需要不同规格校服的频数如下表所示
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适 试讨论用上表中的数据估计全国高一年级女生校服规格的合理性.
解:为了更直观地观察数据的特征,我们用条形图表示表中的数据(如下图).
由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理.
校服规格 155 160 165 170 175 合计
频数 39 64 167 90 26 386
可以发现,选择校服规格为“165”的女生的频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适.
引入新知:
众数只利用了出现次数最多的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度.因此,众数只能传递数据中的信息的很少的一部分,对极端值也不敏感.
一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
二、由频率分布直方图估计平均数、众数、中位数
(1)平均数的估计
月均用水量/t
频率/组距
0.02
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0
0.04
0.06
0.08
0.1
0.12
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
样本平均数可以表示为数据与它的频率的乘积之和.所以样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积相等.
因此中位数落在区间 内。
设中位数是 ,由
这个结果与根据原始数据求得的中位数6.6相差不大.
(2)中位数的估计
6.71
在频率分布直方图中,月均用水量在区间 内的居民最多,可以将这个区间的中点5.7作为众数的估计值.
众数常用在描述分类型数据中,众数5.7让我们知道月均用水量在区间 的居民用户最多.这个信息具有实际意义。
(3)众数的估计
人员 经理 管理人员 高级技工 工人 学徒 合计
日工资 2200 250 220 200 100
人数 1 6 5 10 1 23
合计 2200 1500 1100 2000 100 6900
(1)指出这个问题中日工资的众数、中位数、平均数
(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?
解:(1)众数为200,中位数为220,平均数为300.
(2)因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
把一组数据按大小顺序排列,处在最中间的一个数据(或两个数据的平均数);从频率分布直方图中估计中位数左右两边的直方图的面积相等.
一组数据中重复出现次数最多的数;从频率分布直方图中估计众数是最高的矩形的中点.
1.众数:
2.中位数:
三、课堂小结
3.平均数:
如果有n个数据 那么这n个数的平均数
平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中的横坐标之和.