9.2.3总体集中趋势的估计课件(共21张PPT)

文档属性

名称 9.2.3总体集中趋势的估计课件(共21张PPT)
格式 pptx
文件大小 504.8KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-05-24 11:21:14

图片预览

文档简介

(共21张PPT)
总体集中趋势的估计
为了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律 . 但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的特征 .
例如,对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的总产量或平均每公顷的产量,而不是产量的分布;对于一个国家国民的身高情况,我们可能会更关注身高的平均数或中位数,而不是身高的分布;等等 .
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
1、众数:在一组数据中,出现次数最多的数据叫
做这一组数据的众数.
2、中位数: 将一组数据按大小依次排列,把处
在最中间位置的一个数据(或两个数据的平均
数)叫做这组数据的中位数.
3、平均数:一组数据的总和除以数据的个数所得
的值.
平均数、中位数、众数都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
例4 下面是通过抽样得到的100户居民的月均用水量数据(单位:t)
计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
解: 由样本平均数的定义,可得
即100户居民的月均用水量的平均数为8.79t.
将样本数据按从小到大排列,得第50个数和第51个数均为6.8,由中位数的定义,可得100户居民的月均用水量的中位数是6.8t.
因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民用户的月均用水量约为8.79t,其中位数约为6.8t.
思考? 小明用统计软件计算了100 户居民月用水量的平均数和中位数,但在录入数据时,不小心把一个数据7.7录成了77 . 请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较 . 哪个量的值变化更大?你能解释其中的原因吗?
通过简单的计算可以发现:平均数由8.79t变为9.483t,中位数没有变化,还是6.6t.
这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其它数据,所以不是任何一个样本数据的改变都会引起中位数的改变.
因此,与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.
探究!平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关,在下图
的分布形态中,平均数和中位数的大小存在什么关系?
一般地,对于一个单峰的频率分布直方图来说,如果直方图的形状是对称的,那么平均数与中位数应该大体上差不多;
探究!在下图的二种分布形态中,平均数和中位数的大小存在什么关系?
也就是说,和中位数相比,平均数总是在“长尾巴”那边.
如果直方图在右边“拖尾”,则平均数大于中位数;若直方图在左边“拖尾”,则中位数大于平均数 .
例5 某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.据统计,高一年级女生需要不同规格校服的频数如下表所示.
校服规格 155 160 165 170 175 合计
频数 39 64 167 90 26 386
如果用一个量来代表该校高一年级所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论用上表中的数据估计全国高一年级女生校服规格的合理性.
分析:虽然校服的规格是用数字表示的,但它们事实上是几种不同类别 . 对于这样的分类数据,用众数作为这组数据的代表比较合适 .
解:为了更直观地观察数据特征,我们用条形图来表示表中的数据 . 可以发现,选则校服规格为“165”的女生频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适.
由于全国各地的高一年级女生的身高存在一定差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理.
众数只利用了出现次数最多的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度 . 因此, 众数只能传递数据中的信息的很少的一部分,对极端值也不敏感.
众数体现了样本数据的最大集中点,但众数对其它数据信息的忽视使得无法客观地反映总体特征。
一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的 . 此时,通常假设它们在组内均匀分布 . 这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
探究!样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据 . 例如,我们在报纸、网络上获得的往往是已经整理好的统计表或统计图 . 这时该如何估计样本的平均数、中位数和众数?你能以图9 . 2 -1中频率分布直方图提供的信息为例,给出估计方法吗?
因为样本平均数可以表示为数据与它的频率的乘积之和.
每个小组的平均数可以用每个小矩形底边中点的横坐标近似代替.
所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
如图所示,可以测出图中每个小矩形的高度,于是平均数的近似值为:
这个结果与根据原始数据计算的样本平均数8.79相差不大.
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数 . 因此,在频率分布直方图中,中位数左边和右边的直方图面积应该相等.
由于 0.077×3=0.231,
因此中位数落在区间[4.2,7.2)内.
(0.077+0.107)×3=0.552
中位数落在区间[4.2,7.2)内.
0.077×3+0.107×(x-4.2)=0.5
设中位数是x ,由
因此,中位数约为6.71,这个结果与根据原始数据求得的中位数6.6很接近.
在频率分布直方图中,月均用水量在区间[4.2,7.2)内的居民最多,可以将这个区间的中点5.7作为众数的估计值.
众数常用在描述分类型数据中,在这个实际问题中,众数“5.7”让我们知道月均用水量在区间[4.2,7.2)内的居民最多 . 这个信息具有实际意义.
以上我们讨论了平均数、中位数和众数等特征量在刻画一组数据的集中趋势时的各自特点,并研究了用样本的特征量估计总体的特征量的方法 . 需要注意的是,这些特征量有时也会被利用而产生误导.
这句话是真实的,但它可能描述的是差异巨大的实际情况 .
例如,假设你到人力市场去找工作,有一个企业老板告诉你,“我们企业员工的年平均收入是20万元”,你该如何理解这句话?
例如,可能这个企业的工资水平普片较高,也就是员工年收入的中位数、众数和平均数差不多;
这句话是真实的,但它可能描述的是差异巨大的实际情况 . 例如,可能这个企业的工资水平普片较高,也就是员工年收入的中位数、众数和平均数差不多;
也可能是绝大多数员工年收入较低,而少数员工的年收入很高,甚至达到100万元,在这种情况下年收入的平均数比中位数大得多 .
尽管在后一种情况下,用中位数或众数比用平均数更合理些,但是这个企业的老板为了招聘员工,却用了平均数来回答有关工资待遇的问题.
所以,我们要强调“用数据说话”,但同时又要防止被数据误导,这就需要掌握更多的统计知识和方法.
三种数字特征的优缺点
特征数 优 点 缺 点
众数 体现了样本数据的最大集中点 无法客观反映总体特征
中位数 不受少数极端值的影响 不受少数极端值的影响有时也是缺点
平均数 与每一个数据有关,更能反映全体的信息. 受少数极端值的影响较大,使其在估计总体时的可靠性降低.
归纳小结
由样本频率分布直方图,分别估计总体的众数、中位数和平均数的方法:
(1)众数:最高矩形下端中点的横坐标.
(2)中位数:直方图面积平分线与横轴交点
的横坐标.
(3)平均数:每个小矩形的面积与小矩形底
边中点的横坐标的乘积之和.