(共27张PPT)
9.2.3总体集中趋势的估计
复习导入
求百分位数:
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:
新知探究
问题1:平均数、中位数、众数是什么?
(2)中位数:
(1)众数:
(3)平均数:
一组数据中出现次数最多的数.
一组数据按大小依次排列后处在最中间位置的数(或最中间两个数据的平均数).
一组数据的算术平均数,即:
下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势.
新知探究
例4:利用节中100户居民用户的月均用水量的调查数据, 计算样本数据的平均数和中位数, 并据此估计全市居民用户月均用水量的平均数和中位数.
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0 2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5 2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9 2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.4 3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0 22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9 5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7 5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3 5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8 7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
解:①根据已知100户居民用户月均用水量的数据,可得样本平均数为
即100户居民的月均用水量的平均数为8. 79 t.
新知探究
解:②将样本数据按从小到大排序,结果如下:
1.3 1.3 1.8 2.0 2.0 2.0 2.0 2.1 2.2 2.3 2.3 2.4 2.4 2.6 3.0 3.2
3.2 3.6 3.6 3.7 3.8 4.0 4.1 4.3 4.4 4.6 4.7 4.9 4.9 4.9 5.1 5.1
5.1 5.2 5.3 5.4 5.4 5.5 5.5 5.5 5.5 5.6 5.7 5.7 5.9 6.0 6.0 6.4
6.4 6.8 6.8 7.0 7.1 7.1 7.1 7.5 7.7 7.8 7.8 7.9 8.1 8.6 8.8 9.0
9.5 9.9 10.0 10.1 10.2 10.2 10.5 10.8 11.1 11.2 12.0 12.0 12.4 13.3 13.6 13.6
13.8 13.8 14.0 14.9 15.7 16.0 16.7 16.8 17.0 17.9 18.3 19.4 20.5 21.6 22.2 22.4
24.3 24.5 25.6 28.0
得第50个数和第51个数均为6.8,由中位数的定义,可得:
100户居民的月均用水量的中位数是6.8.
新知探究
追问:假设某个居民小区有2000户,你能估计该小区的月用水总量吗?
根据上述思考可得:全市居民用户的月均用水量约为,则2000户居民的月用水总量为.
思考:小明用统计软件计算100户居民用水量的平均数和中位数.但在录入数据时,不小心把一个数据7.7录成了77.请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较,哪个量的值变化更大
平均数:8.79 t
9.483 t
中位数:6.8 t
6.8 t
新知探究
追问:你能解释平均数变化更大的原因吗?如果有人说“我们企业员工的年平均收入为20万元”,说明公司待遇好,可信吗?
样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;
中位数只利用了样本数据中间位置的一个或两个值,所以不是任何一个样本数据的改变都会引起中位数的改变
与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.
新知探究
练习1:给一位学生在计算个数据的平均数时,错把输成,那么由此求出的平均数与实际平均数的差为( )
. . . .
【答案】:
变式1-1:某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为165,那么由此求出的平均数与实际平均数的差是 .
【答案】:
练习巩固
变式1-2:某学习小组在一次数学试验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各1人,则该学习小组成绩的平均数、众数、中位数分别是( ).
.85分、85分、85分 .87分、85分、86分
.87分、85分、85分 .87分、85分、90分
【答案】:
变式1-3:某校在一次学生演讲比赛中,共有7个评委,学生最后得分为去掉一个最高分和一个最低分的平均分.某学生所得分数为9.6,9.4,9.6,9.7,9.7,9.5,9.6,这组数据的众数是______,该学生最后得分为______.
【答案】:
新知探究
变式1-4:某校举行演讲比赛,10位评委对两位选手的评分如下:
甲:7.5 7.5 7.8 7.8 8.0 8.0 8.2 8.3 8.4 9.9
乙:7.5 7.8 7.8 7.8 8.0 8.0 8.3 8.3 8.5 8.5
选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数.那么,这两个选手的最后得分是多少?
去掉最低分和最高分的评分机制更好,可规避个别评委对选手得分的影响.
追问1:若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?
追问2:你认为哪种评分办法更好?为什么?
,
乙比甲的得分高
,
甲比乙的得分高
新知探究
探究1:平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关。在下图的三种分布形态中,平均数和中位数的大小存在什么关系?
(1)“单峰”,直方图形状对称,平均数≈中位数
和中位数相比,平均数总是在“长尾巴”那边.
(2)直方图在右边“拖尾”,平均数>中位数
(3)直方图在左边“拖尾”,平均数<中位数
新知探究
如果数据平均数和中位数相差较大,则可推断这组数据一定是不对称的.
如果样本平均数大于样本中位数,说明数据中存在较大的极端值;
如果样本平均数小于样本中位数,说明数据中存在较小的极端值;
练习巩固
例5:某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.根据统计,高一年级女生需要不同规格校服的频数如下表所示:
校服规格 155 160 165 170 175 合计
频数 39 64 167 90 26 386
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论上表数据估计全国高一年级女生校服规格的合理性.
分析:虽然校服规格是用数字表示的,但它们事实上是几种不同的类别,对于这样的分类数据,用众数作为这组数据的代表比较合适.
练习巩固
解:为了更直观地观察数据的特征,我们用条形图来表示表中的数据(下图),可以发现,选择校服规格为“165”的女生的频数最多,所以众数165作为该校高一年级女生校服的规格比较合适。
由于全国各地的高一年级的女生身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生校服的规格不合理.
新知探究
思考:中位数、平均数和众数各有什么优缺点呢?
名称 优点 缺点
众数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感.
中位数 不受少数几个极端值数据(即排序靠前或者靠后的数据)的影响. 对极端值不敏感.
平均数 与中位数相比,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变,数据越“离群”,对平均数的影响越大.
注:一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
新知探究
探究2:样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据.
如何由频率分布表或频率分布直方图估计样本的平均数、中位数和众数?
你能以图9.2-1中频率分布直方图提供的信息为例,给出估计方法吗
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的.此时,通常假设它们在组内均匀分布.
新知探究
①平均数:样本平均数可表示为数据与它的频率的乘积之和
于是平均数的近似值为
这个结果与根据原始数据计算的样本平均数8.79相差不大.
所以频率分布直方图中,样本平均数可用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
新知探究
②中位数:中位数左边的直方图面积和右边的直方图面积相等
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
∴中位数落在区间内
设中位数是,则
这个结果与根据原始数据求得的中位数6.8相差不大.
新知探究
③众数:最高矩形的中点
在频率分布直方图中,月均用水量在区间[4.2,7.2)内的居民最多,可以将这个区间的中点5.7作为众数的估计值.
于是众数的近似值为
众数常用在描述分类型数据中,在这个实际问题中,众数“5.7”让我们知道月均用水量在区间内的居民用户最多.这个信息具有实际意义.
新知探究
总结:
由频率分布直方图估计总体的集中趋势——找众数、中位数、平均数
众数:最高矩形的中点
中位数:中位数左边的直方图面积和右边的直方图面积相等
平均数:每个小矩形底边中点的横坐标与小矩形的面积的乘积之和
注:频率分布直方图损失了些样本数据,得到的是一估计值,且所得估值与数据分组有关,有随机性。
练习巩固
辨析1:判断正误.
1.一组数据中的平均数和中位数都不一定是原始数据中的数.( )
2.样本的平均数是频率分布直方图中最高长方形的中点对应的数据.( )
3.若改变一组数据中其中一个数,则这组数据平均数、中位数、众数都会发生改变.( )
【答案】:√,×,×.
辨析2:抽样调查了某班30位女生所穿鞋子的尺码(单位:码),数据如下.在这组数据的平均数、中位数和众数中,鞋厂最感兴趣的是_______
码号(码) 33 34 35 36 37
人数(人) 7 6 15 1 1
【答案】:众数
练习巩固
练习2:某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
(3)求这次测试数学成绩的平均分.
解:(1)由图可知,
这次测验数学成绩的众数为:
(2)∵前3组的频率为0.4,前4组的频率为0.7, ∴中位数一定在内.
(法一)设中位数为,则:解得
(法二)即这次测验数学成绩的中位数为73.33.
练习巩固
练习2:某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(3)求这次测试数学成绩的平均分.
解:(3)
练习巩固
变式2-1:某中学举行电脑知识竞赛,现将高一参赛学生的成绩整理后分成五组,绘制成频率分布直方图如图所示.已知图中从左到右的第一、二、三、四、五小组的频率依次是
(1)估计高一参赛学生的成绩的众数、中位数;
(2)估计高一参赛学生的平均成绩.
解:(1) 众数为65;中位数为60+5=65.
(2)由题图,估计高一参赛学生的平均成绩为
练习巩固
变式2-2:从高三抽出名学生参加数学竞赛,由成绩得到如图的频率分布直方图.
由于一些数据丢失,试利用频率分布直方图求:
(1) 这名学生成绩的众数与中位数;
(2) 这名学生的平均成绩.
解:(1)由直方图可知,众数为75分.
中位数约为分.
(2)这名学生的平均成绩为
小结
名称 优点 缺点
众数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感.
中位数 不受少数几个极端值数据(即排序靠前或者靠后的数据)的影响. 对极端值不敏感.
平均数 与中位数相比,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变,数据越“离群”,对平均数的影响越大.
众数、中位数、平均数的比较
小结
由频率分布直方图估计总体的集中趋势——找众数、中位数、平均数
众数:最高矩形的中点
中位数:中位数左边的直方图面积和右边的直方图面积相等
平均数:每个小矩形底边中点的横坐标与小矩形的面积的乘积之和
注:频率分布直方图的性质
(1)小长方形的面积 (2)各小长方形的面积之和等于1.
(3)小长方形的高,所有小长方形的高的和为.