(共20张PPT)
人教版高中数学必修第2册
第九章 统计
9.2.3总体集中趋势的估计
授课:张丹老师
[慕联教育同步课程导学篇]
课程编号:TS2111010302RB2090203ZD(A)
学习目标
理解中位数、平均数以及众数的含义,知道它们分别适合描述集中趋势的数据类型.
1
1
理解中位数、平均数以及众数在频率分布直方图中描述的数据信息.
2
2
为了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律. 但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的特征.
例如,对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的总产量或平均每公顷的产量,而不是产量的分布;对于一个国家国民的身高情况,我们可能会更关注身高的平均数或中位数,而不是身高的分布;等等.
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置"的量,它们从不同角度刻画了一组数据的集中趋势.
下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势.
例4 100户居民用户的月均用水量调查数据(单位:t):
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5. 1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5. 3 7.8 8. 1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
因为数据是抽自全市居民户的简单随机样本,所以我们 可以据此估计全市居民用户的月均用水量约为8.79 t,
其中位数约为6.6 t.
即100户居民的月均用水量的平均数为8. 79 t.
将样本数据按从小到大排序,得第50个数和第51个数分别为6.4, 6.8,由中位数的定义,可得(6.4+6.8)÷2=6.6
解:根据100户居民用户月均用水量的数据,由样本平均数的定义,可得
即100户居民的月均用水量的中位数是6. 6 t.
思考:小明用统计软件计算了 100户居民用水量的平均数和中位数. 但在录入数据时,不小心把一个数据7.7录成了77. 请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较. 哪个量的值变化更大?你能解释其中的原因吗?
通过简单计算可以发现,平均数由原来的8.79t变为9.483t,中位数没有变化,还是6.6t.
这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变. 因此,与中位数比较,平均数反映出样本数据中的
更多信息,对样本中的极端值更加敏感.
探究:平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关. 在下图的三种分布形态中,平均数和中位数的大小存在什么关系?
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图(1)),那么平均数和中位数应该大体上差不多;
平均数、中位数
(1)
中位数 平均数
(2)
平均数、中位数
(1)
平均数 中位数
(3)
如果直方图在右边“拖尾”(图(2)),那么平均数大于中位数;
如果直方图在左边“拖尾”(图(3)),那么平均数小于中位数.
也就是说,和中位数相比,平均数总是在“长尾巴”那边.
中位数 平均数
(2)
平均数 中位数
(3)
例5 某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格. 据统计,高一年级女生需要不同规格校服的频数如表所示.
分析:虽然校服规格是用数字表示的,但它们事实上是几种不同的类别. 对于这样的分类数据,用众数作为这组数据的代表比较合适.
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论用表中的数据估计全国高一年级女生校服规格的合理性.
校服规格 155 160 165 170 175 合计
频数 39 64 167 90 26 386
解:为了更直观地观察数据的特征,我们用条形图来表示表中的数据(如图).
可以发现,选择校服规格为“165”的女生的频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适.
由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理.
频数
200
150
100
50
0
155
160
165
170
175
校服规格
众数只利用了出现次数最多的那个值的信息. 众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度. 因此,众数只能传递数据中的信息的很少 一部分,对极端值也不敏感.
一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;
而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
探究:样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据. 例如,我们在报纸、网络上获得的往往是已经整理好的统计表或统计图. 这时该如何估计样本的平均数、中位数和众数?你能以图9.2-1中频率分布直方图提供的信息为例,给出估计方法吗?
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的. 此时,通常假设它们在组内均匀分布. 这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
因为样本平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中, 样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
如图所示,可以测出图中每个小矩形的高度,于是平均数的近似值为
这个结果与根据原始数据计算的样本平均数8.79相差不大.
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数. 因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
由于0. 077×3=0. 231, (0.077+0.107)×3=0.552.
因此,中位数约为6.71,如图所示.
这个结果与根据原始数据求得的中位数6.6相差不大.
因此中位数落在区间[4.2, 7.2)内.
设中位数为 ,由
可得
在频率分布直方图9.2-1中,月均用水量在区间[4.2, 7.2)内的居民最多,可以将这个区间的中点5. 7作为众数的估计值,如图所示.
众数常用在描述分类型数据 中,在这个实际问题中,众数“5.7”让我们知道月均用水量在区间[4.2, 7.2)内的居民用户最多.这个信息具有实际意义.
以上我们讨论了平均数、中位数和众数等特征量在刻画一组数据的集中趋势时的各自 特点,并研究了用样本的特征量估计总体的特征量的方法.
需要注意的是,这些特征量有时也会被利用而产生误导.例如,假设你到人力市场去找工作,有一个企业老板告诉你, “我们企业员工的年平均收入是20万元”,你该如何理解这句话?
这句话是真实的,但它可能描述的是差异巨大的实际情况.
例如,可能这个企业的工 资水平普遍较高,也就是员工年收入的中位数、众数与平均数差不多;也可能是绝大多数 员工的年收入较低(如大多数是5万元左右),而少数员工的年收入很高,甚至达到100 万元,在这种情况下年收入的平均数就比中位数大得多.
尽管在后一种情况下,用中位数或众数比用平均数更合理些,但这个企业的老板为了招揽员工,却用了平均数.
所以,我们要强调“用数据说话",但同时又要防止被数据误导,这就需要掌握更多的统计知识和方法.
课堂小结
2
1
1
对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
在频率分布直方图中,假设它们在组内均匀分布.
以获得样本的平均数、中位数和众数的近似估计,
进而估计总体的平均数、中位数和众数.
慕联提示
亲爱的同学,课后请做一下习题测试,假如达到90分以上,就说明你已经很好的掌握了这节课的内容,有关情况将记录在你的学习记录上,亲爱的同学再见!杭州慕联教育科技有限公司(www.moocun.com)
人教版数学高中必修二
9.2.3总体集中趋势的估计
1.下列判断正确的是( )
A.样本平均数一定小于总体平均数
B.样本平均数一定大于总体平均数
C.样本平均数一定等于总体平均数
D.样本容量越大,样本平均数越接近总体平均数
2.在某次考试中,10名同学得分如下:84,77,84,83,68,78,70,85,79,95.则这一组数据的众数和中位数分别为( )
A.84,68
B.84,78
C.84,81
D.78,81
3.在某项体育比赛中,七位裁判为一选手打出的分数如下:
90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的平均数为( )
A.92.5
B.92
C.93
D.93.5
某小区广场上有一群市民正在进行晨练,市民的年龄如下(单位:岁): 13,13,14,15,15,15,16,17,17;这群市民年龄的平均数、中位数和众数分别是( )岁
A.15,15,15
B.15,16,15
C.15,15,16
D.16,15,15
5.现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
则高一参赛学生的成绩的众数、中位数分别是( )
A.66,65
B.66,66
C.65,66
D.65,65
6.现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
则高一参赛学生的平均成绩是( )
A.65
B.66
C.67
D.68
7.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
则这次测试数学成绩的中位数是( )
A.70
B.73.3
C.75
D.80
8.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
则这次测试数学成绩的平均分是( )
A.72
B.69
C.68
D.75
9.某校100名学生的数学测试成绩的频率分布直方图如图所示,分数不低于a即为优秀,如果优秀的人数为20,则a的估计值是( )
A.130
B.140
C.133
D.137
10.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为mo,平均值为 ,则( )
me=mo=
B.me=mo<
me<mo<
D.mo<me<
答案解析:
D
解析:样本的平均数可能大于总体的平均数,也可能小于总体的平均数,也可能等于总体的平均数,因此,A、B、C都有可能正确,也有可能是错误的,但是当样本的容量越大时,样本的平均数越接近总体的平均数,因此D正确.
故选:D.
C
解析:这10名同学得分从小到大排列:
68,70,77,78,79,83,84,84,85,95.
众数是84,中位数是中位数为中间两数的平均数,即(79+83)÷2=81.故选:C.
3. B
解析:去掉一个最高分95与一个最低分89后,所得的5个数分别为90,90,93,94,93,所以===92.
故选:B.
4. A
解析:这群市民年龄的平均数为
=15(岁),中位数为15岁,众数为15岁.
故选:A.
D
解析:用频率分布直方图中最高矩形所在的区间的中点值作为众数的近似值,得众数为65,又因为第一个小矩形的面积为0.3,所以设第二个小矩形底边的一部分长为x,则x×0.04=0.2,得x=5,所以中位数为60+5=65.
故选:D.
6. C
解析:依题意,平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,所以平均成绩约为67.
故选:C.
7. B
解析:由图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
故选:B.
8. A
解析:由图知这次数学成绩的平均分为:
×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
故选:A.
9. C
解析:本题考查频率分布直方图.由已知可以判断a∈(130,140),所以[(140-a)×0.015+0.01×10]×100=20,解得a≈133,
故选:C.
D
解析:由条件统计图可知,30名学生的得分依次为2个3分,3个4分,10个5分,6个6分,3个7分,2个8分,2个9分,2个10分.
中位数为第15,16个数(分别为5,6)的平均数,即me=5.5,5出现次数最多,故mo=5,
=≈5.97.于是得mo<me<.
故选:D.