高中数学
高一下学期
必修第二册
人教A版
大单元:统计与概率
9.2用样本估计总体
9.2.3总体集中趋势的估计
大数据时代,统计学的重要性日益凸显。随着数据的海量增长,我们发现社会现象背后的规律往往遵循统计规律而非精确的因果关系。统计学不仅帮助我们理解这些规律,还能在其他领域带来无往不利的优势。这是因为统计学是一种基于大量数据的推理方法,尤其在大数据背景下,对于发掘隐藏模式、预测趋势和做决策至关重要。
1.能用样本估计总体的集中趋势,如平均数、中位数、众数;
2.掌握频率分布直方图中的平均数、中位数、众数的计算方法;
学习目标
导入
例如:对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦产量的什么情况?
为了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律.但有时候,我们可能不只关心总体的分布规律,而更关注总体取值在某一方面的特征.
产量的分布
总产量或均每公顷的产量
身高的分布
国民身高的平均数或中位数
对于一个国家国民的身高情况,我们可能会更关注国民身高的什么情况?
新知讲解
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
那你是否还记得平均数、中位数、众数的定义是什么吗?这些统计量刻画了数据的什么特点?
新知讲解——众数、中位数、平均数
知识点一 众数、中位数、平均数
众数:
中位数:
当数据个数是奇数时,处在最中间的数是中位数;
当数据个数是偶数时,最中间两个数的平均数是中位数.
(第50百分位数)
平均数:
一组数据中出现次数最多的数.
一组数据按从小到大排序,
反映所有数据的平均水平的数据
下面我们通过具体实例进一步了解这些量的意义,探究它们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势.
典例分析
例题:利用9.2.1节中100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0 2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5 2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9 2.3 10.0 16.7 12.0 12.4 7.8
5.2 13.6 2.4 22.4 3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0 22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9 5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7 5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3 5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
注意单位(t)
解:① 根据已知100户居民用户月均用水量的数据,可得样本平均数为
即100户居民的月均用水量的平均数为8. 79 t.
典例分析
例题:利用9.2.1节中100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数、中位数和众数.
②将样本数据按从小到大排序,结果如下:
1.3 1.3 1.8 2.0 2.0 2.0 2.0 2.1 2.2 2.3 2.3 2.4 2.4 2.6 3.0 3.2 3.2 3.6 3.6 3.7 3.8 4.0 4.1 4.3 4.4 4.6 4.7 4.9 4.9 4.9 5.1 5.1 5.1 5.2 5.3 5.4 5.4 5.5 5.5 5.5 5.5 5.6 5.7 5.7 5.9 6.0 6.0 6.4 6.4 6.8 6.8 7.0 7.1 7.1 7.1 7.5 7.7 7.8 7.8 7.9 8.1 8.6 8.8 9.0 9.5 9.9 10.0 10.1 10.2 10.2 10.5 10.8 11.1 11.2 12.0 12.0 12.4 13.3 13.6 13.6 13.8 13.8 14.0 14.9 15.7 16.0 16.7 16.8 17.0 17.9 18.3 19.4 20.5 21.6 22.2 22.4 24.3 24.5 25.6 28.0
由上述数据可得,第50个数和第51个数均为6.8,由中位数的定义,可得,100户居民的月均用水量的中位数是6.8t.
因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民用户的月均用水量约为8.79 t,其中位数约为6.8 t,众数是2.0和5.5t.
③由众数的定义,可得100户居民的月均用水量的众数是
2.0和5.5 t.
典例分析
思考:小明用统计软件计算了100户居民用水量的平均数和中位数,但在录入数据时,不小心把一个数据7.7录成了77.请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较,哪个量的值变化更大?你能解释其中的原因吗?
解:平均数由原来的8.79?????变为9.483?????,中位数没有变化,还是6.8?????.
?
*样本平均数与每一个样本数据有关,样本中任何一个数据的改变都会引起平均数的改变;
*中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变.
因此与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.
巩固练习
3、某校举行演讲比赛,10位评委对两位选手的评分如下:
甲:7.5???7.5???7.8???7.8???8.0???8.0???8.2???8.3???8.4???9.9
乙:7.5???7.8???7.8???7.8???8.0???8.0???8.3???8.3???8.5???8.5
选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数.那么,这两个选手的最后得分是多少?
去掉最低分和最高分的评分机制更好,可规避个别评委对选手得分的影响.
追问1:若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?
追问2:你认为哪种评分办法更好?为什么?
????甲=8,????乙=8.0625
?
乙比甲的得分高
????甲=8.14,????乙=8.05
?
甲比乙的得分高
“我们企业员工的年平均收入为20万元”可信吗?
新知讲解
思考2:平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关.在下图的三种分布形态中,平均数和中位数的大小存在什么关系?
*单峰,直方图形状对称:平均数≈中位数多;
*直方图右边“拖尾”:平均数>中位数;
*直方图左边“拖尾”:平均数<中位数.
?
和中位数相比,平均数总是在“长尾巴”那边.
典例分析
例题:某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.据统计,高一年级女生需要不同规格校服的频数如表所示.
{5940675A-B579-460E-94D1-54222C63F5DA}校服规格
155
160
165
170
175
合计
频数
39
64
167
90
26
386
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论用表中的数据估计全国高一年级女生校服规格的合理性.
分析:虽然校服规格是用数字表示的,但它们事实上是几种不同的类别,对于这样的分类数据,用众数作为这组数据的代表比较合适.
典例分析
解:为了更直观地观察数据的特征,我们用条形图来表示表中的数据(下图)可以发现,选择校服规格为“165”的女生的频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适.
众数只利用了出现次数最多的那个值的信息,只能说明它比其他值出现的次数多,但并未体现它比别的数值多的程度.因此,众数只能传递数据中的信息的很少一部分
,对极端值不敏感.
新知讲解
思考:根据平均数、中位数、众数各自的特点,我们应如何选择适合的统计量来表示数据的集中趋势?
(1)对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述, 可以用
(2)对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用
平均数、中位数
众数
巩固练习 P217 T9
9、在一次人才招聘会上,有一家公司的招聘员告诉你,“我们公司的收入水平很高”“去年,在50名员工中,最高年收入达到了200万,员工年收入的平均数是10万",而你的预期是获得9万元年薪.
(1)你是否能够判断年薪为9万元的员工在这家公司算高收入者?
(2)如果招聘员继续告诉你,“员工年收入的变化范围是从3万到200万”,
这个信息是否足以使你作出自己是否受聘的决定?为什么?
(3)如果他继续提供了如下信息,员工收入的第一四分位数为4.5万,第三四分位数为9.5万,你又该如何使用此信息来作出是否受聘的决定?
(4)根据(3)中招聘员提供的信息,你能估计出这家公司员工收入的中位数是多少吗?为什么平均数比估计出的中位数高很多?
受年收入200万元这个极端值的影响.
既要会用数据说话,又要防止被数据误导
10×50?20049≈6.12万元
?
考虑中位数/众数
(对极端值不敏感)
7万元
75%低于
9.5万元
新知讲解——众数、中位数、平均数的比较
?众数、中位数、平均数的比较
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}名称
优点
缺点
平均数
与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数
不受少数几个极端数据(即排序靠前或靠后的数据)的影响
对极端值不敏感
众数
体现了样本数据的最大集中点
众数只能传递数据中的信息的很少一部分,对极端值不敏感
巩固练习
辨析:
1.中位数是一组数据中间的数.( )
2.众数是一组数据中出现次数最多的数.( )
3.一组数据中的众数只有1个. ( )
4.平均数反映了一组数据的平均水平,任何一个样本数据的改变都会引起平均数的变化.( )
5.一组数据中,有一半的数据不大于中位数,而另一半则不小于中位数,中位数反映了一组数据的中心的情况.中位数受极端值的影响较小.( )
√
×
√
√
×
新知讲解——频率分布直方图中平均数、中位数、众数的求法
探究2 样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据.
你能以图9.2-1中频率分布直方图提供的信息为例,给出估计方法吗?
在频率分布直方图中,损失了大量的原始数据,我们无法知道每个组内的数据是如何分布的.
此时,通常假设它们在组内均匀分布.
这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
如何由频率分布直方图估计样本的平均数、中位数和众数?
新知讲解——频率分布直方图中平均数的求法
1. 根据频率分布直方图计算样本平均数:
因为样本平均数可以表示为数据与它的频率的乘积之和.
所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
假设数据在组内均匀分布.
于是平均数的近似值为
↑小矩形面积(频率)
↓小矩形底边中点横坐标
这个结果与根据原始数据计算的样本平均数8.79相差不大.
新知讲解——频率分布直方图中中位数的求法
2. 根据频率分布直方图计算样本中位数:
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
∴中位数落在区间[4.2,7.2)内
设中位数是x ,则
这个结果与根据原始数据求得的中位数6.8相差不大.
因此,中位数约为6.71.
(0.077+0.107)×3=0.552
新知讲解——频率分布直方图中众数的求法
3. 根据频率分布直方图计算样本众数:
根据众数定义得,在样本数据中出现次数最多数据就是众数.
因此在频率分布直方图中,我们常常把最高矩形的中点的横坐标作为众数的估计值.
因此,众数约为5.7.
众数常用在描述分类型数据中,众数5.7让我们知道月均用水量在区间[4.2,7.2)的居民用户最多. 这个信息具有实际意义.
新知讲解——频率分布直方图中平均数、中位数、众数的求法
(1)平均数:
用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和
(2)中位数:
中位数左边和右边的直方图的面积应该相等,也就是50%分位数.
(3)众数:
最高小矩形底边的中点
巩固练习
1. (多)为了提升小学生的运算能力,某市举办了“小学生计算大赛”
,并从中选出“计算小达人”.现从全市参加比赛的学生中随机抽取1000人的成绩进行统计,得到如图所示的频率分布直方图,其中成绩的分组区间为[60,70),[70,80),[80,90),[90,100],规定得分在90分及以上的被评为“计算小达人”.下列说法正确的是( AD )
A.m的值为0.015
B.该市每个小学生被评为“计算小达人”的概率为0.01
C.被抽取的1000名小学生的平均分大约是85分
D.学生成绩的中位数大约为75分
AD
巩固练习
解析:由(0.025+0.05+m+0.01)×10=1?m=0.015,
故选项A正确;
因为得分在90分及以上的被评为“计算小达人”,
所以该市每个小学生被评为“计算小达人”
的概率为0.01×10=0.1,故选项B不正确;
被抽取的1 000名小学生的平均分大约是(0.025×65+0.05×75+0.015×85+0.01×95)×10=76,故选项C不正确;
设学生成绩的中位数为a,所以有10×0.025+(a-70)×0.05=0.5?a=75,故选项D正确.故选A、D.
课堂总结
把一组数据按大小顺序排列,处在最中间的一个数据(或两个数据的平均数);
从频率分布直方图中估计中位数左右两边的直方图的面积相等.
一组数据中重复出现次数最多的数;
从频率分布直方图中估计众数是最高的矩形的中点.
1、众数
2、中位数
3、平均数
如果有n个数据x1, x2,…, xn,那么这n个数的平均数
从频率分布直方图中估计平均数,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中的横坐标之和.
总体的各种数字特征都可以由两种途径来估计:
①直接利用样本数据; ②由频率分布直方图来估计
两者可能不同
统计学中有句名言:数字不会说谎,但说谎者利用数字。希望同学们学好统计学,用统计学揭开事情的真相,做出正确的选择!
感谢倾听!