(共19张PPT)
9.2.3总体集中趋势的估计
统计:用样本估计总体
课程标准
结合实例,能用样本估计总体的集中趋势参数(平均值、中位数、众数),理解集中趋势参数的统计意义
一
二
三
教学目标
结合实例,会求样本数据的平均数,中位数,众数。了解它们的含义
掌握由样本频率分布表和频率分布直方图取估计总体分布的中位数、众数、平均值的方法
能用样本集中趋势估计总体集中趋势
教学目标
重难点、易错点
重点
难点
易错点
结合实例,会求样本数据的平均数,中位数,众数。
掌握通过图表估计总体分布的中位数、众数、平均值的方法
中位数、众数、平均值的计算
导
复习回顾
问题1 回顾下初中所学的知识:众数,平均数,中位数的定义是什么?如何求取这些数据特征?它们主要描述数据的什么特征?
众数:一组数据中出现次数最多的数.
中位数:一组数据按大小顺序依次排序后,当数据个数是奇数时,处在最中间的数是中位数;当数据个数是偶数时,最中间两个数的平均数是中位数.
平均数:
平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势
新课授入
为了了解总体的情况,前面我们研究了如何让通过样本的分布规律估计总体的分布规律。
但有时,我们不太关心总体的分布规律,而更关注于总体取值在某一方面的特征。
比如:
1.对于某县2022年的粮食收成情况调查,我们应该关注的是粮食总产量或是平均每公顷的产量,而不是产量的分布。
2.对于一个国家或地区的国民身高问题,我们可能更关注的是身高的平均值或是中位数,而不是身高的分布。
因此,我们通过具体例子进一步了解一组数据的集中趋势,了解平均数/中位数/众数的意义,探究他们之间的联系与区别,并根据样本的集中趋势估计总体的集中趋势。
思
新课授入
9.2.1节中100户居民用户的月均用水量的调查数据如下:
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0 2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5 2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9 2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.4 3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0 22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9 5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7 5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3 5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8 7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
问题2 样本数据的平均数和中位数分别是多少?你能否根据样本数据估计全市居民用户月均用水量的平均数和中位数分别是多少?
解:① 根据已知100户居民用户月均用水量的数据,可得样本平均数为
即100户居民的月均用水量的平均数为8. 79 t.
新课授入
②将样本数据按从小到大排序,结果如下:
1.3 1.3 1.8 2.0 2.0 2.0 2.0 2.1 2.2 2.3 2.3 2.4 2.4 2.6 3.0 3.2 3.2 3.6 3.6 3.7 3.8 4.0 4.1 4.3 4.4 4.6 4.7 4.9 4.9 4.9 5.1 5.1 5.1 5.2 5.3 5.4 5.4 5.5 5.5 5.5 5.5 5.6 5.7 5.7 5.9 6.0 6.0 6.4 6.4 6.8 6.8 7.0 7.1 7.1 7.1 7.5 7.7 7.8 7.8 7.9 8.1 8.6 8.8 9.0 9.5 9.9 10.0 10.1 10.2 10.2 10.5 10.8 11.1 11.2 12.0 12.0 12.4 13.3 13.6 13.6 13.8 13.8 14.0 14.9 15.7 16.0 16.7 16.8 17.0 17.9 18.3 19.4 20.5 21.6 22.2 22.4 24.3 24.5 25.6 28.0
由上述数据可得,第50个数和第51个数均为6.8,由中位数的定义,可得100户居民的月均用水量的中位数是6.8 t.
由众数的定义,可得100户居民的月均用水量的众数是2.0和5.5 t.
因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民用户的月均用水量约为8.79 t,其中位数约为6.8 t,众数是2.0和5.5t.
议、展、评
平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关
问题3 观察下列三个图像,以小组形式讨论:描述处每种分布形态下平均数和中位数的大小存在关系。
思
直方图的形状是对称, 那么平均数和中位数大体上差不多
直方图在右边“拖尾”,平均数大于中位数;
直方图在左边“拖尾”,平均数小于中位数.
平均数总是在“长尾巴
”那边
新课授入
众数:利用了出现次数最多的数值信息。
缺点:它只能告诉我们,它比其他值出现的次数多,但并没有告诉我们它比其他数值多的程度。因此众数只能传递数据中信息很少的一部分,对极端没有数值没有作用。
对分类型数据(校服规格,性别,产品质量等级)的集中趋势的描述可以利用众数。
一般的,对数值型数据(水量 身高 收入 产量等)集中趋势的描述,可以利用平均数和中位数。
思
新课授入
样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,但在某些情况下我们无法获知原始的样本数据. 例如,我们在报纸、网络上获得的往往是已经整理好的统计表或统计图.这时该如何估计样本的平均数、中位数和众数?
你能频率分布直方图提供的信息为例,给出估计方法吗?
根据频率分布直方图,估计样本的平均数、中位数和众数
思
问题4 请你根据频率分布直方图如何计算样本平均数?
因为样本平均数可以表示为数据与它的频率的乘积之和.
所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
所以由上图可得样本平均数为
这个结果与根据原始数据计算的样本平均数8.79相差不大.
思
新课授入
加权平均数与频率平均数
加权平均数
一般地,如果在n个数中, 出现的频数为, 出现的频数为,…, 出现的频数为(其中),那么
叫做这个数的频数平均数,也称为加权平均数.
频率平均数
一般地,若数据的频率分别,则这个n个数的频率平均数的计算公式为
思
问题5 请你根据频率分布直方图如何计算样本中位数?
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数. 因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
由于0.077×3=0.231,(0.077+0.107)×3=0.552,
因此中位数落在区间[4.2, 7.2)内.
设中位数为x,由0.077×3+0.107×(x-4.2)=0.5,解得x≈6.71.
因此,中位数约为6.71.
面积等于0.5的横坐标的值
思
问题6 请你根据频率分布直方图如何计算样本众数?
根据众数定义得,在样本数据中出现次数最多数据就是众数. 因此在频率分布直方图中,我们常常把最高直方图底边的中点作为众数的估计值.
在此频率分布直方图中,月均用水量在区间[4.2, 7.2)内的居民最多,所以将这个区间的中点5.7作为众数的估计值.
新课授入
平均数 中位数 众数
在频率分布直方图中的含义
特点
优点 缺点 每个小矩形面积乘以小矩形底边中点的横坐标之和
与每一个数据有关,任何一个数的改变都会引起它的改变
把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标
只利用了样本数据中间位置的一个或两个值,并未利用其他数据
最高矩形底边中点的横坐标
只利用了出现次数最多的那个值的信息
受极端数据的影响较大.
代表了样本数据更多的信息.
只能表达样本数据中的少量信息.
容易计算,不受少数几个极端值的影响.
测
根据下图的信息,估计该市2015年全年空气质量指数的平均数,中位数,众数和第80百分位数(0.8)
小结
1.平均数,中位数,众数是估计总体的什么特征?你能否说出他们定义?
2.你能否在数据中算(观察)出样本的平均值,中位数,众数?
3.你能否在频率分布直方图中计算出平均值,中位数,众数?(加权平均数以及频数平均数)(共18张PPT)
9.2.4总体离散程度的估计
概率:样本估计总体
课程标准
结合实例,能用样本估计总体的离散程度参数,理解离散程度参数的统计意义(标准差 方差 极差 )
一
二
三
教学目标
知道极差 方差 标准差可以刻画数据的离散程度,反应数据的稳定性
能用平均值 中位数 众数和极差 方差 标准差对数据进行比较和评价。能用平均数和标准差描述数据的取值范围
通过试验和简单随机抽样等途径获得的途径获得样本数据,会算方差和标准差等数据特征
教学目标
重难点、易错点
重点
难点
易错点
会算方差和标准差
能用平均值 中位数 众数和极差 方差 标准差对数据进行比较和评价
方差和标准差的数据意义,反应数据的稳定性
导
复习回顾1 总体百分位数的估计
百分位数的定义: 一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
第一步
第二步
第三步
按从小到大排列原始数据
计算i=n×p%.
若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;
若i是整数,则第p百分位数为第项与第(i+1)项数据的平均数.
计算一组n个数据的第p百分位数步骤:
导
复习回顾2 总体集中趋势的估计
众数:一组数据中出现次数最多的数.
中位数:一组数据按大小顺序依次排序后,当数据个数是奇数时,处在最中间的数是中位数;当数据个数是偶数时,最中间两个数的平均数是中位数.
平均数:
在频率直方分布图中
众数:最高矩形的中点
中位数:中位数左边的直方图面积和右边的直方图面积相等
平均数:每个小矩形底边中点的横坐标与小矩形的面积的乘积之和
思
新课授入
探究
有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
问题1 如果你是教练,你如何对两位运动员的射击情况作出评价
如果这是一次选拔性考核,你应当如何作出选择
(提示:可以用平均值,中位数,众数进行数据分析)
甲、乙两名运动员射击成绩的平均数、中位数、众数都是7.
从这个角度看,两名运动员之间没有差别.
那我们该如何进行比较?
新课授入
10 环数
频率
4
5
6
7
8
9
(甲)
10 环数
频率
4
5
6
7
8
9
(乙)
借助条形图可以直观看出,甲的成绩比较分散,乙的成绩相对集中,即甲的成绩波动幅度比较大,而乙的成绩比较稳定.可见,他们的射击成绩是存在差异的.
那么,如何度量成绩的这种差异呢
如何用数据说明?
思
问题2 还有什么数据特征去度量甲/乙的差异?
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
可以利用数据的 极差 特征
根据甲、乙运动员的10次射击成绩,可以得到
甲命中环数的极差=10-4=6,
乙命中环数的极差=9-5=4.
可以发现甲的成绩波动范围比乙的大.
极差在一定程度上刻画了数据的离散程度.
缺点:但因为极差只使用了数据中最大、最小两个值的信息,对其他数据的取值情况没有涉及,所以极差所含的信息量很少.
你还能想到其他刻画数据离散程度的方法吗?
思
问题3 你还能想出其他刻画数据离散程度的办法吗?
我们知道,如果射击的成绩很稳定,那么大多数的射击成绩离平均成绩不会太远;
相反,如果射击的成绩波动幅度很大,那么大多数的射击成绩离平均成绩会比较远。
因此,我们可以通过这两组射击成绩与它们的平均成绩的“平均距离”来度量成绩的波动幅度。
什么叫做平均成绩的“平均距离”?
新课授入
假设一组数据是x1, x2,…, xn,用 表示这组数据的平均数. 我们用每个数据与平均数的差的绝对值作为“距离”,即 作为xi到 的 “距离”.
可以得到这组数据x1, x2,…, xn到 的“平均距离”为 .
为了避免式中含有绝对值,通常改用平方来代替,即
问题4 什么叫做平均成绩的“平均距离”?
这就是这组数据的方差
新课授入
方差、标准差的定义
一组数据是x1,x2,…,xn,用 表示这组数据的平均数,这组数据的方差为____________
标准差为
追问
1.标准差的取值范围是什么?
2.标准差为0的一组数据有什么特点?
新课授入
总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为 ,则称 S2=_______________为总体方差,S=________为总体标准差 .
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,
Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…, k),则总体方差为
样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为 ,则称 s2=_______________为样本方差,s=________为样本标准差 .
新课授入
特征:
标准差和方差刻画了数据的______程度或波动幅度.
标准差(或方差)越大,数据的离散程度越____,越不稳定;
标准差(或方差)越小,数据的离散程度越____,越稳定.
在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用_______.
离散
大
小
标准差
测
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
如果你是教练,你应当如何对这次射击作出评价
解析:我们可以根据标准差来判断两名运动员的成绩的离散程度,
计算可得s甲=2,s乙≈1.095.
即s甲>s乙,
由此可知,甲的成绩离散程度大,乙的成绩离散程度小。
由此可以估计,乙比甲的成绩稳定。
因此,如果要从这两名选手中选择一名参赛,要看一下他们的平均成绩在所有参赛选手中的位置。
如果两人都排在前面,就选成绩稳定的乙选手,否则选甲。
议、展、评
树人中学高一年级学生身高调查中,使用的是分层抽样。如果不知道样本数据,只知道抽取的男生23人,平均数和方差分别是170.6和12.59。抽取女生27人,平均数方差分别是160.6和38.62。
请大家以小组的形式讨论,请回答下列问题。
(1)由以上的数据计算出总样本的方差
(2)并对高一年级全体学生身高的方差作出估计
(要求:描述步骤与结果)
测
一个小商店从一家有限公司购入21袋白糖。每袋白糖的标准质量是500克。为了了解这些白糖的质量情况,生出个带白糖的质量如下:
486, 495 496 498 499 493 493
498 484 497 504 489 495 503
499 503 509 498 487 500 508
(1)21袋白糖的平均质量是多少?标准差是多少?
(2)质量位于和之间的白糖多少袋?占的百分比是多少?
小结
(1)我们利用哪些数据特征刻画数据的离散程度?
(2)极差/方差/标准差的定义是什么?特征是什么?
(3)如何计算方差和标准差?