第9章 统 计
9.2.2 总体百分位数的估计
9.2.3 总体集中趋势的估计
9.2.4 总体离散程度的估计
高中数学人教A版(2019)必修 第二册
第p百分位数
第p百分位数的概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或者等于这个值,且至少有(100-p)%的数据大于或者等于这个值.
通过下面的步骤计算一组n个数据的第p百分位数
计算 ?=????×????%
?
按从小到大排列原始数据
若?不是整数,而大于?的比邻整数为????,则第????百分位数为第????项数据;若?是整数,则第????百分位数为第?项与第(?+????)项数据的平均数
?
探究新知
第p百分位数
第p百分位数的概念
除了上页计算一组n个数据的第p百分位数的方法外,再介绍另外一种方法,这种方法是SPSS所用方法之一,也是SAS所用方法之一.
计算指数,设(n+1)p=j+g,j为整数部分,g为小数部分
将n个变量值从小到大排列,X(j)表示此数列中第j个数
①当g=0时,第p百分位数=X(j);
②当g≠0时,第p百分位数=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]
探究新知
第p百分位数
四分位数
在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
另外,像第1百分位数,第5百分位数,第95百分位数和第99百分位数在统计中也经常被应用.
探究新知
总体集中趋势的估计
平均数
一组数据的和与这组数据个数的商.如:
定义
数据????1,????2,…,????????的平均数为
?
????=????????+????????+…+????????????
?
特征
平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变,都会引起平均数的变化,这是众数和中位数都不具有的性质,所以与众数中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息. 但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
探究新知
总体集中趋势的估计
平均数
加权平均数与频率平均数
一般地,如果在n个数中, ????1出现的频数为????1?, ????2出现的频数为????2?,…, ????????出现的频数为????????(其中????1+????2+…+????????=????),那么
?
加权平均数
????=????????????1????1+????2????2+…+????????????????=????????????=????????????????????????
?
叫做????1,????2,…,????????这????个数的频数平均数,也称为加权平均数.
?
频率平均数
一般地,若数据????1,????2,…,????????的频率分别????1,????2,…,????????,则这个n个数的频率平均数的计算公式为
?
????=????????????????+????????????????+…+????????????????
?
探究新知
总体集中趋势的估计
众数
一组数据中出现次数最多的数据(即频率分布最大值对应的样本数据)成为这组数据的众数.
定义
特征
一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势
1,2,3,4,5,6,7,8,9 ,10 没有众数
1,2,3,4,4,5,5,6,7 众数有两个,分别是4和5
1,2,3,4,5,5,6,7,8 众数是5
探究新知
总体集中趋势的估计
中位数
一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间的两个数据的平均数(当数据个数是偶数时),称为这组数据的中位数.
定义
特征
一组数据的中位数是唯一的反映了该组数据的集中趋势,在频率分布直方图中中位数左边和右边的直方图的面积相等
探究新知
总体集中趋势的估计
对三种数字特征的深层理解
众数不唯一,可以有一个可以有多个,还可以没有.如果有两个数据出现的次数相同,并且比其它数据出现的次数都多,那么这两个数据都是这组数据的众数
一组数据的平均数中位数都是唯一的
众数一定是原数据中的数,平均数和中位数都不一定是原数据中的数
实际问题中,求平均数要比求中位数和众数难,而求得的平均数、中位数和众数都应带上单位
探究新知
总体集中趋势的估计
三种数字特征的优缺点
名称
优点
缺点
众数
中位数
平均数
①体现了样本数据的最大集中点
②容易得到
①只能表达样本数据中较少的信息
②无法客观地反映总体特征
①不受少数几个极端数据,即排序
靠前或靠后的几个数据的影响
②容易得到,便于利用其中的信息
对极端值不敏感
能反映出更多关于样本数据全体的信息
任何一个数据的改变都会引起平均数的改变,数据越“离群”,对平均数的影响越大
探究新知
总体离散程度的的估计
极差
一组数据中的最大值和最小值的差称为极差
假设一组数据是????1,????2,…,????????,用????表示这组数据的平均数.
?
方差与标准差
????????????=????????(?????????????)????
?
我们称 为这组数据的方差,
????=????????(?????????????)????
?
??????????????????????????????????
?
称 为这组数据的标准差.
探究新知
总体离散程度的的估计
总体与样本的方差和标准差
如果总体中所有个体的变量值分别为????1,????2,…,????????,用????表示总体平均数.
?
????????=????????????=????????(?????????????)????
?
则称 为总体方差,????=????2 为总体标准差.
?
如果一个样本中个体的变量值分别为????1,????2,…,????????,用????表示样本平均数.
?
????????=????????????=????????(?????????????)????
?
则称 为样本方差,????=????2 为样本标准差.
?
探究新知
总体离散程度的的估计
总体与样本的方差和标准差
标准差和方差的计算步骤
计算出每个样本数据与样本平均数的差 xi?x(i=1,2,…n)
?
计算出样本数据的平均数????
?
计算出xi?x2(i=1,2,…n)
?
计算出xi?x2(i=1,2,…n)这n个数的平均数,就是样本的方差 ????????
?
计算出方差的算术平方根,即为样本的标准差 ????
?
探究新知
总体离散程度的的估计
加权方差
与总体均值类似,总体方差也可以写成加权的形式.如果总体的N个变量值中, 不同的值共有????(????≤????)?个,不妨记为????1,????2,?…,????????,其中????????出现的频数为????????(????=1,2,…,????)?,则总体方差为
?
????????=????????????=????????????????(?????????????)????
?
求加权方差的步骤:
求样本中不同层的方差
求样本中不同层的平均数
求样本中不同层的权重
运用分层随机抽样的方差公式进行求解
探究新知
总体离散程度的的估计
——对标准差和方差的理解
样本标准差反映了个样本数据聚集于样本平均数周围的程度,标准差越小,说明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的两边越分散
若样本数据都相等,则s=0
探究新知
总体离散程度的的估计
——对标准差和方差的理解
当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度就由标准差来衡量
数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感;方差则反映了一组数据围绕平均数波动的大小,为了得到以样本数据的单位表示的波动幅度,通常用标准差——样本方差的算术平方根来描述
探究新知
总体离散程度的的估计
——对标准差和方差的理解
标准差的大小,不会超过极差
因为方差与原始数据的单位不同,且平方后可能夸大了离散的程度,所以虽然方差和标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般采用标准差
方差标准差极差的取值范围为[0,+∞),当标准差,方差为零时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性
探究新知
谢谢聆听