(共18张PPT)
9.2.4总体离散程度的估计
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息。平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大。平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,只有平均数还难以概括样本数据的实际状态.特别的,当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.
问题引入
有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
那么两个人的水平就没有什么差异吗
如果你是教练,你应当如何对这次射击情况作出评价?如果这是一次选拔性考核,你应当如何作出选择?
思考:甲、乙两人射击成绩的平均数、中位数、众数都是7.从这个角度看,两名运动员之间没有差别.观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?
甲成绩比较分散,乙成绩相对集中.即甲的成绩波动幅度比较大,而乙的成绩比较稳定.
思考:如何度量成绩的这种差异呢?
一、极差:
甲命中环数的极差=10-4=6,
乙命中环数的极差=9-5=4.
甲的成绩波动范围比乙的大,极差在一定程度上刻画了样本数据的离散程度.
思考:为什么说“一定程度”呢?
因为极差只使用了数据中最大、最小两个值的信息,对其他数据的取值情况没有涉及,所以极差所含的信息量很少.
如果射击成绩稳定,那么大多数的射击成绩离平均成绩不会太远;否则,会比较远.因此,可以用这个量度量成绩的波动幅度.
假设一组数据是 用 表示这组数据的平均数.我们用每个数据与平均数的差的绝对值作为“距离”,即
作为 到 的“距离”.
它们都可以刻画离散程度.
方差的单位是原始数据的单位的平方,与原始数据不一致.标准差的单位与原始数据一致.在解决实际问题中,一般多采用标准差.
总体中所有个体的 变量值分别为 总体平均数为 .则称
为总体方差, 为总体标准差.
一个样本中个体的 变量值分别为 样本平均数
为 .则称
为样本方差, 为样本标
准差.
标准差(方差)刻画了数据的离散程度或波动幅度,标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小 .所以,在刻画数据的分散程度上,方差和标准差是一样的.
实际问题中,我们通常用样本标准差估计总体标准差.在随机抽样中,样本标准差依赖于样本的选取,具有随机性.
请同学们计算两名运动员成绩的标准差.
由 可知,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.所以应选乙.
如果总体的N个变量值中,不同的值有k(k≤N)个,不妨记为 其中 则总体方差还可以写成加权的形式
思考:那么标准差的取值范围是什么?标准差为0的样本数据有何特点?
标准差为0的所有样本数据都相等.
说明:标准差是样本数据到平均数的一种平均距离.它用来描述样本数据的分散程度.在实际应用中,标准差常被理解为稳定性.
例6 在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?
解:把男生样本记为 其平均数记为 ,方
差记为 ;把女生样本记为 其平均数记为 ,
方差记为 ;把总样本数据的平均数记为 ,方差记为
根据方差的定义,总样本方差为
可得
同理可得
因此
所以
所以总样本的方差为51.4862,并据此估计高一年级学生身高的总体方差为51.4862.
样本标准差刻画了数据离平均数波动的幅度大小,平均数和标准差一起能反映数据值的信息.
例如:根据9.2.1节中100户居民用户的月均用水量数据,可以计算出样本平均数 样本标准差
可以发现,这100个数据中大部分落在区间
内 ,在区间 外的只有7 个.也就是说,绝大部分数据落在 内.
关于统计的有关性质及规律
小结