9.2.4 总体离散程度的估计
1.会用样本的极差、方差与标准差估计总体。
2. 通过用样本的数字特征估计总体的数字特征的研究,渗透统计学的思想和方法。
3.培养学生收集数据、分析数据、归纳和整理数据,增强学习的积极性。
重点:方差、标准差的计算方法。
难点:如何利用样本的方差、标准差对总体数据作出分析及判断数据的稳定性。
一、温故知新
(1)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数.
②特征:一组数据中的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(2)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据中的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
(3)平均数
①定义:一组数据的和与这组数据的个数的商.数据x1,x2,…,xn的平均数为.
②特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
2、利用频率分布直方图(频率分布表),求样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以
估计中位数的值。
3、平均数是频率分布直方图的“重心”.是直方图的平衡点.频率直方图中每个小长
方形的面积乘以小矩形底边中点的横坐标之和。
三种数字特征的优缺点
名称 优点 缺点
众数 ①体现了样本数据的最大集中点;②容易得到 ①它只能表达样本数据中很少的一部分信息;②无法客观地反映总体特征
中位数 ①不受少数几个极端数据,即排序靠前或靠后的几个数据的影响;②容易得到,便于利用中间数据的信息 对极端值不敏感
平均数 能反映出更多关于样本数据全体的信息 任何一个数据的改变都会引起平均数的改变,数据越“离群”,对平均数的影响越大
一、情境与问题
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,很多时候还不能使我们做出有效决策. 因此,我们需要一个统计数字刻画样本数据的离散程度.
方差、标准差
1.思考
(1)平均数向我们提供了样本数据的重要信息,但是,平均数有时也会使我们作出对总体的片面判断,因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,只用平均数还难以概括样本数据的实际状态.
例如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
如果你是教练,你应当如何对这次射击作出评价
如果你是教练,你应当如何对这次射击作出评价
①甲、乙两人本次射击的平均成绩分别为多少环 他们的平均成绩一样吗
提示:经计算得(7+8+7+9+5+4+9+10+7+4)=7,
同理可得=7.他们的平均成绩一样.
②难道这两个人的水平就没有什么差异了吗 你能作出这两人成绩的频率分布条形图来说明其水平差异在哪里吗
提示频率分布条形图如下:
从图上可以直观地看出,他们的水平还是有差异的,甲成绩比较分散,乙成绩相对集中.
(2)现实中的总体所包含的个体数往往是很多的,总体的平均数与标准差是不知道的.
如何求得总体的平均数和标准差呢
提示:通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.这与前面用样本的频率分布来近似地代替总体分布是类似的.只要样本的代表性好,这样做就是合理的,也是可以接受的.
(3)考虑一个容量为2的样本:x1提示和a的几何意义如图所示.显然,标准差越大,则a越大,数据的离散程度越大,数据较分散;标准差越小,则a越小,数据的离散程度越小,数据较集中在平均数的周围.
2.填空
(1)假设一组数据是x1,x2,…,xn,用表示这组数据的平均数.我们用每个数据与平均数的差的绝对值作为“距离”,即|xi-|(i=1,2,…,n)作为xi到的“距离”.可以得到这组数据x1,x2,…,xn到的“平均距离”为|xi-|.为了避免式中含有绝对值,通常改用平方来代替,即(xi-)2,我们称为这组数据的方差.有时为了计算方差的方便,我们还把方差写成.
由于方差的单位是原始数据的单位的平方,与原始数据不一致.为了使二者单位一致,我们对方差开平方,取它的算术平方根,即,我们称为这组数据的标准差.
(2)如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=(Yi-)2为总体方差,S=为总体标准差.与总体均值类似,总体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.
(3)如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=(yi-)2为样本方差,s=为样本标准差.
对标准差和方差的理解
(1)样本标准差反映了各样本数据聚集于样本平均数周围的程度,标准差越小,表明各个样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的周围越分散.
(2)若样本数据都相等,则s=0.
(3)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度,就由标准差来衡量.
(4)数据的离散程度可以通过极差、方差或标准差来描述.极差反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感;方差则反映了一组数据围绕平均数波动的大小.为了得到以样本数据的单位表示的波动幅度,通常用标准差——样本方差的算术平方根来描述.
(5)标准差的大小不会越过极差.
(6)方差、标准差、极差的取值范围为[0,+∞).当标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.
(7)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差和标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般采用标准差.
(8)在实际问题中,总体平均数和总体标准差都是未知的.就像用样本平均数估计总体平均数一样,通常我们也用样本标准差去估计总体标准差.在随机抽样中,样本标准差依赖于样本的选取,具有随机性.
做一做
1.判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打“×”.
①标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据
的离散程度越小.( )
②若两组数据的方差一样大,则说明这两组数据都是相同的.( )
2.对划艇运动员甲、乙在相同的条件下进行了6次测试,测得他们每次的最大速度(单位:m/s)如下:
甲:27,38,30,37,35,31
乙:33,29,38,34,28,36
根据以上数据,试判断他们谁更优秀.
有关平均数、方差的重要结论
1.思考
若x1,x2,…,xn的方差是s2,则ax1,ax2,…,axn的方差是多少
提示:由方差的定义知ax1,ax2,…,axn的方差是a2s2.
2.填空
(1)若x1,x2,…,xn的平均数是 ,则mx1+a,mx2+a,…,mxn+a的平均数是m+a
(2)数据x1,x2,…,xn与数据x1+a,x2+a,…xn+a的方差相等.
(3)若x1,x2,…,xn的方差为s2,则ax1,ax2,…,axn的方差为a2s2.
(4)方差的简化公式:s2=[(+…+)-n],或写成s2=+…+)-,即方差等于原数据平方的平均数减去平均数的平方.
跟踪训练2.已知样本数据x1,x2,…,xn的平均数,s2=2,则样本数据2x1+1,2x2+1,…,2xn+1的平均数为 ,方差为 .
例1 在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?
分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为n1,n2,两层的平均数分别为1,2,方差分别为s,s,则这个样本的方差为
s2=[s+(1-)2]+[s+(2-)2]
1.在一个文艺比赛中,8名专业人士和12名观众代表各组成一个评判小组,给参赛选手打分.在给某选手的打分中,专业人士打分的平均数和标准差分别为47.4和3.7,观众代表打分的平均数和标准差为56.2和11.8,试根据这些数据计算这名选手得分的平均数和方差.
所以这名选手得分的平均数为52.68分,方差为107.6
计算分层随机抽样的方差s2的步骤
(1)确定1,2,s,s,
(2)确定;
(3)应用公式s2=[s+(1-)2]+[s+(2-)2].计算s2.
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
计算出样本平均数 = 8.79,样本标准差s≈6.20
如图所示,可以发现,这100个数据中大部分落在区间内,在区间 外的只有7个.也就是说,绝大部分数据落在 内.
样本标准差刻画了数据离平均数波动的浮动大小,平均数和标准差一起能反映数据取值的信息.
1.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别是x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均值 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
2.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均值为1,则样本的方差为( )
A. B. C. D.2
3.(多选)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则以下选项判断不正确的有( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
4.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:
若要从这四人中选择一人去参加该运动会射击项目比赛,最佳人选是 .(填“甲”“乙”“丙”“丁”中的一个)
甲 乙 丙 丁
平均环数 8.3 8.8 8.8 8.7
方差s2 3.5 3.6 2.2 5.4
5.计算数据54,55,53,56,57,58的方差.
6.在一次科技知识竞赛中,某学校的两组学生的成绩如下表:请根据你所学过的统计知识,判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
1.极差的定义及特征:
2.方差、标准差的定义及特征
总体方差、总体标准差的定义
样本方差、样本标准差的定义
3.会求方差、标准差,并做出决策
4.方差的运算性质:
5.会求分层抽样的方差
参考答案:
知识梳理
学习过程
做一做1.答案:①√ ②×
2.解: ×(27+38+30+37+35+31)=33,
×[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=×94≈15.7,
×(33+29+38+34+28+36)=33,
×[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]=×76≈12.7.
所以.
这说明甲、乙两运动员的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.
跟踪训练2.答案:11 8
解析:因为样本数据x1,x2,…,xn的平均数,所以样本数据2x1+1,2x2+1,…,2xn+1的平均数为 +1=2×5+1=11.方差为22×s2=4×2=8.
例1 解:把男生样本记为x1,x2,…,x23,其平均数记为 ,方差记为 ;把女生样本记为y1,y2,...y27,其平均数记为 ,方差记为 ;把总样本数据的平均数记为 ,方差记为 .根据方差的定义,总样本方差为
男生23人,其平均数和方差分别为170.6和12.59,
女生27人,其平均数和方差分别为160.6和38.62
把已知的男生、女生样本平均数和方差的取值代入,可得
1.
所以这名选手得分的平均数为52.68分,方差为107.6
达标检测
1. 答案:B
解析:在A中,平均数是表示一组数据集中趋势的量,它是反映数据集中趋势的一项指标,故A不可以用来评估这种农作物亩产量的稳定程度;在B中,标准差能反映一组数据的离散程度,故B可以用来评估这种农作物亩产量的稳定程度;在C中,最大值是一组数据中最大的量,故C不可以用来评估这种农作物亩产量的稳定程度;在D中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,故D不可以用来评估这种农作物亩产量的稳定程度,故选B.
2解析:由平均值为1可得=1,
解得a=-1,所以样本方差s2==2,故选D.
答案:D
3.(多选)解析:由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=,C对;甲、乙的成绩的极差均为4,D错.
答案:ABD
4. 答案:丙
解析:分析表格数据可知,乙与丙的平均环数最多,又丙的方差比乙小,说明丙成绩发挥得较为稳定,所以最佳人选为丙.
5.分析可以根据简化公式进行计算,也可以把每个数据减去一个数,用找齐法计算.
解:(解法一)≈3 083.17,=55.5,故s2=3 083.17-55.52=2.92.
(解法二)每个数据减去55得到新的数据组-1,0,-2,1,2,3,该组数据的方差与原数据组的方差相等,且≈3.17,=0.5,故s2=3.17-0.52=2.92.
6.解(1)甲组成绩的众数为90,乙组成绩的众数为70,从成绩的众数比较看,甲组成绩好些.
(2)甲=(50×2+60×5+70×10+80×13+90×14+100×6)=×4 000=80,
乙=(50×4+60×4+70×16+80×2+90×12+100×12)=×4 000=80.
s=[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,
s=[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵甲=乙,s(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.
(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,所以乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.
1 / 13