第6课时 用样本估计总体的离散程度参数
【教学目标】
1. 结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差).
2. 理解离散程度参数的统计含义.
【教学过程】
一、问题情境
有甲、乙两种钢筋,现从中各抽取一个样本(如下表)检查它们的抗拉强度(单位:kg/mm2),通过计算发现,两个样本的平均数均为125kg/mm2.
甲 110 120 130 125 120 125 135 125 135 125
乙 115 100 125 130 115 125 125 145 125 145
哪种钢筋的质量较好?
活动一、极差、方差、标准差的概念
乙样本的最小值100低于甲样本的最小值110,乙样本的最大值145高于甲样本的最大值135,这说明乙种钢筋没有甲种钢筋的抗拉强度稳定.
我们把一组数据的最大值与最小值的差称为极差.
从问题情境的表中可以看出:乙的极差较大,数据较分散;甲的极差较小,数据较集中.这就说明甲比乙稳定.(可如教材中那般将两组数据在数轴上表示出来)
运用极差对两组数据进行比较,操作简单方便,但如果两组数据的集中程度差异不大时,就不容易得出结论.
问题1 如何用离差来刻画一组数据的稳定程度?
在上一课时中,学习了总体平均数的估计,其中提到平均数是“最理想”近似值的缘由.同样我们可以考虑每一抗拉强度与平均抗拉强度的离差,离差越小,稳定性就越高.
问题2 怎样更为精确地刻画一组数据的稳定程度呢?
考虑用与其平均数的离差的平方和来刻画一组数据的稳定程度是可行的,即问题情境中可用各次抗拉强度与平均抗拉强度的差的平方和表示.由于比较的两组数据的容量可能不同,因此应将上述平方和除以数据的个数,我们把由此所得的值称为这组数据的方差.
设一组样本数据x1,x2,…,xn,其平均数为,则称s2=(xi-)2为这个样本的方差,简称样本方差.
因为方差与原始数据的单位不同,且平方后可能夸大了离差的程度,所以我们将方差的算术平方根称为这组数据的标准差.标准差也可以刻画数据的稳定程度.
方差的算术平方根s=为样本的标准差,简称样本标准差.
根据上述方差的计算公式可以算得甲、乙两个样本的方差分别为50和165,故可以认为甲种钢筋的质量好于乙种钢筋.
极差﹑方差﹑标准差都是刻画数据离散程度的度量值.
问题3 若数据x1,x2,…,xn的平均数为,方差为s2,标准差为s,则数据kx1+b,kx2+b,…,kxn+b的方差和标准差分别是多少?
(由上一课时可知新数据的平均数为k+b.由方差和标准差的定义可以推导出方差为k2s2,标准差为|k|s.)
方差的另一计算公式:s2=.
证明:s2=[(x1-)2+(x2-)2+…+(xn-)2]=[(x+x+…+x)-2(x1+x2+…+xn)+n2]=[(x+x+…+x)-n2]=.
练习1:求52,49,48,55,47,48,56,53 的极差、方差及标准差.
练习2:已知一组数据x1,x2,x3,x4,x5的方差为,则数据2x1,2x2,2x3,2x4,2x5的方差为________.
练习3:已知样本数据为40,42,40,a,43,44,且这个样本的平均数为43,则该样本的标准差为________.
练习4:已知一组样本数据x1,x2,…,x10,且x+x+…+x=180,平均数x=4,则该组数据的方差为________.
活动二、掌握极差、方差、标准差的应用
从甲、乙两种玉米苗中各抽10株,分别测得它们的株高(单位:cm)如下:
甲:25,41,40,37,22,14,19,39,21,42;
乙:27,16,44,27,44,16,40,40,16,40.
问:(1)哪种玉米苗长得高?
(2)哪种玉米苗长得齐?[3]
解 (1)甲=×(25+41+40+37+22+14+19+39+21+42)=×300=30(cm),
乙=×(27+16+44+27+44+16+40+40+16+40)=×310=31(cm),
所以甲<乙,即乙种玉米苗长得高.
(2)s=×[(25-30)2+(41-30)2+(40-30)2+(37-30)2+(22-30)2+(14-30)2+(19-30)2+(39-30)2+(21-30)2+(42-30)2]=×(25+121+100+49+64+256+121+81+81+144)=×1042=104.2(cm2),
s=×[2×(27-31)2+3×(16-31)2+2×(44-31)2+3×(40-31)2]=×1288=128.8(cm2),
所以s[题后反思] 用样本估计总体时,样本的平均数、标准差(方差)只是总体的平均数、标准差(方差)的近似.在实际应用中,常常把平均数与方差或标准差结合起来进行决策.在平均数相等的情况下,比较方差或标准差以确定稳定性.
为了参加某数学竞赛,某高级中学对高二年级理科、文科两个数学兴趣小组的学生进行了赛前模拟测试,成绩(单位:分)记录如下:
理科:79,81,81,79,94,92,85,89;
文科:94,80,90,81,73,84,90,80.
计算理科、文科两组学生成绩的平均数和方差,并从统计学的角度分析哪组学生在此次模拟测试中发挥比较好.
解 理科组成绩的平均数1=×(79+79+81+81+85+89+92+94)=85(分),方差s=×[2×(79-85)2+2×(81-85)2+(85-85)2+(89-85)2+(92-85)2+(94-85)2]=31.25(分2);
文科组成绩的平均数2=×(73+80+80+81+84+90+90+94)=84(分),
方差s=×[(73-84)2+2×(80-84)2+(81-84)2+(84-84)2+2×(90-84)2+(94-84)2]=41.75(分2).
因为1>2, s所以从统计学的角度分析,理科组学生在此次模拟测试中发挥比较好.
甲、乙两人参加某体育项目训练,近期的5次测试成绩得分情况如图所示.
(变式2)
(1)分别求出两人得分的平均数与方差;
(2)根据图形和(1)中计算结果对两人的训练成绩作出评价.
[规范板书] 解 (1) 由图可得甲、乙两人五次测试成绩分别为
甲:10,13,12,14,16;乙:13,14,12,12,14.
甲==13, 乙==13,
s=×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
s=×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(2)由(1)可知乙的成绩较稳定.
从折线统计图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.
[题后反思] 折线统计图中数字特征的求解技巧:折线统计图中样本数据的数字特征与横坐标和纵坐标的统计意义有关,但一般情况下,整体分布位置较高的平均数大,数据波动性小的方差小.
为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换.已知某校使用的100只日光灯在必须换掉前的使用天数如下表所示:
使用天数 151~180 181~210 211~240 241~270
日光灯数 1 11 18 20
使用天数 271~300 301~330 331~360 361~390
日光灯数 25 16 7 2
试估计这种日光灯的平均使用寿命和标准差.[4]
解 各区间的组中值分别为165.5,195.5,225.5,255.5,285.5,315.5,345.5,375.5.
由此算得平均数约为
165.5×1%+195.5×11%+225.5×18%+255.5×20%+285.5×25%+315.5×16%+345.5×7%+375.5×2%=268.4≈268(天).
这些组中值的方差为
×[1×(165.5-268.4)2+11×(195.5-268.4)2+18×(225.5-268.4)2+20×(255.5-268.4)2+25×(285.5-268.4)2+16×(315.5-268.4)2+7×(345.5-268.4)2+2×(375.5-268.4)2]=2128.59(天2).
故所求的标准差为≈46(天).
估计这种日光灯的平均使用寿命约为268天,标准差约为46天.
[题后反思] 一般地,若取值为x1,x2,…,xn的频率分别为p1,p2,…,pn,则其方差为p1(x1-)2+p2(x2-)2+…+pn(xn-)2.
某行业主管部门为了了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表如下:
y的分组 [-0.20,0) [0,0.20) [0.20,0.40) [0.40,0.60) [0.60,0.80]
企业数 2 24 53 14 7
(1)分别估计这类企业中产值增长率不低于40%的企业比例﹑产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值作为代表).(精确到0.01,≈8.602)
解 (1)由题意知随机调查的100个企业中增长率不低于40%的企业有14+7=21个,产值负增长的企业有2个.
(2)平均值=×[2×(-0.1)+24×0.1+53×0.3+14×0.5+7×0.7]=0.3,
方差s2=×[2×(-0.1-0.3)2+24×(0.1-0.3)2+53×(0.3-0.3)2+14×(0.5-0.3)2+7×(0.7-0.3)2]=×(0.32+0.96+0.56+1.12)=0.0296,
所以标准差s==≈0.02×8.602≈0.17.
某校从在校学生中,用分层抽样的方法抽取男生32人,女生18人.测得他们的身高后,计算得到男生身高的样本平均数为173.5cm,方差为17cm2;女生身高的样本平均数为163.83cm,方差为30.03cm2.求所有50个身高数据的样本方差.
解 记男生样本为y1,y2,…,y32,平均数为男,方差为s;记女生样本为z1,z2,…,z18,平均数为女,方差为s;所有数据样本的平均数为总,方差为s.样本容量为50.
所有50个数据的平均数为
总=男+女=×173.5+×163.83≈170.02(cm).
根据方差的定义,总样本方差为s==
其中的
(yi-男)+(男-总)]2=(yi-男)2+(男-总)2+(yi-男)(男-总),
而(yi-男)=i-32男=0,所以(yi-男)(男-总)=2(男-总)(yi-男)=0.
同理(zj-女)(女-总)=0.
所以s=[(yi-男)2+(男-总)2+(zj-女)2+(女-总)2]={[32s+32(男-总)2]+[18s+18(女-总)2]}={[32×17+32×(173.5-170.02)2]+[18×30.03+18×(163.83-170.02)2]}≈43.24(cm2).
[题后反思] 计算分层抽样(两层)的方差s2的步骤:
(1)确定1,2,s,s; (2)确定;
(3)计算s2={[n1s+n1(x1-)2]+[n2s+n2(x2-)2]}=[s+(x1-)2]+[s+(x2-)2],
令ω1=,ω2=,则s2=ω1[s+(x1-)2]+ω2[s+(x2-)2].
计算分层抽样(k层)的方差s2的步骤:
(1)确定1,2,…,k,s1,s2,…,sk;
(2)确定;
(3)计算s2={[n1s+n1(x1-)2]+[n2s+n2(x2-)2]+…+[nks+nk(xk-)2]}={n1[s+(x1-)2]+n2[s+(x2-)2]+…+nk[s+(xk-)2]}=j[s+(j-)2].
甲、乙两支田径队的体检结果如下:甲队体重的平均数为60kg,方差为200kg2;乙队体重的平均数为70kg,方差为300kg2.又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和体重的方差分别为多少?
解 由题意知甲=60(kg),甲队队员在所有队员中所占权重为=; 乙=70(kg),乙队队员在所有队员中所占权重为=.
甲、乙两队全部队员的平均体重为
=×60+×70=68(kg).
甲、乙两队全部队员的体重的方差为
s2=×[200+(60-68)2]+×[300+(70-68)2]=296(kg2).
* 将某班40名学生平均分成两组,两组学生某次考试成绩情况如下表所示:
平均数 标准差
第一组 90 4
第二组 80 6
求全班这次考试成绩的平均数和标准差.
首先推导出公式s2=(xi-)2=,再代入运算.
解 设第一组数据为x1,x2,…,x20,第二组数据为x21,x22,…,x40,全班平均成绩为,标准差为s.
由题意得==85,
42=(x+x+…+x-20×902),
62=(x+x+…+x-20×802),
所以x+x+…+x=20×(42+62+902+802)=291040.
从而s2=(x+x+…+x-402)=×(291040-40×852)=51,
故s=.
[题后反思] 方差常用的计算公式为s2=(xi-)2,而简化后的计算公式为s2=或s2=-2,即方差等于原数据平方的平均数减去平均数的平方的差.
【课堂练习】
1.甲、乙、丙、丁四名射击选手在选拔赛中所得的平均环数及其方差s2如下表所示:
甲 乙 丙 丁
7 8 8 7
s2 6.3 6.3 7 8.7
现需从中选取1人参加决赛,则最佳人选是(B)
A.甲 B.乙
C.丙 D.丁
2.已知在某次测量中得到的A样本数据为42,43,46,52,42,50.若B样本数据恰好是A样本数据每个都减5后所得数据,则A,B两样本中对应相同的是(B)
A.平均数 B.标准差
C.众数 D.中位数
提示 由题意得新数据的平均数、众数、中位数分别是原来结果减去5,即与A样本的不相同,而标准差不变.
3.甲、乙两名学生在5次英语测试中的成绩(单位:分)统计如下:
甲:74, 85, 86, 90, 93;
乙:76, 83, 85, 87, 97.
现要从中选派一人参加英语口语竞赛,从统计学角度,你认为派谁参加更合适?请说明理由.
解 甲==85.6(分), 乙==85.6(分); s=×[(74-85.6)2+(85-85.6)2+(86-85.6)2+(90-85.6)2+(93-85.6)2]=×209.2=41.84(分2), s=×[(76-85.6)2+(83-85.6)2+(85-85.6)2+(87-85.6)2+(97-85.6)2]=×231.2=46.24(分2).因为甲=乙, s<s,所以甲的水平更稳定,从而派甲参赛更合适.
4.某校为了了解高三年级学生的身高情况,根据男女学生所占的比例,利用分层抽样分别抽取50名男生和30名女生,测量他们的身高,所得数据如下表所示:
人数 平均数/cm 方差/cm2
男生 50 174 191
女生 30 162 110
试估计该校高三年级学生身高的平均数和方差.
解 由题意得样本平均数=×(50×174+30×162)=169.5(cm),方差s2=×{[50×191+50×(174-169.5)2]+[30×110+30×(162-169.5)2]}=194.375(cm2).可估计该校高三年级学生身高的平均数为169.5cm,方差为194.375cm2.
【课堂小结】
1.极差、方差和标准差.
2.利用极差、方差和标准差比较两组数据的稳定性.
3. 分层抽样中的均值与方差的计算.