14.4.2 用样本估计总体的离散程度参数
1. 结合实例,理解样本数据的极差、方差和标准差的概念和作用.
2. 学会计算样本数据的极差、方差和标准差,掌握通过合理抽样对总体稳定性水平作出估计的思想方法.
活动一 极差、方差、标准差的概念
1. 阅读教材.
思考
极差、方差、标准差的定义及公式.
练习 求52,49,48,55,47,48,56,53 的极差、方差及标准差.
2. 分层抽样数据的方差计算.
一般地,如果总体分为k层,第j层抽取的样本为xj1,xj2,…,xjnj,第j层的样本量为nj,样本平均数为j,样本方差为s,j=1,2,…,k.记nj=n,那么,所有数据的样本方差为
s=(xjt-)2=nj[s+(j-)2].
活动二 掌握极差、方差、标准差的应用
例1 甲、乙两种水稻试验品种连续5年的平均单位面积产量(单位:t/hm2)如下表所示,试根据这组数据估计哪一种水稻品种的产量比较稳定.
品种 第1年 第2年 第3年 第4年 第5年
甲 9.8 9.9 10.1 10 10.2
乙 9.4 10.3 10.8 9.7 9.8
极差、方差、标准差都是刻画数据离散程度的度量值.当两组数据的离散程度差异不大时,运用极差就不容易得出结论.而方差与原始数据的单位不同,且平方后可能夸大了离差的程度,所以用标准差能比较客观地反映数据的离散程度.
对甲、乙两名自行车赛车手在相同条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:
甲 27 38 30 37 35 31
乙 33 29 38 34 28 36
分别求出甲、乙两名自行车赛车手最大速度数据的平均数、极差、方差,并判断选谁参加比赛比较合适?
例2 为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换.已知某校使用的100只日光灯在必须换掉前的使用天数如下表所示,试估计这种日光灯的平均使用寿命和标准差.
使用 天数 451~ 480 481~ 510 511~ 540 541~ 570 571~ 600 601~ 630 631~ 660 661~ 690
日光 灯数 1 11 18 20 25 16 7 2
提示:用每一区间的组中值作为相应日光灯的使用寿命,再求平均使用寿命和标准差.
一般地,若取值为x1,x2,…,xn的频率分别为p1,p2,…,pn,则其方差为p1(x1-)2+p2(x2-)2+…+pn(xn-)2.
有一种鱼的身体吸收汞,身体中汞的含量超过其体重的1.00 ppm(即百万分之一)的鱼被人食用后,就会对人体产生危害.在30条鱼的样本中发现的汞含量(单位:ppm)如下:
0.07 0.24 0.95 0.98 1.02 0.98
1.37 1.40 0.39 1.02 1.44 1.58
0.54 1.08 0.61 0.72 1.20 1.14
1.62 1.68 1.85 1.20 0.81 0.82
0.84 1.29 1.26 2.10 0.91 1.31
(1) 请用合适的统计图描述上述数据,并分析这30条鱼的汞含量的分布特点;
(2) 求出上述样本数据的平均数和标准差;
(3) 从实际情况看,许多鱼的汞含量超标的原因是这些鱼在出售之前没有被检测过,你认为每批这种鱼的平均汞含量都比1.00 ppm大吗?并说明理由;
(4) 在上述样本中,有多少条鱼的汞含量在以平均数为中心,距离平均数为2倍标准差的范围内?
1. (教材改编)甲、乙、丙、丁四位同学各掷5次骰子并记录点数如下,其中方差最大的是( )
甲:4 5 4 5 5 乙:4 2 3 4 3
丙:2 3 2 3 4 丁:6 1 2 6 1
A. 甲 B. 乙 C. 丙 D. 丁
2. (教材改编)已知数据x1,x2,…,xn的方差为s2,则2x1+3,2x2+3,…,2xn+3的方差为( )
A. s2 B. 2s2 C. 4s2 D. 4s2+12s+9
3. (多选)(2024南京开学考试)已知样本数据x1,x2,…,xn的平均数为 ,则数据x1,x2,…,xn,( )
A. 与原数据的极差相同 B. 与原数据的众数相同
C. 与原数据的方差相同 D. 与原数据的平均数相同
4. 已知一组数据x1,x2,…,xn的平均值为 =5,s2=32,删去一个数之后,平均值没有改变,方差比原来大2,则这组数据的个数n=________.
5. (2023嘉兴期末)某工厂现有甲、乙两条生产线,可生产同一型号的产品. 为了提高生产线的稳定性和产品的质量,计划对其中一条生产线进行技术升级. 为此,让甲、乙两条生产线各生产 8天(每天生产的时间、产品总数均相同),两条生产线每天生产的次品数分别为:
第1天 第2天 第3天 第4天 第5天 第6天 第7天 第8天
甲 0 1 1 0 1 1 1 1
乙 1 2 3 0 0 0 1 1
(1) 分别计算这两组数据的平均数和方差;
(2) 请依据所学统计知识,结合(1)中的数据,给出升级哪条生产线的建议,并说明你的理由.
14.4.2 用样本估计总体的离散程度参数
【活动方案】
思考:在一组数据x1,x2,…,xn中,最大值与最小值的差称为极差.各数据与它们的平均数 的差的平方的平均数,叫这组数据的方差,常用s2表示,即s2=.方差的算术平方根叫这组数据的标准差,用s表示,即s=.
练习:极差=56-47=9.
=×(52+49+48+55+47+48+56+53)=51.
s2=[(52-)2+(49-)2+(48-)2+…+(53-)2]×=(12+22+32+42+42+32+52+22)×=10.5.
s==≈3.24.
例1 甲品种的样本平均数为10,样本方差为
[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02;
乙品种的样本平均数也为10,样本方差为
[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.244.
因为0.244>0.02,所以可以估计甲种水稻的产量比较稳定.
跟踪训练 甲==33,
乙==33,
s=×[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]≈15.67,
s=×[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]≈12.67,
甲的极差为11,乙的极差为10.
因为甲、乙平均数相等,乙的方差和极差较小,所以选乙参加比赛比较合适.
例2 各区间的组中值分别为465.5,495.5,525.5,555.5,585.5,615.5,645.5,675.5,由此可得平均数约为465.5×1%+495.5×11%+525.5×18%+555.5×20%+585.5×25%+615.5×16%+645.5×7%+675.5×2%=568.4≈568(天).这些组中值的方差为×[1×(465.5-568.4)2+11×(495.5-568.4)2+18×(525.5-568.4)2+20×(555.5-568.4)2+25×(585.5-568.4)2+16×(615.5-568.4)2+7×(645.5-568.4)2+2×(675.5-568.4)2]=2 128.59,
故所求的标准差约为≈46(天).
故估计这种日光灯的平均使用寿命为568天,标准差约为46天.
跟踪训练 (1) 频率分布表如下:
分组 频数 频率
[0.00,0.50) 3 0.10
[0.50,1.00) 10 0.3
[1.00,1.50) 12 0.40
[1.50,2.00) 4 0.13
[2.00,2.50] 1 0.03
合计 30 1.00
作出如图所示的频率直方图.
汞含量的分布偏向于1.00 ppm的方向,即多数鱼的汞含量分布在大于1.00 ppm的区域.
(2) 样本平均数为=×(0.07+0.24+…+0.91+1.31)≈1.08,
样本方差s2≈×[(0.07-1.08)2+(0.24-1.08)2+(0.95-1.08)2+…+(0.91-1.08)2+(1.31-1.08)2]=0.204 26,
标准差s=≈0.45.
(3) 不一定,因为我们不知道其他各批鱼的汞含量分布是否都和这批鱼相同,即使其他各批鱼的汞含量分布与这批鱼相同,上面的数据也只能为对应分布作出估计,不能保证每批鱼的平均汞含量都大于1.00 ppm.
(4) 有28条鱼的汞含量在以平均数为中心,距离平均数为2倍标准差的范围内.
【检测反馈】
1. D 甲=,所以s=[++++]=;乙=,所以s=[++(3-)2+(4-)2+(3-)2]=;丙=,所以s=[(2-)2+(3-)2+(2-)2+(3-)2+(4-)2]=;丁=,所以s=[++(2-)2+(6-)2+(1-)2]=,所以方差最大的是丁.
2. C 因为数据x1,x2,…,xn的方差为s2,所以2x1+3,2x2+3,…,2xn+3的方差为4s2.
3. AD 不妨设x1≤x2≤x3≤…≤xn,则x1≤≤xn.对于A,样本数据x1,x2,…,xn的极差为xn-x1,数据x1,x2,…,xn,的极差也为xn-x1,故A正确;对于B,如数据1,1,2,2,4的众数为1和2,平均数为2,数据1,1,2,2,4,2的众数为2,故B错误;对于C,原数据的方差为s=,新数据的方差s=,所以新数据与原数据方差不同,故C错误;对于D,原数据的平均数为,新数据的平均数为===,故D正确.故选AD.
4. 17 一组数据x1,x2,…,xn的平均值为 =5,s2=32,删去一个数之后,平均值没有改变,方差比原来大2,即删去的这个数是5,设这组数据的个数为n,则(32×n)=34,解得n=17.
5. (1) 设甲组数据的平均数和方差分别为1,s,乙组数据的平均数和方差分别为2,s.
1==,s=×[2×+6×(1-)2]=;
2==1,s=×[3×(0-1)2+3×(1-1)2+(2-1)2+(3-1)2]=1.
(2) 因为1 < 2,所以甲生产线生产的次品平均数少于乙生产线生产的次品平均数;
又因为s综上,选择乙生产线进行升级.