9.2.4 总体离散程度的估计
【学习目标】
1.结合具体实例,经历用样本估计总体的离散程度参数(标准差、方差、极差)的过程,理解离散程度参数的统计含义.
2.经历比例分配的分层随机抽样的样本平均数和方差的推导过程,会求具体问题的样本平均数和样本方差,并能解释它们在实际问题中的意义.
3.结合具体实例,认识样本与总体的关系,逐步建立用样本估计总体的思想,尝试运用统计语言描述总体的特征.
◆ 知识点一 极差
极差:极差为一组数据中最大值与最小值的差.
◆ 知识点二 方差和标准差
1.一组数据的方差和标准差
一组数据x1,x2,…,xn的方差为(xi-)2=-,标准差为.
2.总体方差和总体标准差
(1)总体方差和总体标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=(Yi-)2为总体方差,S=为总体标准差.
(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.
3.样本方差和样本标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=(yi-)2为样本方差,s=为样本标准差.
4.标准差的意义
标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越 ;标准差越小,数据的离散程度越 .
平均数和标准差一起能反映数据取值的信息.一般情况下数据中大部分落在区间 内,绝大部分数据落在 内.
5.比例分配的分层随机抽样的方差
设样本量为n,样本数据的平均数为,样本分为两层,其中两层的个体数量分别为n1,n2,两层的平均数分别为,,方差分别为,,则这个样本的方差s2= .
【诊断分析】 判断下列说法的正误.(正确的打“√”,错误的打“×”)
(1)若一组数据的值大小相等,没有波动变化,则标准差为0. ( )
(2)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散. ( )
(3)标准差的大小不会超过极差. ( )
(4)一般情况下数据中绝大部分数据落在[-2s,+2s]内,也有可能落在[-2s,+2s]外. ( )
(5)计算比例分配的分层随机抽样中总样本的平均数与方差时,必须已知各层的权重. ( )
◆ 探究点一 方差、标准差的计算及应用
角度1 方差、标准差的计算
例1 下面的数据是某男运动员跳高的跳跃高度(单位:cm),请计算这组数据的平均数、方差和标准差(精确到小数点后两位).
190.0 190.3 190.5 193.0 193.5
198.1 194.1 197.1 202.9
变式1 电动摩托车的续航里程,是指电动摩托车在蓄电池满电量的情况下一次能行驶的最大距离.为了解某种型号电动摩托车的续航里程,现从某卖场库存电动摩托车中随机抽取5台电动摩托车,在相同条件下进行测试,统计结果如下:
电动摩托车编号 1 2 3 4 5
续航里程(km) 120 125 122 124 124
则这种型号被测试电动摩托车续航里程的方差为 ,标准差为 .
变式2 某高校共有“机器人”兴趣团队20个,将这20个团队分为甲、乙两组,每组10个团队,进行理论和实践操作考试(共150分),甲、乙两组的成绩如下(单位:分):
甲:125,141,140,137,122,114,119,139,121,142;
乙:127,116,144,127,144,116,140,140,116,140.
学校计划从甲、乙两组中选一组参加机器人大赛,从统计学角度分析,若最终选择甲组,理由是什么 若最终选择乙组,理由是什么
[素养小结]
标准差、方差的意义
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.标准差的大小不会超过极差.
(2)标准差、方差的取值范围是[0,+∞).
标准差、方差为0时,样本中的各数据相等,说明数据没有波动幅度,数据没有离散性.
角度2 方差、标准差的性质
例2 (1)某组数据x1,x2,…,xn的平均数为2.5,方差为1.5,求2x1-1,2x2-1,…,2xn-1的方差.
(2)设一组数据x1,x2,…,xn的标准差为sx,另一组数据3x1+a,3x2+a,…,3xn+a的标准差为sy,求sx与sy的关系.
变式 (1)[2024·辽宁大连高一期末] 若x1,x2,…,x10的方差为2,则3x1+1,3x2+1,…,3x10+1的方差是 ( )
A.18 B.7
C.6 D.2
(2)(多选题)有两组样本数据:x1,x2,…,x2024;y1,y2,…,y2024.其中yi=xi+2024(i=1,2,…,2024),则这两组样本数据的 ( )
A.样本平均数相同 B.样本中位数相同
C.样本方差相同 D.样本极差相同
[素养小结]
(1)一组数据中的每一个数都加上或减去同一个常数,所得的一组新数据的方差不变,标准差也不变.
(2)若把一组数据中的每一个数都变为原来的k倍并加上或减去常数a,则所得的一组新数据的标准差变为原来的k倍,方差变为原来的k2倍,而与a的大小无关.
◆ 探究点二 分层随机抽样的方差
例3 [2024·浙江杭州四中高一期中] 为了了解学生躯干、腰、髋等部位关节韧带和肌肉的伸展性、弹性等,某学校对在校1500名学生进行了一次坐位体前屈测试,采用按学生性别比例分配的分层随机抽样方法抽取75人,已知这1500名学生中男生有900人,且抽取的样本中男生所获得成绩的平均数和方差分别为13.2 cm和13.36,女生所获得成绩的平均数和方差分别为15.2 cm和17.56.
(1)求样本中男生和女生应分别抽取多少人
(2)求抽取的总样本的平均数,并估计全体学生的坐位体前屈成绩的方差.
变式 甲、乙两支田径队队员的体检结果为:甲队队员体重的平均数为60 kg,方差为200,乙队队员体重的平均数为70 kg,方差为300.已知甲、乙两队的队员人数之比为1∶4,求甲、乙两队全部队员体重的平均数和方差.
[素养小结]
分层随机抽样的方差:设样本中不同层的平均数分别为,,…,,方差分别为,,…,,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[+(-)2](其中为这个样本的平均数).
拓展 某市新时代文明实践中心承办了该市马拉松志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩(单位:分),并分成五组:第一组[45,55),第二组[55,65),第三组[65,75),第四组[75,85),第五组[85,95],绘制成如图所示的频率分布直方图.已知第一、二组的频率之和为0.3,第一组和第五组的频率相同.
(1)估计这100名候选者面试成绩的平均数(同一组中的数据用该组区间的中点值作代表)和第25百分位数;
(2)现从以上各组中用比例分配的分层随机抽样的方法选取20人担任本市的宣传者,若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和70,据此估计这次第二组和第四组面试者所有人面试成绩的方差.
◆ 探究点三 数据的数字特征的综合应用
例4 在一次科技知识竞赛中,两组学生的成绩如下表(满分为100分):
成绩(分) 50 60 70 80 90 100
人数 甲组 2 5 10 13 14 6
乙组 4 4 16 2 12 12
请根据你所学过的统计知识,进一步判断这两组学生在这次竞赛中的成绩谁优谁劣,并说明理由.
变式 甲、乙两人在相同条件下各射靶10次,每次射靶的成绩情况如图所示.
(1)请填写下表:
平均数 方差 中位数 命中9环及 9环以上的次数
甲
乙
(2)请从下列四个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看(谁的成绩更稳定);
②从平均数和中位数相结合看(谁的成绩好些);
③从平均数和命中9环及9环以上的次数相结合看(谁的成绩好些);
④从折线图上两人射靶命中环数的走势看(谁更有潜力).
[素养小结]
数据分析的要点
(1)要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的角度去判断,实际问题中应从实际的角度去分析.
(2)在进行数据分析时,不同的标准没有对和错的问题,也不存在唯一解的问题,而是根据需要来选择“好”的决策,至于决策的好坏,是根据提出的标准而定的.
9.2.4 总体离散程度的估计
【课前预习】
知识点二
4.大 小 [-s,+s] [-2s,+2s]
5.[+(-)2]+[+(-)2]
诊断分析
(1)√ (2)× (3)√ (4)√ (5)√ [解析] (2)标准差越大,数据的离散程度越大,数据越分散;标准差越小,数据的离散程度越小,数据越集中.
【课中探究】
探究点一
例1 解:根据题意,9个数据依次为190.0,190.3,190.5,193.0,193.5,198.1,194.1,197.1,202.9,则平均数=×(190.0+190.3+190.5+193.0+193.5+198.1+194.1+197.1+202.9)=190+×(0.3+0.5+3+3.5+8.1+4.1+7.1+12.9)≈194.39,方差s2=×[(190.0-)2+(190.3-)2+…+(202.9-)2]≈16.39,标准差s≈≈4.05.
变式1 [解析] 这种型号被测试电动摩托车续航里程的平均数=120+=123(km),设这种型号被测试电动摩托车续航里程的方差为s2,则s2=×[(120-123)2+(125-123)2+(122-123)2+(124-123)2+(124-123)2]=,标准差为=.
变式2 解:甲组成绩的平均数=×(125+141+140+137+122+114+119+139+121+142)=130,
乙组成绩的平均数=×(127+116+144+127+144+116+140+140+116+140)=131.
甲组数据的方差=×[(125-130)2+(141-130)2+(140-130)2+(137-130)2+(122-130)2+(114-130)2+(119-130)2+(139-130)2+(121-130)2+(142-130)2]=104.2,
乙组数据的方差=×[(127-131)2+(116-131)2+(144-131)2+(127-131)2+(144-131)2+(116-131)2+(140-131)2+(140-131)2+(116-131)2+(140-131)2]=128.8.
选择甲组的理由:甲、乙两组的平均数相差不大,但<,甲组成绩的波动较小.
选择乙组的理由:<,在比赛中,高分团队获胜的概率较大.
例2 解:(1)设x1,x2,…,xn的平均数为,则=(x1+x2+…+xn)=2.5,[(x1-2.5)2+(x2-2.5)2+…+(xn-2.5)2]=1.5,
∴[(2x1-1)+(2x2-1)+…+(2xn-1)]=[2(x1+x2+…+xn)-n]=2×2.5-1=4,
∴[(2x1-1-4)2+(2x2-1-4)2+…+(2xn-1-4)2]=[(2x1-5)2+(2x2-5)2+…+(2xn-5)2]=[(x1-2.5)2+(x2-2.5)2+…+(xn-2.5)2]=4×1.5=6.
(2)设x1,x2,…,xn的平均数为,则3x1+a,3x2+a,…,3xn+a的平均数为3+a.
sy===
==3sx,∴sy=3sx.
变式 (1)A (2)CD [解析] (1)由题意得3x1+1,3x2+1,…,3x10+1的方差是32×2=18.故选A.
(2)根据题意,对于数据x1,x2,…,x2024,假设x1探究点二
例3 解:(1)总体容量为1500,样本容量为75,则抽样比为=,所以样本中男生人数为900×=45,女生人数为(1500-900)×=30.
(2)因为抽取的样本中男生所获得成绩的平均数=13.2(cm),方差=13.36,女生所获得成绩的平均数=15.2(cm),方差=17.56,所以总样本的平均数=×(45×13.2+30×15.2)=14(cm),总样本的方差s2=×{45×[13.36+(13.2-14)2]+30×[17.56+(15.2-14)2]}=×(630+570)=16,所以估计全体学生的坐位体前屈成绩的方差为16.
变式 解:由题意可知=60 kg,甲队队员在所有队员中所占权重为=,=70 kg,乙队队员在所有队员中所占权重为=,则甲、乙两队全部队员体重的平均数=×60+×70=68(kg),甲、乙两队全部队员体重的方差s2=×[200+(60-68)2]+×[300+(70-68)2]=296.
拓展 解:(1)由题意可知解得
可知每组的频率依次为0.05,0.25,0.45,0.2,0.05,
故估计这100名候选者面试成绩的平均数为50×0.05+60×0.25+70×0.45+80×0.2+90×0.05=69.5(分).
由0.05+0.25=0.3>0.25,
设第25百分位数为x,则x∈[55,65),所以0.05+(x-55)×0.025=0.25,解得x=63,故估计第25百分位数为63.
(2)设第二组、第四组的平均数分别为,,方差分别为,,因为两组的频率之比为=,所以估计这次第二组和第四组面试者所有人面试成绩的平均数为==70(分),
故估计这次第二组和第四组面试者所有人面试成绩的方差为s2=[+(-)2]+[+(-)2]=×[40+(62-70)2]+×[70+(80-70)2]=.
探究点三
例4 解:(1)甲组学生成绩的众数为90分,乙组学生成绩的众数为70分,从成绩的众数来看,甲组学生的成绩好些.
(2)=×(50×2+60×5+70×10+80×13+90×14+100×6)=×4000=80(分),=×(50×4+60×4+70×16+80×2+90×12+100×12)=×4000=80(分).=×[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,=×[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵=,<,∴甲、乙两组学生成绩的平均数相同,但甲组学生的成绩比乙组学生的成绩更为稳定,故甲组学生的成绩好些.
(3)甲、乙两组学生的成绩的中位数、平均数都是80分,其中,甲组学生成绩在80分及以上的有33人,乙组学生成绩在80分及以上的有26人.从这一角度看,甲组学生的成绩较好.
(4)从成绩统计表看,甲组学生成绩大于或等于90分的有20人,乙组学生成绩大于或等于90分的有24人,∴乙组学生成绩集中在高分段的较多.
同时,乙组得满分的人数比甲组得满分的人数多6.从这一角度看,乙组的成绩较好.
变式 解:(1)由题图可知,甲射靶命中的环数分别为9,5,7,8,7,6,8,6,7,7,乙射靶命中的环数分别为2,4,6,8,7,7,8,9,9,10.
甲射靶命中环数的平均数为×(9+5+7+8+7+6+8+6+7+7)=7,方差为×[(9-7)2+(5-7)2+4×(7-7)2+2×(8-7)2+2×(6-7)2]=1.2,中位数是7,命中9环及9环以上的次数为1;
乙射靶命中环数的平均数为×(2+4+6+8+7+7+8+9+9+10)=7,方差为×[(2-7)2+(4-7)2+(6-7)2+2×(8-7)2+2×(7-7)2+2×(9-7)2+(10-7)2]=5.4,中位数是7.5,命中9环及9环以上的次数为3.
可填写表格如下:
平均数 方差 中位数 命中9环及9环以上的次数
甲 7 1.2 7 1
乙 7 5.4 7.5 3
(2)①甲、乙的平均数相同,乙的方差较大,所以甲的成绩更稳定;
②甲、乙的平均数相同,乙的中位数较大,所以乙的成绩好些;
③甲、乙的平均数相同,乙命中9环及9环以上的次数比甲多,所以乙的成绩较好;
④从折线图上看,在后半部分,乙呈上升趋势,而甲起伏不定,且均未超过乙,故乙更有潜力.