9.2 用样本估计总体
9.2.1 总体取值规律的估计(1)
1. 结合实例,能用样本估计总体的取值规律.
2. 会列频率分布表,会画频率分布直方图.
3. 能根据频率分布表和频率分布直方图观测数据的分布规律.
活动一 背景引入
问题:我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作?
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t):
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
思考1
从这组数据中能发现什么信息?
思考2
为探索一组数据的取值规律,我们通常要怎样做?
思考3
如果要统计月均用水量在不同范围内的居民用户占全市居民用户的比例,应采用什么图表表示更直观?
活动二 绘制频率分布直方图
绘制频率分布直方图的一般步骤:
①求极差,即一组数据中最大值与最小值的差;
②决定组距与组数,组距与组数的确定没有固定的标准,数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”;
③将数据分组,当所有组距的总长度超过极差时,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值;
④列频率分布表,计算各小组的频率,第i组的频率是;
⑤画频率分布直方图,横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
思考4
绘制活动一中问题的频率分布直方图,你能从图表中发现居民用户月均用水量的哪些分布规律?能用适当的语言描述吗?
活动三 频率分布直方图的应用
例1 一个农技站为了考察某种麦穗长的分布情况,在一块试验地里抽取了100根麦穗,量得长度如下(单位: cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6 5.8 5.5 6.0 6.5 5.1
6.5 5.3 5.9 5.5 5.8 6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4 6.4 5.8 5.9 5.7 6.8
6.6 6.0 6.4 5.7 7.4 6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0 5.6 6.2 6.1 5.3 6.2
6.8 6.6 4.7 5.7 5.7 5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表、绘出频率分布直方图,并用自己的语言描述一下这批麦穗长的情况.
1. 在列频率分布表时,极差、组距、组数有如下关系:
(1) 若为整数,则=组数;
(2) 若不为整数,则的整数部分+1=组数.
2. 组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况.若样本容量不超过100,则常分为5~12组,一般样本容量越大,所分组数也越多.
某制造商3月份生产了一批乒乓球,随机抽取100个进行检查,测量每个乒乓球的直径(单位:mm),将数据分组如下表.将频率分布表补充完整(结果保留两位小数),并在下图中画出频率分布直方图.
例2 在某次数学测验后,将参加考试的500名学生的数学成绩绘制成频率分布直方图如图所示,则在该次测验中成绩不低于100分的学生人数是( )
A. 210 B. 205 C. 200 D. 195
1. 因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
2. 在频率分布直方图中,各小长方形的面积之和等于1.
3. =样本量.
4. 在频率分布直方图中,各长方形的面积之比等于频率之比,各长方形的高度之比也等于频率之比.
如图所示是由总体的一个样本绘制的频率分布直方图,且在[15,18)内的频数为8.
(1) 求样本在[15,18)内的频率;
(2) 求样本量;
(3) 若在[12,15)内的小矩形面积为0.06,求在[18,33)内的频数.
1. 在抽查某产品尺寸的过程中,将其尺寸分成若干组,[a,b)是其中一组,抽查出的个体数在该组内的频率为m,该组直方图的高为h,则|a-b|的值等于( )
A. h·m B. C. D. 与m,h无关
2. 某厂对一批电子元件的长度(单位:mm)进行抽样检测,得到如图所示的频率分布直方图. 若长度在区间[90,96)内的电子元件为合格品,则估计这批元件中合格产品所占的百分比是( )
A. 70% B. 75% C. 80% D. 85%
3. (多选)为组织好“市运会”,组委会征集了800名志愿者,现对他们的年龄进行抽样统计后,得到如图所示的频率分布直方图,但是年龄在[25,30)内的数据不慎丢失,则下列说法中正确的是( )
A. 年龄在[25,30)内对应小长方形的高度为0.04
B. 年龄在[25,30)内对应小长方形的高度为0.2
C. 这800名志愿者中年龄在[25,35)内的人数为400
D .这800名志愿者中年龄在[25,35)内的人数为440
4. 一个容量为n的样本,将其观测数据分成若干组,已知甲组的频数和频率分别为36和,则n=________,频率为的乙组的频数x=________.
5. (2023长春外国语学校高一阶段练习)某城市100户居民的月平均用电量(单位:kW·h)以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1) 求直方图中x的值;
(2) 在这100户居民中,月平均用电量不低于220 kW·h的有多少户?
(3) 在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层随机抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
【答案解析】
9.2 用样本估计总体
9.2.1 总体取值规律的估计(1)
【活动方案】
思考1:对数据进行整理,容易发现,这组数据的最小值是1.3 t,最大值是28.0 t,其他在1.3 t至28.0 t之间.
思考2:一般先要用表格对数据进行整理,或者用图将数据直观表示出来.
思考3:频率分布表或频率分布直方图.
思考4:频率分布直方图如图:
可以清晰地看出,样本观测数据落在各个小组的比例大小,月均用水量在[4.2,7.2)内的居民用户最多.居民用户月均用水量的样本观测数据的分布是不对称的,表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间[1.2,7.2)最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.
例1 频率分布表如图:
分组 频数累计 频数 频率
[3.95,4.25) 1 0.01
[4.25,4.55) 1 0.01
[4.55,4.85) 2 0.02
[4.85,5.15) 正 5 0.05
[5.15,5.45) 正正 11 0.11
[5.45,5.75) 正正正 15 0.15
[5.75,6.05) 正正正正正 28 0.28
[6.05,6.35) 正正 13 0.13
[6.35,6.65) 正正 11 0.11
[6.65,6.95) 正正 10 0.10
[6.95,7.25) 2 0.02
[7.25,7.55] 1 0.01
合计 100 1.00
频率分布直方图如图:
从频率分布直方图中可以看出,绝大部分麦穗长集中在[5.15,6.95)内,并且[5.75,6.05)占比最大.
跟踪训练 0.10 0.20 0.50 0.20 1.00
频率分布直方图如下:
例2 C 解析:由频率分布直方图得,在该次测验中成绩不低于100分的学生的频率为1-(0.012+0.018+0.030)×10=0.4,所以在该次测验中成绩不低于100分的学生人数为500×0.4=200.
跟踪训练 由样本频率分布直方图可知组距为3.
(1) 由样本频率分布直方图得样本在[15,18)内的频率为×3=.
(2) 因为样本在[15,18)内的频数为8,
由(1)可知,样本量为=8×=50.
(3) 因为在[12,15)内的小矩形面积为0.06,
所以样本在[12,15)内的频率为0.06,
所以样本在[15,33)内的频数为50×(1-0.06)=47.
又因为在[15,18)内的频数为8,
所以在[18,33)内的频数为47-8=39.
【检测反馈】
1. B 解析:小长方形的高=,所以|a-b|==.
2. C 解析:易知在区间[90,96)内的频率分布直方图的面积S=1-(0.027 5+0.027 5+0.045 0)×2=0.8,故这批元件中合格品所占的百分比是80%.
3. AD 解析:年龄在[25,30)内对应小长方形的高度为×[1-(5×0.01+5×0.07+5×0.06+5×0.02)]=0.04,故A正确,B错误;年龄在[25,35)内的频率为0.04×5+0.07×5=0.55,所以这800名志愿者中年龄在[25,35)内的人数为0.55×800=440,故C错误,D正确.故选AD.
4. 144 24 解析:由题意,得=,所以n=36×4=144,同理=,解得x=24.
5. (1) 由直方图的性质可得(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,
解得x=0.007 5.
(2) 月平均用电量为[220,240)的用户有0.012 5×20×100=25(户);
月平均用电量为[240,260)的用户有0.007 5×20×100=15(户);
月平均用电量为[260,280)的用户有0.005×20×100=10(户);
月平均用电量为[280,300]的用户有0.002 5×20×100=5(户),
所以月平均用电量不低于220 kW·h的有25+15+10+5=55(户).
(3) 由(2)可知,抽样比为=,
所以月平均用电量在[220,240)的用户中应抽取25×=5(户).9.2.1 总体取值规律的估计(2)
1. 能根据实际问题的特点,选择恰当的统计图表(扇形统计图、条形统计图、折线统计图、频数分布直方图)对数据进行可视化描述.
2. 体会合理使用统计图表的重要性.
活动一 条形统计图、扇形统计图、折线统计图的特征
思考
常见的统计图有哪些?分别适用于统计的数据有什么特点?
例1 据《中国统计年鉴(2015)》可知,1990年、2000年和2014年我国人口年龄分布情况(百分比)如下表所示.
年龄 年份
1990 2000 2014
0~14岁 27.7% 22.9% 16.5%
15~64岁 66.7% 70.1% 73.4%
65及65岁以上 5.6% 7.0% 10.1%
(1) 试用扇形统计图表示2014年三个年龄段的人口所占比;
(2) 试用折线统计图表示1990年、2000年和2014年65及65岁以上人口占比.
条形统计图能够直观地描述不同类别或分组数据的频率和频数,扇形统计图能够直观地反应各个类别在总体中所占的比例,折线统计图可以看出变化趋势.
下图是A,B两所学校艺术节期间收到的各类艺术作品情况的统计图.
A学校 B学校
(1) 从图中能否看出哪所学校收到的水粉画作品数量多?为什么?
(2) 已知A学校收到的剪纸作品比B学校的多20件,收到的书法作品比B学校的少100件,请问这两所学校收到艺术作品的总件数分别是多少?
活动二 频数分布直方图
例2 已知某市2015年全年空气质量等级如下表所示:
空气质量等级(空气质量指数(AQI)) 频数 频率
优(AQI≤50) 83 22.8%
良(50
轻度污染(100中度污染(150重度污染(200严重污染(AQI>300) 14 3.8%
合计 365 100%
2022年5月和6月的空气质量指数如下:
5月 33 47 61 75 77 52 36 26 32 70 43 30 26 27 28 32
58 44 73 85 81 83 71 66 29 31 43 84 45 31 51
6月 44 78 89 49 37 25 31 48 47 60 51 38 30 36 43 66
78 84 75 85 100 74 41 27 89 58 43 27 22 30
选择合适的统计图描述数据,并回答下列问题:
(1) 分析该市2022年6月的空气质量情况;
(2) 比较该市2022年5月和6月的空气质量,哪个月的空气质量较好?
(3) 比较该市2022年6月与该市2015年全年的空气质量,2022年6月的空气质量是否好于2015年?
不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续型数据等.
家庭过期药品属于“国家危险废物”,处理不当将会污染环境,危害健康.某市药监部门为了解市民家庭处理过期药品的方式,决定对全市家庭作一次简单随机抽样调查.
(1) 下列选取样本的方法:①在市中心某个居民区以家庭为单位随机抽取;②在全市医务工作者中以家庭为单位随机抽取;③在全市常住人口中以家庭为单位随机抽取,其中最合理的一种是________;(填序号)
(2) 本次抽样调查发现,接受调查的家庭都有过期药品,现将有关数据呈现如图:
①m=________,n=________;
②补全条形统计图;
③根据调查数据,你认为该市市民家庭处理过期药品最常见的方式是什么?
④家庭过期药品的正确处理方式是送回收站,若该市有180万户家庭,请估计大约有多少户家庭处理过期药品的方式是送回收站.
1. (2023邢台高一联考)已知某地A,B,C三个村的人口户数及贫困情况分别如图1 和图2 所示,为了解该地三个村的贫困原因,当地政府决定采用分层随机抽样的方法抽取20%的户数进行调查,则抽取A,B两村贫困户的户数比是( )
A. 7∶9 B. 7∶27 C. 1∶3 D. 1∶7
2. (2023宜宾高二统考)下图是我国2012~2018年眼镜及其零件出口金额条形图及同比增速折线图,则下列说法中正确的是( )
A. 2012~2018年我国眼镜及其零件出口金额逐年增加
B. 2012~2018年我国眼镜及其零件出口金额的极差为16.41
C. 2013~2018年我国眼镜及其零件出口金额同比增速逐年减少
D. 2013~2018年我国眼镜及其零件出口金额同比增速最大的是2013年
3. (多选)如图分别是某班全体学生上学时乘车、步行、骑车人数的条形统计图和扇形统计图(两图都不完整),则下列结论中正确的是( )
A. 该班总人数为50
B. 步行人数为30
C. 乘车人数是骑车人数的2.5倍
D. 骑车人数占该班总人数的20%
(第3题) (第4题)
4. 2023年6月6日是第28个全国爱眼日.某校为了做好学生的眼睛保护工作,对全体学生的裸眼视力进行了一次抽样调查,调查结果如图所示.根据学生视力合格标准,裸眼视力大于或等于5.0的为正常视力,那么估计该校正常视力的学生占全体学生的________.
5. 为了解某校初中各年级学生每天的平均睡眠时间(单位:h,精确到1 h),抽样调查了部分学生,并用得到的数据绘制了下面两幅不完整的统计图.请你根据图中提供的信息,回答下列问题.
(1) 扇形统计图中百分数a的值为________,所抽查的学生人数为________;
(2) 求出平均睡眠时间为8 h的人数,并补全条形统计图;
(3) 求出这部分学生平均睡眠时间的众数和平均数;
(4) 如果该校共有学生 1 200 名,请你估计睡眠不足(少于8 h)的学生数.
【答案解析】
9.2.1 总体取值规律的估计(2)
【活动方案】
思考:常见的统计图有频率分布直方图、条形统计图、扇形统计图、折线统计图.扇形统计图主要用于直观描述各类数据占总数的比例;条形统计图和频率分布直方图主要用于直观描述不同类别或分组数据的频数和频率;折线统计图主要用于描述数据随时间的变化趋势.
例1 (1)
(2)
跟踪训练 (1) 不能.因为两所学校收到艺术作品的总数不知道.
(2) 设A学校收到艺术作品的总件数为x,B学校收到艺术作品的总件数为y,
则解得
即A学校收到艺术作品的总件数为500,B学校收到艺术作品的总件数为600.
例2 (1) ①根据该市2022年6月的空气质量指数和空气质量等级分级标准,可以画出该市这个月的不同空气质量等级的频数与频率分布表如下:
空气质量等级 合计
优 良 轻度污染 中度污染 重度污染 严重污染
天数 17 13 0 0 0 0 30
频率 56.67% 43.33% 0 0 0 0 100%
从表中可以看出,6月的空气质量都为“优”或“良”,“优”“良”的天数分别为17天和13天,各占整月的56.67%和43.33%.
②我们可以用条形图和扇形图对数据作出直观的描述,如图1和图2.从条形图中可以看出,空气质量等级只有“优”和“良”两种,空气质量为“优”的天数比“良”的天数多,后四个等级的天数为零.从扇形图中可以看出,空气质量为“优”的天数超过总天数的一半,其余的为“良”.因此,整体上6月的空气质量很好.
我们还可以用折线图展示空气质量指数随时间的变化情况,容易发现,6月的空气质量指数在50附近波动.
(2)根据该市2022年5月的空气质量指数和空气质量分级标准,可以画出该市这个月的不同空气质量等级的频数和频率分布表如下:
频数、频率 空气质量等级 合计
优 良 轻度污染 中度污染 重度污染 严重污染
天数 17 14 0 0 0 0 31
频率 54.84% 45.16% 0 0 0 0 100%
为了便于比较,我们选用复合条形图,将两组数据同时反映到一个条形图上.通过条形图中柱的高低,可以更直观地进行两个月的空气质量的比较.
可以发现,5月和6月空气质量基本相同.“优”的天数相同,均为17天,5月“良”的天数比6月多1天,两个月均没有为轻度污染及以上的天数.
(3) 把2022年6月和2015年全年的空气质量进行比较,由于一个月和一年的天数差别很大,所以直接通过频数比较没有意义,应该转化成频率分布进行比较.可以通过二者的空气质量指数的频率分布直方图或空气质量等级的频率分布条形图进行比较.
可以看出,2022年6月的空气质量为“优”或“良”的频率都明显高于2015年,而且2022年6月空气质量为污染的天数频率为0,明显低于2015 年,所以从整体上看,2022年6月的空气质量要明显好于2015年全年的空气质量.
跟踪训练 (1) ③ (2) ①20 6
②C类户数为1 000-(80+510+200+60+50)=100,
条形统计图补充如下:
③根据调查数据,即可知道该市市民家庭处理过期药品最常见的方式是B类.
④180×10%=18(万户).
若该市有180万户家庭,估计大约有18万户家庭处理过期药品的方式是送回收站.
【检测反馈】
1. B 解析:在A村抽取的户数为20%×350=70,所以抽取A村贫困户的户数为10%×70=7;在B村抽取的户数为20%×450=90,所以抽取B村贫困户的户数为30%×90=27,则抽取A,B两村贫困户的户数比是7∶27.
2. D 解析:根据出口金额条形图及同比增速折线图,可看出我国眼镜及其零件出口金额在2016年出现减少,故A错误;2012~2018年我国眼镜及其零件出口金额的极差为54.52-37.19=17.33,故B错误;2013~2018年我国眼镜及其零件出口金额同比增速先减少,再增加,后又减少,故C错误;从图中可知,2013~2018年我国眼镜及其零件出口金额同比增速最大的是2013年,为15%,故D正确.
3. ACD 解析:对于A,总人数是25÷50%=50,故A正确;对于B,步行的人数是50×30%=15,故B错误;因为骑车人数占该班总人数的1-50%-30%=20%,所以乘车人数对于骑车人数的倍数是50%÷20%=2.5,故C,D正确.故选ACD.
4. 20% 解析:该校正常视力的学生占全体学生的=0.2=20%.
5. (1) 45% 60
(2) 平均睡眠时间为8 h的人数为60×30%=18,平均睡眠时间为7 h的人数为60×45%=27.
条形统计图如图所示:
(3) 这部分学生平均睡眠时间的众数是7 h,
平均数是=7.2(h).
(4) 1 200名学生中,睡眠不足(少于8 h)的学生数约为×1 200=780.9.2.2 总体百分位数的估计
1. 理解百分位数的统计含义.
2. 会求样本数据的第p百分位数.
活动一 背景引入
根据9.2.1(1)中100户居民用户的月均用水量数据,如果该市政府希望使80%的居民用户生活用水费支出不受影响,你能给市政府提出确定居民用户月均用水量标准的建议吗?
思考1
这个问题转化为数学的本质是什么?
思考2
如何具体操作?
思考3
根据市政府的要求,居民用户月均用水量标准定为多少合适?
活动二 第p百分位数的含义
1. 第p百分位数的定义:
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
思考4
第p百分位数有什么含义?
2. 四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
活动三 第p百分位数的实际应用
例1 有一样本的数据为3 310,3 355,3 450,3 480,3 490,3 520,3 540,3 550,3 650,3 730,3 925,求这组数据的第50百分位数和第75百分位数.
计算一组n个数据的第p百分位数的步骤:
第1步:按从小到大排列原始数据.
第2步:计算i=n×p%.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
某中学高二(2)班甲、乙两名学生自进入高中以来,各次数学考试成绩情况如下:
甲:95,81,75,91,86,89,71,65,76,88,94,110,107.
乙:83,86,93,99,88,103,98,114,98,79,78,106,101.
甲、乙数学考试成绩的第25,50百分位数分别是多少?
例2 为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位: cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,估计这60株树木底部周长的第50百分位数和第75百分位数.
频率分布直方图计算百分位数的规律:
求总体百分位数的估计,首先要从小到大排列数据,频率分布直方图看作数据均匀分布在直方图上,然后计算出i=n×p%,当i不是整数要取整,频率分布直方图要计算出比例值.
根据下面的频率分布表,估计月均用水量的样本数据的第80和95百分位数.
分组 频数累积 频数 频率
[1.2,4.2) 正正正正 23 0.23
[4.2,7.2) 正正正正正正 32 0.32
[7.2,10.2) 正正 13 0.13
[10.2,13.2) 正 9 0.09
[13.2,16.2) 正 9 0.09
[16.2,19.2) 正 5 0.05
[19.2,22.2) 3 0.03
[22.2,25.2) 4 0.04
[25.2,28.2] 2 0.02
合计 100 1.00
1. (2023吕梁高一联考)已知参加数学竞赛决赛的14人的成绩如下:78,70,72,86,88,79,80,81,94,84,56,83,90,91,则这14人成绩的第70百分位数是( )
A. 84 B. 85 C. 86 D. 87
2. 数据3.2,3.4,3.8,4.2,4.3,4.5,x,6.6的第65百分位数是4.5,则实数x的取值范围是( )
A. [4.5,+∞) B. [4.5,6.6)
C. (4.5,+∞) D. [4.5,6.6]
3. (多选)已知100个数据的第75百分位数是9.3,则下列说法中不正确的是( )
A. 这100个数据中至少有75个数小于或等于9.3
B. 把这100个数据从小到大排列后,9.3是第75个数据
C. 把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数
D. 把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数
4. 数据27,38,30,36,35,31,33,29,38,34,28,36的第一四分位数是________.
5. (2023滁州高一联考)黄山原名“黟山”,因峰岩青黑,遥望苍黛而名,后因传说轩辕黄帝曾在此炼丹,故改名为“黄山”.黄山雄踞风景秀丽的安徽南部,是我国最著名的山岳风景区之一.明代旅行家、地理学家徐霞客两游黄山,赞叹说:“登黄山,天下无山,观止矣!”又留“五岳归来不看山,黄山归来不看岳”的美誉.为更好地提升旅游品质,黄山风景区的工作人员随机选择了100名游客对景区进行满意度评分(满分100分),根据评分,制成如图所示的频率分布直方图.
(1) 根据频率分布直方图,求x的值;
(2) 估计这100名游客对景区满意度评分的40%分位数(得数保留两位小数);
(3) 若2022年黄山景区累计接待进山游客约140万人,试估计满意度评分不低于70分的人数.
【答案解析】
9.2.2 总体百分位数的估计
【活动方案】
思考1:就是要寻找一个数a,使全市居民用户月均用水量中不超过a的占80%,大于a的占20%.
思考2:把得到的100个样本数据按从小到大排序,得到第80个和81个数据分别为13.6和13.8.可以发现,区间(13.6,13.8)内的任意一个数,都能把样本数据分成符合要求的两部分. 一般地,我们取这两个数的平均数=13.7,并称此数为这组数据的第80百分位数或80%分位数.
思考3:建议市政府把月均用水量标准定为14 t,或者把年用水量标准定为168 t.
思考4:总体数据中的任意一个数小于或等于它的可能性是p%.
例1 因为i1=50%×11=5.5,
所以第50百分位数是第6项的值 3 520.
因为i2=75%×11=8.25,
所以第75百分位数是第9项的值 3 650.
综上,第50百分位数和第75百分位数分别为 3 520,3 650.
跟踪训练 将甲、乙两名学生的数学成绩从小到大排序,可得
甲:65,71,75,76,81,86,88,89,91,94,95,107,110.
乙:78,79,83,86,88,93,98,98,99,101,103,106,114.
由13×25%=3.25,13×50%=6.5,
可得数据的第25,50百分位数分别为第4项和第7项数据,
即学生甲数学成绩的第25,50百分位数分别为76,88;学生乙数学成绩的第25,50百分位数分别为86,98.
例2 因为底部周长低于100 cm的所占比例为(0.015+0.025)×10×100%=40%,
底部周长低于110 cm的所占比例为40%+0.030×10×100%=70%,
底部周长低于120 cm的所占比例为70%+0.020×10×100%=90%,
所以第50百分位数一定位于[100,110)内,第75百分位数一定位于[110,120)内,
则100+10×≈103.3,110+10×=112.5.
综上可知,估计这60株树木底部周长的第50百分位数和第75百分位数分别为103.3 cm,112.5 cm.
跟踪训练 由频率分布表可知,月均用水量在13.2 t 以下的居民用户所占比例为23%+32%+13%+9%=77%,
在16.2 t以下的居民用户所占的比例为77%+9%=86%,
所以80%分位数一定位于[13.2,16.2)内.
由13.2+3×=14.2,
可以估计月均用水量的样本数据的第80百分位数约为14.2.
类似地,由22.2+3×=22.95,
可以估计月均用水量的样本数据的第95百分位数约为22.95.
【检测反馈】
1. C 解析:把成绩按从小到大的顺序排列为56,70,72,78,79,80,81,83,84,86,88,90,91,94,因为14×70%=9.8,所以这14人成绩的第70百分位数是86.
2. A 解析:因为8×65%=5.2,所以这组数据的第65百分位数是第6项数据4.5,所以应有5个数不大于4.5,则x≥4.5.
3. BD 解析:因为100×75%=75为整数,所以第75个数据和第76个数据的平均数为第75百分位数9.3,所以A正确,B不正确,C正确,D不正确.故选BD.
4. 29.5 解析:数据从小到大排列为27,28,29,30,31,33,34,35,36,36,38,38,12×25%=3,故该组数据的第一四分位数是=29.5.
5. (1) 由图知,10×(0.005+0.01+0.015+x+0.04)=1,解得x=0.03.
(2) 由10×(0.005+0.01+0.015)=0.3<0.4<10×(0.005+0.01+0.015+0.03)=0.6,
可知40%分位数在区间[80,90)内,令其为m,则0.3+0.03×(m-80)=0.4,
所以m=80+≈83.33.
(3) 由题意,估计满意度评分不低于70分的人数为140×[1-10×(0.005+0.01)]=119.9.2.3 总体集中趋势的估计
1. 结合实例,能用样本估计总体的集中趋势参数(众数、中位数、平均数).
2. 会求样本数据的众数、中位数、平均数.
3. 理解集中趋势参数的统计含义.
活动一 理解平均数、中位数与众数的概念
为了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律,但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的特征.例如,对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的总产量或平均每公顷的产量,而不是产量的分布;对于一个国家国民的身高情况,我们可能会更关注身高的平均数或中位数,而不是身高的分布;等等.
思考1
求52,49,48,54,47,48,55,52 的平均数.
方法一:
方法二:
1. 一般地,我们将一组数据中出现次数最多的那个数据叫作该组数据的众数.将一组数据按照从小到大的顺序排成一列,如果数据的个数为奇数,那么排在正中间的数据就是这组数据的中位数;如果数据的个数是偶数,那么排在正中间的两个数据的平均数即为这组数据的中位数.
2. 关于平均数有如下结论:
(1) 若a1,a2,…,an的平均数为,则ba1+a,ba2+a,…,ban+a的平均数为b+a;
(2) 在n个数据中有k1个a1,k2个a2,…,km个am,则这n个数的平均数为(k1a1+k2a2+…+kmam)(其中k1+…+km=n);
(3) 在一组数据中,a1的频率是p1,a2的频率为p2,…,an的频率为pn,则这组数据的平均数为a1p1+a2p2+…+anpn.
思考2
平均数、众数、中位数这三个量都是反映一组数据的什么趋势?
例1 利用下面100户居民用户的月均用水量的调查数据(单位:t),计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
9.0 13.6 14.9 5.9 4.0 7.1 6.4
5.4 19.4 2.0 2.2 8.6 13.8 5.4
10.2 4.9 6.8 14.0 2.0 10.5 2.1
5.7 5.1 16.8 6.0 11.1 1.3 11.2
7.7 4.9 2.3 10.0 16.7 12.0
12.4 7.8 5.2 13.6 2.6 22.4 3.6
7.1 8.8 25.6 3.2 18.3 5.1 2.0
3.0 12.0 22.2 10.8 5.5 2.0 24.3
9.9 3.6 5.6 4.4 7.9 5.1 24.5
6.4 7.5 4.7 20.5 5.5 15.7 2.6
5.7 5.5 6.0 16.0 2.4 9.5 3.7
17.0 3.8 4.1 2.3 5.3 7.8 8.1
4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5
4.6 3.2 21.6
该市某个小区有2 000户,你能估计该小区的月用水总量吗?
小明用统计软件计算了100户居民用水量的平均数和中位数,但在录入数据时,不小心把一个数据7.7录成了77.请计算录入数据的平均数和中位数.
思考3
将例1与跟踪训练的样本平均数和中位数作比较,哪个量的值变化更大?你能解释其中的原因吗?
平均数和中位数都描述了数据的集中趋势,与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.
思考4
在下图的三种频率分布直方图的形态中,平均数和中位数的大小存在什么关系?
活动二 平均数、中位数与众数的简单应用
例2 某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格.据统计,高一年级女生需要不同规格校服的频数如下表所示.
校服规格 155 160 165 170 175 合计
频数 39 64 167 90 26 386
如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数、平均数和众数中,哪个量比较合适?试讨论用上表中的数据估计全国高一年级女生校服规格的合理性.
思考5
你能根据居民用水的频率分布直方图提供的信息,估计出样本的平均数、中位数和众数吗?
平均数:频率分布直方图中每个小矩形面积乘以各个小矩形底边中点的横坐标的和.
中位数:把频率分布直方图分成面积相等的左右两部分.
众数:最高矩形的底边中点的横坐标.
例3 某高中教师从高一学生的数学成绩中随机抽取40名学生的成绩,分成六段:[40,50),[50,60)…,[90,100]后得到如图所示的频率分布直方图.
(1)求频率分布直方图中实数a的值;
(2)估计这40名学生的成绩的众数、中位数和平均数.
目前用外卖网点餐的人越来越多,现在对大众等餐所需时间情况进行随机调查,并将所得数据绘制成频率分布直方图,其中等餐所需时间的范围是[0,120],样本数据分组为[0,20),[20,40),[40,60),[60,80),[80,100),[100,120].
(1) 求频率分布直方图中x的值;
(2) 利用频率分布直方图估计样本的众数、中位数.
1. 从某中学抽取100名学生进行阅读调查,发现每位同学的年阅读量都在50篇至350篇之间,频率分布直方图如图所示,则下列结论中正确的是( )
A. a的值为0.004
B. 平均数约为200
C. 中位数大约为183.3
D. 众数约为350
2. 已知一组数据丢失了其中一个,剩下的六个数据分别是3,3,5,3,6,11,若这组数据的平均数与众数的和是中位数的2倍,则丢失数据的所有可能值的和为( )
A. 6 B. 8 C. 12 D. 14
3. (多选)对于一组数据1,2,3,4,6,8,8,8,下列说法中正确的是( )
A. 中位数为4 B. 平均数为5
C. 众数为8 D. 第40百分位数是4
4. 某学校为了调查高一年级学生的体育锻炼情况,从甲、乙、丙3个班中,按分层随机抽样的方法获得了部分学生一周的锻炼时间(单位:h),数据如下:
甲 6 6.5 7 7.5 8
乙 6 7 8 9 10 11 12
丙 3 4.5 6 7.5 9 10.5 12 13.5
估计这个学校高一年级学生一周的平均锻炼时间为________.
5. (2023通辽高一阶段练习)某实验中学对选择生物学学科的200名学生的高一下学期期中考试成绩进行统计,得到如图所示的频率分布直方图.已知成绩均在区间[40,100]内,不低于90分视为优秀,低于60分视为不及格.同一组中的数据用该组区间的中间值作代表值.
(1) 根据此次成绩采用分层随机抽样法从中抽取40人开座谈会,求在区间[70,80)内应抽取多少人?
(2) 根据频率分布直方图,估计这次考试成绩的平均数、众数和中位数.
【答案解析】
9.2.3 总体集中趋势的估计
【活动方案】
思考1:方法一:==50.625.
方法二:=×(2×52+49+2×48+54+47+55)=50.625.
思考2:集中趋势.
例1 ==8.79,
即100户居民的月均用水量的平均数为8.79 t.
将样本数据按从小到大排序,得知第50个数和第51个数分别为6.8,6.8,由中位数的定义,可得=6.8,即100户居民的月均用水量的中位数是6.8 t,所以估计全市居民用户的月均用水量约为8.79 t,其中位数约为6.8 t.
8.79×2 000=17 580(t),故该小区的月用水总量为17 580 t.
跟踪训练 ==9.483(t),中位数没有变化,还是6.8 t.
思考3:平均数由原来的8.79 t变为9.483 t,中位数没有变化,还是6.8 t.平均数的值变化更大.这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变.
思考4:一般来说,对一个单峰的频率分布直方图来说:①直方图形状对称:平均数≈中位数;②直方图右边“拖尾”:平均数>中位数;③直方图左边“拖尾”:平均数<中位数,
结论:和中位数相比,平均数总是在“长尾巴”那边.
例2 为了更直观地观察数据的特征,我们用条形图来表示表中的数据,如下图.可以发现,选择校服规格为“165”的女生的频数最高,所以用众数165作为该校高一年级女生校服的规格比较合适.
由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理.
思考5:平均数的近似值为=0.077×3×+0.107×3×+…+0.007×3×()≈8.96.
中位数即第50百分位数,由于0.077×3=0.231,(0.077+0.107)×3=0.552,因此中位数落在区间[4.2,7.2)内.
设中位数为x,
由0.077×3+0.107×(x-4.2)=0.5,
得x≈6.71,所以中位数约为6.71.在频率分布直方图中,月均用水量在区间[4.2,7.2)内的居民最多,可以将这个区间的中点5.7作为众数的估计值.
例3 (1) a=(1÷10)-(0.005+0.01+0.02+0.025+0.01)=0.030.
(2) =0.05×45+0.1×55+0.2×65+0.3×75+0.25×85+0.1×95=74;
众数为75;
设中位数为x,因为前三个矩形面积之和为0.35,第四个矩形面积为0.3,0.35+0.3=0.65>0.5,
所以中位数位于第四个矩形内,
所以0.35+0.03(x-70)=0.5,
所以x=75,即中位数为75.
跟踪训练 (1)由频率分布直方图,得(0.02+x+0.008+0.004+0.002+0.002)×20=1,
解得x=0.014.
(2)由频率分布直方图可知众数为=70.
因为(0.002+0.004+0.014)×20=0.4<0.5,
所以中位数位于[60,80).
设中位数为x,则(0.002+0.004+0.014)×20+(x-60)×0.02=0.5,
解得x=65,故中位数为65.
【检测反馈】
1. C 解析:由(0.002 4+0.003 6+0.006 0+a+0.002 4+0.001 2)×50=1,解得a=0.004 4,故A错误;由a=0.004 4,得平均数为0.002 4×50×75+0.003 6×50×125+0.006 0×50×175+0.004 4×50×225+0.002 4×50×275+0.001 2×50×325=186,故B错误;阅读量在[50,150)的频率为(0.002 4+0.003 6)×50=0.3,阅读量在[150,200)的频率为0.006 0×50=0.3,所以这100名学生的阅读量的中位数大约为150+≈183.3,故C正确;由频率分布直方图可知,众数大约为175,故D错误.
2. C 解析:设丢失的数据为x,则这七个数据的平均数为,众数是3.因为这组数据的平均数与众数的和是中位数的2倍.若x≤3,则中位数为3,此时+3=2×3,解得x=-10;若33. BCD 解析:对于A,中位数为=5,故A错误;对于B,因为=5,所以这组数据的平均数为5,故B正确;对于C,众数为8,故C正确;对于D,由于40%×8=3.2,所以第40百分位数为第4个数即4,故D正确.故选BCD.
4. 8.2 h 解析:样本中甲、乙、丙三个班级的平均锻炼时间分别为×(6+6.5+7+7.5+8)=7(h),×(6+7+8+9+10+11+12)=9(h),×(3+4.5+6+7.5+9+10.5+12+13.5)=8.25(h),则样本平均数为=8.2(h).估计该校高一年级学生一周的平均锻炼时间为8.2 h.
5. (1) 成绩在区间[70,80)内的频率为0.03×10=0.3,
所以在区间[70,80)内应抽取40×0.3=12(人).
(2) 成绩在区间[40,50)内的频率为0.01×10=0.1;
区间[50,60)内的频率为0.015×10=0.15;
区间[60,70)内的频率为0.02×10=0.2;
区间[70,80)内的频率为0.03×10=0.3;
区间[80,90)内的频率为0.015×10=0.15;
区间[90,100]内的频率为0.01×10=0.1,
估计这次考试成绩的平均数为
45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5.
由成绩在区间[70,80)内的频率最大,
估计这次考试成绩的众数为75.
因为0.1+0.15+0.2=0.45<0.5,0.1+0.15+0.2+0.3=0.75>0.5,
所以中位数m∈[70,80).
由0.1+0.15+0.2+(m-70)×0.03=0.5,
解得m=,
估计这次考试成绩的中位数为.9.2.4 总体离散程度的估计
1. 结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差).
2. 理解离散程度参数的统计含义.
活动一 极差、方差、标准差的概念
有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲 7 8 7 9 5 4 9 10 7 4
乙 9 5 7 8 7 6 8 6 7 7
如果你是教练,你如何对两位运动员的射击情况作出评价?如果这是一次选拔性考核,你应当如何作出选择?
通过简单的排序和计算,可以发现甲、乙两名运动员射击成绩的平均数、中位数、众数都是7.从这个角度看,两名运动员之间没有差别.但从下图看,甲的成绩比较分散,乙的成绩相对集中,即甲的成绩波动幅度比较大,而乙的成绩比较稳定.可见,他们的射击成绩是存在差异的.那么,如何度量成绩的这种差异呢?
甲 乙
思考
极差在一定程度上刻画了数据的离散程度,但只用了数据最大、最小两个值,如要考虑两个运动员的成绩的稳定性,应该用什么去衡量?
方差与标准差的定义及公式:
在一组数据x1,x2,…,xn中,各数据与它们的平均数的差的平方的平均数,叫作这组数据的方差,常用s2表示,即s2=xi-)2.方差的算术平方根叫作这组数据的标准差,用s表示,即s=.
练习 求52,49,48,55,47,48,56,53 的方差及标准差.
总体方差、总体标准差与样本方差、样本标准差的区别与联系:
(1) 如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=Yi-)2为总体方差,S=为总体标准差.与总体均值类似,总体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=Yi-)2.
(2) 如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=yi-)2为样本方差,s=为样本标准差.
活动二 掌握极差、方差、标准差的应用
例1 在对树人中学高一年级学生身高的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生23人,其平均数和方差分别为170.6和12.59,抽取了女生27人,其平均数和方差分别为160.6和38.62.你能由这些数据计算出总样本的方差,并对高一年级全体学生的身高方差作出估计吗?
1. 标准差代表数据的离散程度,考虑数据范围时需要加减标准差.
2. 计算样本平均数、样本方差直接利用公式,注意公式的变形和整体代换.
在一个文艺比赛中,8名专业人士和12名观众代表各组成一个评判小组,给参赛选手打分.在给某选手的打分中,专业人士打分的平均数和标准差分别为47.4和3.7,观众代表打分的平均数和标准差分别为56.2和11.8,试根据这些数据计算这名选手得分的平均数和方差.
例2 为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换. 已知某校使用的100只日光灯在必须换掉前的使用天数如下:
使用天数 151~180 181~210 211~240 241~270 271~300 301~330 331~360 361~390
日光灯数 1 11 18 20 25 16 7 2
试估计这种日光灯使用寿命的平均数和标准差.
对一组数据的评价,有多个角度,平均数、标准差等数值都是反映这组数据的客观情况,根据实际需要确定求哪些数值.
有一种鱼的身体吸收汞,身体中汞的含量超过其体重的1.00 ppm(即百万分之一)的鱼被人食用后,就会对人体产生危害.在30条鱼的样本中发现的汞含量(单位:ppm)如下:
0.07 0.24 0.95 0.98 1.02 0.98 1.37 1.40 0.39 1.02
1.44 1.58 0.54 1.08 0.61 0.72 1.20 1.14 1.62 1.68
1.85 1.20 0.81 0.82 0.84 1.29 1.26 2.10 0.91 1.31
(1) 请用合适的统计图描述上述数据,并分析这30条鱼的汞含量的分布特点;
(2) 求出上述样本数据的平均数和标准差;
(3) 从实际情况看,许多鱼的汞含量超标的原因是这些鱼在出售之前没有被检测过,你认为每批这种鱼的平均汞含量都比1.00 ppm大吗?
(4) 在上述样本中,有多少条鱼的汞含量在以平均数为中心、距离平均数为2倍标准差的范围内?
1. (2022葫芦岛一模)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零实数,则下列关于这两组样本数据的结论中正确的是( )
A. 平均数相同 B. 众数相同 C. 中位数相同 D. 极差相同
2. 样本量为9的四组数据,它们的平均数都是5,条形图如图所示,则标准差最大的一组是( )
A. 第一组 B. 第二组 C. 第三组 D. 第四组
3. (多选)某赛季甲、乙两名篮球运动员各6场比赛得分情况如下表:
场次 1 2 3 4 5 6
甲得分 31 16 24 34 18 9
乙得分 23 21 32 11 35 10
则下列说法中正确的是( )
A. 甲运动员得分的极差小于乙运动员得分的极差
B. 甲运动员得分的中位数小于乙运动员得分的中位数
C. 甲运动员得分的平均值大于乙运动员得分的平均值
D. 甲运动员的成绩比乙运动员的成绩稳定
4. 若给定一组数据x1,x2,…,xn,方差为s2.
(1) ax1,ax2,…,axn的方差是________;
(2) ax1+b,ax2+b,…,axn+b的方差是________.
5. 一个小商店从一家有限公司购进21袋白糖,每袋白糖的标准质量是500 g,为了了解这些白糖的质量情况,称出各袋白糖的质量(单位:g)如下:486,495,496,498,499,493,493,498,484,497,504,489,495,503,499,503,509,498,487,500,508.
(1) 21袋白糖的平均质量是多少?标准差s是多少?
(2) 质量位于-s与+s之间有多少袋白糖?所占的百分比是多少?
【答案解析】
9.2.4 总体离散程度的估计
【活动方案】
思考:如果射击的成绩很稳定,那么大多数的射击成绩离平均成绩不会太远;相反,如果射击的成绩波动幅度很大,那么大多数的射击成绩离平均成绩会比较远.因此,我们可以通过这两组射击成绩与它们的平均成绩的“平均距离”来度量成绩的波动幅度.
练习:=×(52+49+48+55+47+48+56+53)=51,
s2=[(52-)2+(49-)2+(48-)2+…+(53-)2]×=(12+22+32+42+42+32+52+22)×=10.5,
s==≈3.24.
例1 把男生样本记为x1,x2,…,x23,其平均数记为,方差记为s;把女生样本记为y1,y2,…,y27,其平均数记为,方差记为s;把总样本数据的平均数记为,方差记为s2.
根据方差的定义,总样本方差为
s2=[xi-)2+yj-)2]
=[xi-+-)2+yj-+-)2].
由xi-)=-23=0,可得
(xi-)(-)=2(-)xi-)=0.
同理可得(yj-)(-)=0,
所以s2=[xi-)2+-)2+yj-)2+-)2]={23[s+(-)2]+27[s+(-)2]}.①
由=170.6,=160.6,根据按比例分配分层随机抽样总样本平均数与各层样本平均数的关系,可得总样本平均数为
=+==165.2.
把已知的男生、女生样本平均数和方差的取值代入①,可得s2={23×[12.59+(170.6-165.2)2]+27×[38.62+(160.6-165.2)2]}=51.486 2.
我们可以计算出总样本的方差为51.486 2,并据此估计高一年级学生身高的总体方差为51.486 2.
跟踪训练 把专业人士打分样本记为x1,x2,…,x8,其平均数记为,方差记为s;把观众代表打分样本记为y1,y2,…,y12,其平均数为,方差记为s;把总体数据的平均数记为,方差记为s2,
则总样本平均数为=×47.4+×56.2=52.68,
总样本方差为
s2={8[s+(-)2]+12[s+(-)2]}
={8×[3.72+(47.4-52.68)2]+12×[11.82+(56.2-52.68)2]}≈107.6,
所以这名选手得分的平均数为52.68分,方差为107.6.
例2 各区间的组中值分别为165.5,195.5,225.5,255.5,285.5,315.5,345.5,375.5,
由此算得平均数约为165.5×1%+195.5×11%+225.5×18%+255.5×20%+285.5×25%+315.5×16%+345.5×7%+375.5×2%=268.4≈268.
这些组中值的方差为×[1×(165.5-268.4)2+11×(195.5-268.4)2+18×(225.5-268.4)2+20×(255.5-268.4)2+25×(285.5-268.4)2+16×(315.5-268.4)2+7×(345.5-268.4)2+2×(375.5-268.4)2]=2 128.59,
故所求的标准差约为≈46,
故估计这种日光灯使用寿命的平均数为268天,标准差约为46天.
跟踪训练 (1) 频率分布表如下:
分组 频数 频率
[0.00,0.50) 3 0.10
[0.50,1.00) 10 0.33
[1.00,1.50) 12 0.40
[1.50,2.00) 4 0.13
[2.00,2.50] 1 0.03
合计 30 1.00
作出如图所示的统计图:
汞含量的分布偏向于1.00 ppm的方向,即多数鱼的汞含量分布在大于1.00 ppm的区域.
(2) 样本平均数≈0.25×0.1+0.75×0.33+1.25×0.4+1.75×0.13+2.25×0.03≈1.07 (ppm),
样本方差s2≈(0.25-1.07)2×0.1+(0.75-1.07)2×0.33+(1.25-1.07)2×0.4+(1.75-1.07)2×0.13+(2.25-1.07)2×0.03≈0.22,
标准差s=≈0.47.
(3) 不一定,因为我们不知道其他各批鱼的汞含量分布是否都和这批鱼相同,即使其他各批鱼的汞含量分布与这批鱼相同,上面的数据也只能为这个分布作出估计,不能保证每批鱼的平均汞含量都大于1.00 ppm.
(4) 由题意得,该范围为(0.13,2.01),所以有28条鱼的汞含量在以平均数为中心、距离平均数为2倍标准差的范围内.
【检测反馈】
1. D 解析:设样本数据x1,x2,…,xn的平均数为,众数为m,中位数为a,极差为b=xmax-xmin,则新样本数据y1,y2,…,yn的平均数为+c,众数为m+c,中位数为a+c,极差为ymax-ymin=(xmax+c)-(xmin+c)=b,所以两组样本数据的极差相等.
2. D 解析:第一组中,样本数据都为5,数据没有波动幅度,标准差为0;第二组中,样本数据为4,4,4,5,5,5,6,6,6,标准差为;第三组中,样本数据为3,3,4,4,5,6,6,7,7,标准差为;第四组中,样本数据为2,2,2,2,5,8,8,8,8,标准差为2,故标准差最大的一组是第四组.
3. BD 解析:由题意,得甲的极差为34-9=25,中位数是21,均值为22,方差为s=75,同样乙的极差为35-10=25,中位数是22,均值为22,方差为s≈89.3.故选BD.
4. (1) a2s2 (2) a2s2
5. (1) 平均质量为≈496.9,s2≈×[(486-496.9)2+(495-496.9)2+…+(508-496.9)2]≈42.89,
所以s=≈6.55.
(2) 质量位于-s与+s之间等于在区间(490.35,503.45)上的白糖的袋数,共有14袋,
所占的百分比为×100%≈66.67%.