6.4.1样本的数字特征
学习目标
1.能利用频率分布直方图估计总体的众数、中位数、平均数、方差.
2.能用样本的众数、中位数和平均数估计总体的众数、中位数、平均数,并对实际问题作出合理判断。
二、重难点
重点
1.能利用频率分布直方图估计样本的众数、中位数、平均数,从而估计总体的众数、中位数、平均数等。
2.体会如何用数据说话,体会数学的实用性。
难点
1.理解和掌握频率分布直方图中众数、中位数和平均数的求解
2.能形成对数据处理的过程进行初步评价的意识
三、自主预习、知识梳理
1.平均数、中位数、众数
(1)平均数:一组数据的平均值.如果 个数为 ,那么 .
(2)中位数:将一组数据按从小到大的顺序排列后,"中间"的那个数据为这组数据的中位数.它使数据被分成的两部分的数据量是一样的.
(3)众数:一组数据中出现次数___________的数据.
2.方差、标准差及其计算公式
方差刻画数据的__________________.
方差 .
方差的算术平方根 ___________________________________________为标准差.
四.应用举例
例题.利用9.2.1节中100户居民用户的月均用水量的调查数据,计算样本数据的平均数和中位数,并据此估计全市居民用户月均用水量的平均数和中位数.
【解析】根据 9.2.1节中100户居民用户月均用水量的数据,由样本平均数
的定义,可得即100户居民的月均用水量的平均数为 8. 79 t.
将样本数据按从小到大排序,得第50个数和第51个数均为6.8,由中位数的定义,可得
100户居民的月均用水量的中位数是6.8 t.因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民用户的月均用水量约为8.79 t,其中位数约为6.8 t.
五、课堂练习
1.已知样本数据,,…,的平均数和方差分别为3和56,若,则,,…,的平均数和方差分别是( )
A.12,115 B.12,224 C.9,115 D.9,224
2.设矩形的长为a,宽为b,其比满足,这种矩形给人以美感,称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:
甲批次:0.598 0.625 0.628 0.595 0.639
乙批次:0.618 0.613 0.592 0.622 0.620
根据上述两个样本来估计两个批次的总体平均数与标准值0.618比较,正确的结论是( ).
A.甲批次的总体平均数与标准值更接近
B.乙批次的总体平均数与标准值更接近
C.两个批次总体平均数与标准值接近程度相同
D.两个批次总体平均数与标准值接近程度不能确定
3.为了普及环保知识,增强环保意识,某大学随机抽取了30名学生参加环保知识测试,得分情况(十分制)如图所示,假设得分的中位数为,众数为,平均数为,则( )
A. B. C. D.
4.一段时间内没有发生大规模集体流感的标志为“连续10天,每天新增病例不超过7人”.过去10天,甲、乙、丙、丁四地新增病例数据情况如下,则一定符合该标志的是( )
A.甲地:平均数为3,中位数为4 B.乙地:平均数为1,方差大于0
C.丙地:中位数为2,众数为3 D.丁地:平均数为2,方差为3
5.已知甲、乙两支篮球队各6名队员某场比赛的得分(单位:分)数据从小到大排列如下:
甲队:7,12,12,20,,31;
乙队:8,9,,19,25,28.
这两组数据的中位数相等,且平均数也相等,则x和y的值分别为( )
A.2和3 B.0和2 C.0和3 D.2和4
6.运动员参加体操比赛,当评委亮分后,往往是先去掉一个最高分和一个最低分,再计算剩下分数的平均值,这是为了( )
A.减少计算量 B.避免故障 C.剔除异常值 D.活跃赛场气氛
7.(多选)为提高疫情防控意识,某学校举办了一次疫情防控知识竞赛(满分100分),并规定成绩不低于90分为优秀.现该校从高一、高二两个年级分别随机抽取了10名参赛学生的成绩(单位:分),如下表所示:
高一 74 78 84 89 89 93 95 97 99 100
高二 77 78 84 87 88 91 94 94 95 96
则下列说法正确的是( )
A.高一年级所抽取参赛学生成绩的中位数为91分
B.高二年级所抽取参赛学生成绩的众数为94分
C.两个年级所抽取参赛学生的优秀率相同
D.两个年级所抽取参赛学生的平均成绩相同
8.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是__________.
9.甲、乙两种冬小麦试验品连续5年的平均单位面积产量如下(单位:):
品种 第一年 第二年 第三年 第四年 第五年
甲 9.8 9.9 10.1 10 10.2
乙 9.4 10.3 10.8 9.7 9.8
其中产量比较稳定的小麦品种是_______________.
10.若这20个数据的平均数为,方差为0.21,则这21个数据的方差为__________.
六、课后练习
1.如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均数也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
2.下列说法错误的是( ).
A.在统计里,把所需考察对象的全体叫作总体
B.一组数据的平均数一定大于这组数据中的每个数据
C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势
D.一组数据的方差越大,说明这组数据的波动越大
3.某市政府部门为了解该市的“全国文明城市”创建情况,在该市的12个区县(市)中随机抽查了甲、乙两县,考核组对他们的创建工作进行量化考核.在这两个县的量化考核分数(均为整数)中各随机抽取20个,得到如图所示的统计图(用频率分布直方图估计总体时,同一组中的数据用该组区间的中点值作代表).关于甲、乙两县的量化考核分数,下列结论正确的是( )
A.甲县量化考核分数的平均数小于乙县量化考核分数的平均数
B.甲县量化考核分数的中位数小于乙县量化考核分数的中位数
C.甲县量化考核分数的众数不小于乙县量化考核分数的众数
D.甲县量化考核分数不低于80的个数多于乙县
4.甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表所示:
甲的成绩
环数 7 8 9 10
频数 5 5 5 5
乙的成绩
环数 7 8 9 10
频数 6 4 4 6
丙的成绩
环数 7 8 9 10
频数 4 6 6 4
分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有( ).
A. B. C. D.
5.下列结论中正确的是( )
A.若数据的频率分布直方图单峰不对称,且在右边“拖尾”,则平均数小于中位数
B.一组数据中的每个数都减去同一个非零常数a,则这组数据的平均数改变,方差改变
C.一个样本的方差,则这组样本数据的总和为60
D.数据,,,…,的方差为M,则数据,,,…,的方差为2M
6.在某次全校体能测试中,高三某班40名学生体能测试成绩(满分100分)恰在内,绘成如下频率分布直方图,下列说法正确的是( )
A.该班学生体能测试成绩的中位数是75分
B.该班的学生体能测试成绩达到优秀(80分及以上为优秀)
C.该班学生体能测试成绩的平均数是77分
D.该班学生体能测试成绩的众数是78分
7.(多选)中国营养学会把走路称为“最简单、最优良的锻炼方式”,它不仅可以帮助减肥,还可以增强心肺功能、血管弹性、肌肉力量等.甲、乙两人利用手机记录了去年下半年每月的走路里程(单位:千米),现将两人的数据绘制成如图所示的折线图,则下列结论中正确的是( )
A.甲走路里程的极差为11千米
B.乙走路里程的中位数是27千米
C.甲下半年每月走路里程的平均数大于乙下半年每月走路里程的平均数
D.甲下半年每月走路里程的标准差大于乙下半年每月走路里程的标准差
8.某单位举办演讲比赛,最终来自A,B,C,D四个部门共12人进入决赛,把这四个部门进入决赛的人数作为样本数据.已知样本方差为2.5,且样本数据互不相同,则样本数据中的最大值为_________.
9.为了比较两种用复合材料制造的轴承(分别称为类型Ⅰ轴承和类型Ⅱ轴承)的使用寿命,检验了两种类型轴承各30个,它们的使用寿命(单位:百万圈)如表:
类型Ⅰ
6.2 6.4 8.3 8.6 9.4 9.8
10.3 10.6 11.2 11.4 11.6 11.6
11.7 11.8 11.8 12.2 12.3 12.3
12.5 12.5 12.6 12.7 12.8 13.3
13.3 13.4 13.6 13.8 14.2 14.5
类型Ⅱ
8.4 8.5 8.7 9.2 9.2 9.5
9.7 9.7 9.8 9.8 10.1 10.2
10.3 10.3 10.4 10.6 10.8 10.9
11.2 11.2 11.3 11.5 11.5 11.6
11.8 12.3 12.4 12.7 13.1 13.4
根据表中的数据回答下列问题:
(1)对于类型Ⅰ轴承,应该用平均数还是中位数度量其使用寿命分布的中心?说明理由;
(2)若需要使用寿命尽可能大的轴承,从(1)中所选的数字特征的角度判断应选哪种轴承,说明理由;
(3)若需要使用寿命的波动性尽可能小的轴承,应选哪种轴承?说明理由.
10.某超市从甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,整理得到甲种酸奶日销售量的频率分布表和乙种酸奶日销售量的频率分布直方图.
甲种酸奶日销售量/箱 频率
0.10
0.20
0.30
0.25
0.15
合计 1
(1)求出频率分布直方图中a的值,并作出甲种酸奶日销售量的频率分布直方图;
(2)记甲种酸奶与乙种酸奶日销售量(单位:箱)的方差分别为,,试比较和的大小;
(3)试估计乙种酸奶在未来一个月(按30天计算)的销售总量(同一组中的数据用该组区间的中点值作代表).
答案及解析
三、知识梳理
1.(1)最多
2.离散程度;
五、课堂练习
1.答案:D
解析:设数据,,…,的平均数和方差分别为和,则数据,,…,的平均数和方差分别为和,所以,,…,的平均数为,方差为.
故选D.
2.答案:A
解析:计算可得甲批次样本的平均数为0.617,乙批次样本的平均数为0.613,由此估计两个批次的总体平均数分别为0.617,0.613,则甲批次的总体平均数与标准值更接近.故选A.
3.答案:D
解析:由题图可知,30名学生得分的中位数为5和6的平均数,即;又5出现的次数最多,故;.所以.故选D.
4.答案:D
解析:对于A,当甲地过去10天每天新增病例人数分别为0,0,0,2,4,4,4,4,4,8时,满足平均数为3,中位数为4,但不满足每天新增病例不超过7人,故A错误;
对于B,当乙地过去10天每天新增病例人数分别为0,0,0,0,0,0,0,0,1,9时,满足平均数为1,方差大于0,但不满足每天新增病例不超过7人,故B错误;
对于C,当丙地过去10天每天新增病例人数分别为0,0,1,1,2,2,3,3,3,8时,满足中位数为2,众数为3,但不满足每天新增病例不超过7人,故C错误;
对于D,若至少有一天新增病例超过7人,则方差大于,与题意矛盾,故丁地连续10天每天新增病例不超过7人,故D正确.故选D.
5.答案:C
解析:由题意得,甲队得分数据的中位数为,故乙队得分数据的中位数为,,
又,,,.故选C.
6.答案:C
解析:在体操比赛的评分中使用的是平均分,记分过程中采用“去掉一个最高分和一个最低分”的方法,就是为了防止个别评委因人为因素而给出过高或过低的分数,对运动员的得分造成较大的影响.
7.答案:ABC
解析:对于A,高一年级所抽取参赛学生成绩的中位数为(分),A正确;
对于B,高二年级所抽取参赛学生的成绩中,94出现了2次,出现次数最多,故众数为94分,B正确;
对于C,高一、高二年级参赛学生中成绩不低于90分的都有5人,故优秀率都为,C正确;
对于D,高一年级所抽取参赛学生的平均成绩为(分),
高二年级所抽取参赛学生的平均成绩为
(分),D错误.
故选ABC.
8.答案:0.1
解析:本题主要考查用样本估计总体.该组数据的平均数,所以该组数据的方差为.故本题正确答案为0.1.
9.答案:甲
解析:由题意,需比较与的大小.
由于,则,,
因此甲产量比较稳定.
10.答案:0.2
六、课后练习
1.答案:A
解析:甲组的数据依次为56,62,65,,74,因此其中位数为65;乙组的数据为59,61,67,,78,由题意知该组的中位数为65,故.当时,乙组的平均数为,故甲组的平均数为,解得.故选A.
2.答案:B
解析:平均数不大于最大值,不小于最小值.
3.答案:C
解析:由题中条形图知甲县量化考核分数的平均数为
,
中位数为79,众数为79,量化考核分数不低于80的个数为.
由题中频率分布直方图知乙县量化考核分数的平均数为
,
中位数为,众数为75,
量化考核分数不低于80的个数为.
综上,A,B,D错误,C正确.
4.答案:B
解析:求得,所以,故选B.
5.答案:C
解析:对于A,频率分布直方图大致如图:
因为在右边“拖尾”,最高峰偏左,所以中位数靠近高峰处,平均数则靠近中点处,所以平均数大于中位数,故A错误;
由平均数和方差的性质知B,D错误;
对于C,由题意可知平均数为3,共有20个数据,所以这组样本数据的总和为,故C正确.故选C.
6.答案:C
解析:设中位数为x分,则,解得,故A错误;
成绩为80分及以上的频率为,所以有的学生体能测试成绩达到优秀,故B错误;
(分),故C正确;
众数是77.5分,故D错误.
故选C.
7.答案:ABD
解析:由题图可知,甲各月的走路里程(单位:千米)为31,25,21,24,20,30,
乙各月的走路里程(单位:千米)为29,28,26,28,25,26.
甲走路里程的极差为(千米),故A正确;
乙走路里程的中位数是(千米),故B正确;
甲下半年每月走路里程的平均数为(千米),
乙下半年每月走路里程的平均数为(千米),故C错误;
由题图可知,甲下半年每月走路里程的数据波动程度大于乙下半年每月走路里程的数据波动程度,所以甲下半年每月走路里程的标准差大于乙下半年每月走路里程的标准差,故D正确.
故选ABD.
8.答案:5
解析:设样本数据为a,b,c,d,且,,
则样本平均数为,样本方差为,
则,
所以,解得.
当时,,因为样本数据互不相同,所以不存在a,b,c使得等式成立.
当时,,存在,,,使得等式成立,故样本数据中的最大值为5.
9.答案:(1)应使用中位数,理由见解析
(2)应选类型Ⅰ轴承,理由见解析
(3)应选类型Ⅱ轴承,理由见解析
解析:(1)从题表可以看出类型Ⅰ轴承的使用寿命的数据大多集中在这个区间内,6.2,6.4有严重的偏离,
所以不宜使用平均数度量其使用寿命分布的中心,
由于极端值的大小对中位数没有影响,
所以应使用中位数度量类型Ⅰ轴承的使用寿命分布的中心.
(2)由题表可知,将类型Ⅰ轴承的使用寿命由小到大排序后,排在第15,16个的数据分别是11.8,12.2,故中位数为12百万圈;
将类型Ⅱ轴承的使用寿命由小到大排序后,排在第15,16个的数据分别是10.4,10.6,故中位数为10.5百万圈.
因为,所以应选类型Ⅰ轴承.
(3)由题表可得类型Ⅰ中,极差,
多数的数据集中在这个区间内,6.2,6.4,8.3,8.6严重偏离分布中心,
即波动较大,标准差必定较大,
类型Ⅱ中,极差,相对较小,数据的分布比较集中、均匀,标准差必定比类型Ⅰ小,
故应选类型Ⅱ轴承.
10.答案:(1);图见解析
(2)
(3)795箱
解析:(1)由乙种酸奶日销售量的频率分布直方图可得
,解得.
根据题表中数据可作出甲种酸奶日销售量的频率分布直方图如图所示:
(2)解法一:记甲、乙两种酸奶日销售量的平均数分别为箱,箱,
则,
,
所以
,
,所以.
解法二:比较两种酸奶的频率分布直方图,数据越集中,则方差越小,
由频率分布直方图可得,甲种酸奶对应的数据更集中,
故甲的方差小于乙的方差,即.
(3)由(2)得乙种酸奶的平均日销售量为26.5箱,
故乙种酸奶未来一个月的销售总量为(箱).