9.2.3 总体集中趋势的估计
学习目标 1.掌握求样本数据的众数、中位数、平均数.2.理解用样本的数字特征、直方图估计总体的集中趋势.
知识点一 众数、中位数、平均数
1.众数:一组数据中出现次数最多的数.
2.中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.
3.平均数:如果n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.
思考 平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?
答案 平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,但是平均数受数据中极端值的影响较大.
知识点二 总体集中趋势的估计
1.平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
2.一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
知识点三 频率分布直方图中平均数、中位数、众数的求法
1.样本平均数:可以用每个小矩形底边中点的横坐标与小矩形面积的乘积之和近似代替.
2.在频率分布直方图中,中位数左边和右边的直方图的面积应相等.
3.将最高小矩形所在的区间中点作为众数的估计值.
1.中位数是一组数据中间的数.( × )
2.众数是一组数据中出现次数最多的数.( √ )
3.平均数反映了一组数据的平均水平,任何一个样本数据的改变都会引起平均数的变化.
( √ )
4.一组数据中,有一半的数据不大于中位数,而另一半则不小于中位数,中位数反映了一组数据的中心的情况.中位数不受极端值的影响.( √ )
一、众数、中位数、平均数的计算
例1 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如表所示:
成绩(单位:m) 1.50 1.60 1.65 1.70 1.75 1.80 1.85 1.90
人数 2 3 2 3 4 1 1 1
分别求这些运动员成绩的众数、中位数与平均数.
解 在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70.这组数据的平均数是=(1.50×2+1.60×3+…+1.90×1)=≈1.69(m).
故17名运动员成绩的众数、中位数、平均数依次为1.75 m,1.70 m,1.69 m.
反思感悟 平均数、众数、中位数的计算方法
平均数一般是根据公式来计算的;计算众数、中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据各自的定义计算.
跟踪训练1 某学习小组在一次数学测验中,得100分的有1人,得95分的有1人,得90分的有2人,得85分的有4人,得80分和75分的各1人,则该小组数学成绩的平均数、众数、中位数分别为( )
A.85,85,85 B.87,85,86
C.87,85,85 D.87,85,90
答案 C
解析 平均数为=87,众数为85,中位数为85.
二、平均数、中位数、众数的应用
例2 某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?
其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?
其中哪个统计量能较好地反映乙群市民的年龄特征?
解 (1)甲群市民年龄的平均数为=15(岁),
中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为=15(岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
反思感悟 众数、中位数、平均数的意义
(1)样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
(2)当一组数据中有不少数据重复出现时,其众数往往更能反映问题,当一组数据中个别数据较大时,可用中位数描述其集中趋势.
跟踪训练2 (2019·安徽期末)某公司为了了解一年内的用水情况,抽取了10天的用水量如表所示:
用水量/t 22 38 40 41 44 50 95
天数 1 1 1 2 2 1 2
(1)在这10天中,该公司用水量的平均数是多少?每天用水量的中位数是多少?
(2)你认为应该用平均数和中位数中的哪一个来描述该公司每天的用水量?
解 (1)在这10天中,该公司用水量的平均数是=×(22+38+40+2×41+2×44+50+2×95)=51(t).
每天用水量的中位数是=42.5(t).
(2)平均数受数据中的极端值(2个95)影响较大,使平均数在估计总体时可靠性降低,10天的用水量有8天都在平均值以下,故用中位数描述每天的用水量更合适.
三、利用频率分布直方图估计总体的集中趋势
例3 某校从参加高一年级期末考试的学生中抽出60名,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后画出如图所示的频率分布直方图.观察图中的信息,回答下列问题:
(1)估计这次考试的物理成绩的众数m与中位数n(结果保留一位小数);
(2)估计这次考试的物理成绩的及格率(60分及以上为及格)和平均分.
解 (1)众数是频率分布直方图中最高小矩形中点的横坐标,所以众数为m=75.0.
前3个小矩形面积为0.01×10+0.015×10+0.015×10=0.4<0.5,
前4个小矩形的面积为0.4+0.03×10=0.7>0.5,
所以中位数n=70+≈73.3.
(2)依题意,60及60以上的分数在第三、四、五、六组,频率为(0.015+0.03+0.025+0.005)×10=0.75,
所以,估计这次考试的物理成绩的及格率是75%.
利用组中值估算抽样学生的平均分45×f1+55×f2+65×f3+75×f4+85×f5+95×f6=45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.
估计这次考试物理成绩的平均分是71分.
反思感悟 利用频率分布直方图求众数、中位数以及平均数的方法
(1)众数即为出现次数最多的数,所以它的频率最大,在最高的小矩形中.中位数即为从小到大中间的数(或中间两数的平均数).平均数为每个小矩形中点的横坐标与小矩形面积乘积之和.
(2)用频率分布直方图求得的众数、中位数不一定是样本中的具体数.
跟踪训练3 我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.估计居民月均用水量的中位数.
解 由(0.08+0.16+a+0.42+0.50+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.
设中位数为x吨.
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.
而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.
所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
1.在一次体育测试中,某班的6名同学的成绩(单位:分)分别为66,83,87,83,77,96.关于这组数据,下列说法错误的是( )
A.众数是83 B.中位数是83
C.极差是30 D.平均数是83
答案 D
解析 由于83出现的次数最多,所以众数是83,故A说法正确;把数据66,83,87,83,77,96按从小到大排列为66,77,83,83,87,96,中间两个数为83,83,所以中位数是83,故B说法正确;极差是96-66=30,故C说法正确;由于平均数为(66+83+87+83+77+96)÷6=82,故D说法错误,故选D.
2.(多选)下列关于平均数、中位数、众数的说法中错误的是( )
A.中位数可以准确地反映出总体的情况
B.平均数可以准确地反映出总体的情况
C.众数可以准确地反映出总体的情况
D.平均数、中位数、众数都有局限性,都不能准确地反映出总体的情况
答案 ABC
3.一组样本数据按从小到大的顺序排列为13,14,19,x,23,27,28,31,其中位数为22,则x等于( )
A.21 B.22
C.20 D.23
答案 A
解析 根据题意知,中位数22=,则x=21.
4.某鞋店试销一种新女鞋,销售情况如下表:
鞋号 34 35 36 37 38 39 40 41
日销量/双 2 5 9 16 9 5 3 2
如果你是鞋店经理,那么下列统计量中对你来说最重要的是( )
A.平均数 B.众数
C.中位数 D.极差
答案 B
解析 鞋店经理最关心的是哪个鞋号的鞋销量最大,由表可知,鞋号为37的鞋销量最大,共销售了16双,所以这组数据最重要的是众数.
5.某班全体学生参加物理测试成绩的频率分布直方图如图所示,则估计该班物理测试的平均成绩是________.
答案 68
解析 平均成绩就是频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标再求和,即0.005 ×20×30+0.010×20×50+0.020×20×70+0.015×20×90=68(分).
1.知识清单:
中位数、众数、平均数的计算及应用.
2.方法归纳:数据分析统计.
3.常见误区:求中位数时需先把一组数据按从小到大(或从大到小)的顺序排列,再找中间位置的数或中间两数的平均数.
1.某校高一年级8个班参加合唱比赛的得分如下:
91 89 90 92 94 87 93 96
则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 ∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是=91.5,
平均数==91.5.
2.某书店新进了一批书籍,下表是某月中连续6天的销售情况记录:
日期 6日 7日 8日 9日 10日 11日
当日销售量(本) 30 40 28 44 38 42
根据上表估计该书店该月(按31天计算)的销售总量是( )
A.1 147本 B.1 110本
C.1 340本 D.1 278本
答案 A
解析 从表中6天的销售情况可得,一天的平均销售量为=37(本),该月共31天,故该月的销售总量约为37×31=1 147(本).
3.从某中学高三甲、乙两个班各选出7名学生参加数学竞赛,他们取得的成绩如下:
甲:79 78 x 80 85 96 92
乙:76 81 91 91 81 y 96
其中由于统计失误造成两个班各有一个学生的成绩丢失,但已知甲班学生成绩的平均分和乙班学生成绩的中位数都是85,则x+y的值为( )
A.167 B.168 C.169 D.170
答案 D
解析 由题意知,y=85,
=85,
解得x=85,故x+y=170.
4.某工厂对一批新产品的长度(单位:mm)进行检测,如图是检测结果的频率分布直方图,据此估计这批产品的中位数为( )
A.20 B.25 C.22.5 D.22.75
答案 C
解析 产品的中位数出现在频率是0.5的地方.自左至右各小矩形的面积依次为0.1,0.2,0.4,0.15,0.15,设中位数是x,则由0.1+0.2+0.08×(x-20)=0.5,
得x=22.5,故选C.
5.16位参加百米半决赛同学的成绩各不相同,按成绩取前8位进入决赛.如果小刘知道了自己的成绩后,要判断他能否进入决赛.则其他15位同学成绩的下列数据中,能使他得出结论的是( )
A.平均数 B.极差 C.中位数 D.众数
答案 C
解析 判断是不是能进入决赛,只要判断是不是前8名,所以只要知道其他15位同学的成绩中是不是有8个高于他,也就是把其他15位同学的成绩排列后看第8个的成绩即可,小刘的成绩高于这个成绩就能进入决赛,低于这个成绩就不能进入决赛,这个第8名的成绩就是这15位同学成绩的中位数.
6.如果5个数x1,x2,x3,x4,x5的平均数是7,那么x1+1,x2+1,x3+1,x4+1,x5+1这5个数的平均数是______.
答案 8
7.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命(单位:年)跟踪调查结果如下:
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数:甲________,乙________,丙________.
答案 众数 平均数 中位数
解析 甲、乙、丙三个厂家从不同角度描述了一组数据的特征.甲:该组数据8出现的次数最多;乙:该组数据的平均数==8;丙:该组数据的中位数是=8.
8.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委给参赛作品A打出的分数如下:88,89,89,93,92,9■,92,91,94.记分员在去掉一个最高分和一个最低分后,算得平均分为91.复核员在复核时,发现有一个数的个位数字无法看清.若记分员计算无误,则该数应该是________.
答案 91
解析 最低分为88.若90+x为最高分,
则平均分为≈91.4≠91.
故最高分为94.则去掉最高分94和最低分88,
平均分为=91,
解得x=1.故该数为91.
9.高一三班有男同学27名、女同学21名,在一次语文测验中,男同学的平均分是82分,中位数是75分,女同学的平均分是80分,中位数是80分.
(1)求这次测验全班平均分(精确到0.01);
(2)估计全班成绩在80分以下(含80分)的同学至少有多少人?
(3)分析男同学的平均分与中位数相差较大的主要原因是什么?
解 (1)这次测验全班平均分
=(82×27+80×21)≈81.13(分).
(2)因为男同学的中位数是75,
所以至少有14人得分不超过75分.
又因为女同学的中位数是80,
所以至少有11人得分不超过80分.
所以全班至少有25人得分在80分以下(含80分).
(3)男同学的平均分与中位数的差别较大,说明男同学的得分两极分化现象严重,得分高的和低的相差较大.
10.随着移动互联网的发展,与餐饮美食相关的手机app软件层出不穷.现从某市使用A和B两款订餐软件的商家中分别随机抽取100个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如下.
(1)试估计该市使用A款订餐软件的商家的“平均送达时间”的众数及平均数(同一组中的数据用该组区间的中点值代表);
(2)如果以“平均送达时间”的平均数作为决策依据,从A和B两款订餐软件中选择一款订餐,你会选择哪款?
解 (1)依题意,可得使用A款订餐软件的商家中“平均送达时间”的众数为55,平均数为15×0.06+25×0.34+35×0.12+45×0.04+55×0.4+65×0.04=40.
(2)使用B款订餐软件的商家中“平均送达时间”的平均数为15×0.04+25×0.2+35×0.56+45×0.14+55×0.04+65×0.02=35<40,所以选B款订餐软件.
11.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c B.b>c>a
C.c>a>b D.c>b>a
答案 D
解析 由已知得a=×(15+17+14+10+15+17+17+16+14+12)=14.7,
b=×(15+15)=15,c=17,
∴c>b>a.故选D.
12.箱子中共有40个网球(质量不完全相同),其平均质量为M,如果把M当成一个网球的质量,与原来的40个网球一起,算出这41个网球的平均质量为N,那么为( )
A. B.1 C. D.2
答案 B
解析 设40个网球的质量分别为xi(i=1,2,…,40),则M=,N==M,故=1.
13.200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值分别为________.
答案 65,62.5
解析 ∵最高的矩形为第三个矩形,
∴时速的众数的估计值为65.
前两个矩形的面积为(0.01+0.03)×10=0.4.
∵0.5-0.4=0.1,×10=2.5,
∴中位数的估计值为60+2.5=62.5.
14.某县两所学校高级教师年龄如下:
甲:38 38 40 41 41 42 43 44 49 51 52
54 55 57 57 58 61
乙:35 36 38 39 39 40 42 43 43 44 44
44 46 47 48 49 51 52 52 53 55 57
根据上述数据给出以下说法:①甲学校高级教师的年龄主要集中在40~60岁之间;②乙学校高级教师的年龄分布大致对称;③甲学校高级教师的平均年龄比乙学校高级教师的平均年龄大;④两所学校高级教师的平均年龄都是50.其中说法正确的序号是________.
答案 ①②③
解析 根据两组数据可以看出,甲学校高级教师的年龄除了2个38岁和1个61岁,大部分年龄都集中在40~60岁之间,平均年龄约为48岁;乙学校高级教师的年龄分布大致对称,平均年龄约为45岁.因此,说法正确的序号是①②③.
15.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)如图所示,假设得分的中位数为m,众数为n,平均数为,则m,n,的大小关系为________.(用“<”连接)
答案 n解析 由图可知,30名学生得分的中位数为第15个数和第16个数(分别为5,6)的平均数,即m=5.5;又5出现次数最多,故n=5;
=≈5.97.
故n16.某校甲班、乙班各有49名学生,两班在一次数学测验中的成绩(满分100分)统计如下表:
班级 平均分 众数 中位数
甲班 79 70 87
乙班 79 70 79
(1)请你对下面的一段话给予简要分析:
甲班的小刚回家对妈妈说:“昨天的数学测验,全班平均79分,得70分的人最多,我得了85分,在班里算是上游了!”
(2)请你根据表中数据,对这两个班的测验情况进行简要分析,并提出教学建议.
解 (1)由中位数可知,85分排在第25名之后,从名次上讲,85分不算是上游,但也不能单以名次来判断学习成绩的好坏,小刚得了85分,说明他对这阶段的学习内容掌握较好.
(2)甲班学生成绩的中位数为87分,说明高于或等于87分的学生占一半以上,而平均分为79分,说明两极分化严重,建议对学习有困难的同学多给一些帮助;
乙班学生成绩的中位数和平均分均为79分,说明学生成绩之间差别较小,成绩很差的学生少,但成绩优异的学生也很少,建议采取措施提高优秀率.