第六章 统计
§4 用样本估计总体的数字特征
4.1 样本的数字特征
基础过关练
题组一 平均数、中位数、众数
1.运动员参加体操比赛,当评委亮分后,往往是先去掉一个最高分和一个最低分,再计算剩下分数的平均值,这是为了( )
A.减少计算量 B.避免故障
C.剔除异常值 D.活跃赛场气氛
2.(2021江西南康中学月考)惠州市某工厂10名工人生产某一零件,生产的件数分别是10,12,14,14,15,15,16,17,17,17.设其平均数为a,中位数为b,众数为c,则( )
A.a>b>c B.b>c>a C.c>a>b D.c>b>a
3.一个公司有8名员工,其中6名员工的月工资(单位:元)分别为5 200,5 300,5 500,6 100,6 500,6 600,另外2名员工的月工资不清楚,那么这8名员工月工资的中位数不可能是 ( )
A.5 800元 B.6 000元
C.6 200元 D.6 400元
4.(2022上海浦东新区月考)某人6次上班途中所花的时间(单位:分钟)分别为9、8、a、12、15、12,已知这组数据的平均数为11,则中位数是 .
题组二 极差、方差、标准差
5.为了稳定市场,确保农民增收,某农产品3月份以后的每月市场收购价格(单位:元/担)与其前3个月的月市场收购价格有关,并与前3个月的月市场收购价格之差的平方和最小.下表列出的是该产品今年前6个月的月市场收购价格,则该产品前7个月的月市场收购价格的方差为( )
月份 1 2 3 4 5 6
价格(元/担) 68 78 67 71 72 70
A. B. C.11 D.
6.(2020天津河西月考)样本容量为9的四组数据的平均数都是5,条形统计图如图,则标准差最大的是( )
7.(多选)(2020福建福州期末)某工厂有甲、乙两条流水线同时生产直径为50 mm的零件,各抽取10件进行测量,其结果如图所示,下列结论中正确的是( )
A.甲流水线生产的零件直径的极差为0.4 mm
B.乙流水线生产的零件直径的中位数为50.0 mm
C.乙流水线生产的零件直径比甲流水线生产的零件直径稳定
D.甲流水线生产的零件直径的平均数小于乙流水线生产的零件直径的平均数
8.(2020四川眉山一中期末)若40个数据的平方和是56,平均数是,则这组数据的方差是 ,标准差是 .
9.(2021重庆一中期末)一组样本数据按从小到大的顺序排列为-1,0,4,x,y,14,若这组数据的平均数与中位数均为5,则其方差为 .
10.(2022江西九校联考)从甲、乙两名学生中选拔一人参加射击比赛,现对他们的射击水平进行测试,两人在相同条件下各射靶10次,每次命中的环数如下:
甲:7,8,6,8,6,5,9,10,7,4;
乙:9,5,7,8,7,6,8,6,7,7.
(1)求,,,;
(2)你认为应该选哪名学生参加比赛 为什么
题组三 频率分布直方图中的数字特征
11.某中学举行电脑知识竞赛,现将高一两个班参赛学生的成绩进行整理后分成5组,绘制成如图所示的频率分布直方图.已知图中从左到右的第一、第二、第三、第四、第五小组的频率分别是0.30,0.40,0.15,0.10,0.05,则参赛学生成绩的众数和中位数可能是 ( )
A.65分,65分 B.70分,65分
C.65分,50分 D.70分,50分
12.某超市从甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,整理得到甲种酸奶日销售量的频率分布表和乙种酸奶日销售量的频率分布直方图.
甲种酸奶日销售量(单位:箱) 频率
[0,10) 0.10
[10,20) 0.20
[20,30) 0.30
[30,40) 0.25
[40,50] 0.15
合计 1
(1)求出频率分布直方图中a的值,并作出甲种酸奶日销售量的频率分布直方图;
(2)记甲种酸奶与乙种酸奶日销售量(单位:箱)的方差分别为,,试比较和的大小;
(3)试估计乙种酸奶在未来一个月(按30天计算)的销售总量(同一组中的数据用该组区间的中点值作代表).
能力提升练
题组一 总体集中趋势的估计
1.为了普及环保知识,增强环保意识,某大学随机抽取了30名学生参加环保知识测试,得分情况(十分制)如图所示,假设得分的中位数为m1,众数为m2,平均数为,则( )
A.m1=m2= B.m1=m2<
C.m12.(多选)(2021福建龙岩武平一中月考)在某次高中学科知识竞赛后,对4 000名考生的竞赛成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],60分以下视为不及格,若同一组中的数据用该组区间的中点值作代表,则下列说法正确的是( )
A.成绩在[70,80)内的考生人数最多
B.不及格的考生人数为1 000
C.考生竞赛成绩的平均分约为70.5分
D.考生竞赛成绩的中位数为75分
3.(2020广东广州期末)某居民住宅小区图书室准备购买一定数量的书籍,为了满足不同年龄段居民的阅读需求,现随机抽取了40名阅读者进行调查,得到如图所示的频率分布直方图.则这40名阅读者年龄(单位:岁)的平均数为 ,中位数为 .(注:同一组中的数据用该组区间的中点值作代表)
4.(2020山东聊城期末)某山区地方政府为了帮助当地农民实现脱贫致富,大力发展当地的特色黄桃种植产业.为了了解某村黄桃的质量(单位:克)分布规律,现从该村的黄桃树上随机摘下n个黄桃组成样本进行测重,其质量均分布在区间[225,525]内,统计质量的数据作出其频率分布直方图如图所示,已知质量分布在区间[275,325)内的黄桃有16个.
(1)求n的值和质量分布在区间[425,475)内的黄桃个数;
(2)已知该村的黄桃树上大约有10万个黄桃待出售,某电商欲以5元/千克的价格收购该村的黄桃,请估计该村黄桃的销售收入.
题组二 总体离散程度的估计
5.甲、乙、丙三人投掷飞镖,他们成绩(环数)的频数分布直方图如图所示,设甲、乙、丙三人训练成绩的标准差分别为s甲,s乙,s丙,则s甲,s乙,s丙的大小关系是( )
A.s丙>s乙>s甲 B.s甲>s丙>s乙
C.s丙>s甲>s乙 D.s乙>s丙>s甲
6.(多选)(2021广东湛江期末)有一组样本甲的数据xi(i=1,2,3,4,5,6),由这组数据得到新样本乙的数据2xi+1(i=1,2,3,4,5,6),其中xi(i=1,2,3,4,5,6)为不全相等的正实数,则下列说法正确的是( )
A.样本甲的极差一定小于样本乙的极差
B.样本甲的方差一定大于样本乙的方差
C.若m为样本甲的中位数,则样本乙的中位数为2m+1
D.若n为样本甲的平均数,则样本乙的平均数为2n+1
7.(2021吉林松原实验高级中学期末)某班有48名学生,在一次考试中统计出平均分为70,方差为75,后来发现有2名学生的成绩有误,学生甲实得80分却记为50分,学生乙实得70分却记为100分,更正后平均分和方差分别是( )
A.70,25 B.70,50
C.70,5 D.65,25
8.(2022重庆缙云教育联盟质检)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志是“连续10天,每天新增疑似病例不超过7人”.过去10天,甲、乙、丙、丁四地新增疑似病例数据信息如下:
甲地:总体平均数为3,中位数为4;
乙地:总体平均数为1,总体方差大于0;
丙地:总体中位数为2,众数为3;
丁地:总体平均数为2,总体方差为3.
则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是( )
A.甲地 B.乙地
C.丙地 D.丁地
9.(2020湖北武汉华中科技大学附属中学期末)已知数据-1,1,0,m,3的方差为2,则数据-1,3,1,2m+1,7的方差为 .
答案与分层梯度式解析
第六章 统计
§4 用样本估计总体的数字特征
4.1 样本的数字特征
基础过关练
1.C 在体操比赛的评分中使用的是平均分,记分过程中采用“去掉一个最高分和一个最低分”的方法,就是为了防止个别评委因人为因素而给出过高或过低的分数,对运动员的得分造成较大的影响.
导师点睛
平均数受样本中的每个数据的影响,越“离群”的数据,对平均数的影响越大,尤其是一组数据中的最大值和最小值.
2.D 依题意,得a=×(10+12+14+14+15+15+16+17+17+17)=14.7,中位数b=15,众数c=17,故c>b>a,故选D.
3.D 当另外2名员工的月工资都小于5 200元时,中位数为(5 300+5 500)÷2=5 400(元);
当另外2名员工的月工资都大于6 600元时,中位数为(6 100+6 500)÷2=6 300(元),
∴这8名员工月工资的中位数的取值区间为[5 400,6 300],故选D.
4.答案 11
解析 由已知得=11,解得a=10.
将数据从小到大排列得8,9,10,12,12,15,则数据的中位数为=11.
5.B 设7月份的月市场收购价格为x元/担,则其与前3个月的月市场收购价格之差的平方和y=(x-71)2+(x-72)2+(x-70)2=3x2-426x+15 125,所以当x=-=71时,y最小,即7月份的月市场收购价格为71元/担.该产品前7个月的月市场收购价格的平均数为×(68+78+67+71+72+70+71)=71(元/担),则该产品前7个月的月市场收购价格的方差为×[(68-71)2+(78-71)2+(67-71)2+(71-71)2+(72-71)2+(70-71)2+(71-71)2]=.
6.D 解法一:A中,样本数据都为5,数据没有波动幅度,标准差为0;B中,样本数据为4,4,4,5,5,5,6,6,6,标准差为;C中,样本数据为3,3,4,4,5,6,6,7,7,标准差为;D中,样本数据为2,2,2,2,5,8,8,8,8,标准差为2.故选D.
解法二:从题中四个条形统计图可看出A中数据没有波动性,B,C中数据的波动性都比较小,而D中数据的波动性相对较大,利用标准差的意义可知选D.
7.ABC 对于A,甲流水线生产的零件直径的极差为50.2-49.8=0.4(mm),故A正确;
对于B,乙流水线生产的零件中,直径为49.9 mm的有3个,直径为50.0 mm的有4个,直径为50.1 mm的有3个,故乙流水线生产的零件直径的中位数为50.0 mm,故B正确;
对于C,由题图易得,乙流水线生产的零件直径比甲流水线生产的零件直径稳定,故C正确;
对于D,甲、乙两条流水线生产的零件直径的平均数均为50.0 mm,故D错误.故选ABC.
8.答案 0.9;
解析 设这40个数据为xi(i=1,2,…,40),平均数为,
则方差s2=[(x1-)2+(x2-)2+…+(x40-)2]
=[++…++40-2(x1+x2+…+x40)]
=×
=×36=0.9,
故标准差s==.
9.答案
解析 ∵数据-1,0,4,x,y,14的中位数为5,∴=5,∴x=6,∴这组数据的平均数是×(-1+0+4+6+y+14)=5,∴y=7,∴这组数据的方差是×[(-1-5)2+(0-5)2+(4-5)2+(6-5)2+(7-5)2+(14-5)2]=.
10.解析 (1)==7.
==7.
=×[(7-7)2+(8-7)2+(6-7)2+(8-7)2+(6-7)2+(5-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=3.
=×[(9-7)2+(5-7)2+(7-7)2+(8-7)2+(7-7)2+(6-7)2+(8-7)2+(6-7)2+(7-7)2+(7-7)2]=1.2.
(2)由(1)可知,甲、乙两人环数的平均数一样,但乙的方差小于甲的方差,说明乙的成绩更稳定,故应该选乙参加比赛.
11.A 众数为第二小组的中间值65分.设中位数为x分,则0.30+×0.40=0.5,解得x=65.故选A.
12.解析 (1)由乙种酸奶日销售量的频率分布直方图可得10a=1-(0.020+0.010+0.030+0.025)×10,解得a=0.015.
根据题表中数据可作出甲种酸奶日销售量的频率分布直方图如图所示:
(2)解法一:记甲、乙两种酸奶日销售量的平均数分别为,,
则=5×0.1+15×0.2+25×0.3+35×0.25+45×0.15=26.5,
=5×0.2+15×0.1+25×0.3+35×0.15+45×0.25=26.5,
所以=(5-26.5)2×0.1+(15-26.5)2×0.2+(25-26.5)2×0.3+(35-26.5)2×0.25+(45-26.5)2×0.15=142.75,
=(5-26.5)2×0.2+(15-26.5)2×0.1+(25-26.5)2×0.3+(35-26.5)2×0.15+(45-26.5)2×0.25=202.75,所以<.
解法二:比较两种酸奶的频率分布直方图,数据越集中,则方差越小,由频率分布直方图可得,甲种酸奶对应的数据更集中,故甲的方差小于乙的方差,即<.
(3)由(2)得乙种酸奶的平均日销售量为26.5箱,
故乙种酸奶未来一个月的销售总量为26.5×30=795(箱).
能力提升练
1.D 由题图可知,30名学生得分的中位数为5和6的平均数,即m1=5.5;又5出现次数最多,故m2=5;=×(2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10)≈5.97.所以m22.ABC 由频率分布直方图可得,成绩在[70,80)内的频率最大,因此成绩在[70,80)内的考生人数最多,故A正确;
成绩在[40,60)内的频率为0.010×10+0.015×10=0.25,因此不及格的考生人数为4 000×0.25=1 000,故B正确;
考生竞赛成绩的平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5(分),故C正确;
因为成绩在[40,70)内的频率为0.45,在[70,80)内的频率为0.3,所以考生竞赛成绩的中位数为70+10×≈71.67(分),故D错误.
故选ABC.
解题通法
利用频率分布直方图求解集中趋势参数的思路
名称 求解思路
平均数 用每个小矩形底边中点的横坐标与小矩形的面积(该小组的频率)的乘积之和近似代替平均数
中位数 根据中位数左边和右边的频率分布直方图的面积相等列式求中位数
众数 用最高小矩形底边中点的横坐标来近似代替众数
3.答案 54;55
解析 由题图得区间[20,30),[30,40),[40,50),[50,60),[60,70),[70,80]对应的频率分别为0.05,0.1,0.2,0.3,0.25,0.1,因为同一组中的数据用该组区间的中点值作代表,
所以这40名阅读者年龄(单位:岁)的平均数为25×0.05+35×0.1+45×0.2+55×0.3+65×0.25+75×0.1=54.
前3个区间的频率之和为0.05+0.1+0.2=0.35,前4个区间的频率之和为0.35+0.3=0.65,
故中位数为50+×10=55.
4.解析 (1)因为质量分布在区间[275,325)内的黄桃有16个,
所以×=0.003 2,解得n=100.
50×(0.001 0+0.003 2+0.004 8+0.006 0+x+0.001 0)=1,解得x=0.004 0,
则质量分布在区间[425,475)内的黄桃个数为50nx=20.
(2)该村黄桃的单个质量的平均数为250×0.05+300×0.16+350×0.24+400×0.3+450×0.2+500×0.05=379.5(克),
故该村黄桃的总质量大约为379.5×100 000=37 950(千克),
故估计该村黄桃的销售收入为37 950×5=189 750(元).
5.C 由题图甲可知,
==6,
=×[6×(3-6)2+6×(4-6)2+6×(5-6)2+6×(6-6)2+6×(7-6)2+6×(8-6)2+6×(9-6)2]=4,
∴s甲==2;
由题图乙可知,
==6,
=×[3×(3-6)2+5×(4-6)2+8×(5-6)2+10×(6-6)2+8×(7-6)2+5×(8-6)2+3×(9-6)2]≈2.6,
∴s乙=≈1.6;
由题图丙可知,
==6,
=×[8×(3-6)2+5×(4-6)2+3×(5-6)2+10×(6-6)2+3×(7-6)2+5×(8-6)2+8×(9-6)2]≈4.5,
∴s丙=≈2.1.
故s丙>s甲>s乙,故选C.
6.ACD 对于A,易得样本甲的极差是样本乙极差的一半,一定小于样本乙的极差,故A正确.
对于B,设样本甲的方差为a,易得a>0,样本乙的方差为4a,则4a>a,即样本乙的方差一定大于样本甲的方差,故B错误.
对于C,易得样本乙的中位数为2m+1,故C正确,
对于D,易得样本乙的平均数为2n+1,故D正确.
故选ACD.
7.B 学生甲少记30分,学生乙多记30分,则总分不变,由此可知平均分不发生变化.
设其余46名学生的成绩分别为x1,x2,…,x46,则原方差s2=[(x1-70)2+(x2-70)2+…+(x46-70)2+(50-70)2+(100-70)2]=75,更正后方差s'2=×[(x1-70)2+(x2-70)2+…+(x46-70)2+(80-70)2+(70-70)2]=s2-×[(50-70)2+(100-70)2]+×[(80-70)2+(70-70)2]=50.
故选B.
8.D 对于甲地,若连续10天的数据为0,0,0,0,4,4,4,4,4,10,则满足平均数为3,中位数为4,但不符合没有发生大规模群体感染的标志,A错误;
对于乙地,若连续10天的数据为0,0,0,0,0,0,0,0,0,10,则满足平均数为1,方差大于0,但不符合没有发生大规模群体感染的标志,B错误;
对于丙地,若连续10天的数据为0,0,1,1,2,2,3,3,3,10,则满足中位数为2,众数为3,但不符合没有发生大规模群体感染的标志,C错误;
对于丁地,若总体平均数为2,假设有一天数据为8,则方差s2>×(8-2)2=4.5>3,则不可能有一天数据超过7,符合没有发生大规模群体感染的标志,D正确.故选D.
9.答案 8
解析 因为-1=2×(-1)+1,3=2×1+1,1=2×0+1,2m+1=2×m+1,7=2×3+1,
所以数据-1,3,1,2m+1,7的方差为22×2=8.