北师大版高中数学必修第一册第六章统计章末综合提升课件(共89张PPT)+学案

文档属性

名称 北师大版高中数学必修第一册第六章统计章末综合提升课件(共89张PPT)+学案
格式 zip
文件大小 8.4MB
资源类型 试卷
版本资源 北师大版(2019)
科目 数学
更新时间 2025-08-18 18:10:33

文档简介

(共89张PPT)
章末综合提升
 
第六章 统计
体 系 构 建
返回
分 层 探 究
探究点一 抽样的基本方法
(1)某工厂用简单随机抽样中的随机数法对生产的700个零件进行抽样,先将700个零件进行编号,001,002,…,699,700.从中抽取70个样本,下图是利用软件生成的随机数,只需随机选定一个初始位置和方向开始读数,每次读取一个3位数,只要读取的号码落在编号范围内,该号码就是所抽到的样本编号,这样即可获得70个样本的编号,注意样本号码不能重复.若从表中第2行第6列的数2开始向右读取数据,取到的第一个样本编号是253,则得到的第6个样本编号是
32211 83429 78645 40732 52420 64438 12234 35677 35789 05642(第1行)
84421 25331 34578 60736 25300 73286 23457 88907 23689 60804(第2行)
32567 80843 67895 35577 34899 48375 22535 57832 45778 92345(第3行)
A.007 B.328 C.253 D.623
典例
1

根据题意可得抽取的样本编号依次为253,313,457,007,328,623,…,所以第6个样本编号是623.故选D.
(2)(多选题)港珠澳大桥是中国境内一座连接中国香港、广
东珠海和中国澳门的桥隧工程,因其超大的建筑规模、空
前的施工难度和顶尖的建造技术而闻名世界.港珠澳大桥
为中国内地前往中国香港的游客提供了便捷的交通途径,某旅行社分年龄段统计了港珠澳大桥落地以后,由港珠澳大桥实现中国内地前往中国香港的老年、中年、青年旅客的人数比为5∶2∶3,现使用分层随机抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,则下列说法正确的是
A.老年旅客抽到150人
B.中年旅客抽到40人
C.n=200
D.被抽到的老年旅客和中年旅客人数之和超过200



1.利用随机数表进行抽样的具体步骤
第一步:给总体中的每个个体编号;
第二步:在随机数表中随机抽取某行某列作为抽样的起点,并规定读取方法;
第三步:依次从随机数表中抽取样本号码,凡是抽到编号范围内的号码,就是样本的号码,并剔除相同的号码直至抽满为止.
规律方法

规律方法
对点练1.(1)(多选题)已知下表为随机数表的一部分,将其按每5个数字编为一组:
08015 17727 45318 22374 21115 78253 77214 77402 43236 00210 45521 64237 29148 66252 36936 87203 76621 13990 68514 14225 46427 56788 96297 78822
已知甲班有60位同学,编号为01~60号,现在利用上面随机数表的某一个数为起点,以简单随机抽样的方法在甲班中抽取4位同学,由于样本容量小于99,所以只用随机数表中每组数字的后两位,得到下列四组数据,则抽到的4位同学的编号可能是
A.15,27,18,53 B.27,02,25,52
C.14,25,27,22 D.15,27,18,74



对于A,所得编号为第一行中四组数字的后两位数字,故A有可能;对于B,所得编号为第二列中四组数字的后两位数字,故B有可能;对于C,所得编号为第四行中四组数字的后两位数字,故C有可能;对于D,编号74大于甲班60位同学的最大编号60,不满足题意.故选ABC.
(2)采用按比例分配的分层抽样的方法抽取一个容量为100的样本,初一年级被抽取30人,初二年级被抽取40人,初三年级共有600人,则这个学校共有初中学生_______人.
2 000
探究点二 用样本的频率分布估计总体分布
为弘扬我国优秀传统文化,某校组织了高
一年级学生进行这方面的知识测试.根据测试成绩
(总分100分),将所得数据按照[40,50),[50,60),
[60,70),[70,80),[80,90),[90,100]分成6组,
其频率分布直方图如图所示.
(1)求图中a的值;
解:由(0.005+0.010+0.015×2+a+0.030)×10=1,解得a=0.025.
典例
2
(2)试估计高一年级本次知识测试成绩的平均分(同
一组中的数据用该组区间的中点值作代表);
解:10×(45×0.005+55×0.015+65×0.030+75
×0.025+85×0.015+95×0.010)=71,
故本次知识测试成绩的平均分为71.
规律方法
与频率分布直方图有关问题的常见类型及解题策略
1.已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1可求出其他数据.
2.已知频率分布直方图,求某个范围内的数据,可利用图形及某范围结合求解.
对点练2.(多选题)供电部门对某社区1 000位居民12月份人均用电情况进行统计后,按人均用电量分为[0,10),[10,20),[20,30),[30,40),[40,50]五组,整理得到如图所示的频率分布直方图,则有关这1 000位居民,下列说法正确的是
A.12月份人均用电量人数最多的一组有400人
B.12月份人均用电量在[20,30)内的有300人
C.12月份人均用电量不低于20度的有500人
D.在这1 000位居民中用比例分配的分层随机抽
样方法抽取10位居民协助收费,抽到的居民用电
量在[30,40)一组的人数为2




探究点三 用样本估计总体的数字特征
某工厂甲、乙两名工人参加操作技能培训.他们在培训期间参加的8次测试成绩数据如下(单位:分):
(1)请你计算这两组数据的平均数、中位数;
典例
3
甲 95 82 88 81 93 79 84 78
乙 83 75 80 80 90 85 92 95
(2)现要从中选派一人参加操作技能比赛,从统计学的角度考虑,你认为选派哪名工人参加合适?请说明理由.
甲 95 82 88 81 93 79 84 78
乙 83 75 80 80 90 85 92 95
用样本的数字特征估计总体的数字特征应注意的问题
1.中位数用来描述数据的中心位置,众数体现了数据的最大集中点,平均数反映样本数据的总体水平.
2.标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)较大,数据的离散程度较大;标准差(方差)较小,数据的离散程度较小.
规律方法
对点练3.漳州古城有着上千年的建城史,是国家级闽
南文化生态保护实验区的重要组成部分,并入选首批
“中国历史文化街区”.五一假期来漳州古城旅游的
人数创新高,单日客流峰值达20万人次.为了解游客
的旅游体验满意度,某研究性学习小组用问卷调查的方式随机调查了100名游客,该兴趣小组将收集到的游客满意度分值数据(满分100分)分成六段:[40,50),[50,60),…,[90,100]得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值,并估计这100名游客满意度分值的中位数(结果保留整数);
探究点四 样本的百分位数
某校教科室随机地取出了本校高三100名考生的数学成绩(单位:分),将数据分成了11组,制成了如图所示的频率分布表:
典例
4
分组 频数 频率
[80,85) 1 0.01
[85,90) 2 0.02
[90,95) 4 0.04
[95,100) 14 0.14
[100,105) 24 0.24
[105,110) 15 0.15
[110,115) 12 0.12
[115,120) 9 0.09
[120,125) 11 0.11
[125,130) 6 0.06
[130,135] 2 0.02
合计 100 1
(1)求样本数据的60%,80%分位数;
分组 频数 频率
[80,85) 1 0.01
[85,90) 2 0.02
[90,95) 4 0.04
[95,100) 14 0.14
[100,105) 24 0.24
[105,110) 15 0.15
[110,115) 12 0.12
[115,120) 9 0.09
[120,125) 11 0.11
[125,130) 6 0.06
[130,135] 2 0.02
合计 100 1
(2)估计该校高三学生的数学成绩的90%分位数.
分组 频数 频率
[80,85) 1 0.01
[85,90) 2 0.02
[90,95) 4 0.04
[95,100) 14 0.14
[100,105) 24 0.24
[105,110) 15 0.15
[110,115) 12 0.12
[115,120) 9 0.09
[120,125) 11 0.11
[125,130) 6 0.06
[130,135] 2 0.02
合计 100 1
计算一组n个数据的p分位数的一般步骤
第一步:按照从小到大排列原始数据;
第二步:计算i=np;
第三步:若i不是整数,大于i的最小整数为j,则p分位数为第j项数据;若i是整数,则p分位数为第i项与第(i+1)项数据的平均数.
规律方法
对点练4.(1)某同学通过计步器,记录了自己20天每天走的步数,数据整理如下:
则这组数据的第50百分位数为
A.8 720 B.8 722
C.8 724 D.8 726

2 107 4 165 5 467 5 678 5 705 6 542 8 358 8 592 8 666 8 722
8 726 9 986 10 575 11 558 11 736 12 121 12 386 12 400 13 039 16 530

2 107 4 165 5 467 5 678 5 705 6 542 8 358 8 592 8 666 8 722
8 726 9 986 10 575 11 558 11 736 12 121 12 386 12 400 13 039 16 530
(2)若4,2,1,5,4的第p百分位数是4,则p的取值范围是
A.(40,80) B.(40,80]
C.(60,80) D.[60,80)

将样本数据4,2,1,5,4按从小到大排列可得1,2,4,4,5,因为样本数据的第p百分位数是4,所以2<5×p%<4,40<p<80,所以p的取值范围是(40,80).故选A.
返回
考 教 衔 接
(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
根据表中数据,下列结论中正确的是
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
真题
1

亩产量 [900,950) [950,1 000) [1 000,1 050)
频数 6 12 18

亩产量 [1 050,1 100) [1 100,1 150) [1 150,1 200)
频数 30 24 10

亩产量 [900,950) [950,1 000) [1 000,1 050)
频数 6 12 18

亩产量 [1 050,1 100) [1 100,1 150) [1 150,1 200)
频数 30 24 10
溯源:(教材P168例1)某赛季篮球运动员甲每场比赛的得分(单位:分)情况如下表.
求在该赛季比赛中,这名运动员得分情况的平均数、中位数、众数、极差、方差和标准差.
比赛
场次 1 2 3 4 5 6 7 8 9 10 11 12 13
得分 12 24 31 15 36 25 50 35 31 44 39 41 36
点评:高考试题与教材例题均考查了样本的数字特征,即平均数、中位数、极差的概念,试题难度高于教材例题难度,且综合性较强.
(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座
后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前
正确率的极差
真题
2


溯源:(教材P180A组T5)为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程(单位:103 km):
轮胎A:96,112,97,108,100,103,86,98;
轮胎B:108,101,94,105,96,93,97,106.
(1)分别计算A,B两种轮胎行驶的最远里程的平均数和中位数;
(2)分别计算A,B两种轮胎行驶的最远里程的极差和标准差;
(3)根据以上数据,你认为哪种轮胎性能更加稳定?
点评:高考试题与教材习题均考查了样本的数字特征,即平均数、中位数、极差、标准差的概念,试题难度与教材习题难度相当.
(2022·天津卷)将1916年到2015年的全球年平均气温(单位:℃),共100个数据,分成6组:[13.55,13.75),[13.75,13.95),[13.95,14.15),[14.15,14.35),[14.35,14.55),[14.55,14.75],并整理得到如图所示频率分布直方图,则全球年平均气温在区间[14.35,14.75]内的有
A.22年
B.23年
C.25年
D.35年
真题
3

根据题意,全球年平均气温在区间[14.35,14.75]内的频率是0.2×0.5+0.2×0.65=0.23,故全球年平均气温在区间[14.35,14.75]内的有100×0.23=23(年).故选B.
溯源:(教材P181A组T7)下面是2016年我国部分主要城市的年平均气温(单位:℃):
城市 年平均气温 城市 年平均气温
北京 13.8 上海 17.6
武汉 17.3 昆明 15.8
天津 13.8 南京 16.8
长沙 17.5 拉萨 9.5
石家庄 14.6 杭州 18.2
广州 21.9 西安(泾河) 15.8
太原 11.2 合肥 17.0
南宁 22.3 兰州(皋兰) 8.2
城市 年平均气温 城市 年平均气温
呼和浩特 7.1 福州 21.0
海口 24.6 西宁 6.6
沈阳 8.8 南昌 19.0
重庆(沙坪坝) 19.5 银川 10.7
长春 6.6 济南 15.4
成都(温江) 16.8 乌鲁木齐 8.4
哈尔滨 5.0 郑州 16.4
贵阳 15.3
(1)将以上数据进行适当分组,并画出相应的频率分布直方图.
(2)以上各城市年平均气温在[0,10),[10,15),[15,20),[20,25]中,哪一个范围的最多?
点评:高考试题与教材习题均以平均气温为实际背景考查了频率分布直方图中各组频数的计算,试题难度与教材习题难度相当.
(多选题)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5 的标准差不小于 x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
真题
4



溯源:(教材P175练习T1)某歌手电视大奖赛中,七位评委为甲、乙两名选手打出了如下分数.
甲:7.9,8.1,8.4,8.5,8.5,8.5,9.9;
乙:7.0,8.4,8.4,8.4,8.6,8.7,9.0.
(1)若评分规则为“根据七位评委的所有评分,计算选手得分的平均数”,求甲、乙两名选手的最终得分;
(2)若评分规则为“去掉一个最高分和一个最低分后,计算选手得分的平均数”,求甲、乙两名选手的最终得分.
点评:高考试题与教材习题均考查了样本的数字特征,即增加或减少一个数平均数的变化情况,试题难度高于教材习题难度.
(2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
真题
5
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
溯源:(教材P180A组T3)下表给出了2016年太原市和呼和浩特市的月降水量(单位:mm):
  月份
城市   1 2 3 4 5 6
太原市 2.5 4.2 3.6 40.7 23.6 74.0
呼和浩特市 0.3 3.0 0.7 3.2 34.6 108.8

  月份
城市   7 8 9 10 11 12
太原市 209.4 71.7 21.3 62.0 4.9 10.5
呼和浩特市 140.2 115.0 74.7 48.6 0.5 1.7
(1)请用适当的统计图表示上面的数据;
(2)分别计算太原市和呼和浩特市2016年月降水量的平均数和标准差.
点评:高考试题与教材习题均考查了平均数与方差的计算以及在实际问题中的应用,均考查对数据处理的能力,难度与教材习题相当.
返回
单 元 检 测 卷
1.在以下调查中,适合用全面调查的个数是
①调查一个班级学生的吃早餐情况 ②调查某种饮料质量合格情况 ③调查某批飞行员的身体健康指标 ④调查某个水库中草鱼的所占比例
A.1 B.2
C.3 D.4
①因为一个班级学生的人数不太多,吃早餐情况的全面调查也容易操作,所以适合全面调查;②某种饮料数量太多,质量合格情况适合抽样调查;③飞行员职业特点决定了身体健康指标必须全面调查;④某个水库中鱼的种类和数量一般都较多,不适合全面调查.故选B.

2.为了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析,在这个问题中,5 000名学生计算机水平测试成绩的全体是
A.总体 B.个体
C.从总体中抽取的一个样本 D.样本的容量

根据抽样的概念可知,这5 000名学生计算机水平测试成绩的全体是总体,故选A.
3.现有一个容量为50的样本,其数据的频数分布表如下表所示,则第4组的频数和频率分别是
A.12,0.06 B.12,0.24
C.18,0.09 D.18,0.36

组号 1 2 3 4 5
频数 8 11 10 x 9
4.一组数据按从小到大的顺序排列为1,3,4,x,6,7,9,若该组数据的中位数与平均数相同,则该组数据的第50百分位数是
A.3 B.4
C.5 D.6

5.一批热水器共有98台,其中甲厂生产的有56台,乙厂生产的有42台,用分层抽样法从中抽出一个容量为14的样本,那么甲、乙两厂各抽得的热水器台数是
A.甲厂7台,乙厂7台 B.甲厂8 台,乙厂6台
C.甲厂9台,乙厂5台 D.甲厂 10 台,乙厂4台

6.某运动员在一次训练中共射击6次,射击成绩(单位:环)如下:6,7,7,9,9,10.则下列说法正确的是
A.成绩的极差为-4
B.成绩的中位数为7和9
C.成绩的第50百分位数等于成绩的平均数
D.若增加一个成绩8,则成绩的方差不变

7.某校举行劳动技能大赛,统计了100名学生的比赛成绩,得到如图所示的频率分布直方图,已知成绩均在区间[40,100]内,不低于90分的视为优秀,低于60分的视为不及格.若同一组中数据用该组区间中间值做代表值,则下列说法中错误的是
A.a=0.15
B.优秀学生人数比不及格学生人数少15人
C.该次比赛成绩的平均分约为70.5
D.这次比赛成绩的69%分位数为78

对于A,由题意(0.01×2+a×2+0.02+0.03)
×10=1,所以a=0.015,故A错误;对于B,
优秀学生人数为0.1×100=10,不及格学生人
数0.25×100=25,优秀学生人数比不及格学
生人数少15人,故B正确;对于C,平均分=45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;对于D,设69%分位数为x,则有0.1+0.15+0.2+(x-70)×0.03=0.69,所以x=78,故D正确.故选A.
8.已知甲、乙两名同学在高三的6次数学测试的成绩统计如图(图标中心点所对纵坐标代表该次数学测试成绩),则下列说法不正确的是
A.甲成绩的极差小于乙成绩的极差
B.甲成绩的第25百分位数大于乙成绩的第75百分位数
C.甲成绩的平均数大于乙成绩的平均数
D.甲成绩的方差小于乙成绩的方差


9.随着农业现代化的持续推进,中国农业连年丰收,农民收入持续增加,农村活力不断增强,乡村全面振兴的美好蓝图变成现实.某地农科院为研究新品种大豆,在面积相等的100块试验田上种植一种新品种大豆,得到各块试验田的亩产量(单位:kg),并整理得下表:
则100块试验田的亩产量数据中
A.中位数低于180 kg B.极差不高于60 kg
C.不低于190 kg的比例超过15% D.第75百分位数介于190 kg至200 kg之间

亩产量 [150,160) [160,170) [170,180) [180,190) [190,200) [200,210]
频数 5 10 25 40 15 5


亩产量 [150,160) [160,170) [170,180) [180,190) [190,200) [200,210]
频数 5 10 25 40 15 5
10.如图,下列是国家统计局公布的数据,下列关于这组数据的说法正确的是
A.众数是2.1
B.中位数是1.6
C.平均数是2.08
D.方差大于1


11.学校对同一批学生分别在高一学年和高二学年开展体育水平抽样测试,测试成绩数据处理后,得到如下频率分布直方图,则下面说法正确的是
A.样本中高二学年成绩的众数是85
B.样本中高二学年成绩在80分以上的人数高
于高一学年成绩在80分以上的人数
C.样本中高二学年成绩的方差高于高一学年
成绩的方差
D.样本中高二学年成绩的中位数高于高一学年成绩的中位数





12.省农科站要检测某品牌种子的发芽率,计划采用随机数表法从该品牌800粒种子中抽取60粒进行检测,现将这800粒种子编号如下001,002,…,800,若从随机数表第8行第7列的数7开始向右读,则所抽取的第4粒种子的编号是_______.(如下是随机数表第8行至第9行)
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79(第8行)
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54(第9行)
507
由题意得,依次读取的种子的编号为:785,916(舍去),955(舍去),567,199,810(舍去),507.故所抽取的第4粒种子的编号为507.
13.已知一组数据丢失了其中一个,剩下的六个数据分别是3,3,5,3,6,11,若这组数据的平均数与众数的和是中位数的2倍,则丢失的数据可能是______________(答案不唯一,写出一个即可).

-10(或4或18)
14.为了解某高中暑假学生学习情况,采用分层抽样对该校高中三个年级学生平均每天学习时间(单位:小时)进行统计,得到样本数据如下:
根据上述数据,估计该校三个年级学生平均每天学习时间的方差为_____.
年级 抽样人数 样本平均值 样本方差
高一 30 3 1.5
高二 30 4 2
高三 40 5 3.5
3.14
15.(13分)我们国家正处于人口老龄化进程中,老有所依也是政府的民生工程.某市共有户籍人口400万,其中老年人(年龄60岁及以上)人数约有66万.为了了解老人们的健康状况,政府从老人中随机抽取600人并委托医疗机构免费为他们进行健康评估,健康状况共分为不能自理、不健康尚能自理、基本健康、健康四个等级,并以80岁为界限分成两个群体进行统计,样本分布制作成如图所示的统计图.
(1)若采用分层随机抽样的方法从样本中的不能自理的老人中抽取8人,进一步了解他们的生活状况,则两个群体中各应抽取多少人?
  健康情况
年龄   健康 基本健康 不健康尚能自理 不能自理
80岁及以上 20 45 20 15
80岁以下 200 225 50 25
甲 60 80 70 90 70
乙 80 60 70 80 75
甲 60 80 70 90 70
乙 80 60 70 80 75
(2)根据频率分布直方图,估计该校学生测试分数的平均数和75百分位数(同一组中的数据以该组区间的中点值为代表);
解:平均数=0.005×10×55+0.014×10×65+0.035
×10×75+0.030×10×85+0.016×10×95=78.8,
75百分位数应该在[80,90)之间,设75百分位数为x,
则(90-x)×0.030+0.016×10=0.25 x=87,所以平均数为78.8,75百分位数为87.
19.(17分)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得到下面的条形图:
记x表示1台机器在三年使用期内需更换的易损零件
数,y表示1台机器在购买易损零件上所需的费用(单
位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
解:由条形图知,需更换的易损零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
返回章末综合提升
探究点一 抽样的基本方法
(1)某工厂用简单随机抽样中的随机数法对生产的700个零件进行抽样,先将700个零件进行编号,001,002,…,699,700.从中抽取70个样本,下图是利用软件生成的随机数,只需随机选定一个初始位置和方向开始读数,每次读取一个3位数,只要读取的号码落在编号范围内,该号码就是所抽到的样本编号,这样即可获得70个样本的编号,注意样本号码不能重复.若从表中第2行第6列的数2开始向右读取数据,取到的第一个样本编号是253,则得到的第6个样本编号是(  )
32211 83429 78645 40732 52420 64438 12234 35677 35789 05642(第1行)
84421 25331 34578 60736 25300 73286 23457 88907 23689 60804(第2行)
32567 80843 67895 35577 34899 48375 22535 57832 45778 92345(第3行)
A.007 B.328
C.253 D.623
(2)(多选题)港珠澳大桥是中国境内一座连接中国香港、广东珠海和中国澳门的桥隧工程,因其超大的建筑规模、空前的施工难度和顶尖的建造技术而闻名世界.港珠澳大桥为中国内地前往中国香港的游客提供了便捷的交通途径,某旅行社分年龄段统计了港珠澳大桥落地以后,由港珠澳大桥实现中国内地前往中国香港的老年、中年、青年旅客的人数比为5∶2∶3,现使用分层随机抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,则下列说法正确的是(  )
A.老年旅客抽到150人
B.中年旅客抽到40人
C.n=200
D.被抽到的老年旅客和中年旅客人数之和超过200
答案:(1)D (2)BC
解析:(1)根据题意可得抽取的样本编号依次为253,313,457,007,328,623,…,所以第6个样本编号是623.故选D.
(2)因为老年、中年、青年旅客的人数比为5∶2∶3,青年旅客抽到60人,所以=,解得n=200,所以老年旅客抽到200×=100(人),中年旅客抽到200×=40(人),100+40=140<200.故选BC.
1.利用随机数表进行抽样的具体步骤
第一步:给总体中的每个个体编号;
第二步:在随机数表中随机抽取某行某列作为抽样的起点,并规定读取方法;
第三步:依次从随机数表中抽取样本号码,凡是抽到编号范围内的号码,就是样本的号码,并剔除相同的号码直至抽满为止.
2.分层随机抽样中容量的计算
分层随机抽样的特点是“按比例抽样”,即=.
对点练1.(1)(多选题)已知下表为随机数表的一部分,将其按每5个数字编为一组:
08015 17727 45318 22374 21115 78253 77214 77402 43236 00210 45521 64237 29148 66252 36936 87203 76621 13990 68514 14225 46427 56788 96297 78822
已知甲班有60位同学,编号为01~60号,现在利用上面随机数表的某一个数为起点,以简单随机抽样的方法在甲班中抽取4位同学,由于样本容量小于99,所以只用随机数表中每组数字的后两位,得到下列四组数据,则抽到的4位同学的编号可能是(  )
A.15,27,18,53 B.27,02,25,52
C.14,25,27,22 D.15,27,18,74
(2)采用按比例分配的分层抽样的方法抽取一个容量为100的样本,初一年级被抽取30人,初二年级被抽取40人,初三年级共有600人,则这个学校共有初中学生    人.
答案:(1)ABC (2)2 000
解析:(1)对于A,所得编号为第一行中四组数字的后两位数字,故A有可能;对于B,所得编号为第二列中四组数字的后两位数字,故B有可能;对于C,所得编号为第四行中四组数字的后两位数字,故C有可能;对于D,编号74大于甲班60位同学的最大编号60,不满足题意.故选ABC.
(2)根据题意,初三年级抽取100-30-40=30人,又初三年级共有600人,所以学校共有初中学生600÷=2 000人.
探究点二 用样本的频率分布估计总体分布
为弘扬我国优秀传统文化,某校组织了高一年级学生进行这方面的知识测试.根据测试成绩(总分100分),将所得数据按照[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]分成6组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)试估计高一年级本次知识测试成绩的平均分(同一组中的数据用该组区间的中点值作代表);
(3)该校准备对本次知识测试成绩优秀(将成绩从高到低排列,排在前15%的为优秀)的学生进行嘉奖,则受嘉奖的学生分数不低于多少?(结果保留一位小数)
解:(1)由(0.005+0.010+0.015×2+a+0.030)×10=1,解得a=0.025.
(2)10×(45×0.005+55×0.015+65×0.030+75×0.025+85×0.015+95×0.010)=71,
故本次知识测试成绩的平均分为71.
(3)设受嘉奖的学生分数不低于x分,因为[80,90),[90,100]对应的频率和为0.1+0.15>0.15,[90,100]对应的频率0.1<0.15,故x∈[80,90),
所以(90-x)×0.015+0.1=0.15,解得x=≈86.7分.
故受嘉奖的学生分数不低于86.7分.
与频率分布直方图有关问题的常见类型及解题策略
1.已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率和等于1可求出其他数据.
2.已知频率分布直方图,求某个范围内的数据,可利用图形及某范围结合求解.
对点练2.(多选题)供电部门对某社区1 000位居民12月份人均用电情况进行统计后,按人均用电量分为
[0,10),[10,20),[20,30),[30,40),[40,50]五组,整理得到如图所示的频率分布直方图,则有关这1 000位居民,下列说法正确的是(  )
A.12月份人均用电量人数最多的一组有400人
B.12月份人均用电量在[20,30)内的有300人
C.12月份人均用电量不低于20度的有500人
D.在这1 000位居民中用比例分配的分层随机抽样方法抽取10位居民协助收费,抽到的居民用电量在[30,40)一组的人数为2
答案:ABC
解析:根据频率分布直方图知,12月份人均用电量人数最多的一组是[10,20),有1 000×0.04×10=400(人),故A正确;12月份人均用电量在[20,30)内的人数为1 000×0.03×10=300,故B正确;12月份人均用电量不低于20度的频率是(0.03+0.01+0.01)×10=0.5,有1 000×0.5=500(人),故C正确;用电量在[30,40)内的有0.01×10×1 000=100(人),所以在这1 000位居民中用比例分配的分层随机抽样方法抽取10位居民协助收费,抽到的居民用电量在[30,40)一组的人数为×10=1,故D错误.故选ABC.
探究点三 用样本估计总体的数字特征
某工厂甲、乙两名工人参加操作技能培训.他们在培训期间参加的8次测试成绩数据如下(单位:分):
甲 95 82 88 81 93 79 84 78
乙 83 75 80 80 90 85 92 95
(1)请你计算这两组数据的平均数、中位数;
(2)现要从中选派一人参加操作技能比赛,从统计学的角度考虑,你认为选派哪名工人参加合适?请说明理由.
解:(1)=×(95+82+88+81+93+79+84+78)=85(分),
=×(83+75+80+80+90+85+92+95)=85(分).
甲、乙两组数据的中位数分别为83分,84分.
(2)由(1)知==85分,所以
=×[(95-85)2+(82-85)2+(88-85)2+(81-85)2+(93-85)2+(79-85)2+(84-85)2+(78-85)2]=35.5,
=×[(83-85)2+(75-85)2+(80-85)2+(80-85)2+(90-85)2+(85-85)2+(92-85)2+(95-85)2]=41.
①从平均数看,甲、乙均为85分,平均水平相同;
②从中位数看,乙的中位数大于甲,乙的成绩好于甲;
③从方差来看,因为=,<,所以甲的成绩较稳定;
④从数据特点看,获得85分以上(含85分)的次数,甲有3次,而乙有4次,故乙的成绩好些;
⑤从数据的变化趋势看,乙后几次的成绩均高于甲,且呈上升趋势,因此乙更具潜力.
综上分析可知,甲的成绩虽然比乙稳定,但从中位数、获得好成绩的次数及发展势头等方面分析,乙具有明显优势,所以应派乙参赛更有望取得好成绩.
用样本的数字特征估计总体的数字特征应注意的问题
1.中位数用来描述数据的中心位置,众数体现了数据的最大集中点,平均数反映样本数据的总体水平.
2.标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)较大,数据的离散程度较大;标准差(方差)较小,数据的离散程度较小.
对点练3.漳州古城有着上千年的建城史,是国家级闽南文化生态保护实验区的重要组成部分,并入选首批“中国历史文化街区”.五一假期来漳州古城旅游的人数创新高,单日客流峰值达20万人次.为了解游客的旅游体验满意度,某研究性学习小组用问卷调查的方式随机调查了100名游客,该兴趣小组将收集到的游客满意度分值数据(满分100分)分成六段:[40,50),[50,60),…,[90,100]得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值,并估计这100名游客满意度分值的中位数(结果保留整数);
(2)已知满意度分值落在[70,80)的平均数=75,方差=9,在[80,90)的平均数为=85,方差=4,试求满意度分值在[70,90)的平均数和方差s2.
解:(1)由(0.005+0.010×2+0.020+a+0.025)×10=1,解得a=0.030;
满意度分值在[40,80)的频率为(0.005+0.010×2+0.020)×10=0.45<0.5,
在[40,90)的频率为(0.005+0.010×2+0.020+0.030)×10=0.75>0.5,
所以中位数落在区间[80,90)内,所以中位数为80+10×=≈82.
(2)由频率分布直方图得,满意度分值在[70,80)的频率为0.02×10=0.2,人数为20;
在[80,90)的频率为0.03×10=0.3,人数为30,把满意度分值在[70,80)记为x1,x2,…,x20,
其平均数=75,方差=9,在[80,90)记为y1,y2,…,y30,其平均数=85,方差=4,所以满意度分值在[70,90)的平均数===81,
根据方差的定义,满意度分值在[70,90)的方差为s2=[(xi-)2+(yj-)2]
=[(xi-+-)2+(yj-+-)2]
由(xi-)=xi-20=0,可得2(xi-)(-)=2(-(xi-)=0,
同理可得2(yj-)(-)=0,因此,
s2=[(xi-)2+-)2+(yj-)2+-)2]
=[+(-)2]+[+(-)2]
=[9+(75-81)2]+[4+(85-81)2]=30.
探究点四 样本的百分位数
某校教科室随机地取出了本校高三100名考生的数学成绩(单位:分),将数据分成了11组,制成了如图所示的频率分布表:
分组 频数 频率
[80,85) 1 0.01
[85,90) 2 0.02
[90,95) 4 0.04
[95,100) 14 0.14
[100,105) 24 0.24
[105,110) 15 0.15
[110,115) 12 0.12
[115,120) 9 0.09
[120,125) 11 0.11
[125,130) 6 0.06
[130,135] 2 0.02
合计 100 1
(1)求样本数据的60%,80%分位数;
(2)估计该校高三学生的数学成绩的90%分位数.
解:从频率分布表得,前六组的频率之和为0.01+0.02+0.04+0.14+0.24+0.15=0.60,
前七组的频率之和为0.60+0.12=0.72,
前八组的频率之和为0.72+0.09=0.81,
前九组的频率之和为0.81+0.11=0.92.
(1)由前六组的频率之和为0.60,得样本数据的60%分位数为110,样本数据的80%分位数一定在第八组[115,120)内,由115+5×≈119.4,估计样本数据的80%分位数为119.4.
(2)由前八组的频率之和为0.81,前九组的频率之和为0.92,知90%分位数一定在第九组[120,125)内,由120+5×≈124.1,估计该校高三学生的数学成绩的90%分位数为124.1.
计算一组n个数据的p分位数的一般步骤
第一步:按照从小到大排列原始数据;
第二步:计算i=np;
第三步:若i不是整数,大于i的最小整数为j,则p分位数为第j项数据;若i是整数,则p分位数为第i项与第(i+1)项数据的平均数.
对点练4.(1)某同学通过计步器,记录了自己20天每天走的步数,数据整理如下:
2 107 4 165 5 467 5 678 5 705 6 542 8 358 8 592 8 666 8 722
8 726 9 986 10 575 11 558 11 736 12 121 12 386 12 400 13 039 16 530
则这组数据的第50百分位数为(  )
A.8 720 B.8 722
C.8 724 D.8 726
(2)若4,2,1,5,4的第p百分位数是4,则p的取值范围是(  )
A.(40,80) B.(40,80]
C.(60,80) D.[60,80)
答案:(1)C (2)A
解析:(1)根据题意将20天每天走的步数按照从小到大的顺序排列如下:2 107,4 165,5 467,5 678,5 705,6 542,8 358,8 592,8 666,8 722,8 726,9 986,10 575,11 558,11 736,12 121,12 386,12 400,13 039,16 530;又20×50%=10,所以数据的第50百分位数为第10个数和第11个数的平均数,即为=8 724.故选C.
(2)将样本数据4,2,1,5,4按从小到大排列可得1,2,4,4,5,因为样本数据的第p百分位数是4,所以2<5×p%<4,40<p<80,所以p的取值范围是(40,80).故选A.
(2024·新课标Ⅱ卷)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理得下表:
亩产量 [900,950) [950,1 000) [1 000,1 050)
频数 6 12 18
亩产量 [1 050,1 100) [1 100,1 150) [1 150,1 200)
频数 30 24 10
根据表中数据,下列结论中正确的是(  )
A.100块稻田亩产量的中位数小于1 050 kg
B.100块稻田中亩产量低于1 100 kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200 kg至300 kg之间
D.100块稻田亩产量的平均值介于900 kg至1 000 kg之间
答案:C
解析:对于A,因为前3组的频率之和0.06+0.12+0.18=0.36<0.5,前4组的频率之和0.36+0.30=0.66>0.5,所以100块稻田亩产量的中位数所在的区间为[1 050,1 100),故A不正确;对于B,100块稻田中亩产量低于1 100 kg的稻田所占比例为×100%=66%,故B不正确;对于C,因为1 200-900=300,1 150-950=200,所以100块稻田亩产量的极差介于200 kg至300 kg之间,故C正确;对于D,100块稻田亩产量的平均值约为×(925×6+975×12+1 025×18+1 075×30+1 125×24+1 175×10)=1 067(kg),故D不正确.故选C.
溯源:(教材P168例1)某赛季篮球运动员甲每场比赛的得分(单位:分)情况如下表.
比赛 场次 1 2 3 4 5 6 7 8 9 10 11 12 13
得分 12 24 31 15 36 25 50 35 31 44 39 41 36
求在该赛季比赛中,这名运动员得分情况的平均数、中位数、众数、极差、方差和标准差.
点评:高考试题与教材例题均考查了样本的数字特征,即平均数、中位数、极差的概念,试题难度高于教材例题难度,且综合性较强.
(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则(  )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案:B
解析:讲座前问卷答题的正确率的中位数为=72.5%>70%,故A错误;讲座后问卷答题的正确率只有一个是80%,4个85%,剩下全部大于等于90%,所以讲座后问卷答题的正确率的平均数大于85%,故B正确;由题图知讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,故C错误;讲座后问卷答题的正确率的极差为100%-80%=20%,讲座前问卷答题的正确率的极差为95%-60%=35%>20%,故D错误.故选B.
溯源:(教材P180A组T5)为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程(单位:103 km):
轮胎A:96,112,97,108,100,103,86,98;
轮胎B:108,101,94,105,96,93,97,106.
(1)分别计算A,B两种轮胎行驶的最远里程的平均数和中位数;
(2)分别计算A,B两种轮胎行驶的最远里程的极差和标准差;
(3)根据以上数据,你认为哪种轮胎性能更加稳定?
点评:高考试题与教材习题均考查了样本的数字特征,即平均数、中位数、极差、标准差的概念,试题难度与教材习题难度相当.
(2022·天津卷)将1916年到2015年的全球年平均气温(单位:℃),共100个数据,分成6组:[13.55,13.75),[13.75,13.95),[13.95,14.15),[14.15,14.35),[14.35,14.55),[14.55,14.75],并整理得到如图所示频率分布直方图,则全球年平均气温在区间[14.35,14.75]内的有(  )
A.22年 B.23年
C.25年 D.35年
答案:B
解析:根据题意,全球年平均气温在区间[14.35,14.75]内的频率是0.2×0.5+0.2×0.65=0.23,故全球年平均气温在区间[14.35,14.75]内的有100×0.23=23(年).故选B.
溯源:(教材P181A组T7)下面是2016年我国部分主要城市的年平均气温(单位:℃):
城市 年平均气温 城市 年平均气温
北京 13.8 上海 17.6
武汉 17.3 昆明 15.8
天津 13.8 南京 16.8
长沙 17.5 拉萨 9.5
石家庄 14.6 杭州 18.2
广州 21.9 西安(泾河) 15.8
太原 11.2 合肥 17.0
南宁 22.3 兰州(皋兰) 8.2
呼和浩特 7.1 福州 21.0
海口 24.6 西宁 6.6
沈阳 8.8 南昌 19.0
重庆 (沙坪坝) 19.5 银川 10.7
长春 6.6 济南 15.4
成都(温江) 16.8 乌鲁木齐 8.4
哈尔滨 5.0 郑州 16.4
贵阳 15.3
(1)将以上数据进行适当分组,并画出相应的频率分布直方图.
(2)以上各城市年平均气温在[0,10),[10,15),[15,20),[20,25]中,哪一个范围的最多?
点评:高考试题与教材习题均以平均气温为实际背景考查了频率分布直方图中各组频数的计算,试题难度与教材习题难度相当.
(多选题)(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则(  )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5 的标准差不小于 x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
答案:BD
解析:对于选项A,当x2,x3,x4,x5的平均数不等于x1,x6的平均数时,A选项不成立;故A错误;对于选项B,不妨设x1≤x2≤x3≤x4≤x5≤x6,可知x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数,均为,故B正确;对于选项C,因为x1是最小值,x6是最大值,则x2,x3,x4,x5的波动性不大于x1,x2,…,x6的波动性,即x2,x3,x4,x5的标准差不大于x1,x2,…,x6的标准差,例如: 1,4,4,4,4,7,则平均数n=×(1+4×4+7)=4,标准差s1=,4,4,4,4,则平均数m=4,标准差s2=0,显然>0,即s1>s2,故C错误;对于选项D,不妨设x1≤x2≤x3≤x4≤x5≤x6,则x6-x1≥x5-x2,当且仅当x1=x2,x5=x6时,等号成立,故D正确.故选BD.
溯源:(教材P175练习T1)某歌手电视大奖赛中,七位评委为甲、乙两名选手打出了如下分数.
甲:7.9,8.1,8.4,8.5,8.5,8.5,9.9;
乙:7.0,8.4,8.4,8.4,8.6,8.7,9.0.
(1)若评分规则为“根据七位评委的所有评分,计算选手得分的平均数”,求甲、乙两名选手的最终得分;
(2)若评分规则为“去掉一个最高分和一个最低分后,计算选手得分的平均数”,求甲、乙两名选手的最终得分.
点评:高考试题与教材习题均考查了样本的数字特征,即增加或减少一个数平均数的变化情况,试题难度高于教材习题难度.
(2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2.
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
解:(1)由题意可知,zi=xi-yi(i=1,2,…,10)的值分别为:9,6,8,-8,15,11,19,18,20,12,
所以=zi=×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+0+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)由(1)知:=11,2=2=,故有≥2 ,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
溯源:(教材P180A组T3)下表给出了2016年太原市和呼和浩特市的月降水量(单位:mm):
  月份 城市   1 2 3 4 5 6
太原市 2.5 4.2 3.6 40.7 23.6 74.0
呼和浩特市 0.3 3.0 0.7 3.2 34.6 108.8
月份 城市 7 8 9 10 11 12
太原市 209.4 71.7 21.3 62.0 4.9 10.5
呼和浩特市 140.2 115.0 74.7 48.6 0.5 1.7
(1)请用适当的统计图表示上面的数据;
(2)分别计算太原市和呼和浩特市2016年月降水量的平均数和标准差.
点评:高考试题与教材习题均考查了平均数与方差的计算以及在实际问题中的应用,均考查对数据处理的能力,难度与教材习题相当.
单元检测卷(六) 统 计
(时间:120分钟 满分:150分)
一、选择题(本题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.)
1.在以下调查中,适合用全面调查的个数是(  )
①调查一个班级学生的吃早餐情况 ②调查某种饮料质量合格情况 ③调查某批飞行员的身体健康指标 ④调查某个水库中草鱼的所占比例
A.1 B.2
C.3 D.4
答案:B
解析:①因为一个班级学生的人数不太多,吃早餐情况的全面调查也容易操作,所以适合全面调查;②某种饮料数量太多,质量合格情况适合抽样调查;③飞行员职业特点决定了身体健康指标必须全面调查;④某个水库中鱼的种类和数量一般都较多,不适合全面调查.故选B.
2.为了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析,在这个问题中,5 000名学生计算机水平测试成绩的全体是(  )
A.总体 B.个体
C.从总体中抽取的一个样本 D.样本的容量
答案:A
解析:根据抽样的概念可知,这5 000名学生计算机水平测试成绩的全体是总体,故选A.
3.现有一个容量为50的样本,其数据的频数分布表如下表所示,则第4组的频数和频率分别是(  )
组号 1 2 3 4 5
频数 8 11 10 x 9
A.12,0.06 B.12,0.24
C.18,0.09 D.18,0.36
答案:B
解析:第4组的频数x=50-(8+11+10+9)=50-38=12,频率为=0.24.故选B.
4.一组数据按从小到大的顺序排列为1,3,4,x,6,7,9,若该组数据的中位数与平均数相同,则该组数据的第50百分位数是(  )
A.3 B.4 C.5 D.6
答案:C
解析:由题意得=x,解得x=5,7×50%=3.5,故从小到大,选取第4个数据作为该组数据的第50百分位数,即5.故选C.
5.一批热水器共有98台,其中甲厂生产的有56台,乙厂生产的有42台,用分层抽样法从中抽出一个容量为14的样本,那么甲、乙两厂各抽得的热水器台数是(  )
A.甲厂7台,乙厂7台 B.甲厂8 台,乙厂6台
C.甲厂9台,乙厂5台 D.甲厂 10 台,乙厂4台
答案:B
解析:根据题意,甲厂抽得的热水器台数是×56=8,乙厂抽得的热水器台数是14-8=6.故选B.
6.某运动员在一次训练中共射击6次,射击成绩(单位:环)如下:6,7,7,9,9,10.则下列说法正确的是(  )
A.成绩的极差为-4
B.成绩的中位数为7和9
C.成绩的第50百分位数等于成绩的平均数
D.若增加一个成绩8,则成绩的方差不变
答案:C
解析:对于A,10-6=4,极差为4,不符合题意,故A错误;对于B,成绩的中位数为=8,不符合题意,故B错误;对于C,第50百分位数为=8,平均数为(6+7+7+9+9+10)=8,符合题意,故C正确;对于D,若增加一个成绩8,则成绩的方差会变小,不符合题意,故D错误.故选C.
7.某校举行劳动技能大赛,统计了100名学生的比赛成绩,得到如图所示的频率分布直方图,已知成绩均在区间[40,100]内,不低于90分的视为优秀,低于60分的视为不及格.若同一组中数据用该组区间中间值做代表值,则下列说法中错误的是(  )
A.a=0.15
B.优秀学生人数比不及格学生人数少15人
C.该次比赛成绩的平均分约为70.5
D.这次比赛成绩的69%分位数为78
答案:A
解析:对于A,由题意(0.01×2+a×2+0.02+0.03)×10=1,所以a=0.015,故A错误;对于B,优秀学生人数为0.1×100=10,不及格学生人数0.25×100=25,优秀学生人数比不及格学生人数少15人,故B正确;对于C,平均分=45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;对于D,设69%分位数为x,则有0.1+0.15+0.2+(x-70)×0.03=0.69,所以x=78,故D正确.故选A.
8.已知甲、乙两名同学在高三的6次数学测试的成绩统计如图(图标中心点所对纵坐标代表该次数学测试成绩),则下列说法不正确的是(  )
A.甲成绩的极差小于乙成绩的极差
B.甲成绩的第25百分位数大于乙成绩的第75百分位数
C.甲成绩的平均数大于乙成绩的平均数
D.甲成绩的方差小于乙成绩的方差
答案:B
解析:对于A,由图甲的极差约为30,乙的极差大于30,故A正确;对于B,对甲成绩排序,又6×=,则第2个成绩为甲成绩的第25百分位数,由图估计值为90;对乙成绩排序,又6×=,则第5个成绩为乙成绩的第75百分位数,估计值大于90,则甲成绩的第25百分位数小于乙成绩的第75百分位数,故B错误;对于C,由图可知,甲的成绩在90分上下浮动,乙的成绩有3次低于60分,则甲成绩的平均数大于乙成绩的平均数,故C正确;对于D,由图甲的成绩更加稳定,乙的成绩波动性较强,则甲成绩的方差小于乙成绩的方差,故D正确.故选B.
二、选择题(本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符合题目要求.全部选对的得6分,部分选对的得部分分,有选错的得0分.)
9.随着农业现代化的持续推进,中国农业连年丰收,农民收入持续增加,农村活力不断增强,乡村全面振兴的美好蓝图变成现实.某地农科院为研究新品种大豆,在面积相等的100块试验田上种植一种新品种大豆,得到各块试验田的亩产量(单位:kg),并整理得下表:
亩产量 [150, 160) [160, 170) [170, 180) [180, 190) [190, 200) [200, 210]
频数 5 10 25 40 15 5
则100块试验田的亩产量数据中(  )
A.中位数低于180 kg
B.极差不高于60 kg
C.不低于190 kg的比例超过15%
D.第75百分位数介于190 kg至200 kg之间
答案:BC
解析:由题意知,共100块,所以其中位数为第50和第51个数据的平均数,由表格知,这两个数据均在[180,190)内,故A错误;由表格知,极差最大为210-150=60,故B正确;由表格知,不低于190 kg的比例为=20%,故C正确;因为100×0.75=75,所以第75百分位数为按从小到大排序后第75个和第76个数据的平均数,由表格知,这两个数据均在[180,190)内,所以第75百分位数介于180 kg至190 kg之间,故D错误.故选BC.
10.如图,下列是国家统计局公布的数据,下列关于这组数据的说法正确的是(  )
A.众数是2.1 B.中位数是1.6
C.平均数是2.08 D.方差大于1
答案:AC
解析:对于A,因为2.1出现了2次,出现的次数最多,所以众数是2.1,故A正确;对于B,把这些数从小到大排列为1.6,1.8,2.1,2.1,2.8,中位数是2.1,故B错误;对于C,平均数是×(2.8+2.1+2.1+1.8+1.6)=2.08,故C正确;对于D,s2==0.165 6<1,故D错误.故选AC.
11.学校对同一批学生分别在高一学年和高二学年开展体育水平抽样测试,测试成绩数据处理后,得到如下频率分布直方图,则下面说法正确的是(  )
A.样本中高二学年成绩的众数是85
B.样本中高二学年成绩在80分以上的人数高于高一学年成绩在80分以上的人数
C.样本中高二学年成绩的方差高于高一学年成绩的方差
D.样本中高二学年成绩的中位数高于高一学年成绩的中位数
答案:ABD
解析:对于A,由高二学年体育成绩的频率分布直方图,高二学年体育成绩的众数是区间[80,90]的中点横坐标,所以众数为85,故A正确;对于B,由样本中高二学年成绩在80分以上的人数的频率为(0.04+0.015)×10=0.55,高一学年成绩在80分以上的人数的频率为(0.022+0.010)×10=0.32,所以高二学年成绩在80分以上的人数高于高一学年成绩在80分以上的人数,故B正确;对于C,由频率分布直方图,可得高一学年成绩的平均数为(45×0.004+55×0.011+65×0.018+75×0.035+85×0.022+95×0.010)×10=74,则高一学年成绩的方差为=(45-74)2×0.04+(55-74)2×0.11+(65-74)2×0.18+(75-74)2×0.35+(85-74)2×0.22+(95-74)2×0.10=159.高二学年成绩的平均数为(45×0.002 5+55×0.002 5+65×0.005+75×0.035+85×0.04+95×0.015)×10=80.25,可得高二学年成绩的方差为=(45-80.25)2×0.025+(55-80.25)2×0.025+(65-80.25)2×0.05 +(75-80.25)2×0.35+(85-80.25)2×0.4+(95-80.25)2×0.15≈110,所以样本中高二学年成绩的方差低于高一学年成绩的方差,故C不正确;对于D,由高一学年体育成绩的频率分布直方图,可得其中前3个矩形的面积和为(0.004+0.011+0.018)×10=0.33,前4个矩形的面积和为(0.004+0.011+0.018+0.035)×10=0.68,所以高一学年成绩的中位数位于[70,80]之间,设中位数为x1,则x1=70+×10≈74.86;由高二学年体育成绩的频率分布直方图,可得其中前4个矩形的面积和为(0.002 5+0.002 5+0.005+0.035)×10=0.45,前5个矩形的面积和为(0.002 5+0.002 5+0.005+0.035+0.04)×10=0.85,所以高二学年成绩的中位数位于[80,90]之间,设中位数为x2,则x2=80+×10=81.25,其中74.86<81.25,所以样本中高二学年成绩的中位数高于高一学年成绩的中位数,故D正确.故选ABD.
三、填空题(本题共3小题,每小题5分,共15分.把答案填在横线上.)
12.省农科站要检测某品牌种子的发芽率,计划采用随机数表法从该品牌800粒种子中抽取60粒进行检测,现将这800粒种子编号如下001,002,…,800,若从随机数表第8行第7列的数7开始向右读,则所抽取的第4粒种子的编号是     .(如下是随机数表第8行至第9行)
63 01 63 78 59 16 95 55 67 19 98
10 50 71 75 12 86 73 58 07 44 39
52 38 79(第8行)
33 21 12 34 29 78 64 56 07 82 52
42 07 44 38 15 51 00 13 42 99 66
02 79 54(第9行)
答案:507
解析:由题意得,依次读取的种子的编号为:785,916(舍去),955(舍去),567,199,810(舍去),507.故所抽取的第4粒种子的编号为507.
13.已知一组数据丢失了其中一个,剩下的六个数据分别是3,3,5,3,6,11,若这组数据的平均数与众数的和是中位数的2倍,则丢失的数据可能是     (答案不唯一,写出一个即可).
答案:-10(或4或18)
解析:3+3+5+3+6+11=31.设丢失的数据为x,则这七个数据的平均数为,众数是3.因为这组数据的平均数与众数的和是中位数的2倍,所以若x≤3,则中位数为3,此时+3=2×3,解得x=-10;若3<x<5,则中位数为x,此时+3=2x,解得x=4;若x≥5,则中位数为5,此时+3=2×5,解得x=18.故答案为-10(或4或18).
14.为了解某高中暑假学生学习情况,采用分层抽样对该校高中三个年级学生平均每天学习时间(单位:小时)进行统计,得到样本数据如下:
年级 抽样人数 样本平均值 样本方差
高一 30 3 1.5
高二 30 4 2
高三 40 5 3.5
根据上述数据,估计该校三个年级学生平均每天学习时间的方差为    .
答案:3.14
解析:高中三个年级学生的总样本平均数为=4.1,总样本方差为×[3.5+(5-4.1)2]+×[2+(4-4.1)2]+×[1.5+(3-4.1)2]=3.14.
四、解答题(本大题共5小题,共77分.解答应写出文字说明,证明过程或演算步骤.)
15.(13分)我们国家正处于人口老龄化进程中,老有所依也是政府的民生工程.某市共有户籍人口400万,其中老年人(年龄60岁及以上)人数约有66万.为了了解老人们的健康状况,政府从老人中随机抽取600人并委托医疗机构免费为他们进行健康评估,健康状况共分为不能自理、不健康尚能自理、基本健康、健康四个等级,并以80岁为界限分成两个群体进行统计,样本分布制作成如图所示的统计图.
(1)若采用分层随机抽样的方法从样本中的不能自理的老人中抽取8人,进一步了解他们的生活状况,则两个群体中各应抽取多少人?
(2)估算该市80岁及以上老人占全市户籍人口的百分比.
解:(1)数据整理如表所示:
  健康情况 年龄   健康 基本 健康 不健康尚 能自理 不能 自理
80岁及以上 20 45 20 15
80岁以下 200 225 50 25
从图表中知,
80岁及以上老人应抽取8×=3(人).
80岁以下老人应抽取8×=5(人).
(2)在600人中80岁及以上老人所占比为=,
用样本估计总体,80岁及以上老人占全市户籍人口的百分比为××100%=2.75%.
16.(15分)从我校高二年级的500名男生中随机抽取50名测量身高,被测学生身高全部介于155 cm和195 cm之间,将测量结果按如下方式分成八组:第一组[155,160),第二组[160,165),…,第八组[190,195],下图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组人数相同,第六组的人数为4人.
(1)求第七组的频率;
(2)估计该校的500名男生的身高的众数与平均数.
解:(1)第六组的频率为=0.08,
所以第七组的频率为1-5×(0.008×2+0.016+0.04×2+0.06)-0.08=0.06.
(2)由直方图得,身高在第一组[155,160)的频率为0.008×5=0.04,
身高在第二组[160,165)的频率为0.016×5=0.08,
身高在第三组[165,170)的频率为0.04×5=0.2,
身高在第四组[170,175)的频率为0.04×5=0.2,
身高在第五组[175,180)的频率为0.06×5=0.3,
身高在第六组[180,185)的频率为0.08,
身高在第七组[185,190)的频率为0.06,
身高在第八组[190,195]的频率为0.008×5=0.04,因为身高在第五组的频率最高,人数最多,所以众数为=177.5.
平均数为157.5×0.04+162.5×0.08+167.5×0.2+172.5×0.2+177.5×0.3+182.5×0.08+187.5×0.06+192.5×0.04=174.1.
所以估计该校的500名男生的身高的众数为177.5,平均数为174.1.
17.(15分)对某班甲、乙两名同学的学习成绩进行抽样分析,各抽5门功课,得到的观测值(单位:分)如下:
甲 60 80 70 90 70
乙 80 60 70 80 75
(1)甲、乙谁的平均成绩较好?谁的各门功课较平衡?
(2)该班甲、乙两名同学5门功课成绩的总平均分和总方差分别是多少?
解:(1)=×(60+80+70+90+70)=74(分),
=×(80+60+70+80+75)=73 (分),
=×[(60-74)2+(80-74)2+(70-74)2+(90-74)2+(70-74)2]=104,
=×[(80-73)2+(60-73)2+(70-73)2+(80-73)2+(75-73)2]=56,
因为>,>,
所以甲的平均成绩较好,乙的各门功课较平衡.
(2)因为w甲==,w乙==,
所以该班甲、乙两名同学5门功课成绩的总平均分=×74+×73=73.5(分),
总方差s2=w甲[+(-)2]+w乙[+(-)2]
=×[104+(74-73.5)2]+×[56+(73-73.5)2]=80.25.
18.(17分)某市体质健康测试标准包括身体形态、身体机能、躯体素质、运动能力等方面.为了了解学生体质健康情况,某校随机抽取了200名学生进行测试,测试成绩的频率分布直方图如下图所示,其中成绩低于80分的有108人.
(1)求图中a,b的值;
(2)根据频率分布直方图,估计该校学生测试分数的平均数和75百分位数(同一组中的数据以该组区间的中点值为代表);
(3)若抽取的200名学生中,男生120人,女生80人,其中男生分数的平均数为,方差为;女生分数的平均数为,方差为;200名学生分数的平均数为,方差为s2.
①s2=+-)++-);②s2=[+(-)2]+[+(-)2],请判断公式①和公式②是否相等,并说明理由.
解:(1)由低于80分的人数为108,得(0.005+a+0.035)×10= a=0.014,
所以(0.005+0.014+0.035+b+0.016)×10=1 b=0.030.
(2)平均数=0.005×10×55+0.014×10×65+0.035×10×75+0.030×10×85+0.016×10×95=78.8,
75百分位数应该在[80,90)之间,设75百分位数为x,则(90-x)×0.030+0.016×10=0.25 x=87,所以平均数为78.8,75百分位数为87.
(3)相等,理由如下:设ω1=,ω2=,显然ω1+ω2=1,=ω1+ω2,
①-②得,ω1(-)+ω2(-)-ω1(-2·+)-ω2(-2·+)
=ω1(2·-2)+ω2(2·-2)
=2(ω1-ω1)+2(ω2-ω2)=2(ω1+ω2-ω1-ω2)=2-)=0.
所以①和②相等.
19.(17分)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得到下面的条形图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件.
解:(1)当x≤19时,y=3 800;
当x>19时,y=3 800+500(x-19)=500x-5 700.
所以y与x的函数解析式为
y=(x∈N).
(2)由条形图知,需更换的易损零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
(3)若每台机器在购机的同时都购买19个易损零件,
则这100台机器中有70台在购买易损零件上的费用为3 800元,20台的费用为4 300元,10台的费用为4 800元,
因此这100台机器在购买易损零件上所需费用的平均数为×(3 800×70+4 300×20+4 800×10)=4 000(元);
若每台机器在购机的同时都购买20个易损零件,
则这100台机器中有90台在购买易损零件上的费用为4 000元,10台的费用为4 500元,
因此这100台机器在购买易损零件上所需费用的平均数为×(4 000×90+4 500×10)=4 050(元).
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
21世纪教育网(www.21cnjy.com)