新教材同步备课2024春高中数学第9章 统计 学案(8份打包)(含答案)

文档属性

名称 新教材同步备课2024春高中数学第9章 统计 学案(8份打包)(含答案)
格式 zip
文件大小 5.9MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2024-03-12 23:37:49

文档简介

9.1 随机抽样
9.1.1 简单随机抽样
学习任务 1.通过实例,了解简单随机抽样的含义及其解决问题的过程.(数学抽象) 2.掌握两种简单随机抽样方法:抽签法和随机数法.(数据分析) 3.会计算样本均值,了解样本与总体的关系.(数据分析)
某报告称,食品质量检测人员对某品牌牛奶的抽检合格率为99.9%,你知道这一数据是怎么得到的吗?
知识点1 全面调查和抽样调查
项目 全面调查 抽样调查
定义 对每一个调查对象都进行调查的方法,称为全面调查,又称普查 根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查
相关概念 总体:在一个调查中,我们把调查对象的全体称为总体. 个体:组成总体的每一个调查对象称为个体 样本:我们把从总体中抽取的那部分个体称为样本. 样本量:样本中包含的个体数称为样本量
知识点2 简单随机抽样
放回简单随机抽样 不放回简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本
如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样 如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.除非特殊声明,所称的简单随机抽样指不放回简单随机抽样
知识点3 简单随机抽样的方法
1.抽签法
先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.
2.随机数法
(1)定义:先把总体中的个体编号,用随机数工具产生与总体中个体数量相等的整数随机数,把产生的随机数作为抽中的编号,并剔除重复的编号,直到抽足样本所需要的个体数.
(2)产生随机数的方法:①用随机试验生成随机数.②用信息技术生成随机数.
1.简单随机抽样具备哪些特点?
[提示] (1)被抽取样本的总体中的个体数N是有限的.
(2)抽取的样本是从总体中逐个抽取的.
(3)简单随机抽样中每个个体被抽到的机会相等.
知识点4 总体均值和样本均值
1.总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称==为总体均值,又称总体平均数.
2.总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式=.
3.样本均值:如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称==为样本均值,又称样本平均数.
2.总体均值与样本均值有何区别与联系?
[提示] (1)区别:总体均值是一个确定的数,样本均值具有随机性.
(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)从某厂生产的3 000件产品中抽取600件进行质量检验,适合用抽签法. (  )
(2)从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验,适合用抽签法. (  )
(3)从某厂生产的3 000件产品中抽取10件进行质量检验,适合用随机数法. (  )
(4)利用随机数法抽取样本时,选定的初始数是任意的,但读数的方向只能是从左向右读. (  )
(5)利用随机数法抽取样本时,若总体容量为100,则给每个个体分别编号为1,2,3,…,100. (  )
[答案] (1)× (2)√ (3)× (4)× (5)×
2.某校共有1 000名高三学生参加2023年上学期开学考试,为了了解这1 000名学生的数学成绩,决定从中抽取50名学生的数学成绩进行统计分析.在此抽样过程中,总体是________;个体是________;样本是______;样本量是________.
[答案] 1 000名学生的数学成绩 每一名学生的数学成绩 50名学生的数学成绩 50
3.从一个篮球训练营中抽取10名学员进行投篮比赛,每人投10次,统计出该10名学员投篮投中的次数,4个投中5次,3个投中6次,2个投中7次,1个投中8次,则该训练营10名学员投中的平均次数为________.
6 [10名学员投中的平均次数为=6.]
类型1 简单随机抽样的理解
【例1】 (1)从52名学生中选取5名学生参加“希望杯”全国数学邀请赛,若采用简单随机抽样抽取,则每人入选的可能性(  )
A.都相等,且为   B.都相等,且为
C.都相等,且为   D.都不相等
(2)下列抽样中,是简单随机抽样的是________.(填序号)
①仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
②某班从50名同学中,选出5名数学成绩最优秀的同学代表本班参加数学竞赛;
③一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
(1)C (2)③ [(1)对于简单随机抽样,在抽样过程中每一个个体被抽取的机会都相等(随机抽样的等可能性).若样本容量为n,总体的个体数为N,则用简单随机抽样时,每一个个体被抽到的可能性都是,体现了这种抽样方法的客观性和公平性.因此每人入选的可能性都相等,且为.
(2)根据简单随机抽样的特点逐个判断.①不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.②不是简单随机抽样.因为5名同学是从中挑出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.③是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,等可能的抽样.综上,只有③是简单随机抽样.]
 判断一个抽样是不是简单随机抽样,一定要看它是否满足简单随机抽样的特点,这是判断的唯一标准.
[跟进训练]
1.(1)在简单随机抽样中,某一个个体被抽到的可能性(  )
A.与第几次抽样有关,第一次抽到的可能性大一些
B.与第几次抽样无关,每次抽到的可能性都相等
C.与第几次抽样有关,最后一次抽到的可能性要大些
D.与第几次抽样无关,每次都是等可能地抽取,但各次抽取的可能性不一定
(2)为了进一步严厉打击交通违法,交警队在某一路口随机抽查司机是否酒驾,这种抽查是(  )
A.简单随机抽样    B.抽签法
C.随机数法   D.以上都不对
(1)B (2)D [(1)在简单随机抽样中,每一个个体被抽到的可能性都相等,与第几次抽样无关,故A,C,D错误,B正确.
(2)由于不知道总体的情况(包括总体个数),因此不属于简单随机抽样.]
类型2 抽签法与随机数法的应用
【例2】 某班有50名学生,要从中随机地抽出6人参加一项活动,请分别写出利用抽签法和随机数法抽取该样本的过程.
[解] (1)利用抽签法步骤如下:
第一步:将这50名学生编号,编号为01,02,03,…,50.
第二步:将50个号码分别写在外观、质地均无差别的小纸片上,并揉成团,制成号签.
第三步:将得到的号签放在一个不透明的容器中,搅拌均匀.
第四步:从容器中逐一抽取6个号签,并记录上面的号码.
对应上面6个号码的学生就是参加该项活动的学生.
(2)利用随机数法步骤如下:
第一步:将这50名学生编号,编号为1,2,3,…,50.
第二步:用随机数工具产生1~50范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本.
第三步:重复第二步的过程,直到抽足样本所需人数.
对应上面6个号码的学生就是参加该项活动的学生.
 抽签法、随机数法的步骤
[跟进训练]
2.(1)福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为(  )
81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85
06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49
A.12   B.33   C.06   D.16
(2)现从报名的某高校30名志愿者中选取6人组成志愿小组,请用抽签法设计抽样方案.
(1)C [被选中的红色球的号码依次为17,12,33,06,32,22.
所以第四个被选中的红色球的号码为06.故选C.]
(2)[解] ①将30名志愿者编号,号码分别是01,02,…,30.
②将号码分别写在外观、质地等无差别的小纸片上作为号签.
③将小纸片放入一个不透明的盒里,充分搅匀.
④从盒中不放回地逐个抽取6个号签,使与号签上编号相同的志愿者进入样本.
类型3 用样本的平均数估计总体的平均数
【例3】 某班进行个人投篮比赛,受污损的下表记录了在规定时间内投入n个球的人数分布情况,同时,已知进球3个或3个以上的人平均每人投进3.5个球,进球4个或4个以下的人平均每人投进2.5个球,问投进3个球和4个球的各有多少人?
进球数n 0 1 2 3 4 5
投进n个球的人数 1 2 7 2
[解] 设投进3个球的人数为a,投进4个球的人数为b,
根据已知有=3.5,=2.5,
即解得
故进3个球的有9人,进4个球的有3人.
 样本平均数与总体平均数的关系
(1)在简单随机抽样中,我们常用样本平均数去估计总体平均数;
(2)总体平均数是一个确定的数,样本平均数具有随机性;
(3)一般情况下,样本容量越大,估计值越准确.
[跟进训练]
3.某学校抽取100位老师的年龄,得到如下数据:
年龄(单位:岁) 32 34 38 40 42 43 45 46 48
频数 2 4 20 20 26 10 8 6 4
估计这个学校老师的平均年龄.
[解] ×(32×2+34×4+38×20+40×20+42×26+43×10+45×8+46×6+48×4)=41.1(岁),即这个学校老师的平均年龄约为41岁.
1.(多选)下列调查中,适宜采用抽样调查的是(  )
A.调查某市中小学生每天的运动时间
B.某幼儿园准备制作校服,对此幼儿园中的小朋友进行测量
C.农业科技人员调查今年麦穗的单穗平均质量
D.调查某快餐店中8位店员的生活质量情况
AC [因为B中要对所有小朋友进行检查,所以用普查的方式;D中共8名店员,可采用普查的方式;A,C中总体容量大,难以做到普查,故采用抽样调查的方式.]
2.(多选)为了了解全校240名高一学生的身高情况,从中抽取了40名学生进行测量.下列说法正确的是(  )
A.总体是240名学生的身高
B.个体是每一名学生的身高
C.样本是任意40名学生的身高
D.样本容量是40
ABD [在这个问题中,总体是240名学生的身高,个体是每一名学生的身高,样本是抽取的40名学生的身高,样本容量是40.]
3.“双色球”彩票中有33个红色球,每个球的编号分别为01,02,…,33.一位彩民用随机数法选取6个号码作为6个红色球的编号,选取方法是从下面的随机数中第1行第5列和第6列的数字开始,从左向右读数,则依次选出来的第5个红色球的编号为(  )
7816 6572 0802 6314 0214 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
A.01  B.02  C.14  D.19
A [从随机数中第1行第5列和第6列的数字开始,从左向右读数,依次是65(舍去),72(舍去),08,02,63(舍去),14,02(舍去),14(舍去),43(舍去),19,97(舍去),14(舍去),01,98(舍去),32;选出来的这6个数为:08,02,14,19,01,32,第5个红色球的编号为01.]
4.为了解一批轮胎的性能,汽车制造厂从这批轮胎中随机抽取了8个进行测试,每个轮胎行驶的最远里程数(单位:1 000 km)为:96,112,97,108,100,103,86,98.则估计这批轮胎行驶的最远里程数的平均数为________.
100 [用样本平均数估计总体平均数,得这批轮胎行驶的最远里程数的平均数约为=100.]
回顾本节知识,自主完成以下问题:
1.简单随机抽样有哪些特点?
[提示] 简单随机抽样的三个特点:总体有限、逐个抽取、等可能抽样.
2.简单随机抽样是一种简单、基本的抽样方法,其常用的简单随机抽样方法有哪两种,这两种方法有什么异同?
[提示] 简单随机抽样常用的抽样方法有抽签法和随机数法.其具有以下异同点:
抽签法 随机数法
不同点 ①抽签法比随机数法简单; ②抽签法适用于总体中的个体数相对较少的情况 随机数法适用于总体中的个体数相对较多的情况
相同点 ①都是简单随机抽样,并且要求被抽取样本的总体的个数有限; ②都是从总体中逐个不放回地抽取
课时分层作业(三十七) 简单随机抽样
一、选择题
1.下列抽样方法是简单随机抽样的是(  )
A.环保局人员取河水进行化验
B.用抽签的方法产生随机数
C.福利彩票用摇奖机摇奖
D.老师抽取数学成绩最优秀的2名同学代表班级参加数学竞赛
C [简单随机抽样要求总体中的个体数有限,每个个体有相同的可能性被抽到.故选C.]
2.使用简单随机抽样从1 000件产品中抽出50件进行某项检查,合适的抽样方法是(  )
A.抽签法   B.随机数法
C.随机抽样法   D.以上都不对
B [由于总体相对较大,样本容量较小,故采用随机数法较为合适.]
3.从全校2 000名小学女生中用随机数法抽取300名调查其身高,得到样本量的平均数为148.3 cm,则可以推测该校女生的身高(  )
A.一定为148.3 cm
B.高于148.3 cm
C.低于148.3 cm
D.约为148.3 cm
D [由抽样调查的意义可以知道该校女生的身高约为148.3 cm.]
4.某班对高一年级学情联考成绩进行分析,利用随机数法抽取样本时,先将70名同学按01,02,03,…,70进行编号,然后通过电子表格软件生成如下随机数,则依次选出的第7个个体的编号是(  )
29,78,64,56,07,82,52,42,07,44,38,15,51
A.07  B.44  C.15  D.51
B [符合条件的是29,64,56,07,52,42,44,故选出的第7个个体的编号是44.]
5.从某批零件中抽取50个,然后再从50个中抽出40个进行合格检查,发现合格品有36个,则该批产品的合格率为(  )
A.36%  B.72%  C.90%  D.25%
C []
二、填空题
6.为了了解某班学生的会考合格率,要从该班70人中选30人进行考察分析,则70人的会考成绩的全体是________,样本是________,样本量是________.
总体 30人的会考成绩 30 [为了强调调查目的,由总体、样本、样本量的定义知,70人的会考成绩的全体是总体,样本是30人的会考成绩,样本量是30.]
7.某中学高一年级有400人,高二年级有320人,高三年级有280人,若每人被抽到的可能性都为0.2,用随机数法在该中学抽取容量为n的样本,则n等于________.
200 [由题意可知:=0.2,解得n=200.]
8.某工厂抽取50个机械零件检验其直径大小,得到如下数据:
直径(单位:cm) 12 13 14
频数 12 34 4
估计这50个零件的直径大约为________cm.
12.84 []
三、解答题
9.某电视台举行颁奖典礼,邀请20名艺人演出,其中从甲地30名艺人中随机挑选10人,从乙地18名艺人中随机挑选6人,从丙地10名艺人中随机挑选4人.试分别用抽签法和随机数法确定选中的艺人.
[解] 抽签法:
(1)将甲地30名艺人从01到30编号,然后用大小、质地完全相同的纸条做成30个号签,在每个号签上写上这些编号,揉成团,然后放入一个不透明小筒中摇匀,从中逐个不放回地抽出10个号签,则相应编号的艺人参加演出.
(2)运用相同的办法分别从乙地18名艺人中抽取6人,从丙地10名艺人中抽取4人.
随机数法:
(1)将甲地30名艺人从01到30编号,准备10个大小、质地完全一样的小球.小球上分别写上数字0,1,2,…,9.把它们放入一个不透明的袋中,从袋中有放回地摸取2次,每次摸取前充分搅匀,并把第一次、第二次摸到的数字分别作为十位、个位数字,这样就生成了一个随机数,如果这个随机数在1~30范围内,就代表了对应编号的艺人被抽中,否则舍弃编号,重复抽取随机数,直到抽中10名艺人为止.
(2)运用相同的办法分别从乙地18名艺人中抽取6人,从丙地10名艺人中抽取4人.
10.用简单随机抽样方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性,“第二次被抽到”的可能性分别是(  )
A.   B.
C.   D.
A [根据简单随机抽样的定义知选A.]
11.从一群游戏的小孩中随机抽出k人,一人分一个苹果,让他们返回继续游戏.过了一会儿,再从中任取m人,发现其中有n个小孩曾分过苹果,估计参加游戏的小孩的人数为(  )
A.   B.k+m-n
C.   D.不能估计
C [设参加游戏的小孩有x人,则.]
12.某校为了解学生的课外阅读情况,通过简单随机抽样抽取了40名学生,对他们一周的读书时间进行了统计,统计数据如下:
读书时间/时 7 8 9 10 11
学生人数 6 10 9 8 7
则该校学生一周读书时间的平均数(  )
A.一定为9小时   B.高于9小时
C.低于9小时   D.约为9小时
D [由题目所给数据可知平均数为=9(小时),
用样本平均数估计总体平均数,故该校学生一周读书时间的平均数约为9小时.]
13.一个布袋中有6个同样质地的小球,从中不放回地抽取3个小球,则某一特定小球被抽到的可能性是________;第三次抽取时,剩余小球中的某一特定小球被抽到的可能性是________.
 [因为简单随机抽样时每个个体被抽到的可能性为,所以某一特定小球被抽到的可能性是.因为此抽样是不放回抽样,所以第一次抽样时,每个小球被抽到的可能性均为;第二次抽取时,剩余5个小球中每个小球被抽到的可能性均为;第三次抽取时,剩余4个小球中每个小球被抽到的可能性均为.]
14.小林初三第一学期的数学书面测验成绩如下:平时考试第一单元得84分,第二单元得76分,第三单元得92分;期中考试得82分,期末考试得90分.如果按照平时、期中、期末的权重分别为10%,30%,60%计算,那么小林该学期数学书面测验的总评成绩应为多少分?
[解] 易知小林平时平均成绩为(76+84+92)=84(分).
依题意,该学期小林总评成绩为84×10%+82×30%+90×60%=87(分).
15.某市质监局要检查某公司某个时间段生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取10袋进行检验.
(1)利用随机数法抽取样本时,应如何操作?
(2)如果用随机试验生成部分随机数如下所示,据此写出应抽取的袋装牛奶的编号.
162,277,943,949,545,354, 821,737, 932,354,873,520,964,384, 263,491,648,642,175,331,572,455,068,877,047,447,672,172,065,025,834,216,337,663,013,785,916,955,567,199,810,507,175,128,673,580,667.
(3)质监局对该公司生产的袋装牛奶检验的质量指标有两个:一是每袋牛奶的质量满足500±5g,二是10袋质量的平均数≥500 g,同时满足这两个指标,才认为公司生产的牛奶为合格,否则为不合格.经过检测得到10袋袋装牛奶的质量(单位:g)为:
502,500,499,497,503,499,501,500,498,499.
计算这个样本的平均数,并按照以上标准判断牛奶质量是否合格.
[解] (1)第一步,将500袋牛奶编号为001,002,…,500.
第二步,用随机数工具产生1~500范围内的随机数.
第三步,把产生的随机数作为抽中的编号,使编号对应的袋装牛奶进入样本.
第四步,重复上述过程,直到产生不同的编号等于样本所需要的数量.
(2)应抽取的袋装牛奶的编号为:
162,277,354,384,263,491,175,331,455,068.
(3)=499.8<500,所以该公司的牛奶质量不合格.9.1.2 分层随机抽样
学习任务 1.通过实例,了解分层随机抽样的特点和适用范围.(数学抽象) 2.了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.(数据分析) 3.结合具体实例,掌握分层随机抽样的样本均值.(数学运算)
假设某地区有高中生2 400人,初中生10 900人,小学生11 000人.此地区教育部门为了了解本地区中小学生的近视情况及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查.你认为应当怎样抽取样本才合理?
知识点1 分层随机抽样的相关概念
1.分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
2.比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
知识点2 分层随机抽样中的总体平均数与样本平均数
1.在分层随机抽样中,如果总体分为2层,两层包含的个体数分别为M,N,两层抽取的样本量分别为m,n,两层的样本平均数分别为,两层的总体平均数分别为,则样本平均数=,总体平均数=.
2.在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.即.
分层随机抽样适合于什么样的总体?
思考 [提示] 当总体是由差异明显的几部分组成时,用分层随机抽样.
1.某校有高一学生400人,高二学生380人,高三学生220人,现教育局督导组拟采用分层随机抽样的方法抽取50名学生进行问卷调查,则高一学生应抽取________人.
20 [高一学生应抽取=20人.]
2.为了解我国13岁男孩的平均身高,从北方抽取了300个男孩,平均身高为1.60 m;从南方抽取了200个男孩,平均身高为1.50 m.由此可估计我国13岁男孩的平均身高为________m.
1.56 [这500名13岁男孩的平均身高是=1.56(m),据此可估计我国13岁男孩的平均身高为1.56 m.]
类型1 对分层随机抽样概念的理解
【例1】 (1)某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,则下列方法最合适的是(  )
A.抽签法   B.随机数法
C.简单随机抽样法   D.分层随机抽样法
(2)分层随机抽样又称类型抽样,即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层随机抽样为保证每个个体等可能抽样,必须进行(  )
A.每层等可能抽样
B.每层可以不等可能抽样
C.所有层按同一抽样比等可能抽样
D.所有层抽取的个体数量相同
(1)D (2)C [(1)总体由差异明显的三部分构成,应选用分层随机抽样法.
(2)保证每个个体等可能的被抽取是三种基本抽样方式的共同特征,为了保证这一点,分层随机抽样时必须在所有层都按同一抽样比等可能抽取.]
 使用分层随机抽样的前提
分层随机抽样的使用前提条件是总体可以分层、层与层之间有明显区别,而层内个体间差异较小.
[跟进训练]
1.下列问题中,最适合用分层随机抽样抽取样本的是(  )
A.从10名同学中抽取3人参加座谈会
B.某社区有500个家庭,其中高收入的家庭125户,中等收入的家庭280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中抽取一个容量为100户的样本
C.从1 000名工人中,抽取100人调查上班途中所用时间
D.从生产流水线上,抽取样本检查产品质量
B [A中总体所含个体无差异且个数较少,适合用简单随机抽样;C和D中总体所含个体无差异且个数较多,不适合用分层随机抽样;B中总体所含个体差异明显,适合用分层随机抽样.]
类型2 分层随机抽样的应用
【例2】 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层随机抽样的方法抽取,写出抽样过程.
[解] 抽样过程如下:
第一步,确定抽样比,样本容量与总体容量的比为.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);从教师中抽取112×=14(人);从后勤人员中抽取32×=4(人).
第三步,采用简单随机抽样的方法,抽取行政人员2人,教师14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.
 1.分层随机抽样的相关计算的2个关系
(1).
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
2.分层随机抽样的步骤
第一步,按某种特征将总体分成若干部分(层);
第二步,计算各层所占比例;
第三步,计算各层抽取的个体数;
第四步,按简单随机抽样从各层抽取样本;
第五步,综合每层抽样,组成总样本.
[跟进训练]
2.(1)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层随机抽样调查,假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为(  )
A.101  B.808  C.1 212  D.2 012
(2)将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层随机抽样方法抽取容量为100的样本,则应从C中抽取________个个体.
(1)B (2)20 [(1)因为甲社区有驾驶员96人,并且在甲社区抽取的驾驶员的人数为12,所以四个社区抽取驾驶员的比例为,所以驾驶员的总人数为(12+21+25+43)÷=808.
(2)∵A,B,C三层个体数之比为5∶3∶2,总体中每个个体被抽到的可能性相等,∴分层随机抽样应从C中抽取100×=20(个)个体.]
类型3 分层随机抽样中的平均数
【例3】 某校有初中、高中两个部门,其中初中有学生850人,高中有学生650人,小军想要进行一个视力调查,对学校按部门进行按比例分配分层随机抽样,得到初中生、高中生平均视力分别为1.0,0.8,其中样本量为60,则在初中部、高中部各抽取多少人?整个学校平均视力是多少?
[解] 初中部抽取人数为60×=34,
高中部抽取人数为60×=26,
学校平均视力为×1.0+×0.8≈0.91,
所以在初中部、高中部各抽取34,26人,学校平均视力约为0.91.
 样本的平均数和各层的样本平均数的关系为:.
[跟进训练]
3.通过分层随机抽样的方法估测某校高三年级全体学生的身高水平,抽取总样本量为100,抽取的男生的平均身高为170 cm,抽取的女生的平均身高为160 cm,估测得到高三全体学生的平均身高为166 cm,则抽取总样本量中男生、女生人数分别为(  )
A.60,40   B.70,30
C.80,20   D.90,10
A [设抽取的总样本量中男生、女生人数分别为m, n,则由题意可得
故选A. ]
1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生的作业负担情况,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是(  )
A.抽签法   B.简单随机抽样
C.分层随机抽样   D.随机数法
C [根据年级不同产生差异及按人数比例抽取易知应为分层随机抽样.]
2.某学校高一年级有300名男生,200名女生,通过分层随机抽样的方法调查数学考试成绩,抽取总样本量为50,男生平均成绩为120分,女生平均成绩为110分,那么可以推测高一年级学生的数学平均成绩约为(  )
A.110分  B.115分  C.116分  D.120分
C [由题意可得抽取的50人中,男生为30人,女生为20人,所以样本平均数×110=116,所以可以估计高一年级学生的数学平均成绩为116分.]
3.(多选)某公司生产三种型号的轿车,产量分别为1 200辆,6 000辆和2 000辆,为检验该公司的产品质量,公司质监部门要抽取46辆进行检验,则(  )
A.应采用分层随机抽样法抽取
B.应采用抽签法抽取
C.三种型号的轿车依次抽取6辆、30辆、10辆
D.这三种型号的轿车,每一辆被抽到的概率都是相等的
ACD [由于总体按型号分为三个子总体,所以应采用分层随机抽样法抽取,A正确;设三种型号的轿车依次抽取x辆、y辆、z辆,
则有 解得
所以三种型号的轿车依次抽取6辆、30辆、10辆,故C正确;由分层随机抽样的定义可知D正确.]
4.某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用比例分配的分层随机抽样的方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n等于________.
13 [∵,∴n=13.]
回顾本节知识,自主完成以下问题:
1.在分层随机抽样中,总体容量、样本容量、各层的个体数、各层抽取的样本数这四者之间有何关系?
[提示] 设总体容量为N,样本容量为n,第i(i=1,2,…,k)层的个体数为Ni,各层抽取的样本数为ni,则,这四者中,已知其中三个可以求出另外一个.
2.简单随机抽样与分层随机抽样有何区别与联系?
[提示] 
类别 共同点 各自特点 相互联系 适用范围
简单随机抽样 抽样过程中每个个体被抽到的可能性相等 从总体中逐个抽取 — 总体中的个体数较少
分层随机抽样 将总体分成几层,分层进行抽取 在各层抽样时采用简单随机抽样 总体由存在明显差异的几部分组成
3.如何用分层随机抽样中的样本平均数估计总体平均数?
[提示] 可以用.
课时分层作业(三十八) 分层随机抽样
一、选择题
1.要完成下列两项调查:(1)某社区有100户高收入家庭,210户中等收入家庭,90户低收入家庭,从中抽取100户调查有关消费购买力的某项指标;(2)从某中学高二年级的10名体育特长生中抽取3人调查学习情况.应采用的抽样方法分别是(  )
A.(1)用简单随机抽样,(2)用分层随机抽样
B.(1)用分层随机抽样,(2)用其他抽样方法
C.(1)用分层随机抽样,(2)用简单随机抽样
D.(1)(2)都用分层随机抽样
C [(1)中收入差距较大,采用分层随机抽样较合适;(2)中总体个数较少,采用简单随机抽样较合适.]
2.北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪容融”很受欢迎,现工厂决定从20只“冰墩墩”,15只“雪容融”和10个北京2022年冬奥会会徽中,采用按比例分配的分层随机抽样的方法,抽取一个容量为n的样本进行质量检测,若“冰墩墩”抽取了4只,则n为(  )
A.3  B.2  C.5  D.9
D []
3.“互联网+”时代,全民阅读的内涵已然多元化,某校为了解高中学生的阅读情况,从该校1 800名高一学生中,采用分层随机抽样的方法抽取一个容量为200的样本进行调查,其中女生有88人.则该校高一男生共有(  )
A.1 098人   B.1 008人
C.1 000人   D.918人
B [设该校高一男生有x人.
法一:由题意可得,求得x=1 008,故选B.
法二:,求得x=1 008,故选B.]
4.某班45名同学都参加了立定跳远和100米跑两项体育学业水平测试,立定跳远和100米跑合格的人数分别为30和35,两项都不合格的人数为5.现从这45名同学中按测试是否合格分层(分成两项都合格、仅立定跳远合格、仅100米跑合格、两项都不合格四种)抽出9人进行复测,那么抽出来复测的同学中两项都合格的有(  )
A.1人  B.2人  C.5人  D.6人
C [设这两项成绩均合格的人数为x,则立定跳远合格但100米跑不合格的人数为30-x,则30-x+35+5=45,得x=25,即这两项成绩均合格的有25人,则抽出来复测的同学中两项都合格的有9×=5(人),故选C.]
5.(多选)某旅行社分年龄段统计了某景区5月份的老、中、青旅客的人数比为5∶2∶3,现使用分层随机抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,则下列说法正确的是(  )
A.老年旅客抽到150人 
B.中年旅客抽到40人
C.n=200  
D.被抽到的老年旅客和中年旅客人数之和超过200
BC [因为老、中、青旅客的人数比为5∶2∶3,青年旅客抽到60人,
所以,解得n=200,所以老年旅客抽到200×=100(人),
中年旅客抽到200×=40(人),100+40=140<200.故选BC.]
二、填空题
6.一支田径队有男、女运动员98人,其中男运动员有56人.按男、女比例用分层随机抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员的人数是________.
12 [抽取女运动员的人数为×28=12.]
7.为了解某地区对中小学生“双减”政策的落实情况,现采用分层随机抽样的方法从该地区24所小学,18所初中,12所校外培训机构中抽取9所进行调查,则应抽取初中________所.
3 [抽取初中9×=3所.]
8.某分层随机抽样中,有关数据如下:
层数 样本量 平均数
第1层 45 3
第2层 35 4
此样本的平均数为________.
3.437 5 []
三、解答题
9.为了了解全区科级干部“党风廉政知识”的学习情况,按照分层随机抽样的方法,从全区320名正科级干部和1 280名副科级干部中抽取40名科级干部预测全区科级干部“党风廉政知识”的学习情况.现将这40名科级干部分为正科级干部组和副科级干部组,利用同一份试卷分别进行预测.经过预测后,两组各自将预测成绩统计分析如下表:
分组 人数 平均成绩
正科级干部组 a 80
副科级干部组 b 70
(1)求a,b;
(2)求这40名科级干部预测成绩的平均分.
[解] (1)样本量与总体中的个体数的比为,
则抽取的正科级干部人数a=320×=8,
副科级干部人数b=1 280×=32.
(2)这40名科级干部预测成绩的平均分=72.
10.(多选)某高中3 000名学生均已接种某疫苗,现按照高一、高二、高三学生人数的比例用分层随机抽样方法,抽取一个容量为150的样本,并调查他们接种疫苗的情况,所得数据如表:
年级 高一 高二 高三
只接种第一、 二剂疫苗人数 50 44 45
接种第一、二、 三剂疫苗人数 0 1 10
则下列判断正确的是(  )
A.该校高一、高二、高三的学生人数比为10∶9∶11
B.该校高三学生的人数比高一人数多50
C.估计该校高三接种第三剂疫苗的人数为200
D.估计该校学生中第三剂疫苗的接种率不足8%
ACD [由表可知,该校高一、高二、高三的学生人数比为50∶45∶55,即10∶9∶11,A正确;高三学生人数为3 000×=1 100人,高一学生人数为3 000×=1 000人,故高三学生的人数比高一人数多1 100-1 000=100人,故B错误;高三接种第三剂疫苗的人数约为3 000×=200人,C正确;该校学生中第三剂疫苗的接种率约为≈7.33%,故D正确.故选ACD.]
11.(多选)在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人持钱多少的比例进行交税,问三人各应付多少税?则下列说法正确的是(  )
A.甲应付51 钱
B.乙应付32 钱
C.丙应付16 钱
D.三者中甲付的钱最多,丙付的钱最少
ACD [依题意由分层随机抽样可知,,
则甲应付(钱);
乙应付(钱);
丙应付(钱).]
12.某校共有2 000名学生参加跑步和登山比赛,每人都参加且每人只参加其中一项比赛,各年级参加比赛的人数情况如下表:
年级 高一年级 高二年级 高三年级
跑步人数 a b c
登山人数 x y z
其中a∶b∶c=2∶5∶3,全校参加登山的人数占总人数的.为了了解学生对本次活动的满意程度,按分层随机抽样的方式从中抽取一个容量为200的样本进行调查,则高三年级参加跑步的学生中应抽取的人数为(  )
A.25  B.35  C.45  D.55
C [由题意知,全校参加跑步的人数占总人数的,高三年级参加跑步的总人数为×2 000×=450,由分层随机抽样的特征得高三年级参加跑步的学生中应抽取×450=45(人).]
13.高一和高二两个年级的同学参加了数学竞赛,高一年级有450人,高二年级有350人,通过分层随机抽样的方法抽取了160个样本,得到两年级的竞赛成绩的平均分别为80分和90分,则
(1)高一、高二抽取的样本量分别为________.
(2)高一和高二数学竞赛的平均分约为________分.
(1)90,70 (2)84.375 [(1)由题意可得高一年级抽取的样本量为×160=90,高二年级抽取的样本量为×160=70.
(2)高一和高二数学竞赛的平均分约为×90=84.375分.]
14.某企业五月中旬生产A,B,C三种产品共3 000件,根据分层随机抽样的结果,该企业统计员制作了如下表格:
由于不小心,表格中A,C产品的有关数据已被污染,统计员只记得A产品的样本容量比C产品的样本容量多10,请你根据以上信息补全表格中的数据.
[解] 根据题意,可设A产品的数量为m件,样本容量为n,则C产品的数量为(1 700-m)件,样本容量为n-10.
根据分层随机抽样的特点可得,解得m=900,n=90,故补全后的表格如下.
产品类型 A B C
产品数量/件 900 1 300 800
样本容量 90 130 80
15.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工只能参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%;登山组的职工占参加活动总人数的,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同年龄层的职工对本次活动的满意程度,现用分层随机抽样的方法从参加活动的全体职工中抽取容量为200的样本.试求:
(1)游泳组中,青年人、中年人、老年人分别所占的比例;
(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.
[解] (1)设登山组人数为x,游泳组中,青年人、中年人、老年人各占比例分别为a,b,c,则有=47.5%,=10%.
解得b=50%,c=10%.
故a=1-50%-10%=40%.
即游泳组中,青年人、中年人、老年人各占的比例为40%,50%,10%.
(2)游泳组中,抽取的青年人为200××40%=60(人);
抽取的中年人为200××50%=75(人);
抽取的老年人为200××10%=15(人).9.1.3 获取数据的途径
学习任务 知道获取数据的途径多种多样,包括统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等.(数据分析)
生活中遇到的很多问题,都需要借助数据才可能得到答案.例如,校园中每天产生多少可回收垃圾,食堂有多少人就餐,城市里的车辆有多少,公共汽车平均每天的载客量是多少,某旅游旺季有出门旅游意向的人有多少……要得到这些问题的答案,就需要获取相关数据.
知识点 获取数据的基本途径
获取数据的基本途径 适用类型 注意问题
通过调查获取数据 对于有限总体问题,我们一般通过抽样调查或普查的方法获取数据 要充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误
通过试验获取数据 没有现存的数据可以查询 严格控制试验环境,通过精心的设计安排试验,以提高数据质量
通过观察 获取数据 自然现象 要通过长久的持续观察获取数据
通过查询 获得数据 众多专家研究过,其收集的数据有所存储 必须根据问题背景知识“清洗”数据,去伪存真
(1)利用统计报表和年鉴属于哪种获取数据的途径?
(2)要了解一种新型灯管的寿命,能通过观察获取数据吗?
[提示] (1)属于通过查询获取数据的途径.
(2)不能,应该通过试验获取数据.
思考辨析(正确的打“√”,错误的打“×”)
(1) 要了解一批节能灯的使用寿命,可以采用普查的方式. (  )
(2)农科院获取小麦新品种的产量可以通过查询获取数据. (  )
(3)普查获取的资料更加全面、系统,抽样调查更方便、快捷. (  )
[答案] (1)× (2)× (3)√
类型1 获取数据途径的选择
【例1】 (1)下列数据中是通过试验获取的是(  )
A.2022年济南市的降雨量
B.2022年中国新生儿人口数量
C.某学校2023级同学的数学期末测试成绩
D.某种特效中成药的配方
(2)“中国天眼”为500米口径球面射电望远镜(简称FAST),是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是(  )
A.通过调查获取数据    B.通过试验获取数据
C.通过观察获取数据   D.通过查询获得数据
(1)D (2)C [(1)某种特效中成药的配方的数据只能通过试验获得.
(2)“中国天眼”主要是通过观察获取数据.]
 选择获取数据的途径的依据
选择获取数据的途径主要是根据所要研究问题的类型,以及获取数据的难易程度.有的数据可以有多种获取途径,有的数据只能通过一种途径获取,选择合适的方法和途径能够更好地提高数据的可靠性.
[跟进训练]
1.要得到某乡镇的贫困人口数据,应采取的方法是(  )
A.通过调查获取数据   B.通过试验获取数据
C.通过观察获取数据   D.通过查询获得数据
A [某乡镇的贫困人口数据属于有限总体问题,所以可以通过调查获取数据.]
类型2 获取数据途径的方法的设计
【例2】 为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗?
[解] (1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.
(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
 在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
[跟进训练]
2.一些期刊杂志社经常会请一些曾经高考落榜而在某方面的事业上取得成就的著名专家、学者,谈他们对高考落榜的看法,这些名人所讲的都是大同小异,不外乎“我也有过落榜的沮丧,但从长远看,它有益于我的人生”“我是因祸得福,落榜使我走了另一条成功之路”等.小明据此得出结论“上大学不如高考落榜”,他的结论正确吗?
[解] 小明的结论是错误的,在众多的高考落榜生中,走出另外一条成功之路的是少数,小明通过研究一些期刊杂志社报道过的一些成功人士就得出结论是片面的,因为他的抽样不具有代表性.
1.下列调查方式中,可用“普查”方式的是(  )
A.调查某品牌电视机的市场占有率
B.调查某电视连续剧在全国的收视率
C.调查某校七年级一班的男女同学的比例
D.调查某型号炮弹的射程
[答案] C
2.(多选)影响获取数据可靠程度的因素包括(  )
A.获取数据方法的设计
B.所用专业测量设备的精度
C.调查人员的认真程度
D.数据的大小
ABC [数据的大小不影响获取数据的可靠程度.]
3.粮食安全是每一个国家必须高度关注的问题,在现有条件下,降雨量对粮食生产的影响是非常巨大的,某次降雨之后该地气象台播报说本次降雨量是该地有气象记录以来最大的一次,气象台获取这些数据的途径是(  )
A.通过调查获取数据    B.通过试验获取数据
C.通过观察获取数据    D.通过查询获得数据
C [该地的气象记录和本次的降雨量数据都是通过观察获取的.]
4.小明从网上查询到某地区10户居民家庭人均年收入(单位:万元)如表所示:
编号 1 2 3 4 5 6 7 8 9 10
年收入 1.2 1.3 1.8 2.0 4.6 1.7 0.9 2.1 1.0 1.6
根据以上数据,我们认为有一个数据是不准确的,需要剔除,这个数据是________.
4.6 [由于编号为5的数据为4.6,明显高于其他数据,所以这个数据是不准确的.]
回顾本节知识,自主完成以下问题:
获取数据的基本途径有哪些?
[提示] 具有四种基本途径:(1)通过调查获取数据;(2)通过试验获取数据;(3)通过观察获取数据;(4)通过查询获取数据.
课时分层作业(三十九) 获取数据的途径
一、选择题
1.为了研究近年来我国高等教育发展状况,小明需要获取近年来我国大学生入学人数的相关数据,他获取这些数据的途径最好是(  )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
D [因为近年来我国大学生入学人数的相关数据有所存储,所以小明获取这些数据的途径最好是通过查询获得数据.]
2.若要研究某城市家庭的收入情况,获取数据的途径应该是(  )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
A [因为要研究的是某城市家庭的收入情况,所以通过调查获取数据.]
3.下列调查方案中,抽样方法合适、样本具有代表性的是(  )
A.用一本书第1页的字数估计全书的字数
B.为调查某校学生对航天科技知识的了解程度,上学期间,在该校门口,每隔2分钟随机调查一位学生
C.在省内选取一所城市中学,一所农村中学,向每个学生发一张卡片,上面印有一些名人的名字,要求每个学生只能在一个名字下面画“√”,以了解全省中学生最崇拜的人物是谁
D.为了调查我国小学生的健康状况,共抽取了100名小学生进行调查
B [A中样本缺少代表性(第1页的字数一般较少);B中抽样保证了随机性原则,样本具有代表性;对于C,城市中学与农村中学的规模往往不同,学生崇拜的人物也未必在所列的名单之中,这些都会影响数据的代表性;D中总体数量很大,而样本容量太少,不足以体现总体特征.]
4.以下获取的数据不是通过查询获取的是(  )
A.某领导想了解A市的大气环境质量,向当地有关部门咨询该市的PM2.5的浓度
B.张三利用互联网了解到某市居民平均寿命达到82.2岁
C.某中学为了了解学生对课堂禁用手机的认同度,进行了问卷调查
D.从某公司员工年度报告中获知某种信息
C [A,B,D都是通过查询获取的数据,C是通过调查获取的数据.]
5.研究下列问题:
①某城市元旦前后的气温;②某种新型电器元件使用寿命的测定;③电视台想知道某一个节目的收视率;④银行在收进储户现金时想知道有没有假钞.
一般通过试验获取数据的是(  )
A.①②  B.③④  C.②  D.④
C [①通过观察获取数据,③④通过调查获取数据,只有②通过试验获取数据.]
二、填空题
6.为了研究我国房地产市场发展的状况,小李从图书馆借阅了《中国统计年鉴》,小李获得数据的途径是________.
通过查询获得数据 [借阅《中国统计年鉴》属于通过查询获得数据.]
7.为了调查本班同学对班级体育活动的意见,应该如何合理安排抽样才能提高样本的代表性?答:________.
[答案] 按照男、女生人数分层随机抽样
8.学校兴趣小组要对本市某社区的居民睡眠时间进行研究,得到了以下10个数据(单位:h):
5.6,7.8,8.0,7.3, 3.2,7.9,6.8,7.5,8.6,7.8.
去掉数据________能很好地提高样本数据的代表性.
3.2 [因为数据3.2明显低于其他几个数据,是极端值,所以去掉这个数据,能够更好地提高样本数据的代表性.]
三、解答题
9.某公司想调查一下本公司员工对某项规章制度的意见,由于本公司车间工人工作任务繁重,负责该项事务的公司办公室向本公司的50名中层及以上领导干部派发了问卷,统计后便得到了调查意见,公司办公室获取数据的途径是什么?你认为该调查结果具有代表性吗?为什么?
[解] 公司办公室是通过调查获取数据的,但是这些数据不具有代表性.因为公司的规章制度往往是领导干部制订的,而这部分员工的意见不能很好地代表全体员工,所以结果是片面的,不合理的,不具有代表性.
10.下列调查工作适合采用普查的是(  )
A.环保部门对淮河水域的水污染情况的调查
B.电视台对某电视节目收视率的调查
C.质检部门对各厂家生产的电池使用寿命的调查
D.企业在给职工做工作服前进行的尺寸大小的调查
D [A、B中的调查,在理论上来说采用普查是可行的,但是普查会费时费力;C中,质检部门对各厂家生产的电池使用寿命的调查不能采用普查,因为调查时的检验对电池具有破坏性;D中,企业在给职工做工作服前进行的尺寸大小的调查必须采用普查,否则工人的工作服会不合体.故选D.]
11.下列调查所抽取的样本具有代表性的是(  )
A.利用某地七月份的日平均最高气温值估计该地全年的日平均最高气温
B.在农村调查市民的平均寿命
C.利用一块实验水稻田的产量估计水稻的实际产量
D.为了了解一批洗衣粉的质量情况,从仓库中任意抽取100袋进行检验
D [A项中某地七月份的日平均最高气温值不能代表全年的日平均最高气温;B项中在农村调查得到的平均寿命不能代表市民的平均寿命;C项中实验田的产量与水稻的实际产量相差可能较大,只有D项正确.]
12.国家统计局、国家残联决定对国家残疾人生活、就业等情况进行调查,某同学设计的调查方案是在国家残联的网站上设立一个调查表,根据网站上的数据进行分析.你认为他的方案________(填“合理”或“不合理”).
不合理 [由于很多视力残疾的人不具有上网的条件,因此所获取的数据不具有代表性.]
13.下列试验适合用抽样调查方法获取数据的序号是________.
①考察一片草皮的平均高度;
②检查某食品单位职工的身体状况;
③考察参加某次考试的3万考生的数学答题情况;
④检验一个人的血液中白细胞的含量是否正常.
①③④ [①该问题用普查的方法很难实现,适合用抽样调查的方法获取数据;
②体检,必须了解每个职工的身体状况,不适合用抽样调查的方法获取数据;
③3万考生的答题情况用普查的方法获取数据不合适,适合用抽样调查的方法获取数据;
④该问题只能用抽样调查的方法获取数据.]
14.某地气象台记录了本地6月份的日最高气温(如下表所示).
日最高气温(单位:℃) 20 22 24 25 26 28 29 30
频数 5 4 6 6 4 2 2 1
(1)气象台获取数据的途径是什么?
(2)求本地6月份的日最高气温的平均数.(精确到0.1)
[解] (1)通过观察获取数据.
(2)本地6月份的日最高气温的平均数=≈24.3℃.
15.某校高中学生有900人,校医务室想对全体高中学生的身高情况做一次调查,为了不影响正常教学活动,准备抽取50名学生作为调查对象.校医务室若从高一年级中抽取50名学生的身高来估计全校高中学生的身高,你认为这样的调查结果会怎样?该问题中的总体和样本是什么?
[解] 由于学生的身高会随着年龄的增长而增高,校医务室想了解全校高中学生的身高情况,在抽样时应当关注高中各年级学生的身高,并且还要分性别进行抽查.如果只抽取高一的学生,结果一定是片面的.
这个问题涉及的调查对象的总体是某校全体高中学生的身高,其中准备抽取的50名学生的身高是样本.9.2 用样本估计总体
9.2.1 总体取值规律的估计
学习任务 1.理解并掌握统计图表的画法及应用.(直观想象) 2.结合实例,能用样本估计总体的取值规律.(数据分析)
情境1 某工厂生产一批产品,经调查只有10个不合格品.
情境2 某工厂生产一批产品,经调查产品不合格率为1%.
上面哪一种情境能更好地反映工厂的生产情况?
知识点1 频率分布直方图
画频率分布直方图的步骤
(1)求极差:极差为一组数据中最大值与最小值的差.
(2)决定组距与组数:当样本容量不超过100时,常分成5~12组,为了方便起见,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组.
(4)列频率分布表:一般分四列:分组、频数累计、频数、频率.其中频数合计应是样本容量,频率合计是1.
(5)画频率分布直方图:横轴表示分组,纵轴表示.小长方形的面积=组距×=频率.各小长方形的面积总和等于1.
知识点2 其他统计图表
统计图表 主要应用
扇形图 直观描述各类数据占总数的比例
条形图和直方图 直观描述不同类别或分组数据的频数和频率
折线图 描述数据随时间的变化趋势
1.如图所示是一个容量为1 000的样本频率分布直方图.
(1)样本数据落在范围[5,9)的频率为________;
(2)样本数据落在范围[9,13)的频数为________.
[答案] (1)0.32 (2)360
2.下列四个图中,用来表示不同品种的奶牛的平均产奶量最为合适的是________.(填序号)
[答案] ④
类型1 频率分布直方图的画法
【例1】 为了了解中学生身体发育情况,对某中学15岁的60名女生的身高(单位:cm)进行了测量,结果如下:
154 159 166 169 159 156 166
162 158 159 156 166 160 164
160 157 151 157 161 162 158
153 158 164 158 163 158 153
157 168 162 159 154 165 166
157 155 146 151 158 160 165
158 163 163 162 161 154 165
161 162 159 157 159 149 164
168 159 153 160
列出样本的频率分布表,绘出频率分布直方图.
[解] 第一步,求极差:上述60个数据中最大为169,最小为146.故极差为169-146=23(cm).
第二步,确定组距和组数:可取组距为3 cm,
则组数为=7 ,可将全部数据分为8组.
第三步,分组:[145.5,148.5),[148.5,151.5),[151.5,154.5),[154.5,157.5),[157.5,160.5),[160.5,163.5),[163.5,166.5),[166.5,169.5].
第四步,列频率分布表:
分组 频率累计 频数 频率
[145.5,148.5) 一 1 0.017
[148.5,151.5) 3 0.050
[151.5,154.5) 正一 6 0.100
[154.5,157.5) 正 8 0.133
[157.5,160.5) 正正正 18 0.300
[160.5,163.5) 正正一 11 0.183
[163.5,166.5) 正正 10 0.167
[166.5,169.5] 3 0.050
合计 60 1.000
第五步,根据上述数据绘制频率分布直方图.
 绘制频率分布直方图的注意点
(1)各组频率的和等于1,因此,各小矩形的面积的和也等于1.
(2)横轴表示样本数据,纵轴表示,这样每一组的频率可以用该组的组距为底、为高的小矩形的面积表示.
(3)画频率分布直方图的关键是确定矩形的高,一般地,频率分布直方图中两坐标轴上的单位长度不一致.
[跟进训练]
1. 从某校高三学生中抽取50名参加数学竞赛,成绩(单位:分)分组及各组的频数如下:
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在[60,90)的学生比例.
[解] (1)频率分布表如下,
成绩分组 频数累计 频数 频率
[40,50) 2 0.04
[50,60) 3 0.06
[60,70) 正正 10 0.2
[70,80) 正正正 15 0.3
[80,90) 正正 12 0.24
[90,100] 正 8 0.16
合计 50 1.00
(2)频率分布直方图如图所示.
(3)学生成绩在[60,90)的频率为(0.2+0.3+0.24)×100%=74%,所以估计成绩在[60,90)的学生比例为74%.
类型2 频率分布直方图的应用
【例2】 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110次以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
[解] (1)频率分布直方图是以面积的形式反映了数据落在各小组内的频率大小的,因此第二小组的频率为=0.08.
又因为第二小组的频率=,
所以样本容量==150.
(2)由频率分布直方图可估计该校高一年级学生的达标率为×100%=88%.
 频率分布直方图具备的性质
(1)因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小长方形的面积之和等于1.
(3)样本容量=.
[跟进训练]
2.某校100名学生期中考试语文成绩(单位:分)的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求图中a的值;
(2)若这100名学生的语文成绩在某些分数段的人数x与数学成绩相应分数段的人数y之比如下表所示,求数学成绩在[50,90)之外的人数.
分数段 [50,60) [60,70) [70,80) [80,90)
x∶y 1∶1 2∶1 3∶4 4∶5
[解] (1)依题意得,10×(2a+0.02+0.03+0.04)=1,解得a=0.005.
(2)数学成绩在[50,60)之间的人数为100×0.05=5,数学成绩在[60,70)之间的人数为100×0.4×=20,数学成绩在[70,80)之间的人数为100×0.3×=40,数学成绩在[80,90)之间的人数为100×0.2×=25,所以数学成绩在[50,90)之外的人数为100-5-20-40-25=10.
类型3 其他统计图表
【例3】 (1)如图所示的是某学校某年级的三个班和该年级在一学期内的六次数学测试的平均成绩y关于测试序号x的图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:
①一班成绩始终高于年级平均水平,整体成绩比较好;
②二班成绩不够稳定,波动程度较大;
③三班成绩虽然多次低于年级平均水平,但在稳步提升.
其中正确结论的个数为(  )
A.0   B.1   C.2   D.3
(2)已知某地区中小学生人数和近视情况分别如图(1)和图(2)所示,为了解该地区中小学生的近视形成原因,用按比例分配分层随机抽样的方法抽取了2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为________和________.
(1)D (2)200 20 [(1)由题图可知,一班每次考试的平均成绩都在年级平均成绩之上,故①正确;二班平均成绩的图象高低变化明显,成绩不稳定,波动程度较大,故②正确;三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选D.
(2)该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20.]
 不同的统计图适用的数据类型也不同.例如,条形图适用于描述离散型的数据,直方图适用描述连续型数据等.因此,在解决问题的过程中,要根据实际问题的特点,选择恰当的统计图对数据进行可视化描述,以使我们能通过图形直观地发现样本数据的分布情况,进而估计总体的分布规律.
[跟进训练]
3.如图是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3月1日到10日最低气温(单位:℃)的扇形统计图.
[解] 该城市3月1日至10日的最低气温(单位:℃)情况如下表:
日期 1 2 3 4 5 6 7 8 9 10
最低气温(℃) -3 -2 0 -1 1 2 0 -1 2 2
其中最低气温为-3 ℃的有1天,占10%,最低气温为-2 ℃的有1天,占10%,最低气温为-1℃的有2天,占20%,最低气温为0 ℃的有2天,占20%,最低气温为1 ℃的有1天,占10%,最低气温为2 ℃的有3天,占30%,扇形统计图如图所示.
1.某集团董事长想了解集团旗下五个超市的销售情况,通知五个超市经理把最近一周内的销售金额统计上报,要求既要反映一周内每天销售金额的多少,又要反映一周内每天销售金额的变化情况和趋势,则最好选用的统计图表为(  )
A.频率分布直方图  B.折线统计图
C.扇形统计图   D.统计表
B [折线统计图的一个显著特点就是能反映统计量的变化趋势,所以既要反映一周内每天销售金额的多少,又要反映一周内每天销售金额的变化情况和趋势,则最好选用的统计图表为折线统计图,故选B.]
2.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,根据扇形统计图的情况可以知道丙、丁两组人数和为(  )
A.250   B.150
C.400   D.300
A [甲组人数是120,占30%,则总人数是=400(人).则乙组人数是400×7.5%=30(人),则丙、丁两组人数和为400-120-30=250.]
3.学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n的样本,其频率分布直方图
如图所示,其中支出(单位:元)在[50,60]内的学生有30人,则n的值为(  )
A.100   B.1 000   C.90   D.900
A [由题意可知,前三组的频率之和为(0.01+0.024+0.036)×10=0.7,
∴支出在[50,60]内的频率为1-0.7=0.3,∴n==100.]
4.小张刚参加工作时,月工资为5 000元,各种用途占比统计如图(1)所示的条形图.后来他加强了体育锻炼,目前月工资的各种用途占比统计如图(2)所示的折线图,已知目前的月就医费比刚参加工作时少200元,则目前小张的月工资为________元.
5 500 [小张刚参加工作时,月工资为5 000元,小张每月就医费为5 000×15%=750(元),又已知目前的月就医费比刚参加工作时少200元,即550元,则目前小张的月工资为=5 500(元).]
回顾本节知识,自主完成以下问题:
1.画频率分布直方图的步骤是什么?
[提示] 绘制频率分布直方图的步骤如下:
①求极差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.
2.频率分布直方图具备哪些性质?
[提示] ①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小;
②在频率分布直方图中,各小矩形的面积之和等于1;
③=样本容量.
3.常用的统计图有哪几种?这些统计图对于数据分析能够起到什么作用?
[提示] 统计图有条形图、扇形图、折线图、频率分布直方图;从统计图中可以获取有用的数据信息,并能直观、准确地理解相关的结果.
课时分层作业(四十) 总体取值规律的估计
一、选择题
1.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为(  )
A.10组  B.9组  C.8组  D.7组
B [极差为140-51=89,而组距为10,故应将样本数据分为9组.]
2.容量为100的样本数据,按从小到大的顺序分为8组,如下表:
组号 1 2 3 4 5 6 7 8
频数 10 13 x 14 15 13 12 9
则第三组的频数和频率分别是(  )
A.14和0.14   B.0.14和14
C.和0.14   D.和
A [x=100-(10+13+14+15+13+12+9)=100-86=14,第三组的频率为=0.14.]
3.为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为(  )
A.8  B.12  C.16  D.18
B [志愿者的总人数为=50,
∴第3组的人数为50×0.36=18,有疗效的人数为18-6=12人.故选B.]
4.(多选)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2020年1月至2022年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论正确的是(  )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
BCD [由折线图,可知2020年8月到9月的月接待游客量在减少,A错误,其余选项均正确.]
5.(多选)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
建设前经济收入构成比例 建设后经济收入构成比例
则下面结论中正确的是(  )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
BCD [设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不正确;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项正确;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项正确;新农村建设后,养殖收入与第三产业收入的综合占经济收入的30%+28%=58%>50%,所以超过了经济收入的一半,所以D正确.故选BCD.]
二、填空题
6.甲、乙两个城市2023年4月中旬每天的最高气温统计图如图所示,则这9天里,气温比较稳定的是________(选填“甲”或“乙”)城市.
甲 [这9天里,乙城市的最高气温约为35 ℃,最低气温约为20 ℃;甲城市的最高气温约为25 ℃,最低气温约为21 ℃.故甲城市气温较稳定.]
7.一个样本的容量为72,分成5组,已知第一、五组的频数都为8,第二、四组的频率都为,则第三组的频数为________.
24 [因为频率=,所以第二、四组的频数都为72×=16.所以第三组的频数为72-2×8-2×16=24.]
8.如图所示是某校高一年级学生到校方式的条形统计图,根据图形可得出骑自行车人数占高一年级学生总人数的百分比为________.
30% [某校高一年级学生总数为60+90+150=300(人),骑自行车人数为90,所以骑自行车人数占高一年级学生总数的百分比为×100%=30%.]
三、解答题
9.某公司为了提高职工的健身意识,鼓励大家进行健步运动,要求200名职工每天晚上9:30上传手机计步截图,对于步数超过10 000的职工予以奖励,图(1)为甲、乙两名职工在某一星期内的运动步数统计图,图(2)为根据这星期内某一天全体职工的运动步数作出的频率分布直方图.
(1)根据频率分布直方图,求出该天运动步数不少于15 000的人数;
(2)如果当天甲的排名为130,乙的排名为40,试判断作出的是星期几的频率分布直方图.
[解] (1)由图(2)可知,(0.02+0.03+0.04+0.06+m)×5=1,解得m=0.05,
∴该天运动步数不少于15 000的人数为
(0.05+0.03)×5×200=80.
(2)40÷200=0.2,130÷200=0.65.
假设甲的步数为x,乙的步数为y,
由频率分布直方图可得0.2-0.15=(20-y)×0.05,解得y=19.
(1-0.65)-0.3=(x-10)×0.06,解得x=≈10.833,故作出的是星期二的频率分布直方图.
10.(多选)样本容量为100的样本,其数据分布在[2,18]内,将样本数据分为4组:[2,6),[6,10),[10,14),[14,18],得到频率分布直方图如图所示,则下列说法中正确的是(  )
A.样本数据分布在[6,10)内的频率为0.32
B.样本数据分布在[10,14)内的频数为40
C.样本数据分布在[2,10)内的频数为40
D.估计总体数据大约有10%分布在[10,14)内
ABC [对于A,由题图可得,样本数据分布在[6,10)内的频率为0.08×4=0.32,故A正确;对于B,由题图可得,样本数据分布在[10,14)内的频数为100×0.1×4=40,故B正确;对于C,由题图可得,样本数据分布在[2,10)内的频数为100×(0.02+0.08)×4=40,故C正确;对于D,由题图可估计,总体数据分布在[10,14)内的比例约为0.1×4=0.4=40%,故D错误.]
11. (多选)(2022·泰安期末)旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃,下面叙述正确的是(  )
A.各月的平均最低气温都在0 ℃以上
B.八月的平均温差比十一月的平均温差大
C.平均最高气温高于20℃的月份有4个
D.四月和十一月的平均最低气温基本相同
ABD [对于A,由图可知各月的平均最低气温都在0 ℃以上,故A正确;对于B,由图知八月的平均最高气温点与平均最低气温点之间的距离长度大于十一月的平均最高气温点与平均最低气温点之间的距离,故B正确,对于C,平均最高气温高于20℃的月份有八月和七月,只有两个月份,故C错误;对于D,四月和十一月的平均最低气温均为5 ℃,D正确.故选ABD.]
12.(多选)随着人口增多,对住房要求也随之而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取n名市民,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共200户,所占比例为,二居室住户占.如图2是用分层随机抽样的方法从所有调查的市民的满意度问卷中,抽取10%的调查结果绘制成的统计图,则下列说法错误的是(  )
A.样本容量为70
B.样本中三居室住户共抽取了25户
C.根据样本可估计对四居室满意的住户有70户
D.样本中对三居室满意的有15户
ABC [A选项,总体容量为600,样本容量为600×10%=60,故选项A错误;
B选项,样本中三居室住户共抽取300×10%=30(户),故选项B错误;
C选项,对四居室满意的住户共有200×40%=80(户),故选项C错误;
D选项,样本中三居室住户有300×10%=30(户),
对三居室满意的住户有30×50%=15(户),故选项D正确.故选ABC.]
13.为了解学生的身体状况,某校随机抽取了一批学生测量体重.经统计,这批学生的体重数据(单位:千克)全部介于45至70之间.将数据分成以下5组:第1组[45,50),第2组[50,55),第3组[55,60),第4组[60,65),第5组[65,70],得到如图所示的频率分布直方图,则a=________.现采用分层随机抽样的方法,从第3,4,5组中随机抽取6名学生,则第3,4,5组抽取的学生人数依次为________.
0.04 3,2,1 [由(0.01+0.02+a+0.06+0.07)×5=1,得a=0.04.
设第3,4,5组抽取的学生人数依次为x,y,z,
则x∶y∶z=0.06∶0.04∶0.02=3∶2∶1,
又x+y+z=6,所以x=3,y=2,z=1.]
14.某省有关部门要求各中小学要把“每天锻炼一小时”写入课程表,为了响应这一号召,某校围绕着“你最喜欢的体育活动项目是什么?(只写一项)”的问题,对在校学生进行了随机抽样调查,从而得到一组数据.图1是根据这组数据绘制的柱形图.请结合柱形图回答下列问题:
(1)该校对多少名学生进行了抽样调查?
(2)本次抽样调查中,最喜欢篮球活动的有多少人?占被调查人数的百分比是多少?
(3)若该校九年级共有200名学生,图2是根据各年级学生人数占全校学生总人数的百分比绘制的扇形图,请你估计全校学生中最喜欢跳绳活动的人数约为多少?
[解] (1)由图1知4+8+10+18+10=50(名),所以该校对50名学生进行了抽样调查.
(2)本次调查中,最喜欢篮球活动的有18人,占被调查人数的×100%=36%.
(3)1-(30%+26%+24%)=20%,200÷20%=1 000(人),×100%×1 000=160(人),所以估计全校学生中最喜欢跳绳活动的人数约为160人.
15.为了了解学生参加体育活动的情况,学校对学生进行随机抽样调查,其中一个问题是“你平均每天参加体育活动的时间是多少?”,共有4个选项:①1.5小时以上;②1~1.5小时;③0.5~1小时;④0.5小时以下.如图是根据调查结果绘制的两幅不完整的统计图,请你根据统计图提供的信息解答以下问题:
(1)本次一共调查了多少名学生?
(2)在图(1)中将②对应的部分补充完整;
(3)若该校有3 000名学生,试估计全校学生平均每天参加体育活动的时间在0.5小时以下的人数.
[解] (1)从题图中知,选①的共60名学生,占总学生数的百分比为30%,所以总学生数为60÷30%=200,即本次一共调查了200名学生.
(2)被调查的学生中,选②的有200-60-30-10=100名,补充完整的条形统计图如图所示.
(3)3 000×5%=150(名),估计全校有150名学生平均每天参加体育活动的时间在0.5小时以下.9.2.2 总体百分位数的估计
学习任务 结合实例,能用样本估计百分位数,理解百分位数的统计含义.(数学抽象、数学运算)
某省数学考试结果揭晓,0.8%的同学需要补考.
问题:那么如何确定需要补考的分数线呢?
知识点 百分位数
1.第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
1.“这次数学测试成绩的第70百分位数是85分”,这句话是什么意思?
[提示] 有70%的同学数学测试成绩小于或等于85分.
2.计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.某组数据的第p百分位数在此组数据中一定存在吗?为什么?
[提示] 不一定.因为按照计算第p百分位数的步骤,第2步计算所得的i=n×p%,如果是整数,则第p百分位数为第i项与第(i+1)项数据的平均数,若第i项与第(i+1)项数据不相等,则第p百分位数在此组数据中就不存在.
3.四分位数
25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
数据7.0,8.4,8.4,8.4,8.6,8.7,9.0,9.1的第30百分位数是________.
8.4 [因为8×30%=2.4,故第30百分位数是第三项数据8.4.]
类型1 一组数据的第p百分位数
【例1】 从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
7.9,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的第25,75,95百分位数;
(2)请你找出珍珠质量较小的前15%的珍珠质量.
[解] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,所以12×25%=3,12×75%=9,12×95%=11.4,则第25百分位数是=8.15,第75百分位数是=8.75,第95百分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则第15百分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8 g,7.9 g.
 百分位数是用于衡量数据位置的度量,它提供了有关数据在最小值与最大值之间位置的信息.需注意,在求百分位数时,一定要将数据按照从小到大的顺序排列.
[跟进训练]
1.已知甲、乙两组按顺序排列的数据:甲组:27,28,37,m,40,50;乙组:24,n,34,43,48,52;若这两组数据的第30百分位数、第50百分位数分别对应相等,则等于(  )
A.   B.   C.   D.
B [因为30%×6=1.8,50%×6=3,所以第30百分位数为n=28,第50百分位数为,所以m=40,所以,故选B.]
类型2 频率分布直方图计算百分位数
【例2】 为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,你能估计一下60株树木的第50百分位数和第75百分位数吗?
[解] 由题意知分别落在各区间上的频数
在[80,90)上为60×0.015×10=9,
在[90,100)上为60×0.025×10=15,
在[100,110)上为60×0.030×10=18,
在[110,120)上为60×0.020×10=12,
在[120,130]上为60×0.010×10=6.
从以上数据可知第50百分位数一定落在区间[100,110)上,由100+10×≈103.3;
第75百分位数一定落在区间[110,120)上,由110+10×=112.5.
综上可知,第50百分位数和第75百分位数分别为103.3 cm,112.5 cm.
 频率分布直方图中第p百分位数的计算
(1)确定百分位数所在的区间[a,b).
(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为.
[跟进训练]
2.某学校组织学生参加数学测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],则60分为成绩的第________百分位数.
30 [因为[20,40),[40,60)的频率为(0.005+0.01)×20=0.3,所以60分为成绩的第30百分位数.]
3.某省教育厅为了了解和掌握2023年高考考生的实际答卷情况,随机地取出了100名考生的数学成绩(单位:分),将数据分成了11组,制成了如图所示的频率分布表:
分组 频数 频率
[80,85) 1 0.01
[85,90) 2 0.02
[90,95) 4 0.04
[95,100) 14 0.14
[100,105) 24 0.24
[105,110) 15 0.15
[110,115) 12 0.12
[115,120) 9 0.09
[120,125) 11 0.11
[125,130) 6 0.06
[130,135] 2 0.02
合计 100 1
(1)求样本数据的第60,80百分位数;
(2)估计2023年高考考生的数学成绩的90%分位数.
[解] 从频率分布表得,前六组的频率之和为
0.01+0.02+0.04+0.14+0.24+0.15=0.60,
前七组的频率之和为0.60+0.12=0.72,
前八组的频率之和为0.72+0.09=0.81,
前九组的频率之和为0.81+0.11=0.92.
(1)由前六组的频率之和为0.60,得样本数据的第60百分位数为110,样本数据的第80百分位数一定在第八组[115,120)内,由115+5×≈119.4,估计样本数据的第80百分位数约为119.4.
(2)由前八组的频率之和为0.81,前九组的频率之和为0.92,知90%分位数一定在第九组[120,125)内,由120+5×≈124.1,估计2023年高考考生的数学成绩的90%分位数为124.1分.
1.对于考试成绩的统计,如果你的成绩处在第95百分位数上,以下说法正确的是(  )
A.你得了95分
B.你答对了95%的试题
C.95%的参加考试者得到了和你一样的考分或还要低的分数
D.你排名在第95名
C [第95百分位数是指把数据从小到大排序,有至少95%数据小于或等于这个数,至少有5%的数据大于或等于这个值,只有C正确.]
2.已知一组数据按从小到大排列为1,1,2,2,3,3,4,5,7,7,8,10,那么数据的25%分位数、75%分位数分别是(  )
A.3,9  B.2,7  C.9,3  D.7,2
B [因为这组数据有12个数,所以12×25%=3,12×75%=9,所以数据的25%分位数是=2,数据的75%分位数是=7.故选B.]
3.某组数据的中位数是2 023,那么它的第50百分位数是________.
2 023 [某组数据的中位数是2 023,第50百分位数就是中位数,它的第50百分位数是2 023.]
4.某市举行“中学生诗词大赛”,某校有1 000名学生参加了比赛,从中抽取100名学生,统计他们的成绩(单位:分),并进行适当的分组(每组为左闭右开的区间),得到的频率分布直方图如图所示,则估计该校学生成绩的80%分位数为________.
122 [根据频率分布直方图可知,成绩在130分以下的学生所占比例为1-0.005 0×20=0.9,成绩在110分以下的学生所占比例为1-(0.012 5+0.005 0)×20=0.65,因此80%分位数一定位于[110,130)内,由110+20×=122,故可估计该校学生成绩的80%分位数为122.]
回顾本节知识,自主完成以下问题:
1.百分位数告诉我们什么信息?
[提示] 对于无大量重复的数据,第p百分位数将它分为两个部分,大约有p%的数据项的值比第p百分位数小,而大约有(100-p)%的数据项的值比第p百分位数大.
2.计算第p百分位数时应注意什么?
[提示] 对于数据型的第p百分位数计算时应注意以下两点:
(1)求百分位数时,一定要将数据按照从小到大的顺序排列;
(2)计算i=n×p%后要弄清i是整数还是非整数.
对于由频率分布直方图求百分位数时应注意频率分布直方图中小矩形的面积,就是数据确定在哪个区间.
课时分层作业(四十一) 总体百分位数的估计
一、选择题
1.(多选)在秋季运动会的跳远比赛中,张明是选手中跳得最远的,李华是选手中跳得最近的,总共有20名选手,则下列描述中正确的有(  )
A.张明跳远成绩的百分位数约为100 
B.张明跳远成绩的百分位数约为20
C.李华跳远成绩的百分位数约为0 
D.李华跳远成绩的百分位数约为6
AC [对于A,跳远成绩从小到大排序,因为张明是选手中跳得最远的,即至少有100%数据小于或等于张明的成绩,至少有0%的数据大于或等于这个值,所以张明跳远成绩的百分位数约为100,故A正确, B不正确;对于C,跳远成绩从小到大排序,因为李华是选手中跳得最近的,即有至少0%数据小于或等于李华的成绩,至少有100%的数据大于或等于这个值,所以李华跳远成绩的百分位数约为0,故C正确,D不正确.故选AC.]
2.数据12,14,15,17,19,23,27,30的第70百分位数是(  )
A.14   B.17   C.19   D.23
D [因为8×70%=5.6,故70%分位数是第6项数据23.]
3.以下数据为参加数学竞赛决赛的15人的成绩:
78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,
则这15人成绩的第80百分位数是(  )
A.90   B.90.5   C.91   D.91.5
B [把成绩按从小到大的顺序排列为:56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,因为15×80%=12,所以这15人成绩的第80百分位数是=90.5.]
4.数据3.2,3.4,3.8,4.2,4.3,4.5,x,6.6的第65百分位数是4.5,则实数x的取值范围是(  )
A.[4.5,+∞)   B.[4.5,6.6)
C.(4.5,+∞)   D.(4.5,6.6]
A [因为8×65%=5.2,这组数据的第65百分位数是第6项数据4.5,则x≥4.5,故选A.]
5.某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[5,40]之间,其频率分布直方图如图所示.估计棉花纤维的长度的样本数据的90%分位数是(  )
A.32.5 mm   B.33 mm
C.33.5 mm   D.34 mm
A [棉花纤维的长度在30 mm以下的比例为
(0.01+0.01+0.04+0.06+0.05)×5=0.85=85%,
在35 mm以下的比例为85%+10%=95%,
因此,90%分位数一定位于[30,35)内,
由30+5×=32.5,可以估计棉花纤维的长度的样本数据的90%分位数是32.5 mm.]
二、填空题
6.为了调查某厂工人生产某种产品的能力,随机抽查了40位工人某天生产该产品的数量得到频率分布直方图如图所示.
估计样本数据的50%分位数为________.
62.5 [依题意,产品数量在[45,55)的频率为0.020×10=0.2,前两组频率和为(0.020+0.040)×10=0.6,所以50%分位数应位于[55,65)内,由55+10×=62.5.所以估计样本数据的50%分位数为62.5.]
7.已知30个数据的第60百分位数是8.2,这30个数据从小到大排列后第18个数据是7.8,则第19个数据是________.
8.6 [由于30×60%=18,设第19个数据为x,则=8.2,解得x=8.6,即第19个数据是8.6.]
8.某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩的70%分位数约为________秒.
16.5 [设成绩的70%分位数为x,因为=0.55,=0.85,所以x∈ [16,17),所以0.55+(x-16)×=0.70,解得x=16.5秒.]
三、解答题
9.在①55%分位数,②众数这两个条件中任选一个,补充在下面问题中的横线上,并解答问题.维生素C又叫L-抗坏血酸,是一种水溶性维生素,是高等灵长类动物与其他少数生物的必需营养素.现从猕猴桃、柚子两种食物中测得每100克维生素C的含量(单位:mg)各10个数据如下,其中猕猴桃的一个数据x被污损.
猕猴桃:104,119,106,102,132,107,113,134,116,x;
柚子:121,113,109,122,114,116,132,121,131,117.
已知x等于柚子的10个数据中的________.
(1)求x的值与猕猴桃的数据的中位数;
(2)分别计算上述猕猴桃、柚子两种食物中测得每100克维生素C含量的平均数.
[解] (1)柚子的10个数据按照从小到大的顺序排列为:109,113,114,116,117,121,121,122,131,132.
选①,因为10×55%=5.5,所以柚子10个数据的55%分位数为第6个数,即121,所以x=121.
猕猴桃的10个数据按照从小到大的顺序排列为:102,104,106,107,113,116,119,121,132,134,则中位数为(113+116)=114.5.
选②,因为柚子的10个数据的众数为121,所以x=121.
猕猴桃的10个数据按照从小到大的顺序排列为:102,104,106,107,113,116,119,121,132,134,则中位数为(113+116)=114.5.
(2)由(1)得每100克猕猴桃维生素C含量的平均数为×(102+104+106+107+113+116+119+121+132+134)=115.4 mg,
每100克柚子维生素C含量的平均数为×(109+113+114+116+117+121+121+122+131+132)=119.6 mg.
10.某厂10名工人在一小时内生产零件的个数分别是15,17,14,10,15,17,17,16,14,12,设该组数据的平均数为a,第50百分位数为b,则有(  )
A.a=13.7,b=15.5   B.a=14, b=15
C.a=12, b=15.5   D.a=14.7, b=15
D [把该组数据按从小到大的顺序排列为10,12,14,14,15,15,16,17,17,17,其平均数a=×(10+12+14+14+15+15+16+17+17+17)=14.7,第50百分位数为b==15.]
11.某城市抽样了100户居民月均用水量(单位:t),并作出频率分布表如表,
分组 频数 频率
[1,1.5) 6 0.060
[1.5,2) 18 0.180
[2,2.5) 44 0.440
[2.5,3) 16 0.160
[3,3.5) 11 0.110
[3.5,4] 5 0.050
则第80百分位数为(  )
A.2.625 B.2.750
C.2.875 D.3.125
C [∵0.06+0.18+0.44=0.68,0.06+0.18+0.44+0.16=0.84,
∴第80百分位数位于[2.5,3),则第80百分位数为2.5+×0.5=2.875.故选C.]
12.(多选)一组数据为6,47,49,15,42,41,7,39,43,40,36,这组数据的一个四分位数是15,则它是(  )
A.第一四分位数 B.下四分位数
C.第三四分位数 D.上四分位数
AB [将数据由小到大排列为6,7,15,36,39,40,41,42,43,47,49,共11项.由11×25%=2.75,故15是第一四分位数或下四分位数.]
13.如图是某市2023年4月1日至4月7日每天最高、最低气温的折线统计图,这7天的日最高气温的第10百分位数为_______,日最低气温的第80百分位数为_______.
24 16 [由折线图可知,把日最高气温按照从小到大排序,得24,24.5,24.5,25,26,26,27.
因为共有7个数据,所以7×10%=0.7,不是整数,所以这7天日最高气温的第10百分位数是第1个数据,为24.
把日最低气温按照从小到大排序,得12,12,13,14,15,16,17.
因为共有7个数据,所以7×80%=5.6,不是整数,所以这7天日最低气温的第80百分位数是第6个数据,为16.]
14.从某保险公司的推销员中随机抽取50名,统计这些推销员某月的月销售额(单位:千元),由统计结果得如下频数分布表:
月销售 额分组 [12.25, 14.75) [14.75, 17.25) [17.25, 19.75) [19.75, 22.25) [22.25, 24.75]
频数 4 10 24 8 4
(1)作出这些数据的频率分布直方图;
(2)根据以上抽样调查数据,公司将推销员的月销售指标确定为17.875千元,试判断是否有60%的推销员能够完成该销售指标.
[解] (1)根据题意作出频率分布表:
月销售 额分组 [12.25,14.75) [14.75,17.25) [17.25,19.75) [19.75,22.25) [22.25,24.75]
频数 4 10 24 8 4
频率 0.08 0.20 0.48 0.16 0.08
作出频率分布直方图如图所示.
(2)由(1)得,月销售额小于17.875千元的频率为0.08+0.2+×0.48=0.4,所以有60%的推销员能够完成该销售指标.
15.某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用不超过260元的占80%,求a,b的值.
(3)根据(2)中求得的数据计算用电量的75%分位数.
[解] (1)当0≤x≤200时,y=0.5x;
当200当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y与x之间的函数解析式为y=
(2)由(1)可知,当y=260时,x=400,即用电量不超过400千瓦时的占80%,
结合频率分布直方图可知
解得a=0.001 5,b=0.002 0.
(3)设75%分位数为m,
因为用电量低于300千瓦时的所占比例为(0.001+0.002+0.003)×100=60%,
用电量不超过400千瓦时的占80%,
所以75%分位数在[300,400)内,设为m,
所以0.6+(m-300)×0.002=0.75,解得m=375千瓦时,即用电量的75%分位数为375千瓦时.9.2.3 总体集中趋势的估计
学习任务 1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数).(数学抽象、数据分析) 2.理解集中趋势参数的统计含义.(直观想象)
甲、乙两位同学相约晚上在某餐馆吃饭.他们分别在A,B两个网站查看同一家餐馆的好评率.甲在网站A查到的好评率是98%,而乙在网站B查到的好评率是85%.综合考虑这两个网站的信息,应该如何得到这家餐馆的总好评率?
知识点 众数、中位数、平均数
1.众数、中位数和平均数的定义
(1)众数:一组数据中出现次数最多的数.
(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果个数是偶数,则取中间两个数据的平均数.
(3)平均数:一组数据的和除以数据个数所得到的数.
1.中位数一定是样本数据中的一个数吗?
[提示] 不一定.一组数据按大小顺序排列后,如果有奇数个数据,处于中间位置的数是中位数;如果有偶数个数据,则中间两个数据的平均数是中位数.
2.一组数据的众数一定唯一吗?
[提示] 不一定,数据的众数可能有一个,也可能有多个.
2.频率分布直方图中的众数、中位数、平均数
(1)单峰频率分布直方图中的平均数与中位数
①如果直方图的形状是对称的,那么平均数与中位数大体上差不多.
②如果直方图在右边“拖尾”,那么平均数大于中位数;如果直方图在左边“拖尾”,那么平均数小于中位数,也就是说,和中位数相比,平均数总是在“长尾巴”那边.
(2)在频率分布直方图中,众数是最高矩形底边中点的横坐标;中位数左边和右边的直方图的面积应该相等;样本平均数的估计值等于频率分布直方图中每个小矩形底边中点的横坐标与小矩形的面积的乘积之和.
思考辨析(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. (  )
(2)样本的平均数是频率分布直方图中最高长方形的中点对应的数据. (  )
(3)若改变一组数据中其中的一个数,则这组数据的平均数、中位数、众数都会发生改变. (  )
[答案] (1)√ (2)× (3)×
类型1 一组数据的平均数、中位数和众数
【例1】 已知10名工人生产同一零件,生产的件数分别是16,18,15,11,16,18,18,17,15,13,设其平均数为a,中位数为b,众数为c,则有(  )
A.a>b>c   B.a>c>b
C.c>a>b   D.c>b>a
D [由题意得a=(16+18+15+11+16+18+18+17+15+13)==15.7,中位数为16,众数为18,则b=16,c=18,∴c>b>a.]
 平均数、众数、中位数的计算方法
平均数一般是根据公式来计算的;计算中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据相关数据的总数是奇数还是偶数而定;众数是看出现次数最多的数.
[跟进训练]
1.(1)已知一组数据x1,x2,x3,x4,x5的平均数是2,那么另一组数据2x1-3,2x2-3,2x3-3,2x4-3,2x5-3的平均数为(  )
A.1   B.2   C.3   D.4
(2)某篮球队甲、乙两名运动员练习罚球,每人练习10组,每组罚球40个,命中个数如下所示:
甲:20,22,27,8,12,13,37,25,24,26;
乙:14,9,13,18,19,20,23,21,21,11.
则下面结论中正确的是________(填序号).
①甲的极差是29;②乙的众数是21;③甲的平均数为21.4;④甲的中位数是24.
(1)A (2)①②③ [(1)因为一组数据x1,x2,x3,x4,x5的平均数是2,所以另一组数据2x1-3,2x2-3,2x3-3,2x4-3,2x5-3的平均数为2×2-3=1.故选A.
(2)把两组数据按从小到大的顺序排列,得
甲:8,12,13,20,22,24,25,26,27,37
乙:9,11,13,14,18,19,20,21,21,23
故甲的最大值为37,最小值为8,则极差为29,所以①正确;乙中出现最多的数据是21,所以②正确;甲的平均数为×(8+12+13+20+22+24+25+26+27+37)=21.4,所以③正确;甲的中位数为×(22+24)=23,故④不正确.]
类型2 频率分布直方图中的平均数、中位数和众数
【例2】 某校从参加高一年级期末考试的学生中抽出60名,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后,画出如图所示的频率分布直方图.观察图中的信息,回答下列问题:
(1)估计这次考试的物理成绩的众数m与中位数n(结果保留一位小数);
(2)估计这次考试的物理成绩的及格率(60分及以上为及格)和平均分.
[解] (1)众数是频率分布直方图中最高小矩形底边中点的横坐标,所以众数为m=75.0.
前3个小矩形面积和为0.01×10+0.015×10+0.015×10=0.4<0.5,
前4个小矩形面积和为0.4+0.03×10=0.7>0.5,
所以中位数n=70+≈73.3.
(2)依题意,60及60以上的分数在第三、四、五、六组,频率和为(0.015+0.03+0.025+0.005)×10=0.75,
所以估计这次考试的物理成绩的及格率是75%.
利用组中值估算抽样学生的平均分为45×f1+55×f2+65×f3+75×f4+85×f5+95×f6=45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.
所以估计这次考试的物理成绩的平均分是71分.
 用频率分布直方图估计众数、中位数、平均数
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
[跟进训练]
2.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图.
求:(1)成绩的众数、中位数的估计值;
(2)平均成绩的估计值(同一组中的数据用该组区间的中点值作代表).
[解] (1)由图可知众数的估计值为65分.
设中位数为x,
又∵第一个小矩形的面积为0.3,
则0.3+(x-60)×0.04=0.5,得x=65.
∴中位数的估计值为65分.
(2)依题意,平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67(分),
∴平均成绩的估计值为67分.
类型3 平均数、中位数和众数的实际应用
【例3】 (源自湘教版教材)某公司全体职工的月工资如下:
月工资/元 18 000 12 000 8 000 6 000 4 000 2 500 2 000 1 500 1 200
人数 1 (总经理) 2 (副总经理) 3 4 10 20 22 12 6
(1)试求出该公司月工资数据中的众数、中位数和平均数;
(2)你认为用平均数、中位数或众数中的哪一个更能反映该公司的工资水平?
(3)对于职工月工资数据的平均数、中位数和众数,你认为该公司总经理、普通员工及应聘者将分别关注哪一个?说说你的理由.
[解] (1)在上述80个数据中,2 000出现了22次,出现的次数最多,因此这组数据的众数是2 000.
把这80个数据按从小到大的顺序排列后,位于中间的数是2 000,2 500,因此这组数据的中位数是=2 250.
这组数据的平均数为=3 115.
(2)由于大多数员工的月工资达不到平均数3 115,显然用平均数作为该公司员工月工资的代表值并不
合适;众数2 000及中位数2 250在一定程度上代表了大多数人的工资水平,较能反映月工资水平的实际情况.
(3)公司总经理最关心的是月工资的总额,所以他关注的是平均数;普通员工关注的是自己的收入在本公司职工群体中的位置,中位数能帮助职工了解自己的工资收入处于什么样的水平;应聘者最想知道公司发给大多数员工的工资数额,这也是一般应聘者将会拿到的工资,因此应聘者关注的是该公司月工资的众数.
 平均数、中位数、众数应用问题的两个关注点
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响大;中位数是样本数据所占频率的等分线,不受几个极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值.
[跟进训练]
3.如表是五年级两个班各11名同学1分钟仰卧起坐的成绩(单位:次):
一班 19 33 26 29 28 33 34 35 33 33 30
二班 25 27 29 28 29 30 29 35 29 30 29
(1)这两组数据的平均数,中位数和众数各是多少?
(2)你认为哪个数表示两个班的成绩更合适?
[解] (1)一班平均数:(19+33+26+29+28+33+34+35+33+33+30)÷11=333÷11≈30.27(次),
一班数据从小到大排列为:19,26,28,29,30,33,33,33,33,34,35,
所以一班中位数为33次,
33出现的次数最多,众数是33次;
二班平均数:(25+27+29+28+29+30+29+35+29+30+29)÷11=320÷11≈29.09(次),
二班数据从小到大排列为:25,27,28,29,29,29,29,29,30,30,35,
所以二班的中位数是29次,
29出现的次数最多,所以二班的众数是29次.
(2)运用平均数表示两个班的成绩更合适.
1.(多选)在一次体育测试中,某班6名同学的成绩(单位:分)分别为66,83,87,83,77,96.关于这组数据,下列说法正确的是(  )
A.众数是83   B.中位数是83
C.极差是30   D.平均数是83
ABC [由于83出现的次数最多,所以众数是83,故A正确;把数据按从小到大排列为66,77,83,83,87,96,中间两个数为83,83,所以中位数是83,故B正确;极差是96-66=30,故C正确;由于平均数为(66+83+87+83+77+96)÷6=82,故D错误.]
2.下列关于平均数、中位数、众数的说法中正确的是(  )
A.中位数可以准确地反映出总体的情况
B.平均数可以准确地反映出总体的情况
C.众数可以准确地反映出总体的情况
D.平均数、中位数、众数都有局限性,都不能准确地反映出总体的情况
D [中位数不受少数极端值的影响,对极端值的不敏感也会成为缺点,故A错误;平均数可以较好地反映样本数据全体的信息,但是样本数据质量较差时,使用平均数描述数据的中心位置就可能会与实际情况产生较大差异,故B错误;众数体现了样本数据的最大集中点,但对其他数据信息的忽略使得无法客观反映总体特征,故C错误;综上可知,D正确.]
3.已知一组数据按从小到大排列为-1,0,4,x,6,15,且这组数据的中位数是5,那么数据的众数是________,平均数是________.
6 5 [因为-1,0,4,x,6,15的中位数是5,所以(4+x)=5,x=6.所以这组数据的众数是6,平均数是(-1+0+4+6+6+15)=5.]
4.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)这次测试数学成绩的众数为________;
(2)这次测试数学成绩的中位数为________;
(3)这次测试数学成绩的平均分为________.
(1)75 (2) (3)72 [(1)由题干图知众数为=75.
(2)由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x=.
(3)由题干图知这次数学成绩的平均数为:×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.]
回顾本节知识,自主完成以下问题:
1.在频率分布直方图中,如何确定众数、中位数和平均数?
[提示] 在频率分布直方图中,众数是最高小矩形底边的中点所对应的数据;中位数左边和右边的直方图的面积应该相等;平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.众数、中位数和平均数的各有哪些优缺点?
[提示] 
名称 优点 缺点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
课时分层作业(四十二) 总体集中趋势的估计
一、选择题
1.七位评委为某跳水运动员打出的分数如下:
84,79,86,87,84,93,84,
则这组分数的中位数和众数分别是(  )
A.84,85    B.84,84
C.85,84    D.85,85
B [把七位评委打出的分数按从小到大的顺序排列为:79,84,84,84,86,87,93,可知众数是84,中位数是84.]
2.16位参加百米半决赛同学的成绩各不相同,按成绩取前8位进入决赛.如果小刘知道了自己的成绩后,要判断他能否进入决赛.则其他15位同学成绩的下列数据中,能使他得出结论的是(  )
A.平均数   B.极差
C.中位数   D.方差
C [判断是不是能进入决赛,只要判断是不是前8名,所以只要知道其他15位同学的成绩中是不是有8个高于他,也就是把其他15位同学的成绩排列后看第8个的成绩即可,小刘的成绩高于这个成绩就能进入决赛,低于这个成绩就不能进入决赛,这个第8名的成绩就是这15位同学成绩的中位数.]
3.平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关,在如图两种分布形态中,a,b,c,d分别对应平均数和中位数之一,则可能的对应关系是(  )
A.a为中位数,b为平均数,c为平均数,d为中位数
B.a为平均数,b为中位数,c为平均数,d为中位数
C.a为中位数,b为平均数,c为中位数,d为平均数
D.a为平均数,b为中位数,c为中位数,d为平均数
A [在频率分布直方图中,中位数两侧小矩形的面积相等,平均数是每组频率的中间值乘频数再相加之和,结合两个频率分布直方图得:a为中位数,b为平均数,c为平均数,d为中位数.
故选A.]
4.(多选)下列说法中正确的是(  )
A.数据2,4,6,8的中位数是4,6
B.数据1,2,3,4,4的众数是4
C.一组数据的平均数、众数、中位数有可能是同一个数据
D.8个数据的平均数为5,另3个数据的平均数为7,则这11个数据的平均数是
BCD [数据2,4,6,8的中位数为=5,显然A是错误的,B,C,D都是正确的.]
5.(多选)在某次高中学科竞赛中,4 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中的数据用该组区间中点值为代表,则下列说法中正确的是(  )
A.成绩在[70,80)内的考生人数最多
B.不及格的考生人数为1 000
C.考生竞赛成绩的平均分约为70.5分
D.考生竞赛成绩的中位数为75分
ABC [由频率分布直方图可得,成绩在[70,80)内的频率最高,因此考生人数最多,故A正确.由频率分布直方图可得,成绩在[40,60)内的频率为0.25,因此,不及格的人数为4 000×0.25=1 000,故B正确.由频率分布直方图可得,平均分为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确.因为成绩在[40,70)内的频率为0.45,[70,80)的频率为0.3,所以中位数为70+10×≈71.67,故D错误.故选ABC.]
二、填空题
6.一组数据1,10,5,2,x,2,且24 [因为27.数据:1,2,2,3,4,5,6,6,7,8,其中位数为m,第60百分位数为a,则m+a=________.
10 [中位数m==4.5,因为10×60%=6,所以第60百分位数a==5.5,所以m+a=10.]
8.对一批底部周长在[80,130](单位:cm)内的树木进行研究,从中随机抽出200株树木并测出其底部周长,得到频率分布直方图如图所示,由此估计,这批树木的底部周长的众数是________cm,中位数是________cm.
105  [由题图知,这批树木的底部周长的众数约是=105(cm),中位数约是(cm).]
三、解答题
9.某校课外活动小组对该市做空气含尘量调查,下面是一天中每隔两小时测得的数据(单位:g/m3):
0.03,0.04,0.03,0.02,0.04,0.01,0.03,0.03,
0.04,0.05,0.01,0.03.
(1)求出这组数据的众数和中位数;
(2)若国标(国家环境保护部的标准)是平均值不得超过0.025 g/m3,则这一天该城市的空气是否符合国标?
[解] (1)由题意知众数是0.03 g/m3(出现5次),将这12个数从小到大排列,中间的两个数都是0.03,故中位数是0.03 g/m3.
(2)这组数据的平均数×(0.01×2+0.02+0.03×5+0.04×3+0.05)=0.03(g/m3),
也就是说,这一天该城市的空气含尘量的平均值是0.03 g/m3,超过了0.025 g/m3,故不符合国标.
10.(多选)某研究所检测甲、乙两组实验小白鼠的某医学指标值,得到样本数据的频率分布直方图(如图所示),则下列结论正确的是(  )
A.甲组数据中位数大于乙组数据中位数
B.甲组数据平均数小于乙组数据平均数
C.甲组数据平均数大于甲组数据中位数
D.乙组数据平均数小于乙组数据中位数
BCD [根据甲组的样本数据的频率分布直方图可知为单峰的,直方图在右边“拖尾”,所以甲组的平均数大于中位数,且都小于7,
同理可得乙组的平均数小于中位数,且都大于7,
故甲组数据中位数小于乙组数据中位数,故A错误;
甲组数据平均数小于乙组数据平均数,故B正确;
甲组数据平均数大于甲组数据中位数,故C正确;
乙组数据平均数小于乙组数据中位数,故D正确.
故选BCD.]
11.(多选)已知一组数据丢失了其中一个,剩下的六个数据分别是3,3,5,3,6,11,若这组数据的平均数a、中位数b、众数c满足a+c=2b,则丢失的数据可能为(  )
A.-10   B.4   C.12   D.18
ABD [设丢失的数据为x,则七个数据的平均数a=,众数c=3,由题意,若x≤3,则中位数b=3,此时平均数a=2b-c,即=3,解得x=-10;若312.某学生5次考试的成绩(单位:分)分别为85,67,m,80,93,其中m>0,若该学生在这5次考试中成绩的中位数为80,则得分的平均数不可能为(  )
A.70  B.75  C.80  D.85
D [设平均数为,因为中位数为80,所以5次成绩排序为67,m,80,85,93或m,67,80,85,93.则,m=-325.
∵m≤80,∴5-325≤80,解得≤81.故选D.]
13.某校开展“爱我家乡”摄影比赛,9位评委给参赛作品A打出的分数如下:88,89,89,93,92,9■,92,91,94.记分员在去掉一个最高分和一个最低分后,算得平均分为91.复核员在复核时,发现有一个数的个位数字无法看清.若记分员计算无误,则该数应该是________.
91 [设该数的个位数字为x,则这个数为90+x,由题意,知最低分为88.若90+x为最高分,则平均分为≈91.4≠91,故最高分为94,则去掉最高分94和最低分88,平均分为=91,解得x=1,故该数为91.]
14.现有某城市100户居民的月平均用电量(单位:度)的数据,根据这些数据,以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图所示.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层随机抽样的方法抽取11户居民,则月平均用电量在[220,240)内的用户中应抽取多少户?
[解] (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,得x=0.007 5,
故直方图中x的值是0.007 5.
(2)月平均用电量的众数为=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5,
∴月平均用电量的中位数在[220,240)内,设中位数为a,
由(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,得a=224,
即月平均用电量的中位数为224度.
(3)月平均用电量在[220,240)内的有0.012 5×20×100=25(户),月平均用电量在[240,260)内的有0.007 5×20×100=15(户),月平均用电量在[260,280)内的有0.005×20×100=10(户),月平均用电量在[280,300]内的有0.002 5×20×100=5(户),抽取比例为,∴月平均用电量在[220,240)内的用户中应抽取25×=5(户).
15.随着移动互联网的发展,与餐饮美食相关的手机软件层出不穷.现从某市使用A和B两款订餐软件的商家中分别随机抽取100个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如下.
(1)试估计该市使用A款订餐软件的商家的“平均送达时间”的众数及平均数(同一组中的数据用该组区间的中点值代表);
(2)如果以“平均送达时间”的平均数作为决策依据,从A和B两款订餐软件中选择一款订餐,你会选择哪款?
[解] (1)依题意得,使用A款订餐软件的商家中“平均送达时间”的众数为55,平均数为15×0.06+25×0.34+35×0.12+45×0.04+55×0.4+65×0.04=40.
(2)使用B款订餐软件的商家中“平均送达时间”的平均数为15×0.04+25×0.2+35×0.56+45×0.14+55×0.04+65×0.02=35<40,所以选B款订餐软件.9.2.4 总体离散程度的估计
学习任务 1.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差).(数学抽象、数据分析) 2.理解离散程度参数的统计含义.(直观想象)
甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
经过计算可知甲、乙的命中环数的平均数都是7环.
问题:若从二人中选一人去参加射击大赛,只用平均数能否作出选择?
知识点 方差、标准差
1.一组数据x1,x2,…,xn的方差和标准差
数据x1,x2,…,xn的方差为=,标准差为.
2.总体方差和标准差
(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体的平均数为,则称S2=为总体方差,S=为总体标准差.
(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=.
3.样本方差和标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=为样本方差,s=为样本标准差.
4.标准差的意义
标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
5.分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为n1,n2,两层的平均数分别为,方差分别为,则这个样本的方差为s2=.
1.思考辨析(正确的打“√”,错误的打“×”)
(1)若一组数据的值大小相等,没有波动变化,则标准差为0. (  )
(2)标准差、方差的取值范围为[0,+∞). (  )
(3)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散. (  )
(4)一般情况下数据中绝大部分数据落在内,也有可能落在外. (  )
(5)计算分层随机抽样中总样本的平均数与方差时,必须已知各层的权重. (  )
[答案] (1)√ (2)√ (3)× (4)√ (5)√
2.已知一个样本中的数据为1,2,3,4,5,则该样本的方差为________;标准差为________.
[答案] 2 
3.某班为了了解学生每周购买零食的支出情况,利用分层随机抽样抽取了一个15人的样本统计如下:
性别 学生数 平均支出(元) 方差
男生 9 40 6
女生 6 35 4
则全班学生每周购买零食的平均费用为________;方差为________.
[答案] 38 11.2
类型1 方差和标准差的性质与计算
【例1】 (1)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则(  )
A.=4,s2<2  B.=4,s2>2
C.>4,s2<2   D.>4,s2>2
(2)若40个数据的平方和是56,平均数是,则这组数据的方差是________,标准差是________.
(1)A (2)0.9  [(1)因为某7个数的平均数为4,所以这7个数的和为4×7=28,因为加入一个新数据4,所以=4.又因为这7个数的方差为2,且加入一个新数据4,所以这8个数的方差s2=<2.故选A.
(2)由方差公式
s2=,
得s2==.
由已知得n=.
∴s2==0.9,s=.]
 方差和标准差的计算技巧与性质
(1)方差的计算
①基本公式:s2=2+2+…+].
②简化计算公式:s2=-,即方差等于原数据平方的平均数减去平均数的平方.
(2)方差和标准差的性质
若把一组数据的每一个数变为原来的k倍并加上或减去常数a,则它的标准差变为原来的k倍,方差变为原来的k2倍,而与a的大小无关.
[跟进训练]
1.(1)(多选)下列四个选项中,正确的是(  )
A.极差与方差都反映了数据的集中程度
B.方差是没有单位的统计量
C.标准差比较小时,数据比较分散
D.只有两个数据时,极差是标准差的2倍
(2)样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本的方差为________.
(1)AD (2)2 [(1)设两个数据分别为x1,x2,则极差等于标准差等于,故D正确.由定义可知A正确,B,C错误.
(2)由平均数为1可得=1,
解得a=-1.所以样本的方差s2==2.]
类型2 方差和标准差的应用
【例2】 为响应“绿色出行”号召,某市先后推出了“共享单车”和“新能源分时租赁汽车”,并计划在甲、乙两个工厂选择一个工厂生产汽车轮胎,现分别从甲、乙两厂各随机选取10个轮胎,将每个轮胎的宽度(单位:mm)记录下来并绘制出如下的折线图:
(1)分别计算甲、乙两厂提供的10个轮胎宽度的平均数;
(2)轮胎的宽度在[194,196]内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个工厂会被选择.
[解] (1)甲厂提供的10个轮胎宽度的平均数为
×(195+194+196+193+194+197+196+195+193+197)=195.
乙厂提供的10个轮胎宽度的平均数为
×(195+196+193+192+195+194+195+192+195+193)=194.
(2)甲厂提供的10个轮胎的宽度在[194,196]内的数据为195,194,196,194,196,195,共6个,标准轮胎宽度的平均数为=195,方差为×(0+1+1+1+1+0)=.
乙厂提供的10个轮胎的宽度在[194,196]内的数据为195,196,195,194,195,195,共6个,标准轮胎宽度的平均数为=195,
方差为×(0+1+0+1+0+0)=.
由于甲、乙两厂标准轮胎宽度的平均数相等,但乙的方差更小,所以乙厂的轮胎会被选择.
 在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度.在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,离散程度越小,数据越集中,越稳定.
[跟进训练]
2.汽车行业是碳排放量比较大的行业之一,某检测单位对甲、乙两类MI型品牌的新车各抽取了5辆进行CO2排放量检测,记录如下(单位:g/km),则甲、乙两品牌汽车CO2的排放量稳定性更好的是(  )
甲 80 110 120 140 150
乙 100 120 100 120 160
A.甲   B.乙
C.甲、乙相同   D.无法确定
B [甲类品牌汽车的CO2排放量的平均值
=120(g/km),
甲类品牌汽车的CO2排放量的方差
×[(80-120)2+(110-120)2+(120-120)2+(140-120)2+(150-120)2]=600.
乙类品牌汽车的CO2排放量的平均值
=120(g/km),
乙类品牌汽车的CO2排放量的方差
×[(100-120)2+(120-120)2+(100-120)2+(120-120)2+(160-120)2]=480,
所以.
故选B.]
类型3 分层随机抽样的方差
【例3】 某市教育部门采用分层随机抽样的方法从甲、乙、丙三个学校选取了100名学生的某次考试数学成绩(单位:分),并制成如下表格:
学校 学生数 平均数 方差
甲 40 98 10
乙 30 92 12
丙 30 95 15
试估计这次考试数学成绩的平均数与方差.
[解] 由题意可得,样本平均数(40×98+30×92+30×95)=95.3(分),方差s2={40×[10+(98-95.3)2]+30×[12+(92-95.3)2]+30×[15+(95-95.3)2]}=18.31,所以估计这次考试数学成绩的平均数为95.3分,方差为18.31.
 分层随机抽样的方差
设样本中不同层的平均数分别为,…,,方差分别为,…,,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=(为样本的平均数).
[跟进训练]
3.甲、乙两支田径队体检结果为:甲队体重的平均数为60 kg,方差为200,乙队体重的平均数为70 kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,求甲、乙两队全部队员的平均体重和方差.
[解] 由题意可知=60,甲队队员在所有队员中所占权重为=70,乙队队员在所有队员中所占权重为,则甲、乙两队全部队员的平均体重为×60+×70=68 kg,甲、乙两队全部队员的体重的方差为s2=[200+(60-68)2]+[300+(70-68)2]=296.
1.甲、乙、丙、丁四名射手在选拔赛中所得的平均环数及其方差s2如表所示,则选送决赛的最佳人选应是(  )
项目 甲 乙 丙 丁
7 8 8 7
s2 6.3 6.3 7 8.7
A.甲   B.乙   C.丙   D.丁
B [∵>,且,故应选择乙进入决赛.]
2.已知一组数据x1,x2,x3,x4,x5的平均数是3,方差是,那么另一组数据2x1-1,2x2-1,2x3-1,2x4-1,2x5-1的平均数、方差分别是(  )
A.5,  B.5,2  C.3,2  D.3,
B [因为数据x1,x2,x3,x4,x5的平均数是3,方差是,所以,因此数据2x1-1,2x2-1,2x3-1,2x4-1,2x5-1的平均数为-1=5,方差为====2.故选B.]
3.某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4,
则:(1)平均命中环数为________;
(2)命中环数的标准差为________.
(1)7 (2)2 [(1)=7.
(2)∵s2=×[(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,∴s=2.]
4.在对某中学高一学生体重的调查中,采取按样本量比例分配的分层随机抽样,已知抽取了男生30人,其平均数和方差分别为55和15,抽取了女生20人,其平均数和方差分别为45和20.根据以上数据估计该校高一学生体重的总样本的平均数为________,方差为________.
51 41 [总样本的平均数为×45=51,总样本的方差为×[15+(55-51)2]+×[20+(45-51)2]=41.]
回顾本节知识,自主完成以下问题:
1.描述数据的离散程度的量有哪些?分别如何描述的?
[提示] 数据的离散程度可以通过极差、方差或标准差来描述.
(1)极差是数据的最大值与最小值的差.它反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感.
(2)方差则反映了一组数据围绕平均数波动的大小.为了得到以样本数据的单位表示的波动幅度通常用标准差.在平均数相同的情况下,方差(或标准差)越大,离散程度越大,数据波动性越大,稳定性差;方差(或标准差)越小,数据越集中、越稳定.
2.如何计算一组数据的方差或标准差?
[提示] (1)公式法:s2=2+2+…+]=-;
(2)性质法:若x1,x2,…,xn的方差为s2,则mx1+a,mx2+a,…,mxn+a的方差为m2s2.
3.如何计算分层随机抽样的方差?
[提示] 计算分层随机抽样的方差s2的步骤
(1)分层随机抽样中两组数据x,y的抽样比例是;
(2)总体均值为;
(3)总体方差s2=+]+·+].
课时分层作业(四十三) 总体离散程度的估计
一、选择题
1.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
B [平均数能反映一组数据的平均水平;中位数是把一组数据从小到大或从大到小排列,若该组数据的个数为奇数,则取中间的数据,若该组数据的个数为偶数,则取中间两个数据的平均数.平均数和中位数都能反映一组数据的集中趋势,标准差和方差都能反映一组数据的稳定程度.]
2.(多选)已知一组数据x1,x2,x3,x4,x5的平均数和方差均为2,则下列叙述正确的是(  )
A.x1+1,x2+1,x3+1,x4+1,x5+1的平均数为3
B.x1+1,x2+1,x3+1,x4+1,x5+1的方差为3
C.2x1,2x2,2x3,2x4,2x5的方差为4
D.2x1+2,2x2+2,2x3+2,2x4+2,2x5+2的方差为8
AD [将每个数据在原基础上加1,故平均数加1,但是方差保持不变,故其平均数是3,方差是2,故A正确,B错误;将每个数据乘以2,故其方差变为原来的4倍,即为8,故C错误;将每个数据乘以2再加2,故其方差也变为原来的4倍,即为8,故D正确.故选AD.]
3.甲、乙、丙三名学生在一项集训中的40次测试分数都在[50,100]内,将他们的测试分数分别绘制成频率分布直方图,如图所示,记甲、乙、丙的分数的标准差分别为s1,s2,s3,则它们的大小关系为(  )
A.s1>s2>s3    B.s1>s3>s2
C.s3>s1>s2   D.s3>s2>s1
B [比较三个频率分布直方图知,甲为“双峰”直方图,两端数据最多,最分散,方差最大;乙为“单峰”直方图,数据最集中,方差最小;丙为“单峰”直方图,但数据分布相对均匀,方差介于甲、乙之间.综上可知s1>s3>s2.]
4.在高一期中考试中,甲、乙两个班的数学成绩统计如下表:
班级 人数 平均数 方差
甲 20 2
乙 30 3
其中,则两个班数学成绩的方差为(  )
A.3   B.2   C.2.6   D.2.5
C [由题意可知两个班的数学成绩的平均数为,则两个班数学成绩的方差为s2=+=×3=2.6.]
5.某选手的9个得分分别为87,87,94,90,91,90,9x,99,91,其中有一个数据的个位数模糊,无法辨认,以x表示.若去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,则7个剩余分数的方差为(  )
A.  B.  C.36  D.
B [由题意知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.
故s2=[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=.]
二、填空题
6.已知样本9,10,11,x,y的平均数是10,方差是4,则xy=________.
91 [由平均数是10,得x+y=20.①
由方差是4,得x2+y2=218.②
①2-②得2xy=182,∴xy=91.]
7.现有10个数,其平均数是4,且这10个数的平方和是200,那么这组数的标准差是________.
2 [由题意知=200,
所以s=

==2.]
8.为了调查公司员工的健康状况,用分层随机抽样的方法抽取样本,已知所抽取的所有员工的平均体重为60 kg,标准差为60,男员工的平均体重为70 kg,标准差为50,女员工的平均体重为50 kg,标准差为60,若样本中有20名男员工,则女员工的人数为________.
200 [设男、女员工的权重分别为ω男,ω女,由题意可知s2=ω男[+]+ω女[+],即ω男[502+(70-60)2]+(1-ω男)·[602+(50-60)2]=602,解得ω男=,ω女=,因为样本中有20名男员工,所以样本中女员工的人数为200.]
三、解答题
9.某班20位女同学平均分为甲、乙两组,她们的劳动技术课考试成绩(单位:分)如下:
甲组:60,90,85,75,65,70,80,90,95,80;
乙组:85,95,75,70,85,80,85,65,90,85.
(1)试分别计算两组数据的极差、方差;
(2)哪一组的成绩较稳定?
[解] (1)甲组:最高分为95,最低分为60,极差为95-60=35,
平均数为×(60+90+85+75+65+70+80+90+95+80)=79,
方差为×[(60-79)2+(90-79)2+(85-79)2+(75-79)2+(65-79)2+(70-79)2+(80-79)2+(90-79)2+(95-79)2+(80-79)2]=119.
乙组:最高分为95,最低分为65,极差为95-65=30,
平均数为×(85+95+75+70+85+80+85+65+90+85)=81.5,
方差为=75.25.
(2)由于乙组的方差小于甲组的方差,因此乙组的成绩较稳定.
从(1)中得到的极差也可看出乙组的成绩比较稳定.
10.一组数据中的每一个数据都乘2,再都减80,得一组新数据,若求得新数据的平均数是1.2,方差是4.4,则原来数据的平均数和方差分别是(  )
A.40.6,1.1   B.48.8,4.4
C.81.2,44.4   D.78.8,75.6
A [法一:设原来的数据为x1,x2,x3,…,xn,则新数据为2x1-80,2x2-80,2x3-80,…,2xn-80,
所以=1.2,
所以=1.2,
即=40.6.
[(2x1-80-1.2)2+(2x2-80-1.2)2+…+(2xn-80-1.2)2]=4.4,
即[(2x1-81.2)2+(2x2-81.2)2+…+(2xn-81.2)2]=4.4,
所以[(2x1-81.2)2+(2x2-81.2)2+…+(2xn-81.2)2]=×4.4=1.1.
法二:设原数据的平均数为,方差为s2,则数据中的每一个数都乘2,再都减80,得一组新数据后,新数据的平均数为-80,方差为22s2,
由题意得2-80=1.2,22s2=4.4,解得=40.6,s2=1.1.]
11.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为和,样本标准差分别为sA和sB,则(  )
A.>,sA>sB
B.<,sA>sB
C.>,sAD.<,sAB [由题图知,A组的6个数分别为2.5,10,5,7.5,2.5,10;B组的6个数分别为15,10,12.5,10,12.5,10,
所以,
.
显然<.
又由图形可知,B组数据的分布比A组的均匀,变化幅度不大,故B组数据比较稳定,方差较小,从而标准差较小,所以sA>sB.]
12.(多选)已知样本x1,x2,…,xl的平均数为,方差为,样本y1,y2,…,ym的平均数为,方差为,样本z1,z2,…,zn的平均数为,方差为,设样本x1,,…,,…,,…,的平均数为,方差为s2,则下列说法正确的是(  )
A.
B.
D.s2=+]+m[]+n[+]}
ACD [依题意,x1+x2+…+xl=l·,A正确、B错误;由方差的定义知=
=+]+m[+]},D正确.故选ACD.]
13.从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得频率分布直方图如图,则这500件产品质量指标值的样本方差s2=________(同一组中的数据用该组区间的中点值作代表).
110 [由频率分布直方图得抽取产品的质量指标值的样本平均值为(100×0.010+110×0.020+120×0.035+130×0.030+140×0.005)×10=120,
∴样本方差s2=[(100-120)2×0.010+(110-120)2×0.020+(120-120)2×0.035+(130-120)2×0.030+(140-120)2×0.005]×10=110.]
14.(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.
(1)求;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
[解] (1)由表格中数据可得:
=+10.0=10.0,
=+10.0=10.3,
=0.036,
×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据可得>,所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
15.甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示.
(1)填写下表:
项目 平均数 方差 中位数 命中9环及以上
甲 7 1.2 1
乙 5.4 3
(2)请从三个不同的角度对这次测试进行分析.
①由平均数和方差结合分析谁的成绩更稳定;
②由平均数和中位数结合分析谁的成绩更好些;
③由折线图上两人射击命中环数及走势分析谁更有潜力.
[解] (1)由题图可知,乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,所以(2+4+6+8+7+7+8+9+9+10)=7.
乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,所以中位数是=7.5.
甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.
于是填充后的表格如下表所示.
平均数 方差 中位数 命中9环及以上
甲 7 1.2 7 1
乙 7 5.4 7.5 3
(2)①甲、乙的平均数相同,均为7,但,说明甲偏离平均数的程度小,而乙偏离平均数的程度大,故甲的成绩更稳定.
②甲、乙的平均水平相同,而乙的中位数比甲大,故从平均数和中位数的角度分析乙射靶成绩比甲好.
③从折线图可以看出乙的成绩有明显进步,甲的较为稳定,所以乙更有潜力.
9.3 统计案例 公司员工的肥胖情况调查分析(略)第9章 统计 章末综合提升
类型1 抽样方法
1.抽样方法有:简单随机抽样、分层随机抽样.对抽样方法的考查,主要有两点:一是两种抽样方法的判断;二是关于分层随机抽样的样本容量的计算问题,特别与其他的问题结合在一起的问题要引起重视.
2.掌握两种抽样方法,提升数据分析素养.
【例1】 (1)某市举行以“学习党的二十大精神,培根铸魂育新人”为主题的中小学教师演讲比赛.若将报名的50位教师编号为00,01,…,49,利用下面的随机数表来决定他们的出场顺序,选取方法是从下面随机数表第1行第5列开始横向依次选取两个数字,重复的剔除,则选出来的第8个个体的编号为(  )
45 67 32 12 12 31 02 01 04 52 15 20 01 12 51 29
32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81
A.12   B.20   C.29   D.23
(2)(多选)(2022·山东聊城一中月考)某校高二年级有男生600人,女生400人,张华按男生、女生进行分层,通过分层随机抽样的方法,得到一个总样本量为100的样本,计算得到男生、女生的平均身高分别为170 cm和160 cm,方差分别为15和30,则下列说法正确的有(  )
A.若张华采用样本量比例分配的方式进行抽样,则男生、女生分别应抽取60人和40人
B.若张华采用样本量比例分配的方式进行抽样,则样本的方差为37.8
C.若张华采用样本量比例分配的方式进行抽样,则样本的平均数为166,此时可用样本平均数估计总体的平均数
D.若张华采用等额抽取,即男生、女生分别抽取50人,则某男生甲被抽到的概率为
(1)B (2)AC [(1)根据随机数表的读数规则,依次从随机数表中读出的有效编号为:32,12,31,02,01,04,15,20,得到选出来的第8个个体的编号为20.故选B.
(2)A选项,男生抽取100×=60,女生抽取100-60=40人,A选项正确.
C选项,样本平均数为×160=166,可以用样本平均数估计总体的平均数,C选项正确.
B选项,样本方差为==45,所以B选项错误.
D选项,男生甲被抽到的概率为,D选项错误.
故选AC.]
类型2 统计图表及其应用
1.常见的统计图表有:频率分布直方图、条形图、折线图、扇形图等等,不同的统计图表在表示数据上有不同的特点.
2.掌握常见的统计图表,提升直观想象、数据分析和数学运算素养.
【例2】 (1)(多选)(2022·江苏沭阳县修远中学期末)某中学举行安全知识竞赛,对全校参赛的1 000名学生的得分情况进行了统计,把得分数据按照[50,60),[60,70),[70,80),[80,90),[90,100]分成了5组,绘制了如图所示的频率分布直方图,根据图中信息,下列说法正确的是(  )
A.这组数据的极差为50 
B.这组数据的众数为76
C.这组数据的中位数为 
D.这组数据的第75百分位数为85
(2)(多选)(2022·山东济南市历城第二中学月考)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进行抽样调查,得出如下的统计图:
用该样本估计总体,以下说法正确的有(  )
A.57周岁以上参保人数最少 
B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐
D.31周岁以上的人群约占参保人群80%
(1)CD (2)ACD [(1)对于A:由频率分布直方图无法得到这组数据的最大值和最小值,
故这组数据的极差无法准确判断,故A错误;
数据的众数为(70+80)=75,故B错误;
(0.005+0.02+0.035)×10=0.6>0.5,(0.005+0.02)×10=0.25<0.5,所以中位数位于[70-80)之间,设中位数为x,则(0.005+0.02)×10+×0.035=0.5,解得x=,即这组数据的中位数为,故C正确;
∵(0.005+0.02+0.035)×10=0.6,(0.005+0.02+0.035+0.03)×10=0.9,故估计第75分位数是80+×10=85,故D正确.故选CD.
(2)由扇形图可知,57周岁以上参保人数最少,故A正确;
由折线图可知,18~30周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故B错误;
由条形图可知,C险种参保比例最高,故C正确;
由扇形图可知,31周岁以上的人群约占参保人群80%,故D正确.故选ACD.]
类型3 用样本的集中趋势、离散程度估计总体
1.为了从整体上更好地把握总体规律,我们还可以通过样本数据的众数、中位数、平均数估计总体的集中趋势,通过样本数据的方差或标准差估计总体的离散程度.
2.掌握样本数据的众数、中位数、平均数及方差的计算方法,提升数据分析和数学运算素养.
【例3】 某工厂36名工人的年龄(单位:岁)数据如下:
40,44,40,41,33,40,45,42,43,36,31,38,39,43,45,39,38,36,27,43,41,37,24,42,37,44,42,34,39,43,38,42,53,37,49,39.
利用简单随机抽样抽取容量为9的样本,其年龄数据为44,40,36,43,36,37,44,43,37.
(1)计算样本的平均数和方差s2;
(2)36名工人中年龄在-s与+s之间的有多少人?所占的百分比是多少?(精确到0.01%)
[解] (1)由平均数公式知,×(44+40+36+43+36+37+44+43+37)=40,由方差公式知,s2=×[(44-40)2+(40-40)2+…+(37-40)2]=.
(2)因为s2=,则s=,所以36名工人中年龄在+s之间的人数等于年龄在区间[37,43]内的人数,共23人.
所以36名工人中年龄在+s之间的人数所占的百分比为×100%≈63.89%.
章末综合测评(四) 统计
(时间:120分钟 满分:150分)
一、选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.某工厂为了了解加工的一批零件的长度,抽测了其中200个零件的长度,在这个问题中,200个零件的长度是(  )
A.总体 B.个体 C.样本 D.样本量
C [总体是这一批零件的长度,个体是每个零件的长度,样本是抽取的200个零件的长度,样本量是200.]
2.在实际生活中,有的问题适合普查,例如人口变化,有的问题适合抽样调查,例如产品质量.下列最适合抽样调查的是(  )
A.高一·一班数学作业完成情况
B.了解一批牛奶的质量
C.某汽车4S店想知晓新客户对服务的评价
D.环保局调查管辖范围内湖泊的水质情况
B [依据总体的特殊性,B项最适合抽样调查.]
3.某地每十万人中拥有的各类受教育程度的人口情况,绘制了如图所示的扇形统计图,则(  )
A.每十万人中拥有高中(含中专)文化程度的人数最少
B.每十万人中拥有大专及以上文化程度的人数少于2万
C.每十万人中拥有小学文化程度的人数最多
D.每十万人中拥有初中和高中(含中专)文化程度的人数占比不到50%
B [对于A,每十万人中其他文化程度的人数最少,占比为10%,错误;
对于B,每十万人中拥有大专及以上文化程度的人数为10×15%=1.5万,正确;
对于C,每十万人中拥有初中文化程度的人数最多,占比为35%,错误;
对于D,每十万人中拥有初中和高中(含中专)文化程度的人数占比为50%,错误.故选B.]
4.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为a,众数为b,平均值为c,则(  )
A.a=b=c   B.a=b<c 
C.a<b<c   D.b<a<c
D [由统计图知众数b=5.
将30名学生得分从小到大排列,第15个数是5,第16个数是6,所以中位数a==5.5.
又平均值c=≈5.97.所以b<a<c.]
5.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则(  )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
B [讲座前中位数为>70%,所以A错误;
讲座后问卷答题的正确率只有一个是80%,4个85%,剩下全部大于等于90%,所以讲座后问卷答题的正确率的平均数大于85%,所以B正确;
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错误;
讲座后问卷答题的正确率的极差为100%-80%=20%,
讲座前问卷答题的正确率的极差为95%-60%=35%>20%,所以D错误.故选B.]
6.(2022·河北邯郸摸底考试)某高中2022年的高考考生人数是2021年高考考生人数的1.5倍.为了更好地对比该校考生的升学情况,统计了该校2021年和2022年高考分数达线情况,得到如图所示扇形统计图:
下列结论正确的是(  )
A.该校2022年与2021年的本科达线人数比为6∶5
B.该校2022年与2021年的专科达线人数比为6∶7
C.2022年该校本科达线人数增加了80%
D.2022年该校不上线的人数有所减少
C [不妨设2021年的高考人数为100,则2022年的高考人数为150.
2021年本科达线人数为50,2022年本科达线人数为90,得2022年与2021年的本科达线人数比为9∶5,本科达线人数增加了80%,故选项A错误,选项C正确;
2021年专科达线人数为35,2022年专科达线人数为45,所以2022年与2021年的专科达线人数比为9∶7,选项B错误; 2021年不上线人数为15,2022年不上线人数也是15,不上线的人数无变化,选项D错误.故选C.]
7.某班有48名学生,在一次考试中统计出平均分为70分,方差为75,后来发现有2名同学的分数录错了,甲实得80分,却记了50分,乙实得70分,却记了100分,更正后平均分和方差分别是(  )
A.70,75   B.70,50
C.75,1.04   D.65,2.35
B [因甲少记了30分,乙多记了30分,故平均分不变,设更正后的方差为s2,则由题意可得s2=[(x1-70)2+(x2-70)2+…+(80-70)2+(70-70)2+…+(x48-70)2],而更正前有75=[(x1-70)2+(x2-70)2+…+(50-70)2+(100-70)2+…+(x48-70)2],化简整理得s2=50.]
8.(2022·山东泰安期末)某校组织歌咏比赛,已知5位评委按百分制分别给出某参赛班级的评分(评分为整数),则下列选项中,可以判断出评分中一定出现100分的是(  )
A.平均数为97,中位数为95
B.中位数为95,众数为98
C.平均数为98,众数为98
D.中位数为96,极差为8
A [对于A,设这5个数为a,b,95,c,d,其中a≤b≤95≤c≤d≤100,则a+b≤190,=97,所以a+b+c+d=390,
因为a+b≤190,所以c+d≥200,所以c=d=100,
所以平均数为97,中位数为95时,评分中一定出现100分,故A符合;
对于B,当这5个数分别为93,94,95,98,98时,
则中位数为95,众数为98,没有出现100分,故B不一定;
对于C,当这5个数分别为98,98,98,98,98时,
则平均数为98,众数为98,没有出现100分,故C不一定;
对于D,当这5个数分别为90,92,96,98,98时,
则中位数为96,极差为8,没有出现100分,故D不一定.故选A.]
二、选择题(本大题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求,全部选对的得5分,部分选对的得2分,有选错的得0分)
9.(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则(  )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
CD [设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为+c,m+c,σ,t,因为c≠0,所以C,D正确,故选CD.]
10.(2022·重庆市两江育才中学月考)为落实党中央的“三农”政策,某市组织该市所有乡镇干部进行了一期“三农”政策专题培训,并在培训结束时进行了结业考试.如图是该次考试成绩随机抽样样本的频率分布直方图.则下列关于这次考试成绩的估计正确的是(  )
A.众数为82.5 
B.第80百分位数为91.7
C.平均数为88 
D.没有一半以上干部的成绩在80~90分之间
AB [由图知:众数出现在[80,85)之间,故众数为82.5,故A正确;由图可得该次考试成绩在90分以下所占比例为5×(0.01+0.03+0.06+0.05)=0.75,在95分以下所占比例为5×(0.01+0.03+0.06+0.05+0.03)=0.9,因此,第80百分位数一定位于[90,95)内,所以第80百分位数为90+5×≈91.7,故B正确;由(0.01×72.5+0.03×77.5+0.06×82.5+0.05×87.5+0.03×92.5+0.02×97.5)×5=85.5,C错误;由(0.06+0.05)×5=0.55>0.5,有一半以上干部的成绩在80~90分之间,D错误.故选AB.]
11.下列命题是真命题的是(  )
A.分层随机抽样调查后的样本中甲、乙、丙三种个体的比例为3∶1∶2,如果抽取的甲个体数为9,则样本容量为30
B.某一组样本数据为125,120,122,105,130,114,116,95,120,134,则样本数据落在区间[114.5,124.5]内的频率为0.4
C.甲、乙两队队员体重的平均数分别为60,68,人数之比为1∶3,则甲、乙两队全部队员体重的平均数为67
D.一组数6,5,4,3,3,3,2,2,2,1的85%分位数为5
BD [对于选项A:根据样本的抽样比等于各层的抽样比,样本容量为9÷=18,故选项A错误;
对于选项B:样本数据落在区间[114.5,124.5]内的有120,122,116,120共4个,所以样本数据落在区间[114.5,124.5]内的频率为=0.4,故选项B正确;
对于选项C:甲、乙两队的人数之比为1∶3,则甲队队员在所有队员中所占权重为=,乙队队员在所有队员中所占权重为=,则甲、乙两队全部队员体重的平均数为=×60+×68=66,故选项C错误;
对于选项D:将该组数据从小到大排列为:1,2,2,2,3,3,3,4,5,6,由10×85%=8.5,则该组数据的85%分位数是第9个数,该数为5,故选项D正确.]
12.某学校共有学生2 000人,其中高一800人,高二、高三各600人,学校对学生在暑假中每天的读书时间做了调查统计,全体学生每天的读书时间的平均数为=3小时,方差为s2= 2.003,其中高一学生、高二学生每天读书时间的平均数分别为=2.6,=3.2,又已知三个年级学生每天读书时间的方差分别为===3,则高三学生每天读书时间的平均数可能是(  )
A.3.2   B.3.3   C.2.7   D.4.5
BC [由题意可得2.003=[1+(2.6-3)2]+[2+(3.2-3)2]+[3+(-3)2],解得=3.3或2.7.]
三、填空题(本大题共4小题,每小题5分,共20分)
13.下列数据的70%分位数为________.
20,14,26,18,28,30,24,26,33,12,35,22.
28 [把所给的数据按照从小到大的顺序排列可得:
12,14,18,20,22,24,26,26,28,30,33,35,
因为有12个数据,所以12×70%=8.4,不是整数,所以数据的70%分位数为第9个数28.]
14.我国高铁发展迅速,技术先进.经统计在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
0.98 [==0.98,则经停该站高铁列车所有车次的平均正点率的估计值为0.98.]
15.(2022·江西贵溪一中月考)某口罩生产商为了检验产品质量,从总体编号为001,002,003,…,499,500的500盒口罩中,利用随机数表(以下摘取了随机数表中第12行至第13行)选取10个样本进行抽检,选取方法是从随机数表第12行第5列的数字开始由左向右读取,则选出的第4个样本的编号为________.
16 00 11 66 14 90 84 45 11 65 73 88 05 90 52 27 41 14 86 22 98
12 22 08 07 52 74 95 80 35 69 68 32 50 61 28 47 39 75 34 58 62
222 [从随机数表第12行第5列的数字开始由左向右读取,依次可以得到:116,445,148,222,080,356,…,则选出的第4个样本的编号为222.]
16.从某小学随机抽取100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层随机抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.
0.030 3 [∵5个矩形面积之和为1,
即(0.005+0.010+0.020+a+0.035)×10=1,
∴a=0.030.
∵三组内学生数的频率分别为:0.3,0.2,0.1,
∴三组内学生的人数分别为30,20,10.
∴从身高在[140,150]内的学生选取的人数为18×=3.]
四、解答题(本大题共6小题,共70分.解答应写出文字说明,证明过程或演算步骤)
17.(本小题满分10分)(2022·黑龙江哈尔滨四中月考)从甲、乙、丙三个厂家生产的同一种产品中抽取8件产品,对其使用寿命(单位:年)进行追踪调查,结果如下:
甲:5,5,6,6,8,8,8,10;
乙:4,5,6,7,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
(1)三个厂家的广告中都称该产品的使用寿命是8年,请指出________(从“甲、乙、丙”三厂家中选择一个)厂家在广告中依据了统计数据中的哪个特征数?
(2)计算甲厂家抽取的8件产品的方差.
[解] (1)选择甲厂家,因为甲厂家抽取的8件产品的众数是8,所以甲厂家的广告依据了统计数据中的众数;
选择乙厂家,因为乙厂家抽取的8件产品的平均数是8,所以乙厂家的广告依据了统计数据中的平均数;
选择丙厂家,因为丙厂家抽取的8件产品的中位数是8,所以丙厂家的广告依据了统计数据中的中位数.
(2)甲厂家抽取的8件产品的使用寿命为5,5,6,6,8,8,8,10,
其平均数为=×(5+5+6+6+8+8+8+10)=7,
方差为s2=×(22+22+12+12+12+12+12+32)=2.75.
18.(本小题满分12分)随机抽取某4S店分公司20位员工今年的销售业绩,统计如下所示(单位:辆):
26 34 28 32 35 38 22 39 23 25
28 30 24 38 33 33 22 34 21 27
(1)若需要有10%的优秀员工,应将标准设定在多少?
(2)若要给至少80%的员工年度考评评级为通过,应将标准设定在多少?
[解] (1)将20个样本数据从小到大进行排序如下所示(单位:辆):
21 22 22 23 24 25 26 27 28 28
30 32 33 33 34 34 35 38 38 39
由于20×90%=18是整数,所以临界值为有序样本中第18和19两个数的平均数,故为38.因此,可以规定如下:若需要有10%的优秀员工,应将标准设定在38辆.
(2)由于20×20%=4是整数,所以临界值为有序样本中第4和5两个数的平均数,故为23.5.因此,可以规定如下:若要给至少80%的员工年度考评评级为通过,应将标准设定23辆,或22辆,或21辆.
19.(本小题满分12分)某公司为了了解近期内的用水情况,抽取了10天的用水量,如下表所示:
天数 1 1 1 2 2 1 2
用水量/吨 22 38 40 41 44 50 95
(1)在这10天中,该公司用水量的平均数是多少?
(2)在这10天中,该公司每天用水量的中位数是多少?
(3)你认为用平均数和中位数中的哪一个数来描述该公司每天的用水量更合适?
[解] (1)=(22+38+40+2×41+2×44+50+2×95)=51(吨).
(2)中位数为=42.5(吨).
(3)平均数受数据中的极端值(2个95)影响较大,使用平均数在估计总体时可靠性降低,10天的用水量有8天都在平均值以下,故用中位数描述每天的用水量更合适.
20.(本小题满分12分)随着老年人消费需求从“生存型”向“发展型”转变,消费层次不断提升,“银发经济”成为社会热门话题之一,被各企业持续关注.某企业为了解该地老年人消费能力情况,对该地年龄在[60,80)的老年人的年收入按年龄[60,70),[70,80)分成两组进行分层抽样调查,已知抽取了年龄在[60,70)的老年人500人,年龄在[70,80)的老年人300人.现作出年龄在[60,70)的老年人年收入的频率分布直方图(如图所示).
(1)根据频率分布直方图,估计该地年龄在[60,70)的老年人年收入的平均数及第95百分位数;
(2)已知年龄在[60,70)的老年人年收入的方差为3,年龄在[70,80)的老年人年收入的平均数和方差分别为3.75和1.4,试估计年龄在[60,80)的老年人年收入的方差.
[解] (1)频率分布直方图中,该地年龄在[60,70)的老年人年收入的平均数约为:
0.04×2+0.08×3+0.18×4+0.26×5+0.20×6+0.15×7+0.05×8+0.04×9=5.35,
由频率分布直方图,年收入在8.5万元以下的老年人所占比例为1-0.04×1=0.96,
年收入在7.5万元以下的老年人所占比例为1-(0.05×1+0.04×1)=0.91,
因此,第95百分位数一定位于[7.5,8.5)内,由7.5+1×=8.3,
可以估计该地年龄在[60,70)的老年人年收入的第95百分位数为8.3.
(2)设年龄在[60,70)的老年人样本的平均数记为,方差记为;
年龄在[70,80)的老年人样本的平均数记为,方差记为;
年龄在[60,80)的老年人样本的平均数记为,方差记为s2.
由(1)得,由题意得,==1.4,
则==4.75.
由s2=×{500×+300×+()2]},可得s2=×{500×[3+(5.35-4.75)2]+300×[1.4+(3.75-4.75)2]}=3,
即估计该地年龄在[60,80)的老年人的年收入方差为3.
21.(本小题满分12分) 某校高一年级学生全部参加了体育科目的达标测试,现从中随机抽取40名学生的测试成绩(单位:分),整理数据并按分数段[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]进行分组.已知测试分数均为整数,现用每组区间的中点值代替该组中的每个数据,得到体育成绩的折线图如图所示.
(1)若体育成绩大于或等于70分的学生为“体育良生”,已知该校高一年级有1 000名学生,试估计该校高一年级学生“体育良生”的人数;
(2)用样本估计总体的思想,试估计该校高一年级学生达标测试的平均分;
(3)假设甲、乙、丙三人的体育成绩分别为a,b,c,且a∈[70,80),b∈[80,90),c∈[90,100],当三人的体育成绩方差s2最小时,写出a,b,c的所有可能取值(不要求证明).
[解] (1)由折线图得体育成绩大于或等于70分的学生有14+3+13=30(人),所以估计该校高一年级学生“体育良生”的人数为1 000×=750(人).
(2)用样本估计总体的思想,估计该校高一年级学生达标测试的平均分为=×(45×2+55×6+65×2+75×14+85×3+95×13)=77.25(分).
(3)因为甲、乙、丙三人的体育成绩分别为a,b,c,且a∈[70,80),b∈[80,90),c∈[90,100],其中a,b,c∈N,
所以当三人的体育成绩方差s2最小时,a,b,c的所有可能取值为79,84,90或79,85,90.
22.(本小题满分12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 1 2 3 4 5 6 7 8
零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
抽取次序 9 10 11 12 13 14 15 16
零件尺寸 10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
0.212,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16. 一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(1)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(2)在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:≈0.09.
[解] (1)由于≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在+3s)以外,因此需对当天的生产过程进行检查.
(2)剔除离群值,即第13个数据,剩下数据的平均数为(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
剔除第13个数据,剩下数据的样本方差为(1 591.134-9.222-15×10.022)≈0.008,
所以这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.