专题12.5 随机抽样与用样本估计总体
1.随机抽样
⑴简单随机抽样
一般地,设一个总体含有 (为正整数)个个体,从中逐个抽取个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
⑵常见的简单随机抽样方法:
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本;
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
⑶简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
2.分层随机抽样
⑴定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.在分层抽样中,如果每层样本量都与层的大小成比例,那么成这种样本量的分配方式为比例分配.
⑵分层随机抽样的步骤
①按某种特征将总体分成若干部分(层);
②计算各层所占比例所占比例=;
③计算各层抽取的个体数,各层抽取的个体数=样本量×各层所占比例;
④按简单随机抽样从各层抽取样本,综合每层抽样,组成样本.
3.总体平均数与样本平均数
名称 定义
总体均值(总体平均数) 一般地,总体中有个个体,它们的变量值分别为,则称为总体均值,又称总体平均数.
如果总体的个变量值中,不同的值共有 个,不妨记为,其中出现的频率,则总体均值还可以写成加权平均数的形式.
样本均值(样本平均数) 如果从总体中抽取一个容量为的样本,它们的变量值分别为,则称 为样本均值,又称样本平均数.
说明:⑴在简单随机抽样中,我们常用样本均值去估计总体平均数; ⑵总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性); ⑶一般情况下,样本量越大,估计越准确.
4.统计图表
常见的统计图表有条形图、扇形图、折线图、频率分布直方图等.
①条形统计图的特点
优点:从条形统计图中能够很直观地看出各组中数据的多少,每一个条形都能体现该组中的具体数据,也易比较数据间的差别.
缺点:不能显示出部分与整体的关系.
②扇形统计图的特点
i.圆代表总体;
ii.扇形代表总体中的不同部分;
iii.扇形的大小反映部分占总体的百分比的大小;
iv.各个扇形所占的百分比之和为1.但是,在不同的统计图中,不能简单地根据百分比的大小来比较部分量的大小.
③折线统计图
折线统计图和条形统计图很相似,制图步骤与条形统计图也基本相同,只是不画直条,而是按照数据的大小描出各点,再用线段顺次连接起来.它不但可以表示出数量的多少,而且能够从折线的起伏中清楚直观地表示出数量增减变化的情况.
④频率分布直方图
i.作频率分布直方图的步骤
求极差(即一组数据中最大值与最小值的差)决定组距与组数将数据分组列频率分布表画频率分布直方图.
ii.与频率分布直方图有关的常用结论
a.小长方形的面积=组距.
b.各小长方形的面积之和等于1.
c. ,此关系式的变形为,样本容量频率=频数.
d.在频率分布直方图中,各小矩形的面积之比等于频率之比,各小矩形的高度之比也等于频率之比.
5.总体百分位数的估计
⑴第百分位数的定义
一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
⑵计算一组个数据的第百分位数的步骤:
①按从小到大排列原始数据;
②计算;
③若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
6.样本的数字特征
⑴众数:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数.
⑵中位数:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
⑶平均数:一组数据的和与这组数据的个数的商称为这组数据的平均数.数据的平均数为
.
⑷标准差与方差
如果有个数据,那么平均数,标准差为:
,
方差:
⑸平均数、方差的性质
如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
1.【人教A版必修二 9.2.3总体集中趋势的估计 练习3 P209】奥运会跳水比赛中共有名评委给出某选手原始评分,在评定该选手的成绩时,去掉其中一个最高分和一个最低分,得到个有效评分,则与个原始评分不全相同相比,一定会变小的数字特征是( )
A. 众数 B. 方差 C. 中位数 D. 平均数
2.【人教A版必修二 9.2.4总体离散程度的估计 练习2 P215】若数据,,,的方差为,数据,,,的方差为,其中,,均为非零常数,则“”是“”的( )
A. 充分不必要条件 B. 必要不充分条件
C. 充要条件 D. 既不充分也不必要条件
【方法储备】
1.简单随机抽样
⑴抽签法满足的条件:一是抽签是否方便;二是号签是否易搅匀.
一般地,当总体容量和样本容量都较小时可用抽签法.
⑵随机数表法:对个体进行编号时要保证每个个体的编号位数一样,若是两位都是两位,若是三位都是三位;读数时注意结合编号特点进行读取,若编号为两位数字,则两位两位地读取,若编号为三位数字,则三位三位地读取;在读取号码时如果超过总体的号码或出现重复时要舍去,继续读取,直至完成抽样.
2.分层抽样中的计算问题
⑴已知每层间的个体数量或数量比、样本容量、总体数量中的两个时,可求出第三个.
⑵设样本中不同层的平均数和相应权重分别为和,则样本平均数为
.
(某层的权重为该层被抽中的个体数与总样本容量的比值.)
⑶设样本中不同层的平均数分别为,方差分别为,相应的权重分别为,则这个样本的方差为,为总体样本数据的平均数.
【典例精讲】
例1.(2023·河南省开封市月考)(多选)要考察某种品牌的颗种子的发芽率,从中抽取颗种子进行实验,利用随机数表法抽取种子,先将颗种子按,,,进行编号,如果从随机数表第行第列的数开始并向右读,下列选项中属于最先检验的颗种子中一个的是________下面抽取了随机数表第行至第行( )
A. B. C. D.
例2.(2023·云南省曲靖市联考) 珠江源位于云南东部曲靖市以北公里处,整个景区由马雄山珠江源花山湖和城区部分景点组成,总面积平方公里珠江源风景区是森林公园省级风景名胜区国际水利风景名胜区景区森林茂密,溪流淙淙,有“一水滴三江,一脉隔双盘”的奇异景观其美景吸引着大批的游客前往参观,某旅行社分年龄段统计了前往珠江源的老中青旅客的人数比为::,现使用分层随机抽样的方法从这些旅客中随机抽取名,若青年旅客抽到人,则下列说法正确的是( )
A. 被抽到的老年旅客和中年旅客人数之和超过
B.
C. 中年旅客抽到人
D. 老年旅客抽到人
【拓展提升】
练1-1(2023·湖北省黄冈市月考) 为了调研桐城市的空气质量状况,某课题组对范岗镇、双港镇、文昌街道三地空气质量进行调查,按地域特点在三地内设置空气质量观测点.已知三地内观测点的个数分别为、、,依次构成等差数列,且、、成等比数列,若采用分层抽样的方泫抽取个观测点的数据,则应从文昌街道抽取的观测点的数据个数为( )
A. B. C. D.
练1-2(2023·辽宁省重点高中二模)(多选) 年是中国共产党成立周年,年中国共产党的诞生掀开了中国历史的新篇章.百年来,党带领全国人民谱写了中华民族自强不息、顽强奋进的壮丽史诗.某校在全校开展党史学习教育活动暨问卷测试,已知该校高一年级有学生人,高二年级有学生人,高三年级有学生人.为了解全校学生问卷测试成绩的情况,按年级进行分层随机抽样得到容量为的样本.若在高一年级中抽取了人,则下列结论定成立的是( )
A. 样本容量
B. 在抽样的过程中,女生甲被抽中的概率与男生乙被抽中的概率是不相等的
C. 高二年级,高三年级应抽取的人数分别为人,人
D. 如果高一,高二,高三年级问卷测试成绩的平均分分别为分,分,分,那么估计该校全体学生本次问卷测试成绩的平均分为分
【方法储备】
1.扇形图:直观得出各类数据占总数的比例;
2.折线图:得出数据随时间的变化趋势;
3.条形图和直方图:直观得出不同类别或分组数据的频数和频率.
4.强调:从频率分布直方图中得出有关数据的方法
⑴众数:最高长方形底边中点对应的横坐标.
⑵中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
⑶平均数:频率分布直方图中每个小长方形的面积与对应小长方形底边中点的横坐标的乘积之和.
⑷参数:若纵轴上存在待求参数,则根据“所有小长方形的高之和组距=1”列方程即可求得.
注意:从频率分布直方图中得出的众数、中位数、平均数等均为估计值.
【典例精讲】
例3.(2023·山西省金太阳联考)(多选)十项全能是田径运动中全能项目的一种,是由跑、跳、投等个田径项目组成的综合性男子比赛项目,比赛成绩是按照国际田径联合会制定的专门田径运动会全能评分表将各个单项成绩所得的评分加起来计算的,总分多者为优胜者如图,这是某次十项全能比赛中甲、乙两名运动员的各个单项得分的雷达图,则下列说法正确的是( )
A. 在米跑项目中,甲的得分比乙的得分低
B. 在跳高和标枪项目中,甲、乙水平相当
C. 甲的各项得分比乙的各项得分更均衡
D. 甲的各项得分的极差比乙的各项得分的极差大
例4. (2023·广东省惠州市模拟)(多选)某校举行“永远跟党走、唱响青春梦”歌唱比赛,在歌唱比赛中,由名专业人士和名观众代表各组成一个评委小组给参赛选手打分.根据两个评委小组记为小组、小组对同一名选手打分的分值绘制成折线图如图所示,则( )
A. 小组打分的分值的众数为
B. 小组打分的分值第百分位数为
C. 小组是由专业人士组成的可能性较大
D. 小组打分的分值的方差小于小组打分的分值的方差
【拓展提升】
练2-1(2023·湖南省考前模拟)(多选) 某统计机构对名拥有汽车的人进行了调查,对得到的数据进行整理并制作了如图所示的统计图表,下列关于样本的说法错误的是( )
A. 岁以上人群拥有汽车的人数为
B. 岁之间的人群拥有汽车的人数最多
C. 岁以上人群每年购买车险的总费用最少
D. 岁之间的人群每年购买车险的总费用,比岁和岁以上人群购买车险的总费用之和还要多
练2-2(2023·湖北省孝感市联考)为了迎接新高考,某校举行物理和化学等选科考试,其中,名学生物理成绩的频率分布直方图如图所示.
其中成绩分组区间是:,,,,,已知成绩在,,之间的人数依次构成等差数列.
求图中,的值
根据频率分布直方图,估计这名学生物理成绩的中位数结果保留整数
若这名学生物理成绩各分数段的人数与化学成绩相应分数段的人数之间的关系如下表所示,求化学成绩低于分的人数.
分数段
,之间的关系
【方法储备】
1.百分位数的估计
计算一组个数据第百分位数的步骤
2.求样本的数字特征值
⑴利用频率分布直方图求出样本数据的众数、中位数、平均数的估计值;
⑵利用样本数据,直接求出样本的众数、中位数、平均数、极差、方差、标准差.
3.用样本估计总体
用样本的集中趋势与离散程度估计总体的集中趋势与离散程度,有两种方法:
(1)用样本的频率分布估计总体的分布;
(2)用样本的数字特征估计总体的数字特征,需要从总体中抽取一个质量较高的样本,才能不会产生较大的估计偏差, 且样本的容量越大, 估计的结果也就越精确.
4.利用平均数与方差进行决策
在实际问题中,平均数反映了数据的平均程度,方差反映了数据的集中与分散程度,结合两者对研究对象进行评估,从而给出决策依据.
【典例精讲】
例5.(2023·上海市模拟)年月日在卡塔尔世界杯决赛中,阿根廷队战胜法国队冠卡塔尔世界杯也缓缓落下了帷幕下表是连续届世界杯足球赛的进球总数:
年份
进球总数
则进球总数的第百分位数是 .
例6.(2023·福建省三明市期末) 湖北省中药材研发中心整合省农业科技创新中心、省创新联盟相关资源和力量,为全省中药材产业链延链、补链、强链提供科技支撑某科研机构研究发现,某品种中医药的药物成分甲的含量单位:与药物功效单位:药物单位之间满足检测这种药品一个批次的个样本,得到成分甲的含量的平均值为,标准差为,则估计这批中医药的药物功效的平均值为 药物单位.
例7.(2023·浙江省杭州市模拟) 冬末春初,人们容易感冒发热某公司规定:若任意连续天,每天不超过人体温高于,则称没有发生群体性发热根据下列连续天体温高于人数的统计量,能判定该公司没有发生群体性发热的为( )
①中位数为,众数为
②均值小于,中位数为
③均值为,众数为
④均值为,标准差为.
A. ①③ B. ③④ C. ②③ D. ②④
【拓展提升】
练3-1(2023·四川省泸州市模拟) 年北京冬季奥运会中国体育代表团共收获金银铜,金牌数和奖牌数均创历史新高.获得的枚金牌中,枚来自雪上项目,枚来自冰上项目.某体育院校随机调查了名学生冬奥会期间观看雪上项目和冰上项目的时间长度单位:小时,并按,,,,分组,分别得到频率分布直方图如下:
估计该体育院校学生观看雪上项目和冰上项目的时间长度的第百分位数分别是和,方差分别是和,则( )
A. , B. ,
C. , D. ,
练3-2(2023·河南省安阳市期末)(多选)设一组样本的统计数据为:,其中已知该样本的统计数据的平均数为,方差为,设函数则下列说法正确的是( )
A. 设,则的平均数为
B. 设,则的方差为
C. 当时,函数有最小值
D.
练3-3(2023·山西省运城市模拟) 随着北京冬奥会的成功举办,冰雪运动成为时尚.“三亿人参与冰雪运动”与建设“健康中国”紧密相连,对我国经济发展有极大的促进作用,我国冰雪经济市场消费潜力巨大.为了更好地普及冰雪运动知识,某市十几所大学联合举办了大学生冰雪运动知识系列讲座,培训结束前对参加讲座的学生进行冰雪知识测试,现从参加测试的大学生中随机抽取了名大学生的测试成绩满分分,将数据分为组:,,,,,得到如下频数分布表同一组中的数据用该组区间的中点值作代表:
分数
人数
若成绩不低于分为合格,不低于分为优秀,根据样本估计总体,估计参加讲座的学生的冰雪知识的合格率和优秀率;
若为样本成绩的平均数,样本成绩的标准差为,计算得,若,则不及格学生需要参加第二次讲座,否则,不需要参加第二次讲座,试问不及格学生是否需要参加第二次讲座?
1.(2023·上海市市辖区模拟) 在投票评选活动中,经常采用简单多数原则或积分原则简单多数原则指个评委对个候选人进行一次表决,各自选出认为最佳的人选,按每个候选人所得票数不同决定不同名次;积分原则指每个评委先对个候选人排定顺序,第一名得分,第二名得分,依此类推,最后一名得分,每个候选人最后的积分多少决定各自名次如表是个评委对、、、四名候选人作出的选择,则按不同原则评选,名次不相同的候选人是 .
名 选 票 数
次
2.(2023·湖南省株洲市模拟) 有一组样本数据,这组数据极差的最大值是( )
A. B. C. D.
3.(2023·安徽省合肥市模拟) 已知样本:、、、、,该样本的平均数为,样本的方差为,且样本的数据互不相同,则样本数据中的最大值是 .
【答案解析】
1.【人教A版必修二 9.2.3总体集中趋势的估计 练习3 P209】
解:在评定该选手的成绩时,去掉其中一个最高分和一个最低分,得到个有效评分,
则与个原始评分不全相同相比,
:当最高分与最低分不是众数时,去掉其中一个最高分和一个最低分后众数不变,故众数不符合题意;
:方差反应了数据的离散程度,去掉其中一个最高分和一个最低分后,数据必然变得更加集中,故方差一定会变小,故方差符合题意;
:去掉其中一个最高分和一个最低分后不影响数据排列,中间的数不变,则不会影响中位数,故中位数不符合题意;
:若分数从低到高排列成一个等差数列,则去掉其中一个最高分和一个最低分后,平均数不变,故平均数不符合题意.
故选B.
2.【人教A版必修二 9.2.4总体离散程度的估计 练习2 P215】
解:因为,所以,
若,则,所以,
所以“”是“”的必要不充分条件.
例1.解:依据题意可知:向右读数依次为:,,,,,,,,
所以最先检验的颗种子符合条件的为:,,,,
故选ACD.
例2.解:由题意从这些旅客中随机抽取名,青年旅客抽到人,
则,
所以,故B正确;
则中年旅客抽到人,故C错误;
老年旅客抽到人,故D正确;
被抽到的老年旅客和中年旅客人数之和为人,超过人,
故A正确.
故选:.
练1-1.解:三县内观测点的个数分别为,,依次构成等差数列,且,,成等比数列,
, ,,
若用分层抽样抽取个观测点,
则应从文昌街道抽取的观测点数为.
故选C.
练1-2.解:对于选项,由分层抽样的性质可得,,解得,故A选项正确,
对于选项,女生甲被抽中的概率与男生乙被抽中的概率是相等的,故B选项错误,
对于选项,该校共有学生,高二年级应抽取人,高三年级应抽取人,故C选项正确,
对于选项,高一,高二,高三年级问卷测试成绩的平均分分别为分,分,分,
估计该校全体学生本次问卷测试成绩的平均分为,故D选项正确.
故选:.
例3.解:对于选项,由雷达图可知,米跑项目中,甲的得分比乙的得分高,错;
对于选项,由图可知,在跳高和标枪项目中,甲、乙得分相同,故甲、乙水平相当,对;
对于选项,甲各项得分的波动较大,乙的各项得分均在内,波动较小,错;
对于选项,甲的各项得分最高为,最低得分在到之间,故极差超过,
乙的各项得分极差小于,故D对.
故选:.
例4.解:由折线图知,小组打分的个分值排序为:,,,,,,,,,
小组打分的个分值排序为:,,,,,,,,
对于小组打分的分值的众数为,故选项A正确
对于小组打分的分值第百分位数为,所以应排序第,
所以小组打分的分值第百分位数为,故选项B不正确
对于小组打分的分值比较均匀,即对同一个选手水平的评估相对波动较小,故小组更像是由专业人士组成,故选项C正确
对于小组打分的分值的均值约,极差为,小组打分的分值均值为,极差为,小组的极差较大,数据的波动幅度较大,根据数据离散程度可知小组的方差较大,选项D不正确.
故选AC.
练2-1.解:对于,由,知岁以上人群拥有汽车的人数为,故A错误;
对于,图表当中并没有岁的人口基数,所以由图得不出岁之间的人群拥有汽车的人数最多,故B错误;
对于,岁以上人群每年购买车险的总费用约为元,
岁之间的人群每年购买车险的总费用约为元,故C错误;
对于,岁之间的人群每年购买车险的总费用约为元,,故D正确.
故选:.
练2-2.解:因为成绩在,,之间的人数依次构成等差数列,
所以,,依次构成等差数列,
所以.
又,所以,
联立解得
设这名学生物理成绩的中位数为,则.
由,
解得.
即这名学生物理成绩的中位数为.
先求这名学生物理成绩在,,,,的人数依次为
,,,,
,
则这名学生化学成绩在,,,,的人数依次为,,,,,
所以化学成绩低于分的人数为.
例5.解:由题意将进球总数从小到大排列为:,,,,,,,,
因为,
则进球总数的第百分位数为.
故答案为:.
例6.解:根据题意,设个样本中甲的含量依次为,,,,,,平均值为克,标准差为克,
则有,
,
变形可得,
则,
则这批中医药的药物功效的平均值为.
故答案为:.
例7.解:将天体温高于人数由小到大依次记为、、、、、、
对于①,满足中位数为,众数为的个数可以为:、、、、、、,与题意矛盾,①不能判定;
对于②,假设,即该公司发生了群体性发热,
因中位数为,则,
平均数为,矛盾,
故假设不成立,即该公司没有发生群体性发热,②可以判定
对于③,满足众数为,均值为的个数可以为:、、、、、、,与题意矛盾,③不能判定
对于④,假设,即该公司发生群体性发热,
若均值为,则方差为,即,
与标准差为矛盾,故假设不成立,即该公司没有发生群体性发热,④可以判定.
练3-1.解:由题意进行数据分析,可得:
,解得:;
,解得:;所以.
比较两个频率分布直方图可以看出:雪上项目的数据更分散,冰上项目的数据更集中,由方差的意义可以得到:,
故选:
练3-2.解:对于,,,,的平均数,
,,,的平均数为,A正确;
对于,,,,的方差为,
,,,的平均数为,
方差为
,B错误;
对于,,
又,,
故,
故当时,函数有最小值,C正确;
对于,由以上可知,,,,,
,D错误.
故选AC.
练3-3.解:根据表格可知成绩不低于分的频率为,
所以估计参加培训讲座的学生的冰雪知识的合格率为;
根据表格可知成绩不低于分的频率为,
所以估计参加培训讲座的学生的冰雪知识的优秀率为.
由题得,,
所以,
故不需要不及格学生参加第二次讲座.
1.解:由题意,按简单多数原则排名,的得票数为,的得票数为,的得票数为,的得票数为,
所以第一名为,第二名为,第三名为,第四名为;
按积分原则排名,的积分为,
的积分为,
的积分为,
的积分为,
所以第一名为,第二名为,第三名为,第四名为,
按不同的原则评选,名次不相同的候选人是,.
故答案为:和.
2.解:对任意的,的值域为,
则,,,
则要使样本数据的极差最大,
所以当,或,时,样本的极差取得最大值,且最大值为,
故这组数据极差的最大值是.
故选C.
3.解:样本数据为:,,,,,
平均数为①,
方差②,
若样本数据中的最大值为,不符合②,
若样本数据中的最大值为,不妨设,
则②式变为,
由于样本数据互不相同,故这是不可能成立的,
若样本数据中的最大值为,
则样本数据为,,,,,代入验证知①②式均成立,
则样本数据中的最大值为.
故答案为:.
共17页/第17页