新教材适用2023_2024学年高中数学第9章统计学案(打包6份)(含解析)

文档属性

名称 新教材适用2023_2024学年高中数学第9章统计学案(打包6份)(含解析)
格式 zip
文件大小 1.9MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2024-01-04 16:09:46

文档简介

9.1.1 简单随机抽样
课标要求
1.通过实例,了解简单随机抽样的含义及其解决问题的过程.
2.掌握两种简单随机抽样方法:抽签法和随机数法.
3.会计算样本均值,了解样本与总体的关系.
素养要求
在简单随机抽样的实施过程中,掌握抽签法和随机数法的抽样步骤,发展学生数据分析素养.
知识点 1 全面调查与抽样调查
调查方式 全面调查 抽样调查
定义 对每一个调查对象都进行_调查__的方法,称为全面调查,又称普查 根据一定目的,从总体中_抽取一部分__个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法
相关概念 总体:在一个调查中,我们把_调查对象__的全体称为总体.个体:组成总体的每一个调查对象称为个体 样本:我们把从_总体__中抽取的那部分个体称为样本.样本量:样本中包含的_个体数__称为样本量
练一练:
某学校为了解高一800名新入学同学的数学学,从中随机抽取100名同学的中考数学成绩进行分析,在这个问题中,下列说法正确的是( D )
A.800名同学是总体
B.100名同学是样本
C.每名同学是个体
D.样本量是100
[解析] 据题意,总体是指800名新入学同学的中考数学成绩,样本是指抽取的100名同学的中考数学成绩,个体是指每名同学的中考数学成绩,样本量是100,故只有D正确.
知识点 2 简单随机抽样
放回简单随机抽样 不放回简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中_逐个__抽取n(1≤n如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都_相等__,我们把这样的抽样方法叫做放回简单随机抽样 如果抽取是不放回的,且每次抽取时总体内_未进入样本的各个个体__被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本
[提醒] 简单随机抽样有如下四个特征:
(1)它要求被抽取样本的总体的个数确定,且较少,个体之间差异不明显.
(2)它是从总体中逐个抽取.
(3)它是一种不放回抽取.
(4)它是一种等概率抽样.不仅每次从总体中抽取一个个体时,各个个体被抽到的概率都相等,而且在整个抽样过程中,各个个体被抽到的概率也相等,从而保证了这种抽样方法的公平性.
知识点 3 抽签法、随机数法
1.抽签法:先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以使卡片、小球等)上作为号签,并将这些小纸片放在一个_不透明__的盒里,充分 _搅拌__.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.
2.随机数法
(1)定义:先把总体中的个体编号,用随机数根据产生与总体中个体数量_相等__的整数随机数,把产生的随机数作为抽中的编号,并剔除_重复__的编号,直到抽足样本所需要的个体数.
(2)产生随机数的方法:①用随机试验生成随机数;②用信息技术生成随机数.
想一想:
抽签法与随机数法有什么异同?
相同点 ①都属于简单随机抽样,并且要求被抽取样本的总体的个体数有限;②都是从总体中逐个不放回地进行抽取
不同点 ①抽签法比随机数法操作简单;②随机数法更适用于总体中个体数较多的时候,而抽签法适用于总体中个体数较少的情况,所以当总体中的个体数较多时,应当选用随机数法,可以节约大量的人力和制作号签的成本
练一练:
全国高中数学联合竞赛是中国高中数学学科的较高等级的数学竞赛,在每年9月第二个星期日举行,在这项竞赛中取得优异成绩的全国约200名学生有资格参加由中国数学会主办的中国数学奥林匹克(CMO).某校从初赛成绩优秀的52名学生中选取5名学生参加省赛,若采用简单随机抽样抽取,则每人入选的可能性( C )
A.都相等,且为 B.都相等,且为
C.都相等,且为 D.都不相等
[解析] 根据随机抽样的等可能性可知,每人入选的可能性都相等,且为,故选C.
知识点 4 总体均值和样本均值
(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称=  = i 为总体均值,又称总体平均数.
(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k个(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式= iYi .
(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称=  = i 为样本均值,又称样本平均数.在简单随机抽样中,我们常用样本平均数去估计总体平均数.
练一练:
1.用抽签法抽取的一个容量为5的样本,它们的变量值分别为2,3,5,7,9,则该样本的平均数为( C )
A.4.5 B.4.8
C.5.2 D.6
[解析] ==5.2.
2.随机抽取某商场4月份5天的营业额(单位:万元)分别为3.4,2.9,3.0,3.1,2.6,则这个商场4月份的营业额大约是( A )
A.90万元 B.450万元
C.3万元 D.15万元
[解析] 样本平均数为×(3.4+2.9+3.0+3.1+2.6)=3,所以这个商场4月份营业额约为3×30=90(万元).
题型探究
题型一 简单随机抽样的概念
典例1 (1)关于简单随机抽样的特点有以下几种说法,其中不正确的是( D )
A.要求总体中的个体数有限
B.从总体中逐个抽取
C.这是一种不放回抽样
D.每个个体被抽到的机会不一样,与先后顺序有关
(2)下列问题中最适合用简单随机抽样方法的是( C )
A.某学校有学生1 320人,卫生部门为了了解学生身体发育情况,准备从中抽取一个容量为300的样本
B.为了准备省政协会议,某政协委员计划从1 135个村庄中抽取50个进行收入调查
C.从全班30名学生中,任意选取5名进行家访
D.为了解某地区癌症的发病情况,从该地区的5 000人中抽取200人进行统计
[解析] (1)简单随机抽样,除具有A,B,C三个特点外,还具有等可能性,每个个体被抽取的机会相等,与先后顺序无关.
(2)A中不同年级的学生身体发育情况差别较大,B,D的总体容量较大,C的总体容量较小,适宜用简单随机抽样.
[归纳提升] 可用简单随机抽样抽取样本的依据
(1)总体中的个体之间无明显差异.
(2)总体中个体数N有限.
(3)抽取的样本个体数n小于总体中的个体数N.
(4)逐个不放回地抽取.
(5)每个个体被抽到的可能性均为.
对点练习 (1)下列4个抽样中,简单随机抽样的个数是( B )
①从无数个个体中抽取50个个体作为样本;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地逐个抽出6个号签;
④箱子里共有100个零件,从中选出10个零件进行质量检验,在抽样操作中,从中任意取出1个零件进行质量检验后,再把它放回箱子里.
A.0 B.1
C.2 D.3
(2)从某年级的500名学生中抽取60名学生进行体重的统计分析,下列说法正确的是( C )
A.500名学生是总体
B.每个学生是个体
C.抽取的60名学生的体重是一个样本
D.抽取的60名学生的体重是样本量
[解析] (1)根据简单随机抽样的特点逐个判断.①不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.②不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.③是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能的抽样.④不是简单随机抽样,因为它是有放回抽样.综上,只有③是简单随机抽样.
(2)应该是500名学生的体重是总体,故A错;每个被抽查的学生的体重是个体,故B错;抽查的60名学生的体重是一个样本,故C正确;D中样本量应为60,不是60名学生的体重.故D错.
题型二 抽签法及随机数表法的应用
典例2 (1)从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴;
(2)某市质监局要检查某公司某个时间段生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取10袋进行检验.
①利用随机数法抽取样本时,应如何操作?
②如果用随机试验生成部分随机数如下所示,据此写出应抽取的袋装牛奶的编号.
162,277,943,949,545,354,821,737,932,354,873,520,964,384,263,491,648,642,175,331,572,455,068,877,047,447,672,172,065,025,834,216,337,663,013,785,916,955,567,199,810,507,175,128,673,580,667.
[解析] (1)第一步,将20架钢琴编号,号码是1,2,…,20.
第二步,将号码分别写在外观、质地等无差别的小纸片上作为号签.
第三步,将小纸片放入一个不透明的盒里,充分搅匀.
第四步,从盒中不放回地逐个抽取5个号签,使与号签上编号相同的钢琴进入样本.
(2)①第一步,将500袋牛奶编号为001,002,…,500;
第二步,用随机数工具产生1~500范围内的随机数;
第三步,把产生的随机数作为抽中的编号,使编号对应的袋装牛奶进入样本;
第四步,重复上述过程,直到产生的不同编号等于样本所需要的数量.
②应抽取的袋装牛奶的编号为:162,277,354,384,263,491,175,331,455,068.
[归纳提升] 1.一个抽样试验能否用抽签法,关键看两点:
一是制签是否方便;二是个体之间差异不明显.
2.应用抽签法时应注意以下几点:
(1)编号时,如果已有编号可不必重新编号.
(2)号签要求大小、形状完全相同.
(3)号签要均匀搅拌.
(4)根据实际需要采用有放回或无放回抽取.
对点练习 (1)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法:从随机数表第1行的第5列和第6列数字开始由左到右一次选取两个数字,则选出来的第5个个体的编号为( D )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07
C.02 D.01
(2)为提高学生的交通安全意识,某交警队从学校报名的30名志愿者中选取6人组成志愿宣传小组,请用抽签法设计抽样方案.
[解析] (1)从随机数表第1行的第5列和第6列数字开始由左到右一次选取两个数字开始向右读,第一个数为65,不符合条件,第二个数为72,不符合条件,第三个数为08,符合条件,以下符合条件的数字依次为08,02,14,07,01,故第5个数为01.故选D.
(2)①将30名志愿者编号,号码分别是1,2,…,30.
②将号码分别写在外观、质地等无差别的小纸片上作为号签.
③将小纸片放入一个不透明的盒里,充分搅匀.
④从盒中不放回地逐个抽取6个号签,使与号签上编号相同的志愿者进入样本.
题型三 用样本平均数估计总体平均数
典例3 某学校为了调查高一年级学生的体育锻炼情况,从甲、乙、丙3个班中,按简单随机抽样的方法获得了部分学生一周的锻炼时间(单位:h),数据如表.
甲 6 6.5 7 7.5 8
乙 6 7 8 9 10 11 12
丙 3 4.5 6 7.5 9 10.5 12 13.5
(1)估计这个学校高一年级的学生中,一周的锻炼时间超过 10 个小时的百分比;
(2)估计这个学校高一年级学生一周的平均锻炼时间.
[分析] (1)利用表中数据计算百分比;
(2)计算样本的平均数来估计.
[解析] (1)由题意知,抽取的20个学生中,一周的锻炼时间超过10小时的有5人,故一周的锻炼时间超过10个小时的百分比为=25%.
(2)从甲班抽取的5名学生的总时间为6+6.5+7+7.5+8=35.
从乙班抽取的7名学生的总时间为6+7+8+9+10+11+12=63.
从丙班抽取的8名学生的总时间为3+4.5+6+7.5+9+10.5+12+13.5=66.
则==8.2.
即这个学校高一年级学生一周的平均锻炼时间约为8.2小时.
[归纳提升] 关于总体平均数
总体平均数是总体的一项重要特征,但是当总体量较大时,计算总体平均数较困难.利用样本平均数估计总体平均数时抽取有代表性的样本,利用样本平均数估计总体平均数显得尤为重要.
对点练习 某学校抽取100位老师的年龄,得到如下数据:
年龄(单位:岁) 32 34 38 40 42 43 45 46 48
频数 2 4 20 20 26 10 8 6 4
估计这个学校老师的平均年龄.
[解析] =×(32×2+34×4+38×20+40×20+42×26+43×10+45×8+46×6+48×4)=41.1(岁),
估计这个学校老师的平均年龄约为 41.1岁.
易错警示
对简单随机抽样的等可能性理解不透致误
典例4 在简单随机抽样中,某一个个体被抽到的可能性( C )
A.与第几次抽样有关,第一次抽到的可能性最大
B.与第几次抽样有关,第一次抽到的可能性最小
C.与第几次抽样无关,每一次抽到的可能性相等
D.与第几次抽样无关,与样本量也无关
[错解] B
[错因分析] 简单随机抽样在每一次抽取时被抽到的可能性相等,都是,但是要将每个个体被抽到的可能性与第n次被抽到的可能性区分开来,避免出错.
[正解] 由简单随机抽样的定义知简单随机抽样与第几次抽样无关,在每一次抽取时被抽到的可能性相等,不能认为先抽可能性大,后抽可能性小.故C正确.
对点练习 对于简单随机抽样,每个个体被抽到的机会( B )
A.不相等 B.相等
C.不确定 D.与抽样次序有关
1.抽签法确保样本代表性的关键是( B )
A.制签 B.搅拌均匀
C.逐一抽取 D.抽取不放回
[解析] 若样本具有很好的代表性,则每一个个体被抽取的机会相等,故需要对号签搅拌均匀.
2.下列调查中,调查方式选择合理的是( D )
A.了解某一品牌家具的甲醛含量,选择普查
B.了解神舟飞船的设备零件的质量情况,选择抽样调查
C.了解一批袋装食品是否含有防腐剂,选择普查
D.了解某公园全年的游客流量,选择抽样调查
[解析] 了解某一品牌家具的甲醛含量,选择抽样调查更符合经济效益,A错误;了解神舟飞船的设备零件的质量情况,安全是最重要的,应该采取普查,B错误;了解一批袋装食品是否含有防腐剂,选择抽样调查更符合经济效益,C错误;了解某公园全年的游客流量,选择抽样调查比较符合经济效益,D正确.故选D.
3.为了准确地调查我国某一时期的人口总量、人口分布、民族人口、城乡人口、受教育的程度、迁徙流动、就业状况等多方面的情况,需要用_普查__的方法进行调查.
[解析] 要获得系统、全面、准确的信息,在对总体没有破坏的前提下,普查无疑是一个非常好的方法,要全面、准确地调查人口的状况,应当用普查的方法进行调查.故答案为普查.
4.在总体为N的一批零件中抽取一个容量为30的样本,若每个零件被抽取的可能性为25%,则N的值为_120__.
[解析] 据题意=0.25,故N=120.
5.某大学要去贫困地区参加支教活动,需要从每班选10名男生,8名女生参加,某班有男生32名,女生28名,试用抽签法确定该班参加支教活动的同学.
[解析] 第一步,将32名男生从0到31进行编号.
第二步,用相同的小纸片制成32个号签,在每个号签上写上这些编号.
第三步,将写好的号签放在一个不透明的容器内摇匀,不放回地从中逐个抽出10个号签.
第四步,相应编号的男生参加支教活动.
第五步,用相同的办法从28名女生中选出8名,则此8名女生参加支教活动.9.1.2 分层随机抽样
9.1.3 获取数据的途径
课标要求
1.通过实例,了解分层随机抽样的特点和适用范围.
2.了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.掌握分层随机抽样的样本均值.
3.知道获取数据的基本途径,包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.
素养要求
1.在分层随机抽样的实施过程中,掌握分层随机抽样的抽样步骤,发展学生数据分析素养.
2.在学习获取数据的途径过程中,掌握获取数据的方法,发展学生数据分析和数学建模的素养.
知识点 1 分层随机抽样
一般地,按_一个或多个__变量把总体划分成若干个_子总体__,每个个体_属于且仅属于__一个子总体,在每个子总体中独立地进行_简单随机抽样__,再把所有子总体中抽取的样本合在一起作为_总样本__,这样的抽样方法称为分层随机抽样.
(1)每一个子总体称为层,在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为_比例分配__.
(2)如果总体分为2层,两层包含的个体数分别为M,N,两层抽取的样本量分别为m,n,两层的样本平均数分别为,,两层的总体平均数分别为,,总体平均数为,样本平均数为.
则= + ,=+.由于可用每层的样本平均数,估计每层的总体平均,故可用 + 估计总体平均数.
(3)在比例分配的分层随机抽样中,可以直接用 样本平均数 估计 总体平均数 .
[拓展] 分层随机抽样的步骤、特点及公平性
(1)分层随机抽样的操作步骤为:
①根据已掌握的信息,将总体分成互不相交的层;
②根据总体中的个体数N和样本量n计算抽样比k=;
③确定第i层应该抽取的个体数目ni≈Ni×k(Ni为第i层所包含的个体数,ni为第i层所抽取的个体数),各Ni之和为N;
④在各个层中按步取③中确定的数目在各层中随机抽取个体,合在一起得到容量为n的样本.
(2)分层随机抽样的特点:
①适用于总体由差异明显的几部分组成的情况;
②更充分地反映了总体的情况;
③等可能抽样,每个个体被抽到的可能性都相等.
(3)分层随机抽样的公平性:
在分层随机抽样的过程中每个个体被抽到的可能性是相同的,与层数及分层无关.
(4)分层随机抽样下总体平均数的估计
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n.我们用X1,X2,…,XM表示第1层各个个体的变量值,用x1,x2,…,xm表示第1层样本的各个个体的变量值;用Y1,Y2,…,YN表示第2层各个个体的变量值,用y1,y2,…,yn表示第2层样本的各个个体的变量值,则第1层的总体平均数和样本平均数分别为
==i,
==i.
第2层的总体平均数和样本平均数分别为
==i,
==i.
总体平均数和样本平均数分别为
=,=.
在比例分配的分层随机抽样中,
==,
+=+=.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
练一练:
某单位有职工160人,其中业务员104人,管理人员32人,后勤服务人员24人,现用比例分配的分层随机抽样法从中抽取一容量为20的样本,则抽取管理人员有( B )
A.3人 B.4人
C.7人 D.12人
[解析] 由=,设抽取管理人员x人,则=,得x=4.故选B.
知识点 2 获取数据的途径
获取数据的基本途径有_通过调查获取数据__、_通过试验获取数据__、_通过观察获取数据__、_通过查询获得数据__等.
练一练:
为了研究近年我国高等教育发展状况,小明需要获取近年来我国大学生入学人数的相关数据,他获取这些数据的途径最好是( D )
A.通过调查获取数据 B.通过试验获取数据
C.通过观察获取数据 D.通过查询获得数据
[解析] 因为近年来我国大学生入学人数的相关数据有所存储,所以小明获取这些数据的途径最好是通过查询获得数据.
题型探究
题型一 分层随机抽样概念
典例1 (1)某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适( D )
A.抽签法 B.随机数
C.简单随机抽样 D.分层随机抽样
(2)分层随机抽样又称类型抽样,即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层随机抽样为保证每个个体被等可能抽取,必须进行( C )
A.每层等可能抽样
B.每层可以不等可能抽样
C.所有层按同一抽样比等可能抽样
D.所有层抽取的个体数量相同
[分析] 是否适合用分层随机抽样,首先判断总体是否可以“分层”.
[解析] (1)总体由差异明显的三部分构成,应选用分层随机抽样.
(2)为了保证每个个体等可能的被抽取,分层随机抽样时必须在所有层都按同一抽样比等可能抽取.
[归纳提升] 1.使用分层抽样的前提
分层随机抽样的总体按一个或多个变量划分成若干个子总体,并且每一个个体属于且仅属于一个子总体,而层内个体间差异较小.
2.使用分层随机抽样应遵循的原则
(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则.
(2)分层随机抽样为保证每个个体等可能抽取,需遵循在各层中进行简单随机抽样,每层样本量与每层个体数量的比等于抽样比.
对点练习 (1)下列问题中,适合用分层随机抽样抽取样本的是( B )
A.学校从10个优秀节目中抽取3个参加县元旦晚会
B.某社区有500个家庭,其中高收入的家庭125户,中等收入的家庭280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中抽取一个容量为100的样本
C.某学校有男、女学生各500名,为了解学生的期末复习情况,拟抽取100名学生进行调查
D.某啤酒厂质检员从生产流水线上,抽取样本检查产品质量
(2)某校有高一学生400人,高二学生380人,高三学生220人,现教育局督导组欲用分层随机抽样的方法抽取50名学生进行问卷调查,则下列判断正确的是( D )
A.高一学生被抽到的可能性最大
B.高二学生被抽到的可能性最大
C.高三学生被抽到的可能性最大
D.每位学生被抽到的可能性相等
[解析] (1)A中总体所含个体无差异且个数较少,适合用简单随机抽样;C中总体虽然分男、女两个层,但是要了解期末复习情况,没有必要采取分层随机抽样;D中总体所含个体无差异,不适合用分层随机抽样;B中总体所含个体差异明显,并且要了解购买能力,与收入关系密切,适合用分层随机抽样.
(2)分层抽样在每一层中的抽样比是相同的,所以每位学生被抽到的可能性相等.
题型二 分层随机抽样的应用
典例2 一个单位有职工500人,其中不到35岁的有125人,35岁至49岁的有280人,50岁及50岁以上的有95人.为了了解这个单位职工与身体状态有关的某项指标,要从中抽取100名职工作为样本,职工年龄与这项指标有关,应该怎样抽取?
[解析] 用分层随机抽样来抽取样本,步骤如下:
(1)分层.按年龄将500名职工分成三层:不到35岁的职工;35岁至49岁的职工;50岁及50岁以上的职工.
(2)确定每层抽取个体的个数.抽样比为=,则在不到35岁的职工中抽取125×=25(人);
在35岁至49岁的职工中抽取280×=56(人);
在50岁及50岁以上的职工中抽取95×=19(人).
(3)在各层分别按简单随机抽样抽取样本.
(4)汇总每层抽样,组成样本.
[归纳提升] 分层随机抽样的步骤
对点练习 某校500名学生中,有200人的血型为O型,有125人的血型为A型,有125人的血型为B型,有50人的血型为AB型.为了研究血型与色弱的关系,需从中抽取一个容量为20的样本.怎样抽取样本?
[解析] 用分层随机抽样抽取样本.
∵=,即抽样比为,
∴200×=8,125×=5,50×=2.
故O型血抽取8人,A型血抽取5人,B型血抽取5人,AB型血抽取2人.
题型三 分层抽样的相关计算
典例3 (1)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层随机抽样调查,假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( B )
A.101 B.808
C.1 212 D.2 012
(2)将一个总体分为A,B,C三层,其个体数之比为5∶3∶2,若用分层随机抽样方法抽取容量为100的样本,则应从C中抽取_20__个个体.
(3)分层随机抽样中,总体共分为2层,第1层的样本量为20,样本平均数为3,第2层的样本量为30,样本平均数为8,则该样本的平均数为_6__.
[解析] (1)因为甲社区有驾驶员96人,并且在甲社区抽取的驾驶员的人数为12人,
所以四个社区抽取驾驶员的比例为=,
所以驾驶员的总人数为
(12+21+25+43)÷=808(人).
(2)∵A,B,C三层个体数之比为5∶3∶2,又有总体中每个个体被抽到的概率相等,∴分层随机抽样应从C中抽取100×=20(个)个体.
(3)=×3+×8=6.
[归纳提升] (1)进行分层随机抽样的相关计算时,常用到的两个关系
①=;
②总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
(2)样本的平均数和各层的样本平均数的关系为:
=+=+.
对点练习 (1)我国古代数学专著《九章算术》中有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣( B )
A.104人 B.108人
C.112人 D.120人
(2)某学校高一年级在校人数为600人,其中男生320人,女生280人,为了解学生身高发展情况,按分层随机抽样的方法抽取50名男生身高为一个样本,其样本平均数为170.2 cm,抽取50名女生身高为一个样本,其样本平均数为162.0 cm,则该校高一学生的平均身高的估计值为_166.4_cm__.
[解析] (1)由题意可知,这是一个分层随机抽样的问题,其中北乡可抽取的人数为300×=300×=108.
(2)由题意可知,=170.2,=162.0且M=320,N=280,
所以样本平均数=+=×170.2+×162.0≈166.4(cm),
故该校高一学生的平均身高的估计值为166.4 cm.
易错警示
忽略抽样的公平性致错
典例4 某单位有老年人28人、中年人54人、青年人81人,为了调查他们的身体情况,需从中抽取一个样本量为36的样本,则下列抽样方法适合的是_②__.
①简单随机抽样;
②直接运用分层随机抽样;
③先从老年人中剔除1人,再用分层随机抽样.
[错解] ③
[错因分析] 由于按抽样,无法得到整数解,因此先剔除1人,将抽样比变为=.若从老年人中随机地剔除1人,则老年人应抽取27×=6(人),中年人应抽取54×=12(人),青年人应抽取81×=18(人),从而组成样本量为36的样本.事实上,若用简单随机抽样法先从老年人中剔除1人,则老年人中每个人被抽到的机会显然比中年人、青年人中每个人被抽到的机会小了,这不符合随机抽样的特征——每个个体入样的机会都相等.
[正解] 因为总体由差异明显的三部分组成,所以考虑用分层随机抽样.因为总人数为28+54+81=163,样本量为36,所以抽样比为.因此,从老年人、中年人和青年人中应抽取的人数分别为×28≈6,×54≈12,×81≈18.
[误区警示] 分层随机抽样的一个很重要的特点是每个个体被抽到的机会是相等的.当按照比例计算出的值不是整数时,一般采用四舍五入的方法取值.若四舍五入后得到的样本量与要求的不尽相同,则可根据问题的实际意义适当处理,使之相同,这只是细节性问题,并未改变分层随机抽样的本质.
对点练习 为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,且男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( C )
A.简单随机抽样 B.按性别分层随机抽样
C.按学段分层随机抽样 D.随机数法抽样
[解析] 依据题意,了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,且男女生视力情况差异不大,故要了解该地区学生的视力情况,应按学段分层随机抽样.故选C.
1.分层随机抽样适合的总体是( C )
A.总体容量较多 B.样本量较多
C.总体中个体有差异 D.任何总体
[解析] 分层随机抽样适合总体中个体有差异的总体.故选C.
2.下列数据一般需要通过实验获取的是( A )
A.某子弹的射程
B.某学校的男女生比例
C.华为手机的市场占有率
D.期中考试的班级数学成绩
[解析] 某子弹的射程没有现存数据可以查询,因而需要通过实验获取,A项正确;某学校的男女生比例可以通过查询获取,不需要通过实验获取,B项错误;华为手机的市场占有率可以通过调查获取,不需要通过实验获取,C项错误;期中考试的班级数学成绩可以通过查询获取,不需要通过实验获取,D项错误;故选A.
3.某学校现有小学和初中学生共2 000人,为了解学生的体质健康合格情况,决定采用分层抽样的方法从全校学生中抽取一个容量为400的样本,其中被抽到的初中学生人数为180,那么这所学校的初中学生人数为( B )
A.800 B.900
C.1 000 D.1 100
[解析] 样本容量与总体容量的比值为=,设这所学校的初中学生人数为x,则被抽到的初中学生人数为x×=180,那么这所学校的初中学生人数为x=900.
故选B.
4.某工厂生产A,B,C三种不同型号的产品,产品的数量之比依次为3∶4∶7.现在按分层随机抽样的方法抽取一个容量为n的样本,样本中A号产品有15件,那么样本量n为( C )
A.50 B.60
C.70 D.80
[解析] 由分层随机抽样定义知=,
∴n=70,故选C.
5.A中学高一年级的500名同学中有218名女生,在调查全年级同学的平均身高时,预备抽样调查50名同学.
(1)设计一个合理的分层抽样方案.
(2)你的设计中,第一层和第二层分别是什么?
(3)分层抽样是否在得到全年级同学平均身高的估计时,还分别得到了男生和女生的平均身高的估计?
[解析] (1)因为男生、女生身高有差异性,故按男生、女生在总人数中所占比例采取分层抽样.
因为500名同学中有218名女生,故女生抽取人数为50×≈22人;
500名同学中有282名男生故男生抽取人数为50×≈28人.
然后测量这50人的身高数据,从而得到50人的身高数据样本.
(2)第一层为总体500名学生中的所有女生的身高数据,第二层为总体500名学生中的所有男生的身高数据.
(3)是的,可以用男、女生身高数据之和除以各自样本中的人数,得到男、女生平均身高的估计值.9.2.1 总体取值规律的估计
课标要求
能选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.结合实例,能用样本估计总体的取值规律.
素养要求
在学习绘制频率分布直方图的过程中,掌握应用频率分布直方图等统计图表估计总体的取值规律,发展学生数据分析的素养.
知识点 1 画频率分布直方图的步骤
1.求极差:极差是一组数据中_最大值__与_最小值__的差.
2.决定组距与组数:当样本容量不超过100时,常分成_5~12__组,一般取等长组距,并且组距应力求“取整”.
3.将数据分组.
4.列频率分布表:一般分四列,即分组、_频数累计__、频数、_频率__.其中频数合计应是样本容量,频率合计是_1__.
5.画频率分布直方图:横轴表示样本数据,纵轴表示.小长方形的面积=组距×=_频率__.各小长方形的面积和等于1.
[拓展] 
1.数据分组及确定区间的技巧
(1)组距是指每个小组的两个端点之间的距离.为了方便起见,组距的选择应力求“取整”.极差、组距、组数有如下关系:
①若为整数,则=组数;
②若不为整数,则+1=组数.([x]表示不大于x的最大整数)
(2)组数与样本容量有关,一般地,样本容量越大,分的组数也就越多.当样本容量不超过100时,常分成5~12组.
(3)为方便起见,往往按等距分组,或者除了第一和最后的两段,其他各段按等距分组.
2.频率分布表的理解
由频率的定义不难得出,各组数据的频率之和为1,因为各组数据的个数之和等于样本容量,故在列频率分布表时,可以利用这种方法检查是否有数据的丢失.因此表格最后一行可加上“合计”.
3.频率分布直方图的理解
(1)每一组对应的矩形高度是,而不是.
(2)因为小长方形的面积=组距×=频率,所以各个小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(3)在频率分布直方图中,所有小长方形的面积之和等于1.
练一练:
下图为某校100名学生期中考试语文成绩的频率分布直方图,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].则分数在[60,80)的学生数为_70__.
[解析] 由频率分布直方图先求出分数在[60,80)的频率为(0.04+0.03)×10=0.7,
所以分数在[60,80)的学生数为100×0.7=70人,
故答案为70.
知识点 2 三种统计图的用途、优点、缺点
(1)条形图
用途:直观描述不同类别或分组数据的频数和频率.
优点:当数据量很大时,它能更直观地反映数据分布的大致情况,并能清晰地表示出各个区间的具体数目.
缺点:会损失数据的部分信息.
(2)折线图
用途:描述数据随时间的变化趋势.
优点:可以表示数量的多少,直观反映数量的增减情况,即变化趋势.
缺点:不能直观反映数据的分布情况.
(3)扇形图
用途:直观描述各类数据占总数的比例.
优点:可以直观地反映出各种情况所占的比例.
缺点:看不出具体数据的多少.
练一练:
要反映某市一周内每天的最高气温的变化情况,宜采用( C )
A.条形统计图
B.扇形统计图
C.折线统计图
D.频率分布直方图
[解析] 描述数据随时间的变化趋势宜采用折线统计图.
题型探究
题型一 频率分布直方图的作法
典例1 为了检测某种产品的质量,抽取了一个样本量为100的样本,数据的分组如下:
[10.75,10.85),3;[10.85,10.95),9;[10.95,11.05),13;[11.05,11.15),16;[11.15,11.25),26;[11.25,11.35),20;[11.35,11.45),7;[11.45,11.55),4;[11.55,11.65],2.
(1)列出频率分布表;
(2)画出频率分布直方图.
[分析] 题目要求列出样本的频率分布表、画出频率分布直方图,应注意到已知条件中虽未提供原始数据,但组距、组数及频数都已给出,可由此来列表、画图.
[解析] (1)频率分布表如下:
分组 频数 频率
[10.75,10.85) 3 0.03
[10.85,10.95) 9 0.09
[10.95,11.05) 13 0.13
[11.05,11.15) 16 0.16
[11.15,11.25) 26 0.26
[11.25,11.35) 20 0.20
[11.35,11.45) 7 0.07
[11.45,11.55) 4 0.04
[11.55,11.65] 2 0.02
合计 100 1.00
(2)频率分布直方图如图
[归纳提升] 绘制频率分布直方图应注意的问题
(1)在绘制出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是“以一个恰当的单位长度”(没有统一规定),然后以各组的“”所占的比例来定高.如我们预先设定以“”为1个单位长度,代表“0.1”,则若一个组的为0.2,则该小矩形的高就是“”(占两个单位长度),如此类推.
(2)数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本量,频率之和为1.
(3)频率分布表从数值直观反映各组的频率,频率分布直方图则更形象地描绘出频率与样本分布趋势.所以通常通过两者综合考查估计样本的某些特征.
对点练习 在生产过程中,测得纤维产品的纤度(表示纤细的一种量)共有100个数据,将数据分组如下表:
分组 频数 频率
[1.30,1.34) 4
[1.34,1.38) 25
[1.38,1.42) 30
[1.42,1.46) 29
[1.46,1.50) 10
[1.50,1.54] 2
合计 100
(1)完成频率分布表,并画出频率分布直方图;
(2)估计纤度落在[1.38,1.50)内的可能性及纤度小于1.42的可能性各是多少?
[解析] (1)频率分布表如下:
分组 频数 频率
[1.30,1.34) 4 0.04
[1.34,1.38) 25 0.25
[1.38,1.42) 30 0.30
[1.42,1.46) 29 0.29
[1.46,1.50) 10 0.10
[1.50,1.54] 2 0.02
合计 100 1.00
频率分布直方图如图所示.
(2)利用样本估计总体,则纤度落在[1.38,1.50)的可能性即为纤度落在[1.38,1.50)的频率,即为0.30+0.29+0.10=0.69=69%.
纤度小于1.42的可能性即为纤度小于1.42的频率,即为0.04+0.25+0.30=0.59=59%.
题型二 频率分布直方图的应用
典例2 400名大学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30],[30,40],…,[80,90],并整理得到如下频率分布直方图:
(1)在频率分布直方图中,求分数小于70的频率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
[分析] (1)根据频率分布直方图求得分数不小于70的频率为0.6,进而求得样本中分数小于70的频率;
(2)根据题意,求得样本中分数不小于50的频率为0.9,得到分数在区间[40,50)内的人数为5,进而求得总体中分数在区间[40,50)内的人数;
(3)根据题意分别求得样本中的男生和女生人数,得到男生和女生人数的比例,结合分层抽样的概念,即可求解.
[解析] (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6
所以样本中分数小于70的频率为1-0.6=0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,
分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,
男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
[归纳提升] 频率分布直方图的性质
(1)因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)样本量=频数/相应的频率.
对点练习 杭州市某高中从学生中招收志愿者参加迎亚运专题活动,现已有高一540人、高二360人,高三180人报名参加志愿活动.根据活动安排,拟采用分层抽样的方法,从已报名的志愿者中抽取120名.对抽出的120名同学某天参加运动的时间进行了统计,运动时间均在39.5至99.5分钟之间,其频率分布直方图如下:
(1)需从高一、高二、高三报名的学生中抽取多少人;
(2)请补全频率分布直方图.
[分析] (1)根据分层抽样的定义按比例求解即可;
(2)由各组的频率和为1求出第三组的频率,从而可求出第三组的小矩形的高度,进而可补全频率分布直方图.
[解析] (1)报名的学生共有1 080人,抽取的比例为=,
所以高一抽取540×=60人,高二抽取360×=40人,高三抽取180×=20人;
(2)第三组的频率为1-(0.1+0.15+0.3+0.25+0.05)=0.15,
故第三组的小矩形的高度为0.015,补全频率分布直方图得
题型三 折线图、条形图、扇形图及应用
典例3 如图是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3月1日到10日最低气温(单位:℃)的扇形统计图和条形统计图.
[解析] 该城市3月1日至10日的最低气温(单位:℃)情况如下表:
日期 1 2 3 4 5 6 7 8 9 10
最低气温(℃) -3 -2 0 -1 1 2 0 -1 2 2
其中最低气温为-3 ℃的有1天,占10%,最低气温为-2 ℃的有1天,占10%,最低气温为-1 ℃的有2天,占20%,最低气温为0 ℃的有2天,占20%,最低气温为1 ℃的有1天,占10%,最低气温为2 ℃的有3天,占30%,扇形统计图如图所示.
条形统计图如下图所示:
[归纳提升] 1.条形图是用一个单位长度表示一定的数量或频率,根据数量的多少或频率的大小画成长短不同的矩形条,条形图能清楚地表示出每个项目的具体数目或频率.
2.扇形图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各个部分所占总数的百分数.
3.在画折线图时,要注意明确横轴、纵轴的实际含义.
对点练习 如图是某市2021年5月1日至5月7日每天最高、最低气温的折线统计图,在这7天中,日温差最大的一天是( D )
A.5月1日 B.5月2日
C.5月3日 D.5月5日
[解析] 由折线图可以看出,该市日温差最大的一天是5月5日.
易错警示
误将频率分布直方图中的纵坐标当作频率
典例4 中小学生的视力状况受到社会的广泛关注.某市有关部门从全市6万名高一学生中随机抽取400名学生,对他们的视力状况进行一次调查统计,将所得到的有关数据绘制成频率分布直方图,如图.从左至右五个小组的频率之比为5∶7∶12∶10∶6,则该市6万名高一学生中视力在[3.95,4.25)内的学生约有多少人?
[错解] 由图可知,第五小组的频率为0.5,所以第一小组的频率为0.5×=.
所以该市6万名高一学生中视力在[3.95,4.25)内的学生约有60 000×=25 000(人).
[错因分析] 造成错解的原因是将该频率分布直方图中的纵坐标(频率与组距的比)看成频率.
[正解] 由图可知,第五小组的频率为0.5×0.3=0.15,
所以第一小组的频率为0.15×=0.125.
所以该市6万名高一学生中视力在[3.95,4.25)内的学生约有60 000×0.125=7 500(人).
[误区警示] 频率分布直方图中的纵轴上所标数据是小矩形的高,表示,计算频率时不要忘了乘组距.
对点练习 如图所示是一容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在[15,20]内的频数为( B )
A.20 B.30
C.40 D.50
[解析] 样本数据落在[15,20]内的频数为100×[1-5×(0.04+0.1)]=30.
1.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,根据扇形统计图的情况可以知道丙、丁两组人数和为( A )
A.250 B.150
C.400 D.300
[解析] 甲组人数是120,占30%,则总人数是=400.则乙组人数是400×7.5%=30,则丙、丁两组人数和为400-120-30=250.
2.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( B )
A.10组 B.9组
C.8组 D.7组
[解析] ==8.9,所以分为9组较为恰当.
3.甲、乙两个城市2022年4月中旬每天的最高气温统计图如图所示,则这9天里,气温比较稳定的是_甲__城市(填“甲”“乙”).
[解析] 从折线统计图可以很清楚地看到乙城市的气温变化较大,而甲城市气温相对来说较稳定,变化基本不大.
4.某班计划开展一些课外活动,全班有40名学生报名参加,他们就乒乓球、足球、跳绳、羽毛球4项活动的参加人数做了统计,绘制了条形统计图(如图所示),那么参加羽毛球活动的人数的频率是_0.1__.
[解析] 参加羽毛球活动的人数是4,则频率是=0.1.
5.为了解某中学高一学生的某次月考的数学成绩,备课组人员随机抽取了100名学生的数学成绩并进行调查,根据所得数据制成如图所示的频率分布直方图.已知不低于90分为及格,不低于130分为优秀.
(1)求实数a的值;
(2)若参加本次月考的学生总人数为1 500,试根据样本的相关信息估计本次月考数学成绩及格和优秀的人数.
[解析] (1)由20(0.006+0.014+0.020+0.008+a)=1,
得:a=0.002.
(2)由(1)知,
样本中及格人数的频率为:20×0.020+20×0.008+20×0.002=0.6,
样本中优秀人数的频率为:20×0.002=0.04,
从而本次月考及格和优秀的人数估计分别为:1 500×0.6=900和1 500×0.04=60.9.2.2 总体百分位数的估计
9.2.3 总体集中趋势的估计
课标要求
学会计算样本百分位数,会对总体百分位数做出合理估计.
理解平均数、众数、中位数的定义,会从已知数据中获得上述特征数值.
素养要求
在学习和应用特征数值的过程中,要把实际问题转化为数学问题,并进行计算,对数据进行分析,发展学生的数学建模、数学运算素养和数据分析素养.
知识点 1 百分位数
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有 p% 的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按_从小到大__排列原始数据.
第2步,计算i= n×p% .
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为_第j项数据__;若i是整数,则第p百分位数为第_i__项与第_(i+1)__项数据的_平均数__.
(3)四分位数
第25百分位数,第50百分位数,第75百分位数这三个分位数把一组_从小到大__排列后的数据分成
_四等份__ ,因此称为_四分位数__,其中第25 百分位数也称为_第一四分位数__或_下四分位数__,第75百分位数也称为_第三四分位数__或_上四分位数__.
练一练:
1.下列关于一组数据的第50百分位数的说法正确的是( A )
A.第50百分位数就是中位数
B.总体数据中的任意一个数小于它的可能性一定是50%
C.它一定是这组数据中的一个数据
D.它适用于总体是离散型的数据
[解析] 由百分位数的意义可知选项B、C、D错误.
2.数据7.0,8.4,8.4,8.4,8.6,8.7,9.0,9.1的第30百分位数是_8.4__.
[解析] 因为8×30%=2.4,故30%分位数是第三项数据8.4.
知识点 2 众数、中位数、平均数
(1)众数:一组数据中出现次数_最多__的数.
(2)中位数:把一组数据按_大小__顺序排列,处在_中间__位置的数(或中间两个数的_平均数__)叫做这组数据中位数.
(3)平均数:如果有n个数x1,x2,…,xn,那么=  叫做这n个数的平均数.
知识点 3 总体集中趋势的估计
(1)平均数、中位数和众数等都是刻画_数据集中趋势__的量,它们从不同角度刻画了一组数据的集中趋势.
(2)一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用_平均数__、_中位数__;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用_众数__.
想一想:
众数、中位数和平均数的优缺点分别是什么?
名称 优点 缺点
众数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变,数据越“离群”,对平均数的影响越大
练一练:
1.判断正误.(正确的画“√”,错误的画“×”)
(1)中位数是一组数据中间的数.( × )
(2)众数是一组数据中出现次数最多的数.( √ )
(3)平均数反映了一组数据的平均水平,任何一个样本数据的改变都会引起平均数的变化.( √ )
2.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为_6__.
[解析] =6.
知识点 4 频率分布直方图中平均数、中位数、众数的求法
(1)样本平均数:可以用每个小矩形底边中点的横坐标与小矩形的_面积__的乘积之和近似代替.
(2)在频率分布直方图中,中位数左边和右边的直方图的面积应_相等__.
(3)将_最高的__小矩形所在的区间_中点横坐标__作为众数的估计值.
练一练:
如图所示是一样本的频率分布直方图,则由图中的数据可以估计众数与中位数分别是( B )
A.12.5,12.5
B.12.5,13
C.13,12.5
D.13,13
题型探究
题型一 百分位数的计算
典例1 从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
7.9,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的第25,50,95百分位数;
(2)请你找出珍珠质量较小的前15%的珍珠质量;
(3)若用第25,50,95百分位数把公司生产的珍珠划分为次品、合格品、优等品和特优品,依照这个样本的数据,给出该公司珍珠等级的划分标准.
[解析] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,
所以12×25%=3,12×50%=6,12×95%=11.4,
则第25百分位数是=8.15,
第50百分位数是=8.5,
第95百分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则第15百分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8,7.9.
(3)由(1)可知样本数据的第25百分位数是8.15 g,第50百分位数为8.5 g,第95百分位数是9.9 g,所以质量小于或等于8.15 g的珍珠为次品,质量大于8.15 g且小于或等于8.5 g的珍珠为合格品,质量大于8.5 g且小于或等于9.9 g的珍珠为优等品,质量大于9.9 g的珍珠为特优品.
[归纳提升] 1.计算一组n个数据的第p百分位数的一般步骤:
(1)排列:按照从小到大排列原始数据;
(2)算i:计算i=n×p%;
(3)定数:若i不是整数,大于i的最小整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算,其次估计百分位数在哪一组,再应用方程的思想方法,设出百分位数,解方程可得.
对点练习 (2023·北京市通州区期末)已知一组样本数据依次为:3,9,0,4,1,6,6,8,2,7.该组数据的40%分位数是_3.5__,85%分位数是_8__.
[解析] 将10个样本数据按照从小到大的顺序排列为:0,1,2,3,4,6,6,7,8,9.∵10×40%=4,得到该组数据的40%分位数是第4个数与第5个数的平均数,∴该组数据的40%分位数是=3.5.∵10×85%=8.5,得到85%分位数是第9个数,
∴该组数据的85%分位数是8.
题型二 众数、中位数、平均数的计算
典例2 已知一组数据按从小到大排列为-1,0,4,x,6,15,且这组数据的中位数是5,那么这组数据的众数是_6__,平均数是_5__.
[解析] 因为中位数为5,所以=5,即x=6.
所以该组数据为-1,0,4,6,6,15.
所以该组数据的众数为6,
平均数为=5.
[归纳提升] 平均数、众数、中位数的计算方法
平均数一般是根据公式来计算的;计算众数、中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据各自的定义计算.
对点练习 (1)某班50名学生的一次安全知识竞赛成绩分布如表所示:(满分10分)
成绩 0 1 2 3 4 5 6 7 8 9 10
人数 0 0 0 1 0 1 3 5 6 19 15
这次安全知识竞赛成绩的众数是( C )
A.5分 B.6分
C.9分 D.10分
(2)如果5个数x1,x2,x3,x4,x5的平均数是7,那么x1+1,x2+1,x3+1,x4+1,x5+1这5个数的平均数是( D )
A.5 B.6
C.7 D.8
[解析] (1)9分在这组数据中出现的次数最多有19次,故众数为9分.
(2)解法一(定义法):依题意x1+x2+…+x5=35,所以(x1+1)+(x2+1)+…+(x5+1)=40,故所求平均数为=8.
解法二(性质法):显然新数据(记为yi)与原有数据的关系为yi=xi+1(i=1,2,3,4,5),故新数据的平均数为+1=8.
题型三 总体集中趋势的估计
典例3 某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数、中位数、平均分;
(2)估计该校参加高二年级学业水平测试的学生的众数、中位数和平均数.
[解析] (1)①由题图知众数为=75.
②由题图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
③由题图知这次数学成绩的平均分为:
×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
(2)由于数据是来自高二年级全部参加学业水平测试的学生的简单随机样本,所以可以估计高二年级参加学业水平测试的学生的众数是75,中位数是73.3,平均数是72.
[归纳提升] 用频率分布直方图估计众数、中位数、平均数
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
对点练习 某校1 500名学生参加交通安全知识竞赛,随机抽取了100名学生的竞赛成绩(单位:分),成绩的频率分布直方图如图所示,则下列说法正确的是( B )
A.频率分布直方图中a的值为0.004 5
B.估计这100名学生竞赛成绩的第60百分位数为80
C.估计这100名学生竞赛成绩的众数为80
D.估计总体中成绩落在内的学生人数为500
[解析] 因为10×(2a+3a+7a+6a+2a)=1,可得a=0.005,故A错误;
可知每组的频率依次为0.10,0.15,0.35,0.30,0.10.
前三组的频率和为0.10+0.15+0.35=0.6,
所以这100名学生竞赛成绩的第60百分位数为80,故B正确;
因为[70,80)的频率最大,所以这100名学生竞赛成绩的众数为75,故C错误;
总体中成绩落在[70,80)内的学生人数为0.35×1500=525,故D错误.
故选B.
易错警示
不能正确理解平均数的含义
典例4 下列判断正确的是( D )
A.样本平均数一定小于总体平均数
B.样本平均数一定大于总体平均数
C.样本平均数一定等于总体平均数
D.样本量越大,样本平均数越接近于总体平均数
[错解] A或B或C.
[错因分析] 错解的原因是对样本平均数与总体平均数之间关系的理解不到位.对用样本数据估计总体要有一个辩证的理解,即要考虑到它有时会出现偏差,要解决这一问题,可适度增加样本量,样本量越大,它与总体的接近程度就越大,可信度也就越大.
[正解] D
[误区警示] 对于样本平均数与总体平均数,若样本的选取较为合理,能够代替总体,则它们间的平均数差距较小,否则样本与总体之间不具备可比性.
对点练习 判断:
样本的平均数是频率分布直方图中最高长方形的中点对应的数据.( × )
1.下列一组数据的第25百分位数是( A )
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6
A.3.2 B.3.0
C.4.4 D.2.5
[解析] 由i=10×25%=2.5,不是整数,则第3个数据3.2是第25百分位数.(按从小到大排列)
2.某班甲、乙两位同学在5次阶段性检测中的数学成绩(百分制)如下所示,
甲的成绩是75,83,85,85,92,
乙的成绩是74,84,84,85,98,
甲、乙两位同学得分的中位数分别为x1,x2,得分的平均数分别为y1,y2,则下列结论正确的是( D )
A.x1y2
C.x1>x2,y1>y2 D.x1>x2,y1[解析] 由题意可得x1=85,x2=84,
故x1>x2,而甲的平均数
y1=×(75+83+85+85+92)=84,乙的平均数y2=×(74+84+84+85+98)=85,故y13.(2020·江苏卷)已知一组数据4,2a,3-a,5,6的平均数为4,则a的值是_2__.
[解析] ∵数据4,2a,3-a,5,6的平均数为4,
∴4+2a+3-a+5+6=20,即a=2.
4.为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图所示.
求:(1)这20名工人中一天生产该产品的数量在[55,75)的人数;
(2)这20名工人中一天生产该产品的数量的中位数;
(3)这20名工人中一天生产该产品的数量的平均数.
[解析] (1)这20名工人中一天生产该产品的数量在[55,75)的人数为(0.04×10+0.025×10)×20=13.
(2)设中位数为x,则0.2+(x-55)×0.04=0.5,解得x=62.5.
(3)这20名工人中一天生产该产品的数量的平均数为0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.9.2.4 总体离散程度的估计
课标要求
理解方差、标准差的含义,会计算方差和标准差.
结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.
素养要求
在学习和应用标准差、方差和极差的过程中,要进行运算,对数据进行分析,发展学生的数学运算素养和数据分析素养.
知识点 1 一组数据x1,x2,…,xn的方差和标准差
数据x1,x2,…,xn的方差为 (xi-)2 = -2 ,标准差为  .
知识点 2 总体方差和标准差
(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体的平均数为,则称s2= (Yi-)2 为总体方差,s=  为总体标准差.
(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为s2= i(Yi-)2 .
知识点 3 样本方差和标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2= (yi-)2 为样本方差,s=  为样本标准差.
知识点 4 标准差的意义
标准差刻画了数据的_离散程度__或_波动幅度__,标准差越大,数据的离散程度越_大__;标准差越小,数据的离散程度越_小__.
[拓展] 对方差、标准差的理解
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.
(2)标准差、方差的取值范围:[0,+∞).
标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.
(3)标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
(4)标准差的单位与样本数据一致.
(5)方差s2=-2.
知识点 5 分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为n1,n2,两层的平均数分别为1,2,方差分别为s,s,则这个样本的方差为s2= [s+(1-)2]+[s+(2-)2] .
练一练:
1.现有10个数,其平均数为3,且这10个数的平方和是100,那么这组数据的标准差是( A )
A.1 B.2
C.3 D.4
[解析] 由s2=-2,得s2=×100-32=1,∴s=1.
2.国家射击队要从甲、乙、丙、丁四名队员中选出一名选手去参加射击比赛,四人的平均成绩和方差如下表:
甲 乙 丙 丁
平均成绩 8.5 8.8 8.8 8
方差s2 3.5 3.5 2.1 8.7
则应派_丙__参赛最为合适.
[解析] 由表可知,丙的平均成绩较高,且发挥比较稳定,应派丙去参赛最合适.
题型探究
题型一 标准差、方差的计算
典例1 (1)计算数据5,7,7,8,10,11的标准差、方差.
(2)若40个数据的平方和是56,平均数是,则这组数据的方差是_0.9__,标准差是  .
[解析] (1)∵=(5+7+7+8+10+11)÷6=8,且
数据xi 5 7 7 8 10 11
xi- -3 -1 -1 0 2 3
(xi-)2 9 1 1 0 4 9
∴s2=(9+1+1+0+4+9)÷6=4,
∴s==2,
∴这组数据的方差为4,标准差为2.
(2)由方差公式
s2=
得s2=
=-2
由已知n=40,x+x+…+x=56.=.
∴s2=-2=0.9,∴s=.
[归纳提升] (1)记准公式,照式求值,分清先后,按部就班,不急不躁,水到渠成.
(2)列表是一个好方法!
对点练习 (1)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:
运动员 第1次 第2次 第3次 第4次 第5次
甲 87 91 90 89 93
乙 89 90 91 88 92
则成绩较为稳定(方差较小)的那位运动员成绩的方差为_2__.
(2)某医院急救中心随机抽取20位病人等待急诊的时间记录如下表:
等待时间/分 [0,5) [5,10) [10,15) [15,20) [20,25]
频数 4 8 5 2 1
用上述数据计算出病人平均等待时间的估计值=_9.5__分,病人等待时间方差的估计值s2=_28.5__.
[解析] (1)根据数据可得甲=90,乙=90.
s=[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4;
s=[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.
所以乙运动员的成绩稳定,方差为2.
(2)由题意,=(2.5×4+7.5×8+12.5×5+17.5×2+22.5×1)=9.5.
s2=[(2.5-9.5)2×4+(7.5-9.5)2×8+(12.5-9.5)2×5+(17.5-9.5)2×2+(22.5-9.5)2×1]=28.5.
题型二 标准差、方差的性质
典例2 (1)已知一组数据x1,x2,…,xn的方差是a,求另一组数据x1-2,x2-2,…,xn-2的方差;
(2)设一组数据x1,x2,…,xn的标准差为sx,另一组数据3x1+a,3x2+a,…,3xn+a的标准差为sy,求sx与sy的关系.
[解析] (1)由题意知,设原数据的平均数为,则新数据的平均数为-2,原数据的方差s2=[(x1-)2+(x2-)2+…+(xn-)2]=a.
新数据的方差s2=[(x1-2-+2)2+(x2-2-+2)2+…+(xn-2-+2)2]
=[(x1-)2+(x2-)2+…+(xn-)2]
=a,所以方差不变.
(2)设原数据的平均数为,则新数据的平均数为3+a.
sy=



=3Sx.
[归纳提升] (1)一组数据中的每一个数据都加上或减去同一个常数,所得的一组新数据的方差不变,标准差也不变.
(2)若把一组数据的每一个数变为原来的k倍并加上或减去常数a,则它的标准差变为原来的k倍,方差变为原来的k2倍,而与a的大小无关.
对点练习 若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( C )
A.8 B.15
C.16 D.32
[解析] 令yi=2xi-1(i=1,2,3,…,10),则所求的标准差为s=2×8=16.
题型三 分层随机抽样的方差
典例3 在了解全校学生每年平均阅读了多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,求合在一起后的样本平均数与方差.(精确到0.1)
[解析] 把甲同学抽取的样本的平均数记为,方差记为s;把乙同学抽取的样本的平均数记为,方差记为s;把合在一起后的样本的平均数记为,方差记为s2.
则=≈5.4,
s2=

≈12.4.
即样本的平均数为5.4,方差为12.4.
[归纳提升] 两层及以上的分层随机抽样的平均数及方差
1.分层随机抽样的平均数的求法
设样本中不同层的平均数和相应权重分别为1,2,…,n和w1,w2,…,wn,则这个样本的平均数:=w11+w22+…+wnn.
2.方差计算公式
设样本中不同层的平均数分别为1,2,…,n,方差分别为s,s,…,s,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=i[s+(i-)2],为总样本数据的平均数.
此处,某层的权重=.
对点练习 甲、乙两支田径队的体检结果为:甲队体重的平均数为60 kg,方差为200,乙队体重的平均数为70 kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和方差分别是多少?
[解析] 由题意可知甲=60,甲队队员在所有队员中所占权重为=,
乙=70,乙队队员在所有队员中所占权重为=,
则甲、乙两队全部队员的平均体重为=×60+×70=68(kg),
甲、乙两队全部队员的体重的方差为
s2=[200+(60-68)2]+[300+(70-68)2]=296.
题型四 其他统计图表中反映的集中趋势与离散程度
典例4 甲、乙两人在相同条件下各射靶10次,每次射靶的成绩情况如图所示.
(1)请填写下表:
平均数 方差 中位数 命中9环及9环以上的次数


(2)请从下列四个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看,谁的成绩更稳定;
②从平均数和中位数相结合看,谁的成绩好些;
③从平均数和命中9环及9环以上的次数相结合看,谁的成绩好些;
④从折线图上两人射击命中环数的走势看,谁更有潜力.
[解析] (1)由图可知,甲打靶的成绩为9,5,7,8,7,6,8,6,7,7,乙打靶的成绩为2,4,6,8,7,7,8,9,9,10.
则可求得,甲的成绩的平均数为7,方差为1.2,中位数是7,命中9环及9环以上的次数为1;乙的成绩的平均数为7,方差为5.4,中位数是7.5,命中9环及9环以上的次数为3.如下表:
平均数 方差 中位数 命中9环及9环以上的次数
甲 7 1.2 7 1
乙 7 5.4 7.5 3
(2)①甲、乙的平均数相同,乙的方差较大,所以甲的成绩更稳定.
②甲、乙的平均数相同,乙的中位数较大,所以乙的成绩好些.
③甲、乙的平均数相同,乙命中9环及9环以上的次数比甲多,所以乙的成绩好些.
④从折线图上看,乙基本上呈上升趋势,而甲趋于稳定,故乙更有潜力.
对点练习 在某校高中篮球联赛中,某班甲、乙两名篮球运动员在8场比赛中的单场得分用茎叶图表示(如图一),茎叶图中甲的得分有部分数据丢失,但甲得分的折线图(如图二)完好,则下列结论正确的是( B )
      图一       图二
A.甲得分的极差是18
B.乙得分的中位数是16.5
C.甲得分更稳定
D.甲的单场平均得分比乙低
[解析] 对于甲,其得分的极差大于或等于28-9=19,故A错误;
从折线图看,甲的得分中最低分小于10,最高分大于或等于28,且大于或等于20的分数有3个,故其得分不稳定,故C错误;
乙的数据由小到大依次为:9,14,15,16,17,18,19,20
乙得分的中位数为=16.5,故B正确.
乙得分的平均数为=16,
从折线图上,茎叶图中甲的得分中丢失的数据为一个为15,另一个可设为m,
其中10故其平均数为=>>16,故D错误.故选B.
易错警示
忽略方差的统计意义致错
典例5 甲、乙两种冬小麦实验品种连续5年平均单位面积产量如下(单位:t/km2):
第1年 第2年 第3年 第4年 第5年
甲 9.8 9.9 10.1 10 10.2
乙 9.4 10.3 10.8 9.7 9.8
若某村要从中引进一种冬小麦大量种植,给出你的建议.
[错解] 由题意得甲=×(9.8+9.9+10.1+10+10.2)=10,
乙=×(9.4+10.3+10.8+9.7+9.8)=10,
甲、乙两种冬小麦的平均产量都等于10,所以引进两种冬小麦中的任意一种都可以.
[错因分析] 造成错解的原因是只比较了两种冬小麦的平均产量,而忽略了对冬小麦产量稳定性的讨论.
[正解] 由题意得甲=×(9.8+9.9+10.1+10+10.2)=10,
乙=×(9.4+10.3+10.8+9.7+9.8)=10,
s=×[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]=0.02,
s=×[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]=0.244.
甲、乙两种冬小麦的平均产量都等于10,且s[误区警示] 平均数反映的是样本的平均水平,方差和标准差反映了样本的波动、离散程度.对于形如“谁发挥更好”“谁更优秀”的题目,除比较数据的平均值外,还应该比较方差或标准差的大小,以作出更为公正、合理的判断.
对点练习 在去年的足球甲A联赛上,一队每场比赛平均失球数是1.6,全年比赛失球个数的标准差为1.2;二队每场比赛平均失球数是2.2,全年比赛失球个数的标准差是0.5.下列说法正确的有( D )
①平均来说一队比二队防守技术好;
②二队比一队技术水平更稳定;
③一队有时表现很差,有时表现又非常好;
④二队很少不失球.
A.1个 B.2个
C.3个 D.4个
[解析] 一队每场比赛平均失球数是1.6,二队每场比赛平均失球数是2.2,所以平均来说一队比二队防守技术好,故①正确;一队全年比赛失球个数的标准差为1.2,二队全年比赛失球个数的标准差是0.5,所以二队比一队技术水平更稳定,故②正确;一队全年比赛失球个数的标准差为1.2,二队全年比赛失球个数的标准差是0.5,所以一队有时表现很差,有时表现又非常好,故③正确;二队每场比赛平均失球数是2.2,全年比赛失球个数的标准差是0.5,所以二队很少不失球,故④正确.故选D.
1.(多选题)下列说法中正确的是( ACD )
A.数据的极差越小,样本数据分布越集中、稳定
B.数据的平均数越小,样本数据分布越集中、稳定
C.数据的标准差越小,样本数据分布越集中、稳定
D.数据的方差越小,样本数据分布越集中、稳定
[解析] 由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故B不正确,ACD正确.
2.已知一组数据1,3,2,5,4,那么这组数据的标准差为( A )
A. B.
C.2 D.3
[解析] ∵样本容量n=5,∴=(1+2+3+4+5)=3,
∴s=
=.
3.将10名小学生的身高(单位:cm)分成了甲、乙两组数据,甲组:115,122,105,111,109;乙组:125,132,115,121,119.两组数据中相等的数字特征是( C )
A.中位数、极差 B.平均数、方差
C.方差、极差 D.极差、平均数
[解析] 甲组数据由小到大依次排列为105,109,111,115,122,故极差为17,平均数为112.4,中位数为111,方差为33.44;乙组数据由小到大依次排列为115,119,121,125,132,故极差为17,平均数为122.4,中位数为121,方差为33.44.
因此,两组数据相等的是极差和方差.故选C.
4.已知甲、乙两名同学在五次数学测验中的得分如下:
甲:85,91,90,89,95;
乙:95,80,98,82,95.
则甲、乙两名同学数学成绩( A )
A.甲比乙稳定 B.甲、乙稳定程度相同
C.乙比甲稳定 D.无法确定
[解析] 甲=×(85+91+90+89+95)=90,
s=×[(85-90)2+(91-90)2+(90-90)2+(89-90)2+(95-90)2]=10.4,
乙=×(95+80+98+82+95)=90,
s=×[(95-90)2+(80-90)2+(98-90)2+(82-90)2+(95-90)2]=55.6.
∵甲=乙,s5.某班50名学生骑自行车,骑电动车到校所需时间统计如下:
到校方式 人数 平均用时(分钟) 方差
骑自行车 20 30 36
骑电动车 30 20 16
则这50名学生到校时间的方差为( A )
A.48 B.46
C.28 D.24
[解析] 由已知可得,骑自行车平均用时(分钟):1=30,方差S=36;骑电动车平均用时(分钟):2=20,方差S=16;骑自行车人数占总数的,骑电动车人数占总数的.
这50名学生到校时间的平均数为=×30+×20=24,方差为S2=[36+(30-24)2]+[16+(20-24)2]=48.故选A.章末知识梳理
一、随机抽样
1.简单随机抽样
(1)特征:①逐个不放回的抽取;②每个个体被抽到的概率都相等.
(2)常用方法:①抽签法;②随机数法.
2.分层随机抽样
(1)定义:按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本.
(2)比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.在比例分配的分层随机抽样中,==.
(3)在比例分配的分层随机抽样中.我们可以直接用样本平均数估计总体平均数.
二、用样本估计总体
1.频率分布直方图
可以利用频率分布直方图估计总体的取值规律.
2.百分位数与总体百分位数的估计
(1)第p百分位数:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)可以用样本数据的百分位数估计总体的百分位数.
3.众数、中位数和平均数与总体集中趋势的估计
4.总体集中趋势的估计
要点一 抽样方法的选取及应用
1.两种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数法;当总体中个体差异较显著时,可采用分层随机抽样.
2.掌握两种抽样方法,提升数据分析素养.
典例1 为了了解学生学习的情况,某校采用分层随机抽样的方法从高一1 200人、高二1 000人、高三n人中,抽取90人进行问卷调查.已知高一被抽取的人数为36,那么高三被抽取的人数为( B )
A.20 B.24
C.30 D.32
[分析] 各层中抽样比例相同.
[解析] 根据题意可知,抽取比例为:=,
所以总人数为:90×=3 000,
所以高三被抽取的人数为×(3 000-1 200-1 000)=24.
对点练习 某地共有10万户居民,从中随机调查1 000户居民拥有电脑的情况,调查结果如下表:
电脑 城市 农村
有 432 400
无 48 120
若该地区城市与农村住户之比为4∶6,估计该地区无电脑的农村居民总户数约为( B )
A.0.923万户 B.1.385万户
C.1.8万户 D.1.2万户
[解析] 无电脑的农村居民总户数约为10××≈1.385(万户).
要点二 用样本的取值规律估计总体的取值规律
与频率分布直方图有关问题的常见类型及解题策略
(1)已知频率分布直方图中的部分数据,求其他数据,可利用频率和等于1求解.
(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.
典例2 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料(单位:cm):
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142)
人数 5 8 10 22 33
区间界限 [142,146) [146,150) [150,154) [154,158]
人数 20 11 6 5
(1)列出样本的频率分布表(频率保留两位小数);
(2)画出频率分布直方图;
(3)估计身高低于134 cm的人数占总人数的百分比.
[解析] (1)列出样本频率分布表:
分组 频数 频率
[122,126) 5 0.04
[126,130) 8 0.07
[130,134) 10 0.08
[134,138) 22 0.18
[138,142) 33 0.28
[142,146) 20 0.17
[146,150) 11 0.09
[150,154) 6 0.05
[154,158] 5 0.04
合计 120 1.00
(2)画出频率分布直方图,如图所示.
(3)因为样本中身高低于134 cm的人数的频率为=≈0.19.
所以估计身高低于134 cm的人数约占总人数的19%.
对点练习 某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,参保险种比例定期寿险;戊,重大疾病保险.各种保险按相关约定进行参保与理赔.已知该保险公司对5个险种的参保客户进行抽样调查,得出如上统计图例,则以下四个选项错误的是( A )
A.18~29周岁人群参保总费用最少
B.30周岁以下的参保人群约占参保人群的20%
C.54周岁以上的参保人数最少
D.丁险种更受参保人青睐
[解析] 由扇形统计图及折线图可知,8%×6 000<20%×4 000,故不小于54周岁人群参保总费用最少,故A错误;由扇形统计图可知,30周岁以下参保人群约占参保人群的20%,故B正确;由扇形统计图可知,54周岁以上的参保人数约占8%,人数最少,故C正确;由柱状图可知,丁险种更受参保人青睐,故D正确;故选A.
要点三 样本的百分位数
1.四分位数:第25分位数,第50分位数,第75分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
2.由频率分布直方图求百分位数时,一般采用方程的思想,设出第p百分位数,根据其意义列出方程求解.
典例3 数学兴趣小组调查了12位大学毕业生的起始月薪,具体如表:
学生编号 起始月薪
1 3 850
2 3 950
3 4 050
4 3 880
5 3 755
6 3 710
7 3 890
8 4 130
9 3 940
10 4 325
11 3 920
12 3 880
试确定第85百分位数.
[分析] 首先从小到大排列各数,再计算i.
[解析] 将数据从小到大排列:3 710,3 755,3 850,3 880,3 880,3 890,3 920,3 940,3 950,4 050,4 130,4 325.计算i=n×p%=12×85%=10.2,显然i不是整数,所以将i=10.2向上取整,大于i的比邻整数11即为第85百分位数的位置,所以第85百分位数是4 130.
对点练习 (2023·北京市延庆区期中)“幸福感指数”是指某个人主观地评价他对自己目前生活状态的满意程度的指标,常用0~10内的一个数来表示,该数越接近10表示满意度越高.现随机抽取10位北京市民,他们的幸福感指数为3,4,5,5,6,7,7,8,9,10.则这组数据的75%分位数是( C )
A.7 B.7.5
C.8 D.8.5
[解析] 由题意,这10个人的幸福感指数已经从小到大排列,因为75%×10=7.5,所以这10个数据的75%分位数是从左数第8个数,为8,故选C.
要点四 用样本的集中趋势、离散程度估计总体
为了从整体上更好地把握总体规律,我们还可以通过样本数据的众数、中位数、平均数估计总体的集中趋势,通过样本数据的方差或标准差估计总体的离散程度.众数就是样本数据中出现次数最多的那个值;中位数就是把样本数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,中位数为处于中间位置的数,如果数据的个数是偶数,中位数为中间两个数据的平均数;平均数就是所有样本数据的平均值,用表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式是
s=.有时也用标准差的平方(方差)来代替标准差.
典例4 (2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.
(1)求,,s,s;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高.
[解析] (1)各项所求值如下所示.
=×(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10.0,
=×(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3,
s=×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036.
s=×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据得-=0.3,2≈0.39.
显然-<2.所以不认为新设备生产产品的该项指标的均值较旧设备有显著提高.
对点练习 (多选题)某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为,,,.若不低于80分的人数是35人,且同一组中的数据用该组区间的中点值代表,则下列说法中正确的是( ACD )
A.该班的学生人数是50
B.成绩在[80,90)的学生人数是12
C.估计该班成绩的众数是95分
D.估计该班成绩的方差为100
[解析] ∵不低于80分对应的频率为1-×10=0.7,
∴该班的学生人数为=50,A正确;
∵×10=1,∴a=0.03,
∴成绩在的学生人数为50a×10=15,B错误;
∵成绩在对应的矩形面积最大,∴估计该班成绩的众数为95分,C正确;
∵估计该班成绩的平均数为65×0.01×10+75×0.02×10+85×0.03×10+95×0.04×10=85,
∴方差为0.01×10×2+0.02×10×2+0.03×10×2+0.04×10×2=100,D正确.
故选ACD.