随机抽样、用样本估计总体
2026年高考数学一轮复习专题课件★★
简单随机抽样
(1)特点:逐个抽取,且每个个体被抽到的可能性相等.
(2)常见方法:抽签法和随机数法.
回归教材
分层随机抽样
(1)定义:按一个或多个变量把总体划分成_________子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本______一起作为总样本,这样的抽样方法称为分层随机抽样.
(2)应用范围:当总体是由差异明显的几部分组成时,往往选用分层随机抽样.
若干个
合在
(3)在分层抽样中,以层数是2层为例,如果第1层和第2层抽取的样
总体取值规律的估计
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与________的差).
②决定组距与_____.
③将_____分组.
④列_____分布表.
⑤画_____分布直方图.
(2)特点:各个小长方形的_____表示相应各组的频率;各小长方形的________等于1.
(3)其他统计图
条形统计图、扇形统计图、折线统计图等.
最小值
组数
数据
频率
频率
面积
面积之和
总体百分位数的估计
(1)第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据_________________这个值,且至少有(100-p)%的数据_____________这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按__________排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的______.
小于或等于
大于或等于
从小到大
平均数
总体集中趋势与离散程度的估计
(1)众数:一组数据中出现次数最多的数.
(2)中位数:将数据从小到大(或从大到小)排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.
(4)方差:s2=____________________________________________(x1,x2,…,xn是数据,n是数据个数, 是平均数).
(5)标准差:样本数据到平均数的平均距离,一般用s表示,s=_____
____________________________________________刻画了数据的离散程度或波动幅度.
(6)利用频率分布直方图求众数、中位数与平均数.
在频率分布直方图中:
①最高的小长方形底边中点的横坐标即是众数;
②中位数左边和右边的小长方形的面积和是相等的;
③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积与小长方形底边中点的横坐标的乘积之和.
1.判断下面结论是否正确.(对的打“√”,错的打“×”)
(1)某校1 000名学生参加了2025年1月的八省联考,为了解这些学生的成绩,从中抽取了100名学生的成绩单,则
①这1 000名学生是总体;
②每个学生是个体;
③样本容量是100.
夯实双基
答案 ①× ②× ③√
(2)分层随机抽样是将每层等可能抽样,在各层中抽取相同的个体数构成样本.
答案 ×
(3)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.
答案 ×
(4)一组数据的方差越大,说明这组数据越集中.
答案 ×
2.为了学习、宣传和践行党的二十大精神,某班组织全班学生开展了以“学党史、知国情、圆梦想”为主题的党史暨时政知识竞赛活动.已知该班有男生20人,女生30人,根据统计分析,所有男生和所有女生成绩的平均分分别为80,84,则该班成绩的平均分是( )
A.82 B.82.1
C.82.2 D.82.4
√
解析 根据题意,可得该班成绩的平均分是 =82.4,故选D.
3.(2025·通州区期末)已知甲、乙两支篮球队各6名队员某场比赛的得分数据(单位:分)从小到大排列如下:
甲队:7,12,12,20,20+x,31;乙队:8,9,10+y,19,25,28.这两组数据的中位数相等,且平均值也相等,则x+y的值为( )
A.3 B.4
C.5 D.6
√
4.【多选题】(2025·沧州七校联考)某城市在创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为100的样本,发现数据均在[40,100]内.现将这些分数分成6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,则下列说法正确的是( )?
A.频率分布直方图中第三组的频数为10
B.根据频率分布直方图估计样本的众数为75分
C.根据频率分布直方图估计样本的中位数为75分
D.根据频率分布直方图估计样本的平均数为75分
√
√
√
解析 分数在[60,70)内的频率为1-10×(0.005+0.020+0.030+0.025+0.010)=0.10,所以第三组的频数为100×0.10=10,故A正确;因为众数的估计值是频率分布直方图中最高矩形底边的中点的横坐标,从图中可看出众数的估计值为75分,故B正确;因为(0.005+0.020+0.010)×10=0.35<0.5,(0.005+0.020+0.010+0.030)×10=0.65>0.5,所以中位数位于[70,80)内,设中位数为x,则0.35+0.03(x-70)=0.5,解得x=75,所以中位数的估计值为75分,故C正确;样本平均数的估计值为45×10×0.005+55×10×0.020+65×10×0.010+75×10×0.030+85×10×0.025+95×10×0.010=73(分),故D错误.故选ABC.
5.(北师大版必修一P157T1改编)某高校后勤处想调查学生对学校食堂新设水果窗口的意见.已知男、女生对新设水果窗口的意见可能有较大差异,该校有男生4 000人,女生3 000人.现需要从全校学生中抽取490名进行调查,则应该从男、女生中各抽取________人、________人比较合理.
280
210
解析 根据分层随机抽样的方法,可得抽取男生的人数为4 000×
=280,抽取女生的人数为3 000× =210,
故男、女生各抽取280人、210人比较合理.
题型一 抽样方法(自主学习)
(1)用简单随机抽样的方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性分别是( )
√
【解析】 方法一:在抽样过程中,个体a每一次被抽中的概率是相等的,因为总体容量为10,故个体a“第一次被抽到”的可能性与“第二次被抽到”的可能性均为 .故选A.
方法二:第一次被抽到,显然为 ;第二次被抽到,首先第一次不能被抽到,第二次才可能被抽到,可能性为 .故选A.
(2)(2025·山东枣庄统考模拟预测)在北京冬奥会期间,共有1.8万多名赛会志愿者和20余万名城市志愿者参与服务.据统计,某高校共有本科生1 600人,硕士生600人,博士生200人申请报名做志愿者,现用分层随机抽样的方法从中抽取博士生30人,则该高校抽取的志愿者总人数为( )
A.300 B.320
C.340 D.360
√
【解析】 根据题意知分层随机抽样比例为 ,所以该高校抽取的志愿者总人数为(1 600+600+200)× =360.故选D.?
(3)(2025·潍坊市期末)某工厂利用随机数表对生产的700个零件进行抽样测试,先将700个零件进行编号,001,002,…,699,700.从中抽取70个样本,下面提供了随机数表的第5行到第6行数据,若从随机数表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
8442125331 3457860736 2530073286 2345788907 2368960804
3256780843 6789535577 3489948375 2253557832 4577892345
A.623 B.328
C.253 D.007
√
【解析】 从第5行第6列开始向右读取数据,第一个数为253,第二个数是313,第三个数是457,下一个数是860,不符合要求,下一个数是736,不符合要求,下一个数是253,重复,则第四个数是007,第五个数是328,第六个数是623.
状元笔记
(1)简单随机抽样、分层随机抽样中,总体中每个个体入样的可能性是相同的.
√
思考题1 (1)(2025·陕西西安八校联考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为3 200,x,2 400,为了解各车间的产品是否存在显著差异,采用按比例分配分层随机抽样的方式按车间抽取样本进行检测.若在甲、乙两车间共抽取了90件,在乙、丙两车间共抽取了80件,则x=( )
A.3 000 B.3 200
C.3 600 D.4 000
【解析】 由按比例分配的分层随机抽样可知 ,解得x=4 000.
?
(2)为了解学生的课外阅读情况.某校采用按比例分配的分层随机抽样的方法对高中三个年级的学生进行平均每周课外阅读时间(单位:小时)的调查,所得样本数据如下:
?
已知高中三个年级的总样本平均数为4.1,总样本方差为3.14,则高二年级学生的样本平均数 2=________,高三年级学生的样本方差s32=________.
年级
抽样人数
样本平均数
样本方差
高一
40
5
3.5
高二
30
2
2
高三
30
3
s32
4
1.5
【解析】 由高中三个年级学生的总样本平均数为4.1,
因为总样本方差为3.14,
解得s32=1.5.
题型二 总体取值规律、百分位数的估计
随机抽取100名学生,测得他们的身高(单
位:cm),按照区间[160,165),[165,170),[170,
175),[175,180),[180,185)分组,得到频率分布
直方图如图所示.
(1)求频率分布直方图中x的值及身高在170 cm及
以上的学生人数;
【思路】 (1)由频率的和为1即可求出x的值,进而可以求出身高在170 cm及以上的学生人数;
【答案】 (1)x=0.06,60
【解析】 (1)由频率分布直方图可知5×(0.01+0.07+x+0.04+0.02)=1,解得x=0.06,身高在170 cm及以上的学生人数为100×5×(0.06+0.04+0.02)=60.
(2)将身高在[170,175),[175,180),[180,
185)区间内的学生依次记为A,B,C三个组,用分
层随机抽样的方法从这三个组中抽取6人,求这三
个组分别抽取的学生人数;
【思路】 (2)首先求出A,B,C三个组的人数,进而可以求出这三个组分别抽取的学生人数;
【答案】 (2)3,2,1
【解析】 (2)A组人数为100×5×0.06=30,B组人数为100×5× 0.04=20,C组人数为100×5×0.02=10,由题意可知A组抽取人数为30×
?
(3)估计该100名学生身高的75%分位数.
【思路】 (3)根据百分位数的概念即可求出
结果.
【答案】 (3)176.25
【解析】 (3)身高在[180,185)的人数占比为5×0.02=10%,身高在[175,180)的人数占比为5×0.04=20%,所以该100名学生身高的75%分位数落在[175,180)内,设该100名学生身高的75%分位数为x,则0.04(180-x)+0.1=25%,解得x=176.25,故该100名学生身高的75%分位数为176.25.
【讲评】 本题考查了频率分布直方图的性质及百分位数的求法.
状元笔记
(1)频率分布直方图相关结论:
①频率分布直方图中各小长方形的面积之和为1.
②频率分布直方图中纵轴表示 ,所以每组的频率= ×组距,即小长方形面积.
(2)估计总体百分位数的注意事项:
①数据要从小到大排序.
②确定要求的p%分位数所在分组[A,B),由频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A
+组距× .
思考题2 (1)一个容量为20的样本,其数据按从小到大的顺序排列为:1,2,2,3,5,6,6,7,8,8,9,10,13,13,14,15,17,17,18,18,则该组数据的第75百分位数为________,第86百分位数为________.
14.5
17
【解析】 ∵75%×20=15,∴第75百分位数为 =14.5.∵86%×20=17.2,∴第86百分位数为第18个数据17.
(2) (人教B版必修二P81例2)我国是世界上严重缺
水的国家之一,某市为了制定合理的节水方案,对家
庭用水情况进行了调查,通过抽样,获得了某年100个
家庭的月均用水量(单位:t),将数据按照[0,1),[1,2),[2,3),[3,4),[4,5]分成5组,制成了如图所示的频率分布直方图.
①求图中a的值;
②设该市有10万个家庭,估计全市月均用水量不低于3 t的家庭数;
③假设同组中的数据都用该组区间的中点值代替,估计全市家庭月均用水量的平均数.
【答案】 ①0.18 ②30 000 ③2.46
【解析】 ①因为频率分布直方图所有矩形的面
积之和为1,
所以(0.12+0.22+0.36+a+0.12)×1=1,
解得a=0.18.
②抽取的样本中,月均用水量不低于3 t的家庭所占比例为(0.18+0.12)×1=0.3=30%,
因此估计全市月均用水量不低于3 t的家庭所占比例也为30%,所以所求家庭数为100 000×30%=30 000.
③因为0.12×0.5+0.22×1.5+0.36×2.5+0.18×3.5+0.12×4.5=2.46,
所以估计全市家庭月均用水量的平均数为2.46.
题型三 总体集中趋势、离散程度的估计
(1)【多选题】(2023·新高考Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
√
√
【解析】 无法判断x2,x3,x4,x5的平均数与x1,x2,…,x6的平均数是否相同,A错误.
x2,x3,x4,x5的中位数一定等于x1,x2,…,x6的中位数,B正确.
对于C,方法一:令xi=i(i=1,2,…,6),则x2,x3,x4,x5的方差s12=
方法二:例如:x1=1,x6=6,x2,x3,x4,x5=2,∴x2,x3,x4,x5的标准差为0,而x1,x2,…,x6的标准差>0,C错误.
对于D,x1,x6分别是xi(i=1,2,…,6)中的最小值与最大值,x2,x3,x4,x5的极差一定不大于x6-x1,D正确.
(2)【多选题】(2025·武汉市质检)在某次高中学科知识竞赛中,对4 000名考生的参赛成绩进行统计,得到如图所示的频率分布直方图,其中分组的区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],60分以下视为不及格,若同一组中数据用该组区间中点值作代表值,则下列说法中正确的是( )
A.成绩在[70,80)的考生人数最多
B.不及格的考生人数为1 000
C.考生竞赛成绩的平均分约为70.5分
D.考生竞赛成绩的中位数为75分
√
√
√
【解析】 由频率分布直方图可得,成
绩在[70,80)的频率最高,因此考生人数最
多,故A正确;成绩在60分以下的频率为
0.01×10+0.015×10=0.25,因此,不及格
的人数为4 000×0.25=1 000,故B正确;考生竞赛成绩的平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5(分),故C正确;因为成绩在[40,70)的频率为0.45,在[70,80)的频率为0.3,所以中位数为70+10× ≈71.67(分),故D错误.故选ABC.
(3)(2023·全国乙卷,理)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验
序号i
1
2
3
4
5
6
7
8
9
10
伸缩率xi
545
533
551
522
575
544
541
568
596
548
伸缩率yi
536
527
543
530
560
533
522
550
576
536
记zi=xi-yi(i=1,2,…,10),记z1,z2,…,z10的样本平均数为 ,样本方差为s2.
①求 ,s2;
②判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果 ,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
【答案】 ①11,61 ②甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高
【解析】 ①zi=xi-yi的值分别为9,6,8,-8,15,11,19,18,20,12,
则 (9+6+8-8+15+11+19+18+20+12)=11.
故s2= ×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+0+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
②由(1)知
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
状元笔记
(1)标准差(方差)反映了数据的离散程度或波动幅度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
(2)方差公式可变形为
√
思考题3 (1)【多选题】(2025·安徽皖北协作区联考)已知样本数据x1,x2,x3,x4,x5(x1<0,x2,x3,x4,x5>0)的方差为s2,平均数 >0,则( )
A.数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的方差为9s2
B.数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数大于0
C.数据x2,x3,x4,x5的方差大于s2
D.数据x2,x3,x4,x5的平均数大于
√
【解析】 数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的方差为9s2,故A正确;数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数为 ,故B错误;去掉一个最小的数据x1,剩下的数据的方差有可能更小,故C错误;因为 ,数据x2,x3,x4,x5的平均数为 ,又x1<0,所以数据x2,x3,x4,x5的平均数大于 ,故D正确.
(2) 为了调查某厂工人生产某种产品的能
力,随机抽查了20名工人某天生产该产品的
数量,得到频率分布直方图如图所示,则:
①这20名工人中一天生产该产品数量在
[55,75)的人数是________;
②这20名工人中一天生产该产品数量的中位数为________;
③这20名工人中一天生产该产品数量的平均数为________.
13
62.5
64
【解析】 ①在[55,75)的人数为(0.040×10+0.025×10)×20=13.
②设中位数为x,易知x∈[55,65),则0.2+(x-55)×0.04=0.5,解得x=62.5.
③0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.
(3)(2024·深圳市高三二模)已知样本x1,x2,x3的平均数为2,方差为1,则x12,x22,x32的平均数为________.
5
本课总结
1.众数、中位数和平均数的异同
?
众数
中位数
平均数
相同点
都是描述一组数据集中趋势的量
不同点
与这组数据中的部分数据有关,出现在这些数据中
不一定在这些数据中出现,数据为奇数个时,在这组数据中出现;数据为偶数个时,为数据按大小排序后中间两数的平均值
不一定在这些数据中出现
2.标准差和方差的异同
相同点:标准差和方差描述了一组数据围绕平均数波动的大小.
不同点:方差与原始数据的单位不同,且平方后可能夸大了偏差程度,标准差则不然.
几种常用的统计图
扇形图
1.(2025·沧衡八校联盟)已知某地区中
小学生人数和近视情况分别如图①和图②
所示.为了了解该地区中小学生的近视形
成原因,用分层随机抽样的方法抽取2%的
学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20 B.100,20
C.200,10 D.100,10
√
解析 由图①得样本容量为(3 500+2 000+4 500)×2%=10 000×2%=200,
抽取的高中生人数为2 000×2%=40,则近视人数为40×0.5=20.故选A.
条形图
√
2.【多选题】(2025·合肥模拟)
为了解我国农业、农村、农民的基
本情况,将全国第三次农业普查的
部分数据整理得到如下的柱状图(单
位:%),则( )
A.东北地区的四项数据均比中部地区高
B.西部地区的四项数据均比其他三个地区低
C.中部地区的发展情况相较于西部地区发展较好
D.东部地区的发展情况相较于其他三个地区发展较好
√
解析 东北地区通电的村、
通宽带互联网的村、有电子商务
配送站点的村的占比高于中部地
区,但通天然气的村的占比低于
中部地区,故A错误;
西部地区通电的村、通宽带
互联网的村、有电子商务配送站点的村的占比低于其他三个地区,但通天然气的村的占比高于其他三个地区,故B错误;
中部地区除通天然气的村的占比低于西部地区,其他三项数据均不低于西部地区,故中部地区的发展情况相较于西部地区较好,故C正确;
东部地区除通天然气的村的占比低于西部地区,其他三项数据均不低于其他三个地区,故东部地区的发展情况相较于其他三个地区较好,故D正确.
折线图
3.如图为2023年2月至2024年1月我
国商品零售总额和餐饮收入总额同比增
速情况折线图,根据该图,下列结论正
确的是( )
A.2024年1月,商品零售总额同比
增长9.2%
B.2023年3~12月,餐饮收入总额同比增速都为负
C.2023年6~10月,商品零售总额同比增速都为正
D.2023年12月,餐饮收入总额环比增速为-14.1%
√
解析 2024年1月,商品零售总
额同比增长2.9%,故A错误;2023年
8月,餐饮收入总额同比增速为正,
故B错误;2023年6~10月,商品零
售总额同比增速都为正,故C正确;
2023年12月,餐饮收入总额环比增
速并未告知,故D错误.故选C.