5.1.4 用样本估计总体
1.在一次模拟考试后,从高三某班随机抽取了20位学生的数学成绩,其分布如下:
分组 [90, 100) [100, 110) [110, 120) [120, 130) [130, 140) [140, 150]
频数 1 2 6 7 3 1
分数在130分(包括130分)以上者为优秀,据此估计该班的优秀率约为( )
A.10% B.20% C.30% D.40%
2.某高校甲、乙两位同学大学四年选修课程的考试成绩等级(选修课的成绩等级分为1,2,3,4,5,共五个等级)的条形图如图所示,则甲成绩等级的中位数与乙成绩等级的众数分别是( )
A.3,5 B.3,3 C.3.5,5 D.3.5,4
3.某商场开通三种平台销售商品,五一期间这三种平台的数据如图①所示.该商场为了解消费者对各平台销售方式的满意程度用分层抽样的方法抽取了6%的顾客进行满意度调查,得到的数据如图②所示.下列说法正确的是( )
A.样本中对平台一满意的消费者人数约700
B.总体中对平台二满意的消费者人数为18
C.样本中对平台一和平台二满意的消费者总人数为60
D.若样本中对平台三满意的消费者人数为120,则m=90%
4.(多选)某赛季甲、乙两名篮球运动员各13场比赛得分情况用茎叶图表示如下.根据图中数据,对这两名运动员的成绩进行比较,下列四个结论中,正确的是( )
A.甲运动员得分的极差大于乙运动员得分的极差
B.甲运动员得分的中位数大于乙运动员得分的中位数
C.甲运动员得分的平均值大于乙运动员得分的平均值
D.甲运动员的成绩比乙运动员的成绩稳定
5.某市场一年中各月份的收入、支出的统计数据如图,请根据此统计图写出一个关于利润的正确的统计结论 .
6.某中学为了解学生数学课程的学习情况,在2 200名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测这2 200名学生在该次数学考试中成绩不小于80分的学生有 人.
7.在高一期中考试中,甲、乙两个班的数学成绩统计如下表:
班级 人数 平均分数 方差
甲 30 2
乙 20 3
其中=,则甲、乙两个班合在一起后数学成绩的方差为( )
A.2.2 B.2.6 C.2.5 D.2.4
8.某初中学校欲向高一级学校推荐一名学生,根据规定的推荐程序对三名候选人进行了笔试和面试,成绩最高的将被推荐.各项成绩如下表所示:
测试项目 测试成绩/分
甲 乙 丙
笔试 92 85 95
面试 85 95 80
请你根据表中信息解答下列问题:
(1)若按笔试和面试的平均得分确定最后成绩,应当推荐谁?
(2)若笔试、面试两项得分按照6∶4的比确定最后成绩,应当推荐谁?
9.(2023·全国乙卷17题)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10),试验结果如下:
试验序号i 1 2 3 4 5
伸缩率xi 545 533 551 522 575
伸缩率yi 536 527 543 530 560
试验序号i 6 7 8 9 10
伸缩率xi 544 541 568 596 548
伸缩率yi 533 522 550 576 536
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为,样本方差为s2.
(1)求,s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
5.1.4 用样本估计总体
1.B 由表可知,优秀的人数为3+1=4,则优秀率为×100%=20%,故据此估计该班的优秀率约为20%,故选B.
2.C 由条形图可得,甲同学共有10门选修课,将这10门选修课的成绩等级从低到高排序后,第5,6门的成绩等级分别为3,4,故中位数为=3.5,乙成绩等级的众数为5.故选C.
3.C 对于A,样本中对平台一满意的人数为2 000×6%×35%=42,故选项A错误;对于B,总体中对平台二满意的人数约为1 500×20%=300,故选项B错误;对于C,样本中对平台一和平台二满意的总人数为:42+18=60,故选项C正确;对于D,对平台三的满意率为=80%,所以m=80%,故选项D错误.故选C.
4.ABC 对于A,极差是数据中最大值与最小值的差,由题图中的数据可得甲运动员得分的极差为47-18=29,乙运动员得分的极差为33-17=16,则甲运动员得分的极差大于乙运动员得分的极差,因此A正确;对于B,甲数据从小到大排列处于中间的数是30,所以甲运动员得分的中位数是30,同理求得乙运动员得分的中位数是26,因此甲运动员得分的中位数大于乙运动员得分的中位数,故B正确;对于C,由茎叶图不难看出甲运动员得分的平均值大于乙运动员得分的平均值,故C正确;对于D,由茎叶图不难看出乙运动员得分更集中,因此乙得分的方差小于甲的方差,所以乙运动员的成绩比甲运动员的成绩稳定,故D不正确.故选A、B、C.
5.8月份利润最低(答案不唯一) 解析:根据题图可得,利润可以看作是每月收入和支出对应点的距离,可以得出:①8月份利润最低为10万元;②3月份和10月份利润最高都是30万元.
6.616 解析:2 200×[(0.020+0.008)×10]=2 200×0.28=616.
7.D 设甲、乙两班学生成绩分别为xi,yi,因为甲、乙两班的平均成绩相等,所以甲、乙两班合在一起后平均成绩依然为,因为(xi-)2=2 (xi-)2=60,同理(yi-)2=3 (yi-)2=60,∴甲、乙两班合在一起后的方差为:s2=[(xi-)2+(yi-)2]=×(60+60)==2.4.故选D.
8.解:(1)甲的平均得分为=88.5,乙的平均得分为=90,丙的平均得分为=87.5,乙的平均得分最高,所以应当推荐乙.
(2)甲的最后成绩为92×0.6+85×0.4=89.2,
乙的最后成绩为85×0.6+95×0.4=89,
丙的最后成绩为95×0.6+80×0.4=89,因为甲的最后成绩最高,所以应当推荐甲.
9.解:(1)由题意,求出zi的值如表所示,
试验 序号i 1 2 3 4 5 6 7 8 9 10
zi 9 6 8 -8 15 11 19 18 20 12
则=×(9+6+8-8+15+11+19+18+20+12)=11,
s2=×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)因为2=2=,=11=>,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
3 / 35.1.4 用样本估计总体
新课程标准解读 核心素养
1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义 数据分析、数学运算
2.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义 数据分析、数学运算
3.结合实例,能用样本估计总体的取值规律 数据分析、数学运算
4.结合实例,能用样本估计百分位数,理解百分位数的统计含义 数据分析、数学运算
中国体育彩票的种类有:超级大乐透、排列3、排列5、七星彩、地方体彩、足球彩票、竞彩、顶呱刮等等.体育彩票市场曾创造了无数的神话,相当一部分中奖者在谈及自己的中奖经历时都表示他们能够中奖,是经过长期研究体育彩票的走势及中奖号码分布特点后(即作出频率分布表),精心选号的结果.所以说彩民之所以能中大奖是因为他们“推测”的方法是科学的,“推测”的结果是比较可靠的.
【问题】 你知道他们是如何“推测”的吗?用到了统计学中的什么方法?
知识点一 用样本的数字特征估计总体的数字特征
1.一般来说,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.
2.样本是用分层抽样得到的,由每一层的数字特征估计总体的数字特征.以分两层抽样的情况为例:
条件 假设第一层抽取m个数,分别为x1,x2,…,xm,平均数为,方差为s2;第二层抽取n个数,分别为y1,y2,…,yn,平均数为,方差为t2
结论 如果记样本均值为,样本方差为b2,则=,b2=[(ms2+nt2)+(-)2].令w1=,w2=,则=w1+w2,其中w1,w2称为权重
知识点二 用样本的分布来估计总体的分布
如果总体在每一个分组的频率记为π1,π2,…,πn,样本在每一组对应的频率记为p1,p2,…,pn,一般来说,(πi-pi)2=[(π1-p1)2+(π2-p2)2+…+(πn-pn)2]不等于零.同样,大数定律可以保证,当样本的容量越来越大时,上式很小的可能性将越来越大.
【想一想】
样本估计总体时总会有误差,所以可以随意抽取样本吗?
1.某班学生在一次数学考试中各分数段以及人数的成绩分布为:[0,80),2人;[80,90),6人;[90,100),4人;[100,110),
10人;[110,120),12人;[120,130),5人;[130,140),4人;[140,150],2人.那么分数在[100,130)中的频数以及频率分别为( )
A.27,0.56 B.20,0.56
C.27,0.60 D.13,0.29
2.甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示:
甲 乙 丙 丁
平均环数 8.6 8.9 8.9 8.2
方差s2 3.5 3.5 2.1 5.6
从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是( )
A.甲 B.乙
C.丙 D.丁
3.某医院急救中心随机抽取20位病人等待急诊的时间记录如下表:
等待时间 (分钟) [0,5) [5,10) [10, 15) [15, 20) [20, 25]
频数 4 8 5 2 1
用上述分组资料计算出病人平均等待时间的估计值= .
题型一 用样本的数字特征估计总体的数字特征
【例1】 两台机床同时生产直径(单位:cm)为10的圆形截面零件,为了检验产品质量,质量检验员从两台机床的产品中各抽出4件进行测量,结果如下:
机床甲 10 9.8 10 10.2
机床乙 10.1 10 9.9 10
如果你是质量检验员,在收集到上述数据后,你将通过怎样的运算来判断哪台机床生产的零件质量更符合要求?
尝试解答
通性通法
样本的平均数和方差是两个重要的数字特征.在应用平均数和方差解决实际问题时,若平均数不同,则直接应用平均数比较优劣,若平均数相同,则要由方差研究其与平均数的偏离程度.
【跟踪训练】
1.有甲、乙两种水稻,测得每种水稻各10株的分蘖数据,计算出样本均值E(X甲)=E(X乙),方差分别为D(X甲)=11,D(X乙)=3.4.由此可以估计( )
A.甲种水稻比乙种水稻分蘖整齐
B.乙种水稻比甲种水稻分蘖整齐
C.甲、乙两种水稻分蘖整齐程度相同
D.甲、乙两种水稻分蘖整齐程度不能比较
2.某轮胎厂为检验轮胎的使用寿命,抽取一个容量为24的样本,测得结果如下表:
使用寿命/km 轮胎数
95 000 1
88 000 1
56 000 6
48 000 8
40 000 8
为了说明该厂生产的轮胎的平均寿命,选用哪个代表值最合适?为什么?
题型二 分层抽样背景下的样本数字特征估计
【例2】 工厂为了解每个工人对某零件的日加工量,统计员分别从两车间抽取了甲、乙两人日加工量的两个样本.抽到甲的一个样本容量为10,样本平均数为5,方差为1;乙的一个样本容量为12,样本平均数为6,方差为2.现将这两组样本合在一起,求合在一起后的样本的平均数与方差.
尝试解答
通性通法
在分层抽样时,如果总体分为k层,而且第j层抽取的样本容量为nj,第j层的样本均值为,样本方差为,j=1,2,…,k.记n=nj.则所有数据的样本均值和方差分别为=(nj),s2=[nj+nj(-)2].
【跟踪训练】
某校学生的男女人数之比为2∶3,按照男女比例通过分层抽样的方法抽到一个样本,样本中男生每天运动时间的平均值为100分钟、女生为80分钟.结合此数据,估计该校全体学生每天运动时间的平均值为( )
A.98分钟 B.88分钟
C.90分钟 D.85分钟
题型三 用样本的分布估计总体分布
【例3】 为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
尝试解答
通性通法
频率分布直方图中的性质
(1)图中每个小矩形的面积表示相应各组的频率,即小矩形的面积=组距×=频率;
(2)在频率分布直方图中,各小矩形的面积的总和等于1;
(3)=频率,此关系式的变形为=样本容量,样本容量×频率=频数;
(4)频率分布直方图中,各小矩形的面积之比等于频率之比,各小矩形的高度之比也等于频率之比.
【跟踪训练】
为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该校全体高一学生的达标率是多少?
题型四 数字特征与统计图表的综合问题
【例4】 (1)为了普及环保知识,增强环保意识,某中学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为mo,平均数为,则( )
A.me=mo= B.me=mo<
C.me<mo< D.mo<me<
(2)如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为和,样本标准差分别为sA和sB,则( )
A.>,sA>sB B.<,sA>sB
C.>,sA<sB D.<,sA<sB
尝试解答
通性通法
1.由于茎叶图保留了原始数据,因此根据茎叶图进行有关数据计算可以直接进行;另外,在茎叶图中,数据的分布能直观体现数据的平均水平和离散程度,因此给出茎叶图解决与平均数和方差有关的统计问题时,我们也可以通过直观观察来完成.
2.折线统计图研究样本数据的数字特征与横坐标和纵坐标的意义有关,一般情况下,整体分布位置较高的平均数大,波动性小的方差小.
3.若柱形统计图的横坐标是单一数据,则可通过该统计图还原真实的样本数据,进而中位数、众数、平均数均可直接计算得到.
4.在频率分布直方图中,各数字特征就不能直接求出,但是可以近似估计.
(1)中位数:直方图中,中位数左边和右边的各矩形的面积和应该相等,由此可以估计中位数的值;
(2)平均数:直方图中每个小矩形的高度(面积)乘小矩形底边中点的横坐标之积的总和;
(3)众数:直方图中,众数是最高的矩形的中点的横坐标.
【跟踪训练】
某中学为了解高三男生的体能情况,通过随机抽样,获得了200名男生的100米体能测试成绩(单位:秒),将数据按照[11.5,12),[12,12.5),…,[15.5,16)分成9组,制成了如图所示的频率分布直方图.规定成绩低于13秒为优,成绩高于14.8秒为不达标.由直方图推断,下列选项错误的是( )
A.直方图中a的值为0.40
B.由直方图估计本校高三男生100米体能测试成绩的众数为13.75秒
C.由直方图估计本校高三男生100米体能测试成绩为优的人数为54
D.由直方图估计本校高三男生100米体能测试成绩为不达标的人数为18
1.下列说法不正确的是( )
A.方差是标准差的平方
B.标准差的大小不会超过极差
C.若一组数据的值大小相等,没有波动变化,则标准差为0
D.标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散
2.甲、乙两名篮球运动员在某几场比赛中得分的茎叶图如图所示,则甲、乙两人这几场比赛得分的中位数之和是( )
甲 乙
5 2 1 3 4 6
5 4 2 3 6 7 8
9 7 6 1 3 3 8 9
9 4 4
0 5 1
A.63 B.64 C.65 D.66
3.样本数为9的四组数据,它们的平均数都是5,它们的条形统计图如图所示,则标准差最大的一组是( )
A.第一组 B.第二组 C.第三组 D.第四组
4.(多选)2024年全国普通高考共有1 342万人报名,为“史上人数最多的高考”.如图为2011~2024年某省普通高考报名人数统计表.则下列结论中可能正确的是( )
A.自2011年起,某省普通高考报名人数连续4年下降后连续9年上升
B.2011年至2024年,某省普通高考报名人数的中位数约为35.8万人
C.2015年至2024年,某省普通高考报名人数增长大于75%
D.某省普通高考报名人数较上一年增长幅度最大的是2023年
5.某中学制订了一份调查问卷,让学生家长对该校实行“双减”的效果进行评分,评分都在[40,100]内,将所有数据按[40,50],(50,60],(60,70],(70,80],(80,90],(90,100]进行分组,整理得到频率分布直方图如图,则这次调查数据的70%分位数为 .
5.1.4 用样本估计总体
【基础知识·重落实】
想一想
提示:不可以.要尽可能利用总体中各种信息,选择合理的抽样方法.
自我诊断
1.C 由[100,130)中的人数为10+12+5=27,得频数为27,可知该班总人数为45,所以频率为=0.60.
2.C 由表可知,乙、丙的成绩最好,平均环数都为8.9,但乙的方差大,说明乙的波动性大,所以丙为最佳人选.
3.9.5 解析:=×(2.5×4+7.5×8+12.5×5+17.5×2+22.5×1)=9.5.
【典型例题·精研析】
【例1】 解:(1)先计算平均直径:
=×(10+9.8+10+10.2)=10,
=×(10.1+10+9.9+10)=10.
由于=,因此仅由平均直径不能反映两台机床生产的零件的质量优劣.
(2)再计算方差:
=×[(10-10)2+(9.8-10)2+(10-10)2+(10.2-10)2]=0.02,
=×[(10.1-10)2+(10-10)2+(9.9-10)2+(10-10)2]=0.005.
>,这说明乙机床生产出的零件直径波动小,因此从产品质量稳定性的角度考虑,乙机床生产的零件质量更符合要求.
跟踪训练
1.B 已知样本方差:D(X乙)=3.4,D(X甲)=11.因为3.4<11,所以乙种水稻比甲种水稻分蘖整齐.故选B.
2.解:为了说明该厂生产的轮胎的平均寿命,应选48 000代表值最合适.因为容量总数为24,且有“95 000”这一个“极端值”,所以不宜使用平均数,而众数和中位数均为48 000,所以应选48 000为代表值.
【例2】 解:设抽到甲的一个样本数据为x1,x2,…,x10;乙的一个样本数据为y1,y2,…,y12,
由题意知=xi=5,方差s2=(xi-5)2=1,
=yi=6,方差t2=(yi-6)2=2,
则合在一起后的样本容量为22,
样本平均数为=×(10×5+12×6)≈5.55,
样本方差为b2=×[(10×1+12×2)+×(5-6)2]≈1.79.
跟踪训练
B 由题设,若该校男生人数为2n,则女生人数为3n,∴该校全体学生每天运动时间的平均值为==88分钟.故选B.
【例3】 C 对于A,根据频率分布直方图可知,家庭年收入低于4.5万元的农户比率约为(0.02+0.04)×1×100%=6%,故A正确;对于B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.
跟踪训练
解:(1)由于频率分布直方图以面积的形式反映了数据落在各个小组内的频率大小,因此第二小组的频率为=0.08.
又因为第二小组频率=,
所以样本容量===150.
(2)由题图可估计该校高一学生的达标率约为
×100%=88%.
【例4】 (1)D (2)B 解析:(1)由条形统计图可知,30名学生的得分依次为2个3分,3个4分,10个5分,6个6分,3个7分,2个8分,2个9分,2个10分.中位数为第15,16个数(分别为5,6)的平均数,即me=5.5,
5出现次数最多,故mo=5.
=[2×3+3×4+10×5+6×6+3×7+2×8+2×9+2×10]≈5.97.
于是得mo<me<.
(2)观察图形可得:样本A的数据均小于或等于10,样本B的数据均大于或等于10,故<,又样本B的波动范围较小,故sA>sB.
跟踪训练
D 0.5×(0.08+0.16+0.3+a+0.52+0.3+0.12+0.08+0.04)=1,解得a=0.4,A选项正确;众数为=13.75,B选项正确;成绩低于13秒的频率为0.5×(0.08+0.16+0.3)=0.5×0.54=0.27,人数为200×0.27=54,所以C选项正确;成绩高于14.8的频率为(15-14.8)×0.12+0.5×(0.08+0.04)=0.084,人数为200×0.084≈17人,D选项错误.故选D.
随堂检测
1.D 标准差越小,表明各个样本数据在样本平均数周围越集中;标准差越大,表明各个样本数据在样本平均数的周围越分散.
2.A 甲、乙两人在这几场比赛中得分的中位数分别是36和27,则中位数之和是36+27=63.
3.D 从四个条形图可看出第一组数据没有波动性,第二、三组数据的波动性都比较小,而第四组数据的波动性相对较大,故选D.
4.ABC 对于A,2011~2015年连续4年下降,2015~2024年连续9年上升,A正确;对于B,2011年至2024年,某省普通高考报名人数的中位数为2018年和2019年的平均数,约为35.8万人,B正确;对于C,2024年某省普通高考报名人数约为49万,2015年约为27万,增长大于80%,C正确;对于D,由图中的数据可知较上一年增长幅度最大的是2017年,D错误.故选A、B、C.
5.80 解析:因为前4组数据的频率之和为0.05+0.15+0.2+0.3=0.7,所以70%分位数为80.
7 / 7(共72张PPT)
5.1.4 用样本估计总体
新课程标准解读 核心素养
1.结合实例,能用样本估计总体的集中趋势
参数(平均数、中位数、众数),理解集中
趋势参数的统计含义 数据分析、数学运算
2.结合实例,能用样本估计总体的离散程度
参数(标准差、方差、极差),理解离散程
度参数的统计含义 数据分析、数学运算
3.结合实例,能用样本估计总体的取值规律 数据分析、数学运算
4.结合实例,能用样本估计百分位数,理解
百分位数的统计含义 数据分析、数学运算
目录
基础知识·重落实
01
典型例题·精研析
02
知能演练·扣课标
03
基础知识·重落实
01
课前预习 必备知识梳理
中国体育彩票的种类有:超级大乐透、排列3、排
列5、七星彩、地方体彩、足球彩票、竞彩、顶呱
刮等等.体育彩票市场曾创造了无数的神话,相当
一部分中奖者在谈及自己的中奖经历时都表示他们
能够中奖,是经过长期研究体育彩票的走势及中奖
号码分布特点后(即作出频率分布表),精心选号的结果.所以说彩民之所以能中大奖是因为他们“推测”的方法是科学的,“推测”的结果是比较可靠的.
【问题】 你知道他们是如何“推测”的吗?用到了统计学中的什么
方法?
知识点一 用样本的数字特征估计总体的数字特征
1. 一般来说,在估计总体的数字特征时,只需直接算出样本对应的数
字特征即可.
2. 样本是用分层抽样得到的,由每一层的数字特征估计总体的数字特
征.以分两层抽样的情况为例:
条件 假设第一层抽取 m 个数,分别为 x1, x2,…, xm ,平均数
为 ,方差为 s2;第二层抽取 n 个数,分别为 y1, y2,…,
yn ,平均数为 ,方差为 t2
结论 如果记样本均值为 ,样本方差为 b2,则 = , b2
= [( ms2+ nt2)+ ·( - )2].令 w1=
, w2= ,则 = w1 + w2 ,其中 w1, w2称为
权重
知识点二 用样本的分布来估计总体的分布
如果总体在每一个分组的频率记为π1,π2,…,π n ,样本在每一组
对应的频率记为 p1, p2,…, pn ,一般来说, (π i - pi )2=
[(π1- p1)2+(π2- p2)2+…+(π n - pn )2]不等于零.同样,大数
定律可以保证,当样本的容量越来越大时,上式很小的可能性将越来
越大.
【想一想】
样本估计总体时总会有误差,所以可以随意抽取样本吗?
提示:不可以.要尽可能利用总体中各种信息,选择合理的抽样方法.
1. 某班学生在一次数学考试中各分数段以及人数的成绩分布为:[0,
80),2人;[80,90),6人;[90,100),4人;[100,110),
10人;[110,120),12人;[120,130),
5人;[130,140),4人;[140,150],2人.那么分数在[100,
130)中的频数以及频率分别为( )
A. 27,0.56 B. 20,0.56
C. 27,0.60 D. 13,0.29
解析: 由[100,130)中的人数为10+12+5=27,得频数为
27,可知该班总人数为45,所以频率为 =0.60.
2. 甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩
和方差如下表所示:
甲 乙 丙 丁
平均环数 8.6 8.9 8.9 8.2
方差 s2 3.5 3.5 2.1 5.6
从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是( )
A. 甲 B. 乙
C. 丙 D. 丁
解析: 由表可知,乙、丙的成绩最好,平均环数都为8.9,但
乙的方差大,说明乙的波动性大,所以丙为最佳人选.
3. 某医院急救中心随机抽取20位病人等待急诊的时间记录如下表:
等待时间 (分钟) [0,
5) [5,10) [10,15) [15,20) [20,25]
频数 4 8 5 2 1
用上述分组资料计算出病人平均等待时间的估计值 = .
解析: = ×(2.5×4+7.5×8+12.5×5+17.5×2+
22.5×1)=9.5.
9.5
典型例题·精研析
02
课堂互动 关键能力提升
题型一 用样本的数字特征估计总体的数字特征
【例1】 两台机床同时生产直径(单位:cm)为10的圆形截面零
件,为了检验产品质量,质量检验员从两台机床的产品中各抽出4件
进行测量,结果如下:
机床甲 10 9.8 10 10.2
机床乙 10.1 10 9.9 10
如果你是质量检验员,在收集到上述数据后,你将通过怎样的运算来
判断哪台机床生产的零件质量更符合要求?
解: 先计算平均直径:
= ×(10+9.8+10+10.2)=10,
= ×(10.1+10+9.9+10)=10.
由于 = ,因此仅由平均直径不能反映两台机床生产的零件的质
量优劣.
(2)再计算方差:
= ×[(10-10)2+(9.8-10)2+(10-10)2+(10.2-10)
2]=0.02,
= ×[(10.1-10)2+(10-10)2+(9.9-10)2+(10-10)
2]=0.005.
> ,这说明乙机床生产出的零件直径波动小,因此从产品质量
稳定性的角度考虑,乙机床生产的零件质量更符合要求.
通性通法
样本的平均数和方差是两个重要的数字特征.在应用平均数和方
差解决实际问题时,若平均数不同,则直接应用平均数比较优劣,若
平均数相同,则要由方差研究其与平均数的偏离程度.
【跟踪训练】
1. 有甲、乙两种水稻,测得每种水稻各10株的分蘖数据,计算出样本
均值 E ( X甲)= E ( X乙),方差分别为 D ( X甲)=11, D ( X
乙)=3.4.由此可以估计( )
A. 甲种水稻比乙种水稻分蘖整齐
B. 乙种水稻比甲种水稻分蘖整齐
C. 甲、乙两种水稻分蘖整齐程度相同
D. 甲、乙两种水稻分蘖整齐程度不能比较
解析: 已知样本方差: D ( X乙)=3.4, D ( X甲)=11.因为
3.4<11,所以乙种水稻比甲种水稻分蘖整齐.故选B.
2. 某轮胎厂为检验轮胎的使用寿命,抽取一个容量为24的样本,测得
结果如下表:
使用寿命/km 轮胎数
95 000 1
88 000 1
56 000 6
48 000 8
40 000 8
为了说明该厂生产的轮胎的平均寿命,选用哪个代表值最合适?为
什么?
解:为了说明该厂生产的轮胎的平均寿命,应选48 000代表值最合
适.因为容量总数为24,且有“95 000”这一个“极端值”,所以
不宜使用平均数,而众数和中位数均为48 000,所以应选48 000为
代表值.
题型二 分层抽样背景下的样本数字特征估计
【例2】 工厂为了解每个工人对某零件的日加工量,统计员分别从
两车间抽取了甲、乙两人日加工量的两个样本.抽到甲的一个样本容
量为10,样本平均数为5,方差为1;乙的一个样本容量为12,样本平
均数为6,方差为2.现将这两组样本合在一起,求合在一起后的样本
的平均数与方差.
解:设抽到甲的一个样本数据为 x1, x2,…, x10;乙的一个样本数据
为 y1, y2,…, y12,
由题意知 = xi =5,方差 s2= ( xi -5)2=1,
= yi =6,方差 t2= ( yi -6)2=2,
则合在一起后的样本容量为22,
样本平均数为 = ×(10×5+12×6)≈5.55,
样本方差为 b2= ×[(10×1+12×2)+ ×(5-6)2]
≈1.79.
通性通法
在分层抽样时,如果总体分为 k 层,而且第 j 层抽取的样本容量为
nj ,第 j 层的样本均值为 ,样本方差为 , j =1,2,…, k .记 n =
nj .则所有数据的样本均值和方差分别为 = ( nj ), s2=
[ nj + nj ( - )2].
【跟踪训练】
某校学生的男女人数之比为2∶3,按照男女比例通过分层抽样的方
法抽到一个样本,样本中男生每天运动时间的平均值为100分钟、女
生为80分钟.结合此数据,估计该校全体学生每天运动时间的平均值
为( )
A. 98分钟 B. 88分钟
C. 90分钟 D. 85分钟
解析: 由题设,若该校男生人数为2 n ,则女生人数为3 n ,∴
该校全体学生每天运动时间的平均值为 = =88
分钟.故选B.
题型三 用样本的分布估计总体分布
【例3】 为了解某地农村经济情况,对该地农户家庭年收入进行抽
样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方
图:根据此频率分布直方图,下面结论中不正确的是( )
A. 该地农户家庭年收入低于4.5万元的农户比率估计为6%
B. 该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C. 估计该地农户家庭年收入的平均值不超过6.5万元
D. 估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万
元之间
解析: 对于A,根据频率分布直方图可知,家庭年收入低于4.5万
元的农户比率约为(0.02+0.04)×1×100%=6%,故A正确;对于
B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比
率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;
对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约
为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+
9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=
7.68(万元),故C错误;对于D,根据频率分布直方图可知,家庭
年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+
0.20+0.20)×1×100%=64%>50%,故D正确.
通性通法
频率分布直方图中的性质
(1)图中每个小矩形的面积表示相应各组的频率,即小矩形的面积
=组距× =频率;
(2)在频率分布直方图中,各小矩形的面积的总和等于1;
(3) =频率,此关系式的变形为 =样本容量,样本容
量×频率=频数;
(4)频率分布直方图中,各小矩形的面积之比等于频率之比,各小
矩形的高度之比也等于频率之比.
【跟踪训练】
为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳
次数测试,将所得数据整理后,画出频率分布直方图(如图所示),
图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组
频数为12.
(1)第二小组的频率是多少?样本容量是多少?
解: 由于频率分布直方图以面积的形式反映了数据落在各
个小组内的频率大小,因此第二小组的频率为 =
0.08.
又因为第二小组频率= ,
所以样本容量= = =150.
(2)若次数在110以上(含110次)为达标,试估计该校全体高一学
生的达标率是多少?
解: 由题图可估计该校高一学生的达标率约为
×100%=88%.
题型四 数字特征与统计图表的综合问题
【例4】 (1)为了普及环保知识,增强环保意识,某中学随机抽取
30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值
的中位数为 me ,众数为 mo ,平均数为 ,则( D )
A. me = mo =
B. me = mo <
C. me < mo <
D. mo < me <
D
解析: 由条形统计图可知,30名学生的得分依次为2个3
分,3个4分,10个5分,6个6分,3个7分,2个8分,2个9分,2
个10分.中位数为第15,16个数(分别为5,6)的平均数,即 me
=5.5,5出现次数最多,故 mo =5. = [2×3+3×4+10×5
+6×6+3×7+2×8+2×9+2×10]≈5.97.于是得 mo < me <
.
(2)如图所示,样本 A 和 B 分别取自两个不同的总体,它们的样本平
均数分别为 和 ,样本标准差分别为 sA 和 sB ,则( B )
A. > , sA > sB B. < , sA > sB
C. > , sA < sB D. < , sA < sB
B
解析:观察图形可得:样本 A 的数据均小于或等于10,样本 B 的
数据均大于或等于10,故 < ,又样本 B 的波动范围较小,
故 sA > sB .
通性通法
1. 由于茎叶图保留了原始数据,因此根据茎叶图进行有关数据计算可
以直接进行;另外,在茎叶图中,数据的分布能直观体现数据的平
均水平和离散程度,因此给出茎叶图解决与平均数和方差有关的统
计问题时,我们也可以通过直观观察来完成.
2. 折线统计图研究样本数据的数字特征与横坐标和纵坐标的意义
有关,一般情况下,整体分布位置较高的平均数大,波动性小
的方差小.
3. 若柱形统计图的横坐标是单一数据,则可通过该统计图还原真实的
样本数据,进而中位数、众数、平均数均可直接计算得到.
4. 在频率分布直方图中,各数字特征就不能直接求出,但是可以近似
估计.
(1)中位数:直方图中,中位数左边和右边的各矩形的面积和应
该相等,由此可以估计中位数的值;
(2)平均数:直方图中每个小矩形的高度(面积)乘小矩形底边
中点的横坐标之积的总和;
(3)众数:直方图中,众数是最高的矩形的中点的横坐标.
【跟踪训练】
某中学为了解高三男生的体能情况,通过随机抽样,获得了200名
男生的100米体能测试成绩(单位:秒),将数据按照[11.5,12),
[12,12.5),…,[15.5,16)分成9组,制成了如图所示的频率分
布直方图.规定成绩低于13秒为优,成绩高于14.8秒为不达标.由直方
图推断,下列选项错误的是( )
A. 直方图中 a 的值为0.40
B. 由直方图估计本校高三男生100米体能测试成绩的众数为13.75秒
C. 由直方图估计本校高三男生100米体能测试成绩为优的人数为54
D. 由直方图估计本校高三男生100米体能测试成绩为不达标的人数为18
解析: 0.5×(0.08+0.16+0.3+ a +0.52+0.3+0.12+0.08+
0.04)=1,解得 a =0.4,A选项正确;众数为 =13.75,B选
项正确;成绩低于13秒的频率为0.5×(0.08+0.16+0.3)=
0.5×0.54=0.27,人数为200×0.27=54,所以C选项正确;成绩高
于14.8的频率为(15-14.8)×0.12+0.5×(0.08+0.04)=
0.084,人数为200×0.084≈17人,D选项错误.故选D.
1. 下列说法不正确的是( )
A. 方差是标准差的平方
B. 标准差的大小不会超过极差
C. 若一组数据的值大小相等,没有波动变化,则标准差为0
D. 标准差越大,表明各个样本数据在样本平均数周围越集中;标准
差越小,表明各个样本数据在样本平均数周围越分散
解析: 标准差越小,表明各个样本数据在样本平均数周围越集
中;标准差越大,表明各个样本数据在样本平均数的周围越分散.
2. 甲、乙两名篮球运动员在某几场比赛中得分的茎叶图如图所示,则
甲、乙两人这几场比赛得分的中位数之和是( )
甲 乙
5 2 1 3 4 6
5 4 2 3 6 7 8
9 7 6 1 3 3 8 9
9 4 4
0 5 1
A. 63 B. 64
C. 65 D. 66
解析: 甲、乙两人在这几场比赛中得分的中位数分别是36和
27,则中位数之和是36+27=63.
3. 样本数为9的四组数据,它们的平均数都是5,它们的条形统计图如
图所示,则标准差最大的一组是( )
A. 第一组 B. 第二组
C. 第三组 D. 第四组
解析: 从四个条形图可看出第一组数据没有波动性,第
二、三组数据的波动性都比较小,而第四组数据的波动性相对
较大,故选D.
4. (多选)2024年全国普通高考共有1 342万人报名,为“史上人数
最多的高考”.如图为2011~2024年某省普通高考报名人数统计表.
则下列结论中可能正确的是( )
A. 自2011年起,某省普通高考报名人数连续4年下降后连续9年上升
B. 2011年至2024年,某省普通高考报名人数的中位数约为35.8万人
C. 2015年至2024年,某省普通高考报名人数增长大于75%
D. 某省普通高考报名人数较上一年增长幅度最大的是2023年
解析: 对于A,20011~2015年连续4年下降,2015~2024年
连续9年上升,A正确;对于B,2011年至2024年,某省普通高考报
名人数的中位数为2018年和2019年的平均数,约为35.8万人,B正
确;对于C,2024年某省普通高考报名人数约为49万,2015年约为
27万,增长大于80%,C正确;对于D,由图中的数据可知较上一
年增长幅度最大的是2017年,D错误.故选A、B、C.
5. 某中学制订了一份调查问卷,让学生家长对该校实行“双减”的效
果进行评分,评分都在[40,100]内,将所有数据按[40,50],
(50,60],(60,70],(70,80],(80,90],(90,100]进行
分组,整理得到频率分布直方图如图,则这次调查数据的70%分位
数为 .
80
解析:因为前4组数据的频率之和为0.05+0.15+0.2+0.3=0.7,
所以70%分位数为80.
知能演练·扣课标
03
课后巩固 核心素养落地
1. 在一次模拟考试后,从高三某班随机抽取了20位学生的数学成绩,
其分布如下:
分组 [90, 100) [100, 110) [110, 120) [120, 130) [130, 140) [140,
150]
频数 1 2 6 7 3 1
分数在130分(包括130分)以上者为优秀,据此估计该班的优秀率
约为( )
A. 10% B. 20%
C. 30% D. 40%
1
2
3
4
5
6
7
8
9
解析: 由表可知,优秀的人数为3+1=4,则优秀率为
×100%=20%,故据此估计该班的优秀率约为20%,故选B.
1
2
3
4
5
6
7
8
9
2. 某高校甲、乙两位同学大学四年选修课程的考试成绩等级(选修课
的成绩等级分为1,2,3,4,5,共五个等级)的条形图如图所
示,则甲成绩等级的中位数与乙成绩等级的众数分别是( )
A. 3,5 B. 3,3
C. 3.5,5 D. 3.5,4
1
2
3
4
5
6
7
8
9
解析: 由条形图可得,甲同学共有10门选修课,将这10门选修
课的成绩等级从低到高排序后,第5,6门的成绩等级分别为3,4,
故中位数为 =3.5,乙成绩等级的众数为5.故选C.
1
2
3
4
5
6
7
8
9
3. 某商场开通三种平台销售商品,五一期间这三种平台的数据如图①
所示.该商场为了解消费者对各平台销售方式的满意程度用分层抽
样的方法抽取了6%的顾客进行满意度调查,得到的数据如图②所
示.下列说法正确的是( )
A. 样本中对平台一满意的消费者人数约700
B. 总体中对平台二满意的消费者人数为18
C. 样本中对平台一和平台二满意的消费者总人数为60
D. 若样本中对平台三满意的消费者人数为120,则 m =90%
1
2
3
4
5
6
7
8
9
解析: 对于A,样本中对平台一满意的人数为2 00×6%×35%=42,故选项A错误;对于B,总体中对平台二满意的人数约为1 500×20%=300,故选项B错误;对于C,样本中对平台一和平台二满意的总人数为:42+18=60,故选项C正确;对于D,对平台三的满意率为 =80%,所以 m =80%,故选项D错误.故选C.
1
2
3
4
5
6
7
8
9
4. (多选)某赛季甲、乙两名篮球运动员各13场比赛得分情况用茎叶
图表示如下.根据图中数据,对这两名运动员的成绩进行比较,下
列四个结论中,正确的是( )
A. 甲运动员得分的极差大于乙运动员得分的极差
B. 甲运动员得分的中位数大于乙运动员得分的中位数
C. 甲运动员得分的平均值大于乙运动员得分的平均值
D. 甲运动员的成绩比乙运动员的成绩稳定
1
2
3
4
5
6
7
8
9
解析: 对于A,极差是数据中最大值与最小值的差,由题图
中的数据可得甲运动员得分的极差为47-18=29,乙运动员得分的
极差为33-17=16,则甲运动员得分的极差大于乙运动员得分的极
差,因此A正确;对于B,甲数据从小到大排列处于中间的数是
30,所以甲运动员得分的中位数是30,同理求得乙运动员得分的中
位数是26,因此甲运动员得分的中位数大于乙运动员得分的中位
数,故B正确;对于C,由茎叶图不难看出甲运动员得分的平均值
大于乙运动员得分的平均值,故C正确;对于D,由茎叶图不难看
出乙运动员得分更集中,因此乙得分的方差小于甲的方差,所以乙
运动员的成绩比甲运动员的成绩稳定,故D不正确.故选A、B、C.
1
2
3
4
5
6
7
8
9
5. 某市场一年中各月份的收入、支出的统计数据如图,请根据此统计
图写出一个关于利润的正确的统计结论
.
8月份利润最低(答案不
唯一)
解析:根据题图可得,利润可以看作是每月收入和支出对应点的距
离,可以得出:①8月份利润最低为10万元;②3月份和10月份利润
最高都是30万元.
1
2
3
4
5
6
7
8
9
6. 某中学为了解学生数学课程的学习情况,在2 200名学生中随机抽
取200名,并统计这200名学生的某次数学考试成绩,得到了样本的
频率分布直方图(如图).根据频率分布直方图推测这2 200名学生
在该次数学考试中成绩不小于80分的学生有 人.
616
解析:2 200×[(0.020+0.008)×10]=2 200×0.28=616.
1
2
3
4
5
6
7
8
9
7. 在高一期中考试中,甲、乙两个班的数学成绩统计如下表:
班级 人数 平均分数 方差
甲 30 2
乙 20 3
其中 = ,则甲、乙两个班合在一起后数学成绩的方差为( )
A. 2.2 B. 2.6
C. 2.5 D. 2.4
1
2
3
4
5
6
7
8
9
解析: 设甲、乙两班学生成绩分别为 xi , yi ,因为甲、乙两班
的平均成绩相等,所以甲、乙两班合在一起后平均成绩依然为 ,
因为 ( xi - )2=2 ( xi - )2=60,同理 ( yi -
)2=3 ( yi - )2=60,∴甲、乙两班合在一起后的方差
为: s2= [ ( xi - )2+ ( yi - )2]= ×(60+60)
= =2.4.故选D.
1
2
3
4
5
6
7
8
9
8. 某初中学校欲向高一级学校推荐一名学生,根据规定的推荐程序对
三名候选人进行了笔试和面试,成绩最高的将被推荐.各项成绩如
下表所示:
测试项目 测试成绩/分
甲 乙 丙
笔试 92 85 95
面试 85 95 80
请你根据表中信息解答下列问题:
1
2
3
4
5
6
7
8
9
(1)若按笔试和面试的平均得分确定最后成绩,应当推荐谁?
解: 甲的平均得分为 =88.5,乙的平均得分为
=90,丙的平均得分为 =87.5,乙的平均得分最
高,所以应当推荐乙.
1
2
3
4
5
6
7
8
9
(2)若笔试、面试两项得分按照6∶4的比确定最后成绩,应当推
荐谁?
解: 甲的最后成绩为92×0.6+85×0.4=89.2,
乙的最后成绩为85×0.6+95×0.4=89,
丙的最后成绩为95×0.6+80×0.4=89,因为甲的最后成绩
最高,所以应当推荐甲.
1
2
3
4
5
6
7
8
9
9. (2023·全国乙卷17题)某厂为比较甲、乙两种工艺对橡胶产品伸
缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同
的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工
艺处理,测量处理后的橡胶产品的伸缩率,甲、乙两种工艺处理后
的橡胶产品的伸缩率分别记为 xi , yi ( i =1,2,…,10),试验
结果如下:
试验序号 i 1 2 3 4 5
伸缩率 xi 545 533 551 522 575
伸缩率 yi 536 527 543 530 560
试验序号 i 6 7 8 9 10
伸缩率 xi 544 541 568 596 548
伸缩率 yi 533 522 550 576 536
1
2
3
4
5
6
7
8
9
记 zi = xi - yi ( i =1,2,…,10), z1, z2,…, z10的样本平均数
为 ,样本方差为 s2.
(1)求 , s2;
解: 由题意,求出 zi 的值如表所示,
试验 序号 i 1 2 3 4 5 6 7 8 9 10
zi 9 6 8 -8 15 11 19 18 20 12
1
2
3
4
5
6
7
8
9
则 = ×(9+6+8-8+15+11+19+18+20+12)=11,
s2= ×[(9-11)2+(6-11)2+(8-11)2+(-8-
11)2+(15-11)2+(11-11)2+(19-11)2+(18-
11)2+(20-11)2+(12-11)2]=61.
1
2
3
4
5
6
7
8
9
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡
胶产品的伸缩率是否有显著提高(如果 ≥2 ,则认为甲
工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品
的伸缩率有显著提高,否则不认为有显著提高).
解: 因为2 =2 = , =11= > ,
所以可认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理
后的橡胶产品的伸缩率有显著提高.
1
2
3
4
5
6
7
8
9
谢 谢 观 看!