2025年新高考数学一轮复习第9章第01讲随机抽样、统计图表、用样本估计总体(八大题型)(讲义)(学生版+解析)

文档属性

名称 2025年新高考数学一轮复习第9章第01讲随机抽样、统计图表、用样本估计总体(八大题型)(讲义)(学生版+解析)
格式 zip
文件大小 4.5MB
资源类型 试卷
版本资源 通用版
科目 数学
更新时间 2024-12-12 17:06:42

文档简介

第01讲 随机抽样、统计图表、用样本估计总体
目录
01 考情透视·目标导航 2
02 知识导图·思维引航 3
03 考点突破·题型探究 4
知识点1:抽样 4
知识点2:用样本估计总体 5
题型一:随机抽样、分层抽样 7
题型二:统计图表 8
题型三:频率分布直方图 11
题型四:百分位数 13
题型五:样本的数字特征 14
题型六:总体集中趋势的估计 15
题型七:总体离散程度的估计 17
题型八:分层方差问题 21
04真题练习·命题洞见 25
05课本典例·高考素材 26
06易错分析·答题模板 28
易错点:不能正确提取图表信息 28
答题模板:求百分位数 29
考点要求 考题统计 考情分析
(1)抽样方法 (2)统计图表 (3)频率分布直方图 (4)样本的数字特征的估计,总体集中趋势的估计,总体离散程度的估计 2024年II卷第4题,5分 2023年上海卷第14题,4分 2023年上海卷第9题,5分 2023年I卷第9题,5分 2022年甲卷(文)第2题,5分 统计学是“大数据”技术的关键,在互联网时代具有强大的社会价值和经济价值,在高考中受重视程度越来越大,未来在考试中的出题角度会更加与实际生活紧密联系,背景新颢、形式多样.
复习目标: (1)会用简单随机抽样的方法从总体中抽取样本,了解分层随机抽样. (2)理解统计图表的含义. (3)会用统计图表对总体进行估计,会求n个数据的第p百分位数. (4)能用数字特征估计总体集中趋势和总体离散程度.
知识点1:抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
【诊断自测】某校老年、中年和青年教师的人数如表所示,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有32人,则该样本的老年教师人数为 .
类别 老年教师 中年教师 青年教师 合计
人数 36 72 64 172
知识点2:用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于.
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
3、百分位数
(1)定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
4、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
5、标准差和方差
(1)定义
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(2)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
(3)平均数、方差的性质
如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
【诊断自测】某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)求样本成绩的;
(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩的总平均数和总方差.
题型一:随机抽样、分层抽样
【典例1-1】从24名数学教师,16名物理教师,8名化学教师中,用分层抽样的方法抽取一个容量为6的样本,则抽取数学教师的人数是( )
A.1 B.2 C.3 D.4
【典例1-2】总体由编号为01,02,…,30的30个个体组成.利用所给的随机数表选取6个个体,选取的方法是从随机数表第1行的第3列开始,由左到右一次选取两个数字,则选出来的第5个个体的编号为( )
(第一行)1712 1340 3320 3826 1389 5103 7417 7637
(第二行)1304 0774 2119 3056 6218 3735 9683 5087
A.20 B.26 C.17 D.03
【方法技巧】
不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
【变式1-1】一批热水器共有98台,其中甲厂生产的有56台,乙厂生产的有42台,用分层抽样法从中抽出一个容量为14的样本,那么甲、乙两厂各抽得的热水器台数是( )
A.甲厂9台,乙厂5台 B.甲厂8 台,乙厂6台
C.甲厂 10 台,乙厂4台 D.甲厂7台,乙厂7台
【变式1-2】(2024·福建泉州·模拟预测)从一个含有个个体的总体中抽取一容量为的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为,三者关系可能是( )
A. B. C. D.
【变式1-3】(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
题型二:统计图表
【典例2-1】(2024·安徽马鞍山·模拟预测)下图为国家统计局给出的2016-2020年福利彩票销售额、增长率及筹集公益金情况统计图,则下列说法正确的是( )

A.2016-2020年福利彩票销售额呈递减趋势
B.2016-2020年福利彩票销售额的年增长率呈递减趋势
C.2016-2020年福利彩票销售额、筹集公益金均在2018年取得最大值
D.2017-2018年福利彩票销售额增长的最多
【典例2-2】(2024·四川达州·二模)下图是某地区2016-2023年旅游收入(单位:亿元)的条形图,则下列说法错误的是( )

A.该地区2016-2019年旅游收入逐年递增
B.该地区2016-2023年旅游收入的中位数是4.30
C.经历了疫情之后,该地区2023年旅游收入恢复到接近2018年水平
D.该地区2016-2023年旅游收入的极差是3.69
【方法技巧】
统计图表的主要应用
扇形图:直观描述各类数据占总数的比例;
折线图:描述数据随时间的变化趋势;
条形图和直方图:直观描述不同类别或分组数据的频数和频率.
【变式2-1】(2024·陕西铜川·模拟预测)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生近视情况形成的原因,采用分层抽样的方法抽取部分学生进行调查,若抽取的小学生人数为70,则抽取的高中生中近视人数为( )
A.10 B.20 C.25 D.40
【变式2-2】(2024·江西·二模)下图是我国年纯电动汽车销量统计情况,则下列说法错误的是( )

A.我国纯电动汽车销量呈现逐年增长趋势
B.这六年销量的第60百分位数为536.5万辆
C.2020年销量高于这六年销量的平均值
D.这六年增长率最大的为2019年至2020年
【变式2-3】(2024·四川遂宁·三模)某调查机构对某地快递行业从业者进行调查统计,得到快递行业从业人员年龄分布饼状图(图1)、“90后”从事快递行业岗位分布条形图(图2),则下列结论中错误的是( )
A.快递行业从业人员中,“90后”占一半以上
B.快递行业从业人员中,从事技术岗位的“90后”的人数超过总人数的20%
C.快递行业从业人员中,从事运营岗位的“90后”的人数比“80前”的多
D.快递行业从业人员中,从事技术岗位的“90后”的人数比“80后”的多
【变式2-4】(2024·陕西西安·模拟预测)2017年至2022年某省年生产总量及其增长速度如图所示,则下列结论错误的是( )
A.2017年至2022年该省年生产总量逐年增加
B.2017年至2022年该省年生产总量的极差为14842.3亿元
C.2017年至2022年该省年生产总量的增长速度逐年降低
D.2017年至2022年该省年生产总量的增长速度的中位数为7.6%
题型三:频率分布直方图
【典例3-1】(2024·河北石家庄·三模)为了解全市高三学生的体能素质情况,在全市高三学生中随机抽取了1000名学生进行体能测试,并将这1000名学生的体能测试成绩整理成如下频率分布直方图.则直方图中实数的值为 .
【典例3-2】为贯彻五育并举的教育方针,某校对全体高一年级学生进行了体育测试,并将成绩(单位:分)分为6组:加以统计,得到如图所示的频率分布直方图.已知高一年级共有750名同学参加测试,则成绩达标的(不少于60分)学生人数为 .
【方法技巧】
(1)利用频率分布直方图求频率、频数;
(2)利用频率分布直方图估计总体.
(3)频率分布直方图的纵坐标是 ,而不是频率.
【变式3-1】在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图,由此可估计该地区一位这种疾病患者的年龄位于区间的概率为 .
【变式3-2】某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.则当漏诊率时,误诊率 .
【变式3-3】某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性,小于或等于的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数,则当时,在区间的最小值为 .
题型四:百分位数
【典例4-1】(2024·高三·山东菏泽·开学考试)已知一组数据为,则这组数据第60百分位数为 .
【典例4-2】已知18个整数的中位数为5,第75百分位数也为5,那么这18个数中,5的个数的最小可能值为 .
【方法技巧】
计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【变式4-1】某同学在高三阶段的9次数学考试中成绩依次为:,则这9次数学成绩的上四分位数为 .
【变式4-2】《中国居民膳食指南(2022)》数据显示,岁至岁儿童青少年超重肥胖率高达为了解某地中学生的体重情况,某机构从该地中学生中随机抽取名学生,测量他们的体重单位:千克,根据测量数据,按,,,,,分成六组,得到的频率分布直方图如图所示,根据调查的数据,估计该地中学生体重的分位数是 .
【变式4-3】第33届夏季奥林匹克运动会女子10米跳台跳水决赛中,全红禅以425.60分的高分拿下冠军.下面统计某社团一位运动员10次跳台跳水的训练成绩:68,80,74,63,66,84,78,66,70,76,则这组数据的60%分位数为 .
【变式4-4】(2024·高三·全国·单元测试)某公司对来应聘的人进行笔试,统计出200名应聘者的笔试成绩,整理得到下表:
组号 1 2 3 4 5 6
成绩分组
累积频率 0.05 0.15 a
注:第n组的累积频率指的是前n组的频率之和.
若公司计划150人进入面试,则估计参加面试的最低分数线为 .
题型五:样本的数字特征
【典例5-1】(2024·高三·全国·单元测试)已知一组统计数据的平均数为,方差为,则函数的最小值为 .
【典例5-2】(2024·高三·四川乐山·开学考试)已知,,...,的平均数为10,标准差为2,则,,...,的平均数和标准差分别为 和 .
【方法技巧】
(1)平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:或写成,即方差等于原数据平方的平均数减去平均数的平方.
【变式5-1】(2024·福建龙岩·三模)互不相等的4个正整数从小到大排序为,若它们的平均数为4,且这4个数据的极差是中位数的2倍,则这4个数据的中位数为 .
【变式5-2】(多选题)(2024·江西新余·模拟预测)已知对个数据做如下变换:当为奇数时,对应的变为;当为偶数时,对应的变为,则对于该组数据的变化,下列情况中可能发生的是:( ).
A.平均数增大 B.方差不变
C.分位数减小 D.众数减小
【变式5-3】(多选题)(2024·湖北·模拟预测)设一组样本数据满足,则( )
A.拿走,这组数据的方差变大 B.拿走,这组数据的方差变大
C.拿走,这组数据的方差减小 D.拿走,这组数据的方差减小
【变式5-4】已知一组数据,,,的方差为4,若数据,,,的方差为36,则b的值为 .
【变式5-5】(多选题)一个同学投掷10次骰子,记录出现的点数,根据统计结果,在下列情况中可能出现点数6的有( )
A.平均数为3,中位数为4
B.中位数为4,众数为3
C.平均数为2,方差为2.1
D.中位数为3,方差为0.85
题型六:总体集中趋势的估计
【典例6-1】为了解甲 乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同 摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记为事件:“乙离子残留在体内的百分比不高于”,根据直方图得到的估计值为.
(1)求乙离子残留百分比直方图中的值;
(2)求甲离子残留百分比的第百分位数;
(3)估计乙离子残留百分比的均值.(同一组数据用该组区间的中点值为代表)
【典例6-2】某校抽取100名高二学生期中考试的语文成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为:.

(1)求频率分布直方图中的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的众数和平均数.
【方法技巧】
频率分布直方图的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
【变式6-1】某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数,单位:分)的频率分布直方图如图所示.

(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
(3)延伸探究:若本例的条件不变,求数学成绩的平均分.
(4)若本例条件不变,求80分以下的学生人数.
【变式6-2】为了落实习主席提出“绿水青山就是金山银山”的环境治理要求.某市政府积极鼓励居民节约用水.计划调整居民生活用水收费方案.拟确定一个合理的月用水量标准x(吨).一位居民的月用水量不超过x的部分按平价收费.超出x的部分按议价收费.为了了解居民用水情况.通过抽样.获得了某年200位居民每人的月均用水量(单位:吨).将数据按照[0.1).[1.2).….[8.9)分成9组.制成了如图所示的频率分布直方图.其中0.4a=b.
(1)求直方图中a.b的值.并由频率分布直方图估计该市居民用水量的众数;
(2)若该市政府希望使85%的居民每月的用水量不超过标准x(吨).估计x的值.
题型七:总体离散程度的估计
【典例7-1】(2024·全国·模拟预测)某厂为提高工作效率,将全厂分为甲、乙2个车间,每个车间分别设有A,B,C,D,E5组.下表为该厂某日生产订单情况统计表,请据表解答下列问题:
A B C D E
甲车间 100 120 150 180 200
乙车间 50 120 200 150 180
(1)求甲、乙2个车间该日生产订单的平均数与方差,并根据方差判断哪一个车间工作效率比较稳定?
(2)设甲车间合格率为0.54,乙车间合格率为0.57,求甲、乙2个车间都不合格的概率;
(3)你认为哪个车间工作效率更高?请从平均数、方差、合格率的角度分析.
【典例7-2】某校高一(1)班、(2)班的学生人数分别为40,42,在某次测验中,记(1)班所有学生的成绩分别为,,…,,平均成绩为,方差为,已知,.
(1)求,;
(2)记(2)班所有学生的成绩分别为,,…,,其平均成绩为82,,试求两个班的所有学生的平均成绩(结果保留整数),并说明哪一个班的成绩比较稳定.
【方法技巧】
总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
【变式7-1】在2024年世界泳联跳水世界杯蒙特利尔站和柏林站女子10米台跳水决赛中,全红婵奉献了高水准的精彩表现,在决赛中的五个动作惊艳了全世界.在这两场决赛中,7名裁判给选手的五个跳水动作打分,两站裁判对全红婵的打分记录如下:(为了方便计算,采取分数四舍五入取整)
A组(蒙特利尔站):80 80 82 78 93
B组(柏林站):81 80 86 99 86
(1)请写出这10个分数的众数、极差以及A,B两组各自的平均成绩;
(2)请你根据所学的统计知识,分析两站比赛中,哪一站全红婵发挥更稳定?并说明理由.
【变式7-2】(2024·云南昆明·三模)甲、乙两位同学组成学习小组进行项目式互助学习,在共同完成某个内容的互助学习后,甲、乙都参加了若干次测试,现从甲的测试成绩里随机抽取了7次成绩,从乙的测试成绩里随机抽取了9次成绩,数据如下:
甲:93 95 81 72 80 82 92
乙:85 82 77 80 94 86 92 84 85
经计算得出甲、乙两人的测试成绩的平均数均为85.
(1)求甲乙两位同学测试成绩的方差;
(2)为检验两组数据的差异性是否显著,可以计算统计量,其中个数据的方差为,个数据的方差为,且.若,则认为两组数据有显著性差异,否则不能认为两组数据有显著性差异.若的临界值采用下表中的数据:
1 2 3 4 5 6 7 8
1 161 200 216 225 230 234 237 239
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04
5 6.61 5.79 5.41 6.19 5.05 4.95 4.88 4.82
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44
例如:对应的临界值为5.41.请根据以上资料判断甲、乙两位同学进行项目式互助学习的效果是否有显著性差异.
【变式7-3】(2024·宁夏银川·一模)滨海盐碱地是我国盐碱地的主要类型之一,如何利用更有效的方法改造这些宝贵的土地资源,成为摆在我们面前的世界级难题.对盐碱的治理方法,研究人员在长期的实践中获得了两种成本差异不大,且能降低滨海盐碱地土壤层可溶性盐含量的技术,为了对比两种技术治理盐碱的效果,科研人员在同一区域采集了12个土壤样本,平均分成A、B两组,测得A组土壤可溶性盐含量数据样本平均数,方差,B组土壤可溶性盐含量数据样本平均数,方差.用技术1对A组土壤进行可溶性盐改良试验,用技术2对B组土壤进行可溶性盐改良试验,分别获得改良后土壤可溶性盐含量数据如下:
A组 0.66 0.68 0.69 0.71 0.72 0.74
B组 0.46 0.48 0.49 0.49 0.51 0.54
改良后A组、B组土壤可溶性盐含量数据样本平均数分别为和,样本方差分别记为和.
(1)求;
(2)应用技术1与技术2土壤可溶性盐改良试验后,土壤可溶性盐含量是否有显著降低?(若,则认为技术能显著降低土壤可溶性盐含量,否则不认为有显著降低.)
【变式7-4】(2024·高三·青海西宁·开学考试)某新能源汽车配件厂生产一种新能源汽车精密零件,为提高产品质量引入了一套新生产线,为检验新生产线所生产出来的零件质量有无显著提高,现同时用旧生产线和新生产线各生产了10个零件,得到各个零件的质量指标的数据如下:
旧生产线 5.2 4.8 4.8 5.0 5.0 5.2 5.1 4.8 5.1 5.0
新生产线 5.0 5.2 5.3 5.1 5.4 5.2 5.2 5.3 5.2 5.1
设旧生产线和新生产线所生产零件的质量指标的样本平均数分别为和,样本方差分别为和.
(1)求,及;
(2)若,则认为新生产线生产零件的质量有显著提高,否则不认为有显著提高,现计算得,试判断新生产线生产的零件质量较旧生产线生产的零件质量是否有显著提高.
【变式7-5】(2024·高三·黑龙江鸡西·期末)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,分别从两厂随机选取了10个轮胎,将每个轮胎的宽度(单位:)记录下来并绘制出折线图:
(1)分别计算甲、乙两厂提供10个轮胎宽度的平均值;
(2)轮胎的宽度在内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个厂的轮胎相对更好
题型八:分层方差问题
【典例8-1】(2024·广东珠海·一模)甲、乙两班参加了同一学科的考试,其中甲班50人,乙班40人.甲班的平均成绩为72分,方差为90分;乙班的平均成绩为90分,方差为60分.那么甲、乙两班全部90名学生的平均成绩是 分,方差是 分.
【典例8-2】(2024·山西太原·二模)为获得某校高一年级全体学生的身高信息,现采用样本量按比例分配的分层随机抽样方法抽取了一个样本,其中有30名男生和20名女生,计算得男生样本的均值为170,方差为15.女生样本的均值为160,方差为30,则由上述数据计算该校高一年级学生身高的均值是 ,方差是 .
【方法技巧】
分层随机抽样的方差
设样本容量为,平均数为,其中两层的个体数量分别为,两层的平均数分别为,,方差分别为,则这个样本的方差为
【变式8-1】为培养学生的阅读习惯,某校开展了为期一年的“弘扬传统文化,阅读经典名著”活动.在了解全校学生每年平均阅读了多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,则合在一起后的样本平均数为 ,方差为 .(精确到0.1)
【变式8-2】(2024·高三·四川·期末)某校有3名百米短跑运动员甲、乙、丙,已知甲最近10次百米短跑的时间(单位:s)的数据如下表:
第1次 第2次 第3次 第4次 第5次 第6次 第7次 第8次 第9次 第10次
时间/s 12 12.4 12 12.5 12 11.8 12.2 11.5 11.6 12
(1)计算甲这10次百米短跑的时间的平均数与方差;
(2)经过计算,乙最近10次百米短跑的时间的平均数和方差分别为12,0.08,丙最近10次百米短跑的时间的平均数和方差分别为12.4,0.08,若要从甲、乙、丙三人中选一人代表学校参加市区的百米短跑比赛,请判断该选择谁,说明你的理由.
【变式8-3】某地区有小学生9000人,初中生8600人,高中生4400人,教育局组织网络“防溺水”网络知识问答,现用分层抽样的方法从中抽取220名学生,对其成绩进行统计分析,得到如下图所示的频率分布直方图所示的频率分布直方图.
(1)根据频率分布直方图,估计该地区所有学生中知识问答成绩的平均数和众数;
(2)成绩位列前10%的学生平台会生成“防溺水达人”优秀证书,试估计获得“防溺水达人”的成绩至少为多少分;
(3)已知落在内的平均成绩为67,方差是9,落在内的平均成绩是73,方差是29,求落在内的平均成绩和方差.
(附:设两组数据的样本量 样本平均数和样本方差分别为:.记两组数据总体的样本平均数为,则总体样本方差)
【变式8-4】某校高一年级有男生200人,女生100人.为了解该校全体高一学生的身高信息,按性别比例进行分层随机抽样,抽取总样本为30的样本,并观测样本的指标价(单位:cm),计算得男生样本的身高平均数为169,方差为39.下表是抽取的女生样本的数据;
抽取次序 1 2 3 4 5 6 7 8 9 10
身高 155 158 156 157 160 161 159 162 169 163
记抽取的第i个女生的身高为(,2,3,…,10),样本平均数,方差.
参考数据:,,.
(1)若用女生样本的身高频率分布情况代替该校高一女生总体的身高频率分布情况,试估计该校高一女生身高在范围内的人数;
(2)用总样本的平均数和标准差分别估计该校高一学生总体身高的平均数和标准差,求,的值;
(3)如果女生样本数据在之外的数据称为离群值,试剔除离群值后,计算剩余女生样本身高的平均数与方差.
【变式8-5】2023年10月26日,中国的神舟十七号载人飞船与“天宫”空间站成功对接,形成三舱三船组合体.某地区为了激发当地人民对天文学的兴趣,开展了天文知识比赛,满分100分(95分及以上为认知程度高),结果认知程度高的有人,这人按年龄分成5组,其中第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图.已知第一组有10人.

(1)根据频率分布直方图,估计这人的第60百分位数(精确到0.1);
(2)现从第四组和第五组用分层随机抽样的方法抽取6人,担任“党章党史”宣传使者.
①有甲(年龄36),乙(年龄42),且甲、乙确定入选,从6人中要选择两个人担任组长,求甲、乙两人至少有一人被选上组长的概率;
②若第四组宣传使者的年龄的平均数与方差分别为36和,第五组宣传使者的年龄的平均数与方差分别为42和1,估计这人中35-45岁所有人年龄的平均数和方差.
【变式8-6】为进一步推动防范电信网络诈骗工作,预防和减少电信网络诈骗案件的发生,某市开展防骗知识大宣传活动.举办了“网络防骗”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,,…,得到如图所示的频率分布直方图.
(1)求图中的值,根据频率分布直方图计算样本成绩的平均数和下四分位数;
(2)已知若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,,记总的样本平均数为,样本方差为.
证明:;
(3)已知落在的平均成绩是59,方差是7,落在的平均成绩为65,方差是4,求两组样本成绩的总平均数和总方差.
1.(多选题)(2023年新课标全国Ⅰ卷数学真题)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
2.(多选题)(2021年全国新高考II卷数学试题)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差 B.样本的中位数
C.样本的极差 D.样本的平均数
3.(多选题)(2021年全国新高考I卷数学试题)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
4.(2021年天津高考数学试题)从某网络平台推荐的影视作品中抽取部,统计其评分数据,将所得个评分数据分为组:、、、,并整理得到如下的频率分布直方图,则评分在区间内的影视作品数量是( )
A. B. C. D.
5.(2021年全国高考甲卷数学(理)试题)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
1.某校举行演讲比赛,10位评委对两位选手的评分如下:
甲 7.5 7.5 7.8 7.8 8.0 8.0 8.2 8.3 8.4 9.9
乙7.5 7.8 7.8 7.8 8.0 8.0 8.3 8.3 8.5 8.5
选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数.那么,这两个选手的最
(1);
(2).
易错点:不能正确提取图表信息
易错分析: 在频率分布直方图中,各小长方形的面积的总和等于1.切记等高的小矩形的个数不要有遗漏.另外,还要注意频率分布条形图和频率分布直方图是两个完全不同的概念,虽然它们的横轴表示的内容是相同的,但是频率分布条形图的纵轴(矩形的高)表示频率;频率分布直方图的纵轴(矩形的高)表示频率与组距的比值,其各小组的频率等于该小组上矩形的面积.
【易错题1】下表为某小区居民用户月均用水量数据的频数分布表(单位:吨):
分组
频数 23 42 21 8 6
由该频数分布表画出的频数分布直方图中,各组长方形的高度之和为 ;由该频数分布表画出的频率分布直方图中,各组长方形的高度之和为 .
【易错题2】某大学有男生名.为了解该校男生的身体体重情况,随机抽查了该校名男生的体重,并将这名男生的体重(单位:)分成以下六组:、、、、、,绘制成如下的频率分布直方图:
该校体重(单位:)在区间上的男生大约有 人.
答题模板:求百分位数
1、模板解决思路
解决本模板问题要理解百分位数的定义,严格按照百分位数的计算步骤求解.
2、模板解决步骤
第一步:按从小到大排列原始数据.
第二步:计算.
第三步:若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【经典例题1】现有一组数据按照从小到大的顺序排列如下:4,6,7,7,8,9,11,14,15,19,则这组数据的上四分位数为 .
【经典例题2】某机构研究得出10名肺炎病患者的潜伏期(单位:天)分别为8,12,11,7,9,17,14,13,12,15,则这10个数据的第70百分位数是 .
21世纪教育网(www.21cnjy.com)第01讲 随机抽样、统计图表、用样本估计总体
目录
01 考情透视·目标导航 2
02 知识导图·思维引航 3
03 考点突破·题型探究 4
知识点1:抽样 4
知识点2:用样本估计总体 5
题型一:随机抽样、分层抽样 8
题型二:统计图表 10
题型三:频率分布直方图 14
题型四:百分位数 16
题型五:样本的数字特征 19
题型六:总体集中趋势的估计 23
题型七:总体离散程度的估计 25
题型八:分层方差问题 32
04真题练习·命题洞见 39
05课本典例·高考素材 42
06易错分析·答题模板 45
易错点:不能正确提取图表信息 45
答题模板:求百分位数 46
考点要求 考题统计 考情分析
(1)抽样方法 (2)统计图表 (3)频率分布直方图 (4)样本的数字特征的估计,总体集中趋势的估计,总体离散程度的估计 2024年II卷第4题,5分 2023年上海卷第14题,4分 2023年上海卷第9题,5分 2023年I卷第9题,5分 2022年甲卷(文)第2题,5分 统计学是“大数据”技术的关键,在互联网时代具有强大的社会价值和经济价值,在高考中受重视程度越来越大,未来在考试中的出题角度会更加与实际生活紧密联系,背景新颢、形式多样.
复习目标: (1)会用简单随机抽样的方法从总体中抽取样本,了解分层随机抽样. (2)理解统计图表的含义. (3)会用统计图表对总体进行估计,会求n个数据的第p百分位数. (4)能用数字特征估计总体集中趋势和总体离散程度.
知识点1:抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义
一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.
注意:为了保证所选数字的随机性,需在查看随机数表前就指出开始数字的横、纵位置.
(3)抽签法与随机数法的适用情况
抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(4)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
只有四个特点都满足的抽样才是简单随机抽样.
3、分层抽样
(1)定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”
注意:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
【诊断自测】某校老年、中年和青年教师的人数如表所示,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有32人,则该样本的老年教师人数为 .
类别 老年教师 中年教师 青年教师 合计
人数 36 72 64 172
【答案】
【解析】在抽取的样本中,青年教师有32人,而抽样的比例为,
该样本的老年教师人数为,则有,,
故答案为:.
知识点2:用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于.
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
3、百分位数
(1)定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
4、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
5、标准差和方差
(1)定义
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(2)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
(3)平均数、方差的性质
如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
【诊断自测】某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)求样本成绩的;
(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩的总平均数和总方差.
【解析】(1)由频率之和为1得,
解得.
(2)因为成绩落在内的频率为
落在内的频率为
所以样本成绩的落在范围内,
设为m,则,解得,
故为84.
(3)由图可知,成绩在内的市民人数为,
成绩在内的市民人数为,
故.

所以两组市民成绩的总平均数是62,总方差是37.
题型一:随机抽样、分层抽样
【典例1-1】从24名数学教师,16名物理教师,8名化学教师中,用分层抽样的方法抽取一个容量为6的样本,则抽取数学教师的人数是( )
A.1 B.2 C.3 D.4
【答案】C
【解析】从24名数学教师,16名物理教师,8名化学教师中,
用分层抽样的方法抽取一个容量为6的样本,
则应抽取的数学教师人数是人.
故选:C.
【典例1-2】总体由编号为01,02,…,30的30个个体组成.利用所给的随机数表选取6个个体,选取的方法是从随机数表第1行的第3列开始,由左到右一次选取两个数字,则选出来的第5个个体的编号为( )
(第一行)1712 1340 3320 3826 1389 5103 7417 7637
(第二行)1304 0774 2119 3056 6218 3735 9683 5087
A.20 B.26 C.17 D.03
【答案】D
【解析】从随机数表第1行的第3列开始,由左到右一次选取两个数字,
选出的编号依次为:12,13,40,33,20,38,26,13,89,51,03,…,
剔除掉总体编号以外的编号,以及重复的编号,
则选出来的个体的编号依次为:12,13,20,26,03,…,
所以选出来的第5个个体的编号为03.
故选:.
【方法技巧】
不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
【变式1-1】一批热水器共有98台,其中甲厂生产的有56台,乙厂生产的有42台,用分层抽样法从中抽出一个容量为14的样本,那么甲、乙两厂各抽得的热水器台数是( )
A.甲厂9台,乙厂5台 B.甲厂8 台,乙厂6台
C.甲厂 10 台,乙厂4台 D.甲厂7台,乙厂7台
【答案】B
【解析】依题意,甲厂抽得的热水器台数是,乙厂抽得的热水器台数是.
故选:B
【变式1-2】(2024·福建泉州·模拟预测)从一个含有个个体的总体中抽取一容量为的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为,三者关系可能是( )
A. B. C. D.
【答案】B
【解析】因为在抽签法抽样、随机数法抽样和分层随机抽样中,每个个体被抽中的概率均为,
所以.
故选:B.
【变式1-3】(2024·陕西西安·一模)某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,…,649,650.从中抽取50个样本,下图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第6个样本编号是( )
32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 42
84 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 04
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
A.623 B.328 C.072 D.457
【答案】A
【解析】从第5行第6列开始向右读取数据,
第一个数为253,第二个数是313,
第三个数是457,下一个数是860,不符合要求,
下一个数是736,不符合要求,下一个是253,重复,
第四个是007,第五个是328,第六个数是623,,故A正确.
故选:A.
题型二:统计图表
【典例2-1】(2024·安徽马鞍山·模拟预测)下图为国家统计局给出的2016-2020年福利彩票销售额、增长率及筹集公益金情况统计图,则下列说法正确的是( )

A.2016-2020年福利彩票销售额呈递减趋势
B.2016-2020年福利彩票销售额的年增长率呈递减趋势
C.2016-2020年福利彩票销售额、筹集公益金均在2018年取得最大值
D.2017-2018年福利彩票销售额增长的最多
【答案】C
【解析】对于A,2016-2020年福利彩票销售额先递增后递减,A错误;
对于B,2016-2020年福利彩票销售额的年增长率先递增后递减,B错误;
对于C,2016-2020年福利彩票销售额、筹集公益金均在2018年取得最大值,C正确;
对于D,2017-2018年福利彩票销售额增长75.8亿元,2016-2017年福利彩票销售额增长104.9亿元,D错误.
故选:C
【典例2-2】(2024·四川达州·二模)下图是某地区2016-2023年旅游收入(单位:亿元)的条形图,则下列说法错误的是( )

A.该地区2016-2019年旅游收入逐年递增
B.该地区2016-2023年旅游收入的中位数是4.30
C.经历了疫情之后,该地区2023年旅游收入恢复到接近2018年水平
D.该地区2016-2023年旅游收入的极差是3.69
【答案】B
【解析】A:由图可知该地区2016-2019年旅游收入逐年递增,故A正确;
B:由图可知,2016-2023年旅游收入的中位数为亿元,故B错误;
C:从图表可知2023年旅游收入为4.91亿元,接近2018年的5.13亿元,故C正确;
D:2016-2023年旅游收入的极差是亿元,故D正确.
故选:B.
【方法技巧】
统计图表的主要应用
扇形图:直观描述各类数据占总数的比例;
折线图:描述数据随时间的变化趋势;
条形图和直方图:直观描述不同类别或分组数据的频数和频率.
【变式2-1】(2024·陕西铜川·模拟预测)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生近视情况形成的原因,采用分层抽样的方法抽取部分学生进行调查,若抽取的小学生人数为70,则抽取的高中生中近视人数为( )
A.10 B.20 C.25 D.40
【答案】B
【解析】由图甲可知抽取的高中生人数是,
又由图乙可知高中生的近视率为,所以抽取的高中生中近视人数为人.
故选:B.
【变式2-2】(2024·江西·二模)下图是我国年纯电动汽车销量统计情况,则下列说法错误的是( )

A.我国纯电动汽车销量呈现逐年增长趋势
B.这六年销量的第60百分位数为536.5万辆
C.2020年销量高于这六年销量的平均值
D.这六年增长率最大的为2019年至2020年
【答案】C
【解析】对于A,从条形图中看出,纯电动汽车销量逐年递增,故A正确;
对于B,因为,将所有汽车销量数据从小到大排序,
所以销量的第60百分位数为第4个数据,即536.5,故B正确;
对于C,这六年销量的平均数为,故C错误;
对于D,因为2019年至2020年的增长率为,超过其他年份的增长率,故D正确.
故选:C.
【变式2-3】(2024·四川遂宁·三模)某调查机构对某地快递行业从业者进行调查统计,得到快递行业从业人员年龄分布饼状图(图1)、“90后”从事快递行业岗位分布条形图(图2),则下列结论中错误的是( )
A.快递行业从业人员中,“90后”占一半以上
B.快递行业从业人员中,从事技术岗位的“90后”的人数超过总人数的20%
C.快递行业从业人员中,从事运营岗位的“90后”的人数比“80前”的多
D.快递行业从业人员中,从事技术岗位的“90后”的人数比“80后”的多
【答案】D
【解析】由题图可知,快递行业从业人员中,“90后”占总人数的56%,超过一半,A正确;
快递行业从业人员中,从事技术岗位的“90后”的人数占总人数的百分比为,超过20%,
所以快递行业从业人员中,从事技术岗位的“90”后的人数超过总人数的20%;B正确;
快递行业从业人员中,从事运营岗位的“90后”的人数占总人数的百分比为,超过“80前”的人数占总人数的百分比,C正确;
快递行业从业人员中,从事技术岗位的“90后”的人数占总人数的百分比为22.176%,小于“80后”的人数占总人数的百分比,但“80后”从事技术岗位的人数占“80后”人数的比未知,D不一定正确.
故选:D
【变式2-4】(2024·陕西西安·模拟预测)2017年至2022年某省年生产总量及其增长速度如图所示,则下列结论错误的是( )
A.2017年至2022年该省年生产总量逐年增加
B.2017年至2022年该省年生产总量的极差为14842.3亿元
C.2017年至2022年该省年生产总量的增长速度逐年降低
D.2017年至2022年该省年生产总量的增长速度的中位数为7.6%
【答案】C
【解析】对于A,观察条形图知,2017年至2022年该省年生产总量逐年增加,A正确;
对于B,2017年至2022年该省年生产总量的极差为14842.3(亿元),B正确;
对于C,2017年至2020年该省年生产总量的增长速度逐年降低,
而2021年该省年生产总量的增长速度比2020年该省年生产总量的增长速度高,C错误;
对于D,2017年至2020年该省年生产总量的增长速度由小到大排列为:,
因此增长速度的中位数为,D正确.
故选:C
题型三:频率分布直方图
【典例3-1】(2024·河北石家庄·三模)为了解全市高三学生的体能素质情况,在全市高三学生中随机抽取了1000名学生进行体能测试,并将这1000名学生的体能测试成绩整理成如下频率分布直方图.则直方图中实数的值为 .
【答案】
【解析】由直方图可知:组距为,
所以,
解得.
故答案为:.
【典例3-2】为贯彻五育并举的教育方针,某校对全体高一年级学生进行了体育测试,并将成绩(单位:分)分为6组:加以统计,得到如图所示的频率分布直方图.已知高一年级共有750名同学参加测试,则成绩达标的(不少于60分)学生人数为 .
【答案】600
【解析】根据频率分布直方图,成绩不低于60分的频率为,
可知该体育测试成绩不少于60分的学生人数为.
故答案为:
【方法技巧】
(1)利用频率分布直方图求频率、频数;
(2)利用频率分布直方图估计总体.
(3)频率分布直方图的纵坐标是 ,而不是频率.
【变式3-1】在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图,由此可估计该地区一位这种疾病患者的年龄位于区间的概率为 .
【答案】
【解析】设{一人患这种疾病的年龄在区间},
所以.
故答案为:
【变式3-2】某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.则当漏诊率时,误诊率 .
【答案】
【解析】依题可知,左边图形第一个小矩形的面积为,所以,
所以,解得:,
由右边的频率分布直方图可得.
故答案为:
【变式3-3】某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值,将该指标大于的人判定为阳性,小于或等于的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.设函数,则当时,在区间的最小值为 .
【答案】/
【解析】当时, ;
当时, ,
故,
所以在区间的最小值为.
故答案为:
题型四:百分位数
【典例4-1】(2024·高三·山东菏泽·开学考试)已知一组数据为,则这组数据第60百分位数为 .
【答案】80
【解析】将这组数据从小到大排列为:,共8个,
因为,所以这组数据第60百分位数为第5个数据,即为80.
故答案为:80
【典例4-2】已知18个整数的中位数为5,第75百分位数也为5,那么这18个数中,5的个数的最小可能值为 .
【答案】6
【解析】由题意,将18个整数由小到大排列,中位数为第9位和第10位数的平均数,
又,则第75百分位数为第14位数,故第14位数是5,
故第9位和第10位数也是5,所以5的个数的最小可能值为6个.
故答案为:6
【方法技巧】
计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【变式4-1】某同学在高三阶段的9次数学考试中成绩依次为:,则这9次数学成绩的上四分位数为 .
【答案】130
【解析】将9次成绩分数从小到大排列依次为:98,106,113,119,120,126,130,133,149,由于,
故这组成绩数据的上四分位数为第7个数130.
故答案为:130
【变式4-2】《中国居民膳食指南(2022)》数据显示,岁至岁儿童青少年超重肥胖率高达为了解某地中学生的体重情况,某机构从该地中学生中随机抽取名学生,测量他们的体重单位:千克,根据测量数据,按,,,,,分成六组,得到的频率分布直方图如图所示,根据调查的数据,估计该地中学生体重的分位数是 .
【答案】
【解析】因为前2组的频率和为,
前3组的频率和为,
所以分位数在内,
设分位数为,则,解得.
故答案为:
【变式4-3】第33届夏季奥林匹克运动会女子10米跳台跳水决赛中,全红禅以425.60分的高分拿下冠军.下面统计某社团一位运动员10次跳台跳水的训练成绩:68,80,74,63,66,84,78,66,70,76,则这组数据的60%分位数为 .
【答案】75
【解析】先将成绩进行排序:63,66,66,68,70,74,76,78, 80, 84.
由于,60%分位数为第6和第7个数据的平均值.即.
故答案为:75.
【变式4-4】(2024·高三·全国·单元测试)某公司对来应聘的人进行笔试,统计出200名应聘者的笔试成绩,整理得到下表:
组号 1 2 3 4 5 6
成绩分组
累积频率 0.05 0.15 a
注:第n组的累积频率指的是前n组的频率之和.
若公司计划150人进入面试,则估计参加面试的最低分数线为 .
【答案】65
【解析】由各组累积频率为1得,,则.
又由知,面试的最低分数线为笔试成绩从低到高排列的第25百分位数,
由题表知,笔试成绩分别在与的累积频率分别为,
故,
解得,
从而可估计参加面试的最低分数线为65.
故答案为:65
题型五:样本的数字特征
【典例5-1】(2024·高三·全国·单元测试)已知一组统计数据的平均数为,方差为,则函数的最小值为 .
【答案】
【解析】由,得,
则,
故,当且仅当时等号成立.所以函数的最小值为.
故答案为:
【典例5-2】(2024·高三·四川乐山·开学考试)已知,,...,的平均数为10,标准差为2,则,,...,的平均数和标准差分别为 和 .
【答案】 19 4
【解析】∵,,…,的平均数为10,标准差为2,
∴,,…,的平均数为:,标准差为:.
故答案为:19,4
【方法技巧】
(1)平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:或写成,即方差等于原数据平方的平均数减去平均数的平方.
【变式5-1】(2024·福建龙岩·三模)互不相等的4个正整数从小到大排序为,若它们的平均数为4,且这4个数据的极差是中位数的2倍,则这4个数据的中位数为 .
【答案】/
【解析】由题意可知,,,
所以,所以,
所以,
又因为,,,是互不相等的4个正整数从小到大排序的,
所以,,或,,,
所以这4个数据的中位数为.
故答案为:.
【变式5-2】(多选题)(2024·江西新余·模拟预测)已知对个数据做如下变换:当为奇数时,对应的变为;当为偶数时,对应的变为,则对于该组数据的变化,下列情况中可能发生的是:( ).
A.平均数增大 B.方差不变
C.分位数减小 D.众数减小
【答案】BD
【解析】由题意易知数据中奇数项均加一,偶数项均减二,则改变后数据和减小,
即平均数减小,故A错误;
由方差的实际意义(数据的波动程度)与在统计图中几何特征分析,
不妨令:为奇数时,为偶数时,
则与方差为,
新方差为,两数据相等,故B正确;
易知第分位数为从小到大的第三个数据,而对应的可奇可偶,故C错误;
不妨取数据:,众数为1,
新数据的偶数项均从1变为,众数减少,故D正确,
故选:BD
【变式5-3】(多选题)(2024·湖北·模拟预测)设一组样本数据满足,则( )
A.拿走,这组数据的方差变大 B.拿走,这组数据的方差变大
C.拿走,这组数据的方差减小 D.拿走,这组数据的方差减小
【答案】AD
【解析】熟知对一组数据,其方差等于各个数据的平方的算术平均值与算术平均值的平方之差,即.
将拿走前后的方差分别记为.
对于A,给五个元素同时加上或减去同一个数,不影响方差,所以可以适当平移,使得剩下的4个元素:的平均值为0,
不妨设,则,,所以.


所以A正确;
对于B,考虑,则,,所以B错误;
对于C,考虑,则,,所以C错误;
对于D,由于这组数据不全相等,所以,而,所以D正确.
故选:AD.
【变式5-4】已知一组数据,,,的方差为4,若数据,,,的方差为36,则b的值为 .
【答案】3或
【解析】设数据,,,的平均数为,方差为,则,

设数据,,,的平均数为,方差为,
则,

所以或,
故答案为:3或.
【变式5-5】(多选题)一个同学投掷10次骰子,记录出现的点数,根据统计结果,在下列情况中可能出现点数6的有( )
A.平均数为3,中位数为4
B.中位数为4,众数为3
C.平均数为2,方差为2.1
D.中位数为3,方差为0.85
【答案】ABD
【解析】对于A:10次点数为符合题意,故A正确;
对于B:10次点数为符合题意,故B正确;
对于C:设10次点数为且,平均数为,
假设有一次点数为,不妨设,由方差公式,代入相关数据得:
,即,显然最大只能取,
不妨设得,此时方程无解,所以,
当时得:,最大只能取,
不妨设得,此时方程有唯一解,,
即10次点数为,但此时平均数为不合题意,所以,
当得取得,
此时方程无解(其余情况也均无解),所以,
当时,平均数为不合题意.
综上所述,假设有一次点数为不成立,故C错误;
对于D:10次点数为符合题意,故D正确.
故选:ABD
题型六:总体集中趋势的估计
【典例6-1】为了解甲 乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同 摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记为事件:“乙离子残留在体内的百分比不高于”,根据直方图得到的估计值为.
(1)求乙离子残留百分比直方图中的值;
(2)求甲离子残留百分比的第百分位数;
(3)估计乙离子残留百分比的均值.(同一组数据用该组区间的中点值为代表)
【解析】(1)由已知得,解得,
所以.
(2)根据直方图,易知甲离子残留百分比的第百分位数在区间,设为,
则,解得,
所以甲离子残留百分比的第百分位数为.
(3)乙离子残留百分比的平均值的估计值为.
【典例6-2】某校抽取100名高二学生期中考试的语文成绩,绘制频率分布直方图(如图所示),其中样本数据分组区间为:.

(1)求频率分布直方图中的值;
(2)根据频率分布直方图,估计这100名学生语文成绩的众数和平均数.
【解析】(1)由频率分布直方图知:,解得.
(2)由频率分布直方图,众数为:;
这100名学生语文成绩的平均数为:
.
【方法技巧】
频率分布直方图的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
【变式6-1】某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数,单位:分)的频率分布直方图如图所示.

(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
(3)延伸探究:若本例的条件不变,求数学成绩的平均分.
(4)若本例条件不变,求80分以下的学生人数.
【解析】(1)由题图知,众数为分.
(2)设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,,
因此中位数位于第四个矩形内,则,解得分.
故这次测试数学成绩的中位数约为分.
(3)数学成绩的平均分为分.
(4)因为分的频率为,
所以分以下的学生人数为.
【变式6-2】为了落实习主席提出“绿水青山就是金山银山”的环境治理要求.某市政府积极鼓励居民节约用水.计划调整居民生活用水收费方案.拟确定一个合理的月用水量标准x(吨).一位居民的月用水量不超过x的部分按平价收费.超出x的部分按议价收费.为了了解居民用水情况.通过抽样.获得了某年200位居民每人的月均用水量(单位:吨).将数据按照[0.1).[1.2).….[8.9)分成9组.制成了如图所示的频率分布直方图.其中0.4a=b.
(1)求直方图中a.b的值.并由频率分布直方图估计该市居民用水量的众数;
(2)若该市政府希望使85%的居民每月的用水量不超过标准x(吨).估计x的值.
【解析】(1)由题意可得 .
解得,.
由频率分布直方图估计该市居民用水量的众数为吨.
(2)因为前6组的频率和为,
前5组的频率和为.
所以,由,解得,
所以估计月用水量标准为吨时,的居民每月的用水量不超过标准.
题型七:总体离散程度的估计
【典例7-1】(2024·全国·模拟预测)某厂为提高工作效率,将全厂分为甲、乙2个车间,每个车间分别设有A,B,C,D,E5组.下表为该厂某日生产订单情况统计表,请据表解答下列问题:
A B C D E
甲车间 100 120 150 180 200
乙车间 50 120 200 150 180
(1)求甲、乙2个车间该日生产订单的平均数与方差,并根据方差判断哪一个车间工作效率比较稳定?
(2)设甲车间合格率为0.54,乙车间合格率为0.57,求甲、乙2个车间都不合格的概率;
(3)你认为哪个车间工作效率更高?请从平均数、方差、合格率的角度分析.
【解析】(1)甲车间该日生产订单的平均数为,
乙车间该日生产订单的平均数为,
甲车间该日生产订单的方差为,
乙车间该日生产订单的方差为,
因为甲车间该日生产订单的方差小于乙车间该日生产订单的方差,
所以甲车间工作效率比较稳定;
(2)甲、乙2个车间都不合格的概率为;
(3)平均数上甲车间的该日生产订单更大,方差更小,乙车间合格率更大,但是差别并不大,所以甲车间工作效率更高.
【典例7-2】某校高一(1)班、(2)班的学生人数分别为40,42,在某次测验中,记(1)班所有学生的成绩分别为,,…,,平均成绩为,方差为,已知,.
(1)求,;
(2)记(2)班所有学生的成绩分别为,,…,,其平均成绩为82,,试求两个班的所有学生的平均成绩(结果保留整数),并说明哪一个班的成绩比较稳定.
【解析】(1)由题意知,得,
.
(2)记(2)班的平均成绩为,方差为,
则,所以,
所以两个班所有学生的平均成绩为,

因为,所以(1)班的成绩比较稳定.
【方法技巧】
总体离散程度的估计
标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
【变式7-1】在2024年世界泳联跳水世界杯蒙特利尔站和柏林站女子10米台跳水决赛中,全红婵奉献了高水准的精彩表现,在决赛中的五个动作惊艳了全世界.在这两场决赛中,7名裁判给选手的五个跳水动作打分,两站裁判对全红婵的打分记录如下:(为了方便计算,采取分数四舍五入取整)
A组(蒙特利尔站):80 80 82 78 93
B组(柏林站):81 80 86 99 86
(1)请写出这10个分数的众数、极差以及A,B两组各自的平均成绩;
(2)请你根据所学的统计知识,分析两站比赛中,哪一站全红婵发挥更稳定?并说明理由.
【解析】(1)易知在这10个分数中,出现最多的是80,所以众数为80,
这10个分数中,最高分为99,最低分为78,所以极差为,
A,B两组各自的平均成绩分别为,
(2)可以用方差来衡量,方差越小,分数越集中,判断发挥越稳定,
设蒙特利尔站和柏林站的方差分别为,,
易知,

因为,所以蒙特利尔站发挥更稳定.
【变式7-2】(2024·云南昆明·三模)甲、乙两位同学组成学习小组进行项目式互助学习,在共同完成某个内容的互助学习后,甲、乙都参加了若干次测试,现从甲的测试成绩里随机抽取了7次成绩,从乙的测试成绩里随机抽取了9次成绩,数据如下:
甲:93 95 81 72 80 82 92
乙:85 82 77 80 94 86 92 84 85
经计算得出甲、乙两人的测试成绩的平均数均为85.
(1)求甲乙两位同学测试成绩的方差;
(2)为检验两组数据的差异性是否显著,可以计算统计量,其中个数据的方差为,个数据的方差为,且.若,则认为两组数据有显著性差异,否则不能认为两组数据有显著性差异.若的临界值采用下表中的数据:
1 2 3 4 5 6 7 8
1 161 200 216 225 230 234 237 239
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04
5 6.61 5.79 5.41 6.19 5.05 4.95 4.88 4.82
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44
例如:对应的临界值为5.41.请根据以上资料判断甲、乙两位同学进行项目式互助学习的效果是否有显著性差异.
【解析】(1)依题意:,,
所以,,
.
(2)由于,则,,,,
则,
查表得对应的临界值为3.58,则,
所以甲、乙两位同学进行项目式互助学习的效果没有显著性差异.
【变式7-3】(2024·宁夏银川·一模)滨海盐碱地是我国盐碱地的主要类型之一,如何利用更有效的方法改造这些宝贵的土地资源,成为摆在我们面前的世界级难题.对盐碱的治理方法,研究人员在长期的实践中获得了两种成本差异不大,且能降低滨海盐碱地土壤层可溶性盐含量的技术,为了对比两种技术治理盐碱的效果,科研人员在同一区域采集了12个土壤样本,平均分成A、B两组,测得A组土壤可溶性盐含量数据样本平均数,方差,B组土壤可溶性盐含量数据样本平均数,方差.用技术1对A组土壤进行可溶性盐改良试验,用技术2对B组土壤进行可溶性盐改良试验,分别获得改良后土壤可溶性盐含量数据如下:
A组 0.66 0.68 0.69 0.71 0.72 0.74
B组 0.46 0.48 0.49 0.49 0.51 0.54
改良后A组、B组土壤可溶性盐含量数据样本平均数分别为和,样本方差分别记为和.
(1)求;
(2)应用技术1与技术2土壤可溶性盐改良试验后,土壤可溶性盐含量是否有显著降低?(若,则认为技术能显著降低土壤可溶性盐含量,否则不认为有显著降低.)
【解析】(1),

(2)当时,
,,
应用技术1后,土壤可溶性盐含量没有显著降低
当时,
,,
∴应用技术2后,土壤可溶性盐含量没有显著降低.
故应用技术1和技术2后,土壤可溶性盐含量没有显著降低.
【变式7-4】(2024·高三·青海西宁·开学考试)某新能源汽车配件厂生产一种新能源汽车精密零件,为提高产品质量引入了一套新生产线,为检验新生产线所生产出来的零件质量有无显著提高,现同时用旧生产线和新生产线各生产了10个零件,得到各个零件的质量指标的数据如下:
旧生产线 5.2 4.8 4.8 5.0 5.0 5.2 5.1 4.8 5.1 5.0
新生产线 5.0 5.2 5.3 5.1 5.4 5.2 5.2 5.3 5.2 5.1
设旧生产线和新生产线所生产零件的质量指标的样本平均数分别为和,样本方差分别为和.
(1)求,及;
(2)若,则认为新生产线生产零件的质量有显著提高,否则不认为有显著提高,现计算得,试判断新生产线生产的零件质量较旧生产线生产的零件质量是否有显著提高.
【解析】(1)由题意得,


(2)由(1)可得,

因为,所以,
故新生产线生产的零件质量较旧生产线生产的零件质量有显著提高.
【变式7-5】(2024·高三·黑龙江鸡西·期末)为了了解甲、乙两个工厂生产的轮胎的宽度是否达标,分别从两厂随机选取了10个轮胎,将每个轮胎的宽度(单位:)记录下来并绘制出折线图:
(1)分别计算甲、乙两厂提供10个轮胎宽度的平均值;
(2)轮胎的宽度在内,则称这个轮胎是标准轮胎.试比较甲、乙两厂分别提供的10个轮胎中所有标准轮胎宽度的方差的大小,根据两厂的标准轮胎宽度的平均水平及其波动情况,判断这两个工厂哪个厂的轮胎相对更好
【解析】(1)记甲厂提供的个轮胎宽度的平均值为,乙厂提供的个轮胎宽度的平均值为,
,.
(2)甲厂个轮胎宽度在内的数据为,
则平均数为,
所以方差;
乙厂个轮胎宽度在内的数据为,
则平均数为,
所以方差;
因为甲、乙两厂生产的标准轮胎宽度的平均值一样,但乙厂的方差更小,
所有乙厂的轮胎相对更好.
题型八:分层方差问题
【典例8-1】(2024·广东珠海·一模)甲、乙两班参加了同一学科的考试,其中甲班50人,乙班40人.甲班的平均成绩为72分,方差为90分;乙班的平均成绩为90分,方差为60分.那么甲、乙两班全部90名学生的平均成绩是 分,方差是 分.
【答案】 80
【解析】甲、乙两班全部90名学生的平均成绩为分,
方差为
故答案为:80,
【典例8-2】(2024·山西太原·二模)为获得某校高一年级全体学生的身高信息,现采用样本量按比例分配的分层随机抽样方法抽取了一个样本,其中有30名男生和20名女生,计算得男生样本的均值为170,方差为15.女生样本的均值为160,方差为30,则由上述数据计算该校高一年级学生身高的均值是 ,方差是 .
【答案】 166 45
【解析】设样本中男生的身高为,女生的身高为,
则,该校高一年级学生身高的均值是,
方差为
.
故答案为:166,45.
【方法技巧】
分层随机抽样的方差
设样本容量为,平均数为,其中两层的个体数量分别为,两层的平均数分别为,,方差分别为,则这个样本的方差为
【变式8-1】为培养学生的阅读习惯,某校开展了为期一年的“弘扬传统文化,阅读经典名著”活动.在了解全校学生每年平均阅读了多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,则合在一起后的样本平均数为 ,方差为 .(精确到0.1)
【答案】 5.4 12.4
【解析】把甲同学抽取的样本的平均数记为,方差记为;
把乙同学抽取的样本的平均数记为,方差记为;
把合在一起后的样本的平均数记为,方差记为.
则,
.
即合在一起后样本的平均数为5.4,方差为12.4.
故答案为:5.4;12.4
【变式8-2】(2024·高三·四川·期末)某校有3名百米短跑运动员甲、乙、丙,已知甲最近10次百米短跑的时间(单位:s)的数据如下表:
第1次 第2次 第3次 第4次 第5次 第6次 第7次 第8次 第9次 第10次
时间/s 12 12.4 12 12.5 12 11.8 12.2 11.5 11.6 12
(1)计算甲这10次百米短跑的时间的平均数与方差;
(2)经过计算,乙最近10次百米短跑的时间的平均数和方差分别为12,0.08,丙最近10次百米短跑的时间的平均数和方差分别为12.4,0.08,若要从甲、乙、丙三人中选一人代表学校参加市区的百米短跑比赛,请判断该选择谁,说明你的理由.
【解析】(1)甲这10次百米短跑的时间的平均数为,
方差为

(2)因为百米短跑的时间越短,成绩越好,
所以从数据的平均水平看,甲与乙的成绩更好.
因为方差越大,数据的波动越大,方差越小,数据的波动越小,所以从数据的波动情况看,
甲的成绩波动最大,乙和丙的波动水平相当,所以应该选乙参加市区的百米短跑比赛.
【变式8-3】某地区有小学生9000人,初中生8600人,高中生4400人,教育局组织网络“防溺水”网络知识问答,现用分层抽样的方法从中抽取220名学生,对其成绩进行统计分析,得到如下图所示的频率分布直方图所示的频率分布直方图.
(1)根据频率分布直方图,估计该地区所有学生中知识问答成绩的平均数和众数;
(2)成绩位列前10%的学生平台会生成“防溺水达人”优秀证书,试估计获得“防溺水达人”的成绩至少为多少分;
(3)已知落在内的平均成绩为67,方差是9,落在内的平均成绩是73,方差是29,求落在内的平均成绩和方差.
(附:设两组数据的样本量 样本平均数和样本方差分别为:.记两组数据总体的样本平均数为,则总体样本方差)
【解析】(1)一至六组的频率分别为,
平均数.
由图可知,众数为.
以样本估计总体,该地区所有学生中知识问答成绩的平均数为分,众数为分.
(2)前4组的频率之和为,
前5组的频率之和为,
第分位数落在第5组,设为x,则,解得.
“防溺水达人”的成绩至少为分.
(3))的频率为,)的频率为,
所以的频率与的频率之比为
的频率与的频率之比为
设内的平均成绩和方差分别为,
依题意有,解得
,解得,
所以内的平均成绩为,方差为.
【变式8-4】某校高一年级有男生200人,女生100人.为了解该校全体高一学生的身高信息,按性别比例进行分层随机抽样,抽取总样本为30的样本,并观测样本的指标价(单位:cm),计算得男生样本的身高平均数为169,方差为39.下表是抽取的女生样本的数据;
抽取次序 1 2 3 4 5 6 7 8 9 10
身高 155 158 156 157 160 161 159 162 169 163
记抽取的第i个女生的身高为(,2,3,…,10),样本平均数,方差.
参考数据:,,.
(1)若用女生样本的身高频率分布情况代替该校高一女生总体的身高频率分布情况,试估计该校高一女生身高在范围内的人数;
(2)用总样本的平均数和标准差分别估计该校高一学生总体身高的平均数和标准差,求,的值;
(3)如果女生样本数据在之外的数据称为离群值,试剔除离群值后,计算剩余女生样本身高的平均数与方差.
【解析】(1)因女生样本中,身高在范围内的占比为,
故该校高一女生身高在范围内的人数估计为;
(2)记总样本的平均数为,标准差为,
由题意,设男生样本(20人)的身高平均数为,方差为,
女生样本(10人)的身高平均数为,方差,
则,

故;
(3)因,,则,即,
约为,由样本数据知,,为离群值,
剔除169后,女生样本(9人)的身高平均数为:;
由可得,,
则剔除169后,女生样本(9人)的身高的方差为:.
【变式8-5】2023年10月26日,中国的神舟十七号载人飞船与“天宫”空间站成功对接,形成三舱三船组合体.某地区为了激发当地人民对天文学的兴趣,开展了天文知识比赛,满分100分(95分及以上为认知程度高),结果认知程度高的有人,这人按年龄分成5组,其中第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图.已知第一组有10人.

(1)根据频率分布直方图,估计这人的第60百分位数(精确到0.1);
(2)现从第四组和第五组用分层随机抽样的方法抽取6人,担任“党章党史”宣传使者.
①有甲(年龄36),乙(年龄42),且甲、乙确定入选,从6人中要选择两个人担任组长,求甲、乙两人至少有一人被选上组长的概率;
②若第四组宣传使者的年龄的平均数与方差分别为36和,第五组宣传使者的年龄的平均数与方差分别为42和1,估计这人中35-45岁所有人年龄的平均数和方差.
【解析】(1)设第60百分位数为,
因为,,
所以位于第三组:内,
所以.
(2)①由题意得,第四组和第五组抽取人数之比为,
即第四组4人,记为A,B,C,甲,第五组2,记为D,乙,
对应的样本空间为:AB,AC,A甲,AD,A乙,BC,B甲,BD,B乙,C甲, CD,C乙,甲D,甲乙,D乙,共15个样本点,
设事件M为“甲、乙两人至少一人被选上”,则有A甲,A乙,B甲,B乙,C甲,C乙,甲D,甲乙,D乙,共有9个样本点.
所以;
②设第四组的宣传使者的年龄平均数分为,方差为,
设第五组的宣传使者的年龄平均数为,方差为,
第四组和第五组所有宣传使者的年龄平均数为,方差为,

即第四组和第五组所有宣传使者的年龄平均数为,

即第四组和第五组所有宣传使者的年龄方差为.
据此估计这人中年龄在35~45岁的所有人的年龄的平均数为38,方差约为10.
【变式8-6】为进一步推动防范电信网络诈骗工作,预防和减少电信网络诈骗案件的发生,某市开展防骗知识大宣传活动.举办了“网络防骗”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:,,…,得到如图所示的频率分布直方图.
(1)求图中的值,根据频率分布直方图计算样本成绩的平均数和下四分位数;
(2)已知若总体划分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,,记总的样本平均数为,样本方差为.
证明:;
(3)已知落在的平均成绩是59,方差是7,落在的平均成绩为65,方差是4,求两组样本成绩的总平均数和总方差.
【解析】(1)由题意可知,,
解得:;
平均数为,
前2组的频率和为,
前3组的频率和为,
所以下四分位数在第3组,设为,
则,得
所以下四分位数为;
(2),
,,
总体方差,
又,


因为,


同理,
故,

(3)的频率是,频数是,的频率是,频数是
所以总体平均数,
总体方差.
1.(多选题)(2023年新课标全国Ⅰ卷数学真题)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
【答案】BD
【解析】对于选项A:设的平均数为,的平均数为,
则,
因为没有确定的大小关系,所以无法判断的大小,
例如:,可得;
例如,可得;
例如,可得;故A错误;
对于选项B:不妨设,
可知的中位数等于的中位数均为,故B正确;
对于选项C:因为是最小值,是最大值,
则的波动性不大于的波动性,即的标准差不大于的标准差,
例如:,则平均数,
标准差,
,则平均数,
标准差,
显然,即;故C错误;
对于选项D:不妨设,
则,当且仅当时,等号成立,故D正确;
故选:BD.
2.(多选题)(2021年全国新高考II卷数学试题)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差 B.样本的中位数
C.样本的极差 D.样本的平均数
【答案】AC
【解析】由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;
故选:AC.
3.(多选题)(2021年全国新高考I卷数学试题)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
【答案】CD
【解析】A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;
故选:CD
4.(2021年天津高考数学试题)从某网络平台推荐的影视作品中抽取部,统计其评分数据,将所得个评分数据分为组:、、、,并整理得到如下的频率分布直方图,则评分在区间内的影视作品数量是( )
A. B. C. D.
【答案】D
【解析】由频率分布直方图可知,评分在区间内的影视作品数量为.
故选:D.
5.(2021年全国高考甲卷数学(理)试题)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【解析】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
1.某校举行演讲比赛,10位评委对两位选手的评分如下:
甲 7.5 7.5 7.8 7.8 8.0 8.0 8.2 8.3 8.4 9.9
乙7.5 7.8 7.8 7.8 8.0 8.0 8.3 8.3 8.5 8.5
选手的最终得分为去掉一个最低分和一个最高分之后,剩下8个评分的平均数.那么,这两个选手的最后得分是多少?若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?你认为哪种评分办法更好?为什么?
【解析】甲选手的最后得分为.
乙选手的最后得分为.
若直接用10位评委评分的平均数作为选手的得分,
则甲选手的得分为.
乙选手的得分为.
去掉最高分与最低分时,甲的得分小于乙的得分,即乙的排名靠前;若直接用评委评分的平均数作为得分,则甲的得分大于乙的得分,即甲的排名靠前,两种评分下,甲、乙两位选手的排名变化大,去掉一个最低分和一个最高分之后,剩下8个评分的平均数作为选手的最后得分更好,这是因为平均数对样本数据的极端值比较“敏感”.
2.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):
甲群:13,13,14,15,15,15,15,16,17,17.
乙群:54,3,4,4,5,6,6,6,6,56.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
【解析】(1)甲群市民年龄的平均数为
(岁),
中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为
(岁),
中位数为6岁,众数为6岁
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
3.某班4个小组的人数为10,10,x,8,已知该组数据的中位数与平均数相等,求这组数据的中位数.
【解析】该组数据的平均数为,中位数一定是其中两个数的平均数,由于x不知是多少,所以要分情况讨论.
(1)当时,原数据按从小到大的顺序排列为x,8,10,10,中位数为.故,则,此时中位数为9.
(2)当时,原数据按从小到大的顺序排列为8,x,10,10,中位数为;,故,则,而8不在的范围内,所以舍去.
(3)当时,原数据按从小到大的顺序排列为8,10,10,x,中位数为.故,则,此时中位数为10.
综上所述,这组数据的中位数为9或10.
4.数据的方差和标准差分别为.数据的方差和标准差分别为,若成立,a,b为常数,证明.
【解析】证明:设数据的平均数,数据的平均数为,则.

.
5.数据的方差,证明:所有的都相同.
【解析】证明:设的平均数为,
则.



∴所有的都相同.
6.已知总体划分为3层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:.记总的样本平均数为,样本方差为.证明:
(1);
【答案】 100
【解析】在频数分布直方图中,每组长方形的高度表示频数,因此各组长方形高度之和为;在频率分布直方图中,每组长方形的高度表示频率/组距,因此各组长方形高度之和为总频率/组距,即.
故答案为:100,0.2
【易错题2】某大学有男生名.为了解该校男生的身体体重情况,随机抽查了该校名男生的体重,并将这名男生的体重(单位:)分成以下六组:、、、、、,绘制成如下的频率分布直方图:
该校体重(单位:)在区间上的男生大约有 人.
【答案】
【解析】由频率分布直方图可知,该校体重(单位:)在区间上的男生的人数为
.
故答案为:.
答题模板:求百分位数
1、模板解决思路
解决本模板问题要理解百分位数的定义,严格按照百分位数的计算步骤求解.
2、模板解决步骤
第一步:按从小到大排列原始数据.
第二步:计算.
第三步:若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【经典例题1】现有一组数据按照从小到大的顺序排列如下:4,6,7,7,8,9,11,14,15,19,则这组数据的上四分位数为 .
【答案】
【解析】因为,所以这组数据的上四分位数为.
故答案为:
【经典例题2】某机构研究得出10名肺炎病患者的潜伏期(单位:天)分别为8,12,11,7,9,17,14,13,12,15,则这10个数据的第70百分位数是 .
【答案】13.5/
【解析】将这10个数据从小到大排列得7,8,9,11,12,12,13,14,15,17,
又,故第70百分位数是.
故答案为:13.5
21世纪教育网(www.21cnjy.com)
同课章节目录