2025高考数学考二轮专题复习-第十讲-统计(三大考向)-专项训练
一:考情分析
命题解读 考向 考查统计
1.高考对统计的考查,重点是以下考点(1)分层随机抽样 (2)统计图表 (3)会用统计图表对总体进行估计,会求n个数据的第p百分位数. (4)能用数字特征估计总体集中趋势和总体离散程度. (5)了解样本相关系数的统计含义. (6)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题. 频率分布直方图、频数分布表 2022·新高考Ⅱ卷,19(1) 2023·新高考Ⅱ卷,19(1) 2024·新高考Ⅱ卷,4
独立性检验 2022·新高考Ⅰ卷,20(1)
数据的数字特征 2023·新高考Ⅰ卷,9
二:2024高考命题分析
2024年高考新高考Ⅰ卷未考查统计相关内容,Ⅱ卷中考查了频数分布表中数据的数字特征的求法。统计的考查应关注:相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等。这些考验的是学生读取数据、分析数据、处理数据的能力。预计2025年高考还是主要考查频率分布直方图和数据的数字特征,可以多留意方差的计算方法!
三:试题精讲
一、单选题
1.(2024新高考Ⅱ卷·4)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(均在之间,单位:kg)并部分整理下表
亩产量 [900,950) [950,1000) [1000,1050) [1100,1150) [1150,1200)
频数 6 12 18 24 10
据表中数据,结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
高考真题练
一、多选题
1.(2023新高考Ⅰ卷·9)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
二、解答题
1.(2022新高考Ⅰ卷·20)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
2.(2022新高考Ⅱ卷·19)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
3.(2023新高考Ⅱ卷·19)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
知识点总结
一、分层随机抽样
1、分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
2、分层随机抽样的平均数计算
在分层随机抽样中,以层数是2为例,如果第1层和第2层包含的个体数分别为和,抽取的样本量分别为和,第1层和第2层的样本平均数分别为,,样本平均数位,则.我们可以采用样本平均数估计总体平均数
二、样本的数字特征
1、众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
2、标准差和方差
(1)标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
(2)方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(3)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
三、频率分布直方图
1、频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
四、百分位数
1、定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2、计算一组个数据的的第百分位数的步骤
(1)按从小到大排列原始数据.
(2)计算.
(3)若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
3、四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
五、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
六、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
七、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
八、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【统计常用结论】
均数、方差的性质:如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
名校模拟练
一、单选题
1.(2024·河南·三模)已知某学校高三年级甲、乙、丙三个班级人数分别为40,30,50,学校计划采用按比例分配的分层随机抽样的方法在三个班级中评选优秀学生,已知乙班分配到的优秀学生名单为6人,则高三年级三个班优秀学生总人数为( )
A.16 B.30 C.24 D.18
2.(2024·山东·二模)某校高三共有200人参加体育测试,根据规则,82分以上的考生成绩等级为,则估计获得的考生人数约为( )
A.100 B.75 C.50 D.25
3.(2024·浙江绍兴·三模)有一组样本数据:2,3,3,3,4,4,5,5,6,6.则关于该组数据的下列数字特征中,数值最大的为( )
A.第75百分位数 B.平均数 C.极差 D.众数
4.(2024·山西·三模)某次趣味运动会,设置了教师足球射门比赛:教师射门,学生守门.已知参与射门比赛的教师有60名,进球数的平均值和方差分别是3和13,其中男教师进球数的平均值和方差分别是4和8,女教师进球数的平均值为2,则女教师进球数的方差为( )
A.15 B.16 C.17 D.18
5.(2024·四川凉山·三模)样本数据的平均数,方差,则样本数据,,,的平均数,方差分别为( )
A.9,4 B.9,2 C.4,1 D.2,1
6.(2024·四川成都·三模)“数九”从每年“冬至”当天开始计算, 每九天为一个单位,冬至后的第 81 天, “数九”结束, 天气就变得温暖起来. 如图, 以温江国家基准气候站为代表记录了 2023 一 2024 年从“一九”到“九九”成都市的“平均气温”和“多年平均气温” (单位: ),下列说法正确的是( )
A.“四九”以后成都市“平均气温”一直上升
B.“四九” 成都市“平均气温” 较“多年平均气温” 低 0.1 ”
C.“一九”到“五九”成都市“平均气温”的方差小于“多年平均气温”的方差
D.“一九”到“九九”成都市“平均气温”的极差小于“多年平均气温”的极差
7.(2024·陕西·三模)2024年1月九省联考的数学试卷出现新结构,其中多选题计分标准如下:①本题共3小题,每小题6分,满分18分;②每道小题的四个选项中有两个或三个正确选项,全部选对得6分,有选错的得0分;③部分选对得部分分(若某小题正确选项为两个,漏选一个正确选项得3分;若某小题正确选项为三个,漏选一个正确选项得4分,漏选两个正确选项得2分).已知在某次新结构数学试题的考试中,小明同学三个多选题中第一小题确定得满分,第二小题随机地选了两个选项,第三小题随机地选了一个选项,则小明同学多选题所有可能总得分(相同总分只记录一次)的中位数为( )
A.9 B.10 C.11 D.12
8.(2024·浙江·三模)在对某校高三学生体质健康状况某个项目的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生80人,女生120人,其方差分别为15,10,由此估计样本的方差不可能为( )
A.11 B.13 C.15 D.17
9.(2024·安徽安庆·三模)已知一组数据的平均数为,另一组数据的平均数为.若数据,的平均数为,其中,则的大小关系为( )
A. B. C. D.的大小关系不确定
10.(2024·陕西榆林·三模)在一次数学模考中,从甲 乙两个班各自抽出10个人的成绩,甲班的十个人成绩分别为,乙班的十个人成绩分别为.假设这两组数据中位数相同 方差也相同,则把这20个数据合并后( )
A.中位数一定不变,方差可能变大
B.中位数可能改变,方差可能变大
C.中位数一定不变,方差可能变小
D.中位数可能改变,方差可能变小
二、多选题
11.(2024·全国·三模)在某次数学测试中,甲、乙两个班的成绩情况如下表:
班级 人数 平均分 方差
甲 45 88 1
乙 45 90 2
记这两个班的数学成绩的总平均分为,总方差为,则( )
A. B. C. D.
12.(2024·广东广州·三模)在某次学科期末检测后,从全部考生中选取100名考生的成绩(百分制,均为整数)分成,,,,五组后,得到如下图的频率分布直方图,则( )
A.图中a的值为0.005 B.低于70分的考生人数约为40人
C.考生成绩的平均分约为73分 D.估计考生成绩第80百分位数为83分
13.(2024·河北·三模)根据中国报告大厅对2023年3月~10月全国太阳能发电量进行监测统计,太阳能发电量(单位:亿千瓦时)月度数据统计如下表:
月份 3 4 5 6
发电量/亿千瓦时 242.94 230.87 240.59 259.33
月份 7 8 9 10
发电量/亿千瓦时 258.9 269.19 246.06 244.31
关于2023年3月~10月全国太阳能发电量,下列四种说法正确的是( )
A.中位数是259.115 B.极差是38.32
C.第85百分位数是259.33 D.第25百分位数是240.59
14.(2024·广东汕头·三模)下图是样本甲与样本乙的频率分布直方图,下列说法判断正确的是( )
A.样本乙的极差一定大于样本甲的极差
B.样本乙的众数一定大于样本甲的众数
C.样本乙的方差一定小于样本甲的方差
D.样本甲的中位数一定小于样本乙的中位数
15.(2024·黑龙江·三模)在某市初三年级举行的一次体育考试中(满分100分),所有考生成绩均在[50,100]内,按照[50,60),[60,70),[70,80),[80,90),[90,100]分成五组,甲、乙两班考生的成绩占比如图所示,则下列说法错误的是( )
A.成绩在[70,80)的考生中,甲班人数多于乙班人数
B.甲班成绩在[80,90)内人数最多
C.乙班成绩在[70,80)内人数最多
D.甲班成绩的极差比乙班成绩的极差小
三、解答题
16.(2024·青海海南·二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据表中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表).
(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
优秀人数 非优秀人数 合计
强化训练前
强化训练后
合计
将上面的表格补充完整,并回答能否有的把握认为跳水运动员是否优秀与强化训练有关.
附:.
0.05 0.010 0.005 0.001
3.841 6.635 7.879 10.828
17.(2024·陕西·模拟预测)某公司新研发了一款智能灯,此灯有拍照搜题功能,学生遇到疑难问题,通过拍照搜题后,会在显示屏上显示该题的解答过程以及该题考查的知识点与相应的解题方法该产品投入市场三个月后,公司对部分用户做了调研:抽取了200位使用者,每人填写一份评分表(满分为100分),现从200份评分表中,随机抽取40份(其中男 女使用者的评分表各20份)
作为样本,经统计得到如下的数据:
女生使用者评分:67,71,72,75,80,83,83,83,84,84,85,86,88,90,90,91,92,92,92,92
男生使用者评分:67,68,69,69,70,72,72,73,74,75,76,76,77,78,79,82,84,84,89,92
记该样本的中位数为,按评分情况将使用.都对该智能灯的态度分为两种类型:评分不小于的称为“满意型”,其余的都称为“不满意型”.
(1)求的值,填写如下列联表
女生评分 男生评分 合计
“满意型”人数
“不满意型”人数
合计
(2)能否有的把握认为满意与性别有关?
参考公式与数据:
0.1 0.05 0.025 0.01
2.706 3.841 5.024 6.635
18.(2024·河南郑州·三模)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比:
年份 2017年 2018年 2019年 2020年 2021年
年份代码 1 2 3 4 5
6.4 5.5 5.0 4.8 3.8
(1)求2017—2021年年份代码与的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中与之间的关系可用一元线性回归模型进行描述,并求出关于的经验回归方程;
(3)预测2024年的酸雨区面积占国土面积的百分比.
(回归直线的斜率和截距的最小二乘法估计公式分别为:
附:样本相关系数,.
19.(2024·陕西渭南·三模)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将100个样本数据按,,,,,分成6组,并整理得到如下频率分布直方图.
(1)请通过频率分布直方图估计这100份样本数据的平均值(同一组中的数据用该组区间的中点值作代表)和中位数;
(2)该市决定表彰知识竞赛成绩排名前30%的市民,某市民知识竞赛的成绩是78,请估计该市民能否得到表彰.
20.(2024·江西九江·三模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据,如下表所示:
行驶里程万 0.0 0.4 1.0 1.6 2.4 2.8 3.4 4.4
轮胎凹槽深度 8.0 7.8 7.2 6.2 5.6 4.8 4.4 4.0
(1)求该品牌轮胎凹槽深度与行驶里程的相关系数,并判断二者之间是否具有很强的线性相关性;(结果保留两位有效数字)
(2)根据我国国家标准规定:轿车轮胎凹槽安全深度为(当凹槽深度低于时刹车距离增大,驾驶风险增加,必须更换新轮胎).某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎,请问在正常行驶情况下,更换新轮胎后继续行驶约多少公里需对轮胎再次更换?
附:变量与的样本相关系数;对于一组数据,,其线性回归方程的斜率和截距的最小二乘估计分别为:.
21.(2024·内蒙古·三模)现统计了甲12次投篮训练的投篮次数和乙8次投篮训练的投篮次数,得到如下数据:
甲 77 73 77 81 85 81 77 85 93 73 77 81
乙 71 81 73 73 71 73 85 73
已知甲12次投篮次数的平均数,乙8次投篮次数的平均数.
(1)求这20次投篮次数的中位数,估计甲每次训练投篮次数超过的概率;
(2)求这20次投篮次数的平均数与方差.
22.(2024·甘肃张掖·模拟预测)近年来,马拉松比赛受到广大体育爱好者的喜爱.某地体育局在五一长假期间举办比赛,志愿者的服务工作是成功举办的重要保障.现抽取了200名候选者的面试成绩,并分成六组:第一组,第二组,第三组,第四组,第五组,第六组,绘制成如图所示的频率分布直方图.
男生 女生 合计
被录取 20
未被录取
合计
(1)求;
(2)估计候选者面试成绩的平均数(同一组中的数据用该组区间的中点值为代表);
(3)在抽出的200名候选者的面试成绩中,若规定分数不低于80分的候选者为被录取的志愿者,已知这200名候选者中男生与女生人数相同,男生中有20人被录取,请补充列联表,并判断是否有的把握认为“候选者是否被录取与性别有关”.
附:,其中.
0.05 0.010 0.005 0.001
3.841 6.635 7.879 10.828
23.(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出关于的回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别 佩戴头盔 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
参考答案与详细解析
一:考情分析
命题解读 考向 考查统计
1.高考对统计的考查,重点是以下考点(1)分层随机抽样 (2)统计图表 (3)会用统计图表对总体进行估计,会求n个数据的第p百分位数. (4)能用数字特征估计总体集中趋势和总体离散程度. (5)了解样本相关系数的统计含义. (6)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题. 频率分布直方图、频数分布表 2022·新高考Ⅱ卷,19(1) 2023·新高考Ⅱ卷,19(1) 2024·新高考Ⅱ卷,4
独立性检验 2022·新高考Ⅰ卷,20(1)
数据的数字特征 2023·新高考Ⅰ卷,9
二:2024高考命题分析
2024年高考新高考Ⅰ卷未考查统计相关内容,Ⅱ卷中考查了频数分布表中数据的数字特征的求法。统计的考查应关注:相关性、频率分布直方图、样本的数字特征、独立性检验、回归分析等。这些考验的是学生读取数据、分析数据、处理数据的能力。预计2025年高考还是主要考查频率分布直方图和数据的数字特征,可以多留意方差的计算方法!
三:试题精讲
一、单选题
1.(2024新高考Ⅱ卷·4)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(均在之间,单位:kg)并部分整理下表
亩产量 [900,950) [950,1000) [1000,1050) [1100,1150) [1150,1200)
频数 6 12 18 24 10
据表中数据,结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
【答案】C
【分析】计算出前三段频数即可判断A;计算出低于1100kg的频数,再计算比例即可判断B;根据极差计算方法即可判断C;根据平均值计算公式即可判断D.
【详解】对于 A, 根据频数分布表可知, ,
所以亩产量的中位数不小于 , 故 A 错误;
对于B,亩产量不低于的频数为,
所以低于的稻田占比为,故B错误;
对于C,稻田亩产量的极差最大为,最小为,故C正确;
对于D,由频数分布表可得,亩产量在的频数为,
所以平均值为,故D错误.
故选;C.
高考真题练
一、多选题
1.(2023新高考Ⅰ卷·9)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
【答案】BD
【分析】根据题意结合平均数、中位数、标准差以及极差的概念逐项分析判断.
【详解】对于选项A:设的平均数为,的平均数为,
则,
因为没有确定的大小关系,所以无法判断的大小,
例如:,可得;
例如,可得;
例如,可得;故A错误;
对于选项B:不妨设,
可知的中位数等于的中位数均为,故B正确;
对于选项C:因为是最小值,是最大值,
则的波动性不大于的波动性,即的标准差不大于的标准差,
例如:,则平均数,
标准差,
,则平均数,
标准差,
显然,即;故C错误;
对于选项D:不妨设,
则,当且仅当时,等号成立,故D正确;
故选:BD.
二、解答题
1.(2022新高考Ⅰ卷·20)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)答案见解析
【分析】(1)由所给数据结合公式求出的值,将其与临界值比较大小,由此确定是否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异;(2)(i) 根据定义结合条件概率公式即可完成证明;(ii)根据(i)结合已知数据求.
【详解】(1)由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
2.(2022新高考Ⅱ卷·19)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
【答案】(1)岁;
【分析】(1)根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出;
【详解】(1)平均年龄
(岁).
3.(2023新高考Ⅱ卷·19)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
【答案】(1),;
【分析】(1)根据题意由第一个图可先求出,再根据第二个图求出的矩形面积即可解出;
【详解】(1)依题可知,左边图形第一个小矩形的面积为,所以,
所以,解得:,
.
知识点总结
一、分层随机抽样
1、分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
2、分层随机抽样的平均数计算
在分层随机抽样中,以层数是2为例,如果第1层和第2层包含的个体数分别为和,抽取的样本量分别为和,第1层和第2层的样本平均数分别为,,样本平均数位,则.我们可以采用样本平均数估计总体平均数
二、样本的数字特征
1、众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
2、标准差和方差
(1)标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
(2)方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
(3)数据特征
标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
三、频率分布直方图
1、频率、频数、样本容量的计算方法
①×组距=频率.
②=频率,=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于 .
2、频率分布直方图中数字特征的计算
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
四、百分位数
1、定义
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
2、计算一组个数据的的第百分位数的步骤
(1)按从小到大排列原始数据.
(2)计算.
(3)若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
3、四分位数
我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
五、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
六、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
七、非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
1、建立非线性回归模型的基本步骤:
(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;
(6)消去新元,得到非线性回归方程;
(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.
八、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【统计常用结论】
均数、方差的性质:如果数据的平均数为,方差为,那么
①一组新数据的平均数为,方差是.
②一组新数据的平均数为,方差是.
③一组新数据的平均数为,方差是.
常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
名校模拟练
一、单选题
1.(2024·河南·三模)已知某学校高三年级甲、乙、丙三个班级人数分别为40,30,50,学校计划采用按比例分配的分层随机抽样的方法在三个班级中评选优秀学生,已知乙班分配到的优秀学生名单为6人,则高三年级三个班优秀学生总人数为( )
A.16 B.30 C.24 D.18
【答案】C
【分析】利用分层随机抽样及已知,求出三个班级分配到的优秀学生人数即得.
【详解】甲、乙、丙三个班级人数比为,由分层随机抽样知,三个班级优秀学生名额分别为8,6,10,
所以高三年级三个班优秀学生总人数为人.
故选:C
2.(2024·山东·二模)某校高三共有200人参加体育测试,根据规则,82分以上的考生成绩等级为,则估计获得的考生人数约为( )
A.100 B.75 C.50 D.25
【答案】C
【分析】首先计算出82分以上的考生的频率,即可得获得的考生人数.
【详解】由频率分布直方图可得82分以上的考生的频率约为,
所以获得的考生人数约为人,
故选:C.
3.(2024·浙江绍兴·三模)有一组样本数据:2,3,3,3,4,4,5,5,6,6.则关于该组数据的下列数字特征中,数值最大的为( )
A.第75百分位数 B.平均数 C.极差 D.众数
【答案】A
【分析】分别求出该组数据的第75百分位数、平均数、极差、众数,比较大小,即可得到答案.
【详解】计算第75百分位数:,则取第8位数据,
即该组数据的第75百分位数为5;
平均数为;
极差为;
众数为3.
综上,第75百分位数最大.
故选:A.
4.(2024·山西·三模)某次趣味运动会,设置了教师足球射门比赛:教师射门,学生守门.已知参与射门比赛的教师有60名,进球数的平均值和方差分别是3和13,其中男教师进球数的平均值和方差分别是4和8,女教师进球数的平均值为2,则女教师进球数的方差为( )
A.15 B.16 C.17 D.18
【答案】B
【分析】设参加射门比赛的男教师人数为,根据总体的平均数求出,设女教师进球数的方差为,根据方差公式计算可得.
【详解】设参加射门比赛的男教师人数为,则全部参赛教师进球数的平均数,
解得,即参赛的男女教师各有人,
设女教师进球数的方差为,
依题意可得,解得.
故选:B
5.(2024·四川凉山·三模)样本数据的平均数,方差,则样本数据,,,的平均数,方差分别为( )
A.9,4 B.9,2 C.4,1 D.2,1
【答案】A
【分析】由平均值、方差的性质求新数据的平均数和方差.
【详解】由,得样本数据,,,的平均数为,
由,得样本数据,,,的方差为.
故选:A
6.(2024·四川成都·三模)“数九”从每年“冬至”当天开始计算, 每九天为一个单位,冬至后的第 81 天, “数九”结束, 天气就变得温暖起来. 如图, 以温江国家基准气候站为代表记录了 2023 一 2024 年从“一九”到“九九”成都市的“平均气温”和“多年平均气温” (单位: ),下列说法正确的是( )
A.“四九”以后成都市“平均气温”一直上升
B.“四九” 成都市“平均气温” 较“多年平均气温” 低 0.1 ”
C.“一九”到“五九”成都市“平均气温”的方差小于“多年平均气温”的方差
D.“一九”到“九九”成都市“平均气温”的极差小于“多年平均气温”的极差
【答案】D
【分析】由图表数据分析可判断A,B;由方差的意义可判断C;由极差的计算公式分析D.
【详解】对于A,“八九”、“九九”的平均气温比“七九”的“平均气温”低,故A错误;
对于B,“四九” 成都市“平均气温” 较“多年平均气温” 高”,故B错误;
对于C,由图表,“平均气温”的波动比“多年平均气温” 的波动大,
则“一九”到“五九”成都市“平均气温”的方差大于“多年平均气温”的方差,故C错误;
对于D,“一九”到“九九”成都市“平均气温”的极差为:,
“多年平均气温”的极差为,
则“一九”到“九九”成都市“平均气温”的极差小于“多年平均气温”的极差,故D正确.
故选:D.
7.(2024·陕西·三模)2024年1月九省联考的数学试卷出现新结构,其中多选题计分标准如下:①本题共3小题,每小题6分,满分18分;②每道小题的四个选项中有两个或三个正确选项,全部选对得6分,有选错的得0分;③部分选对得部分分(若某小题正确选项为两个,漏选一个正确选项得3分;若某小题正确选项为三个,漏选一个正确选项得4分,漏选两个正确选项得2分).已知在某次新结构数学试题的考试中,小明同学三个多选题中第一小题确定得满分,第二小题随机地选了两个选项,第三小题随机地选了一个选项,则小明同学多选题所有可能总得分(相同总分只记录一次)的中位数为( )
A.9 B.10 C.11 D.12
【答案】C
【分析】先对各题得分情况分别进行统计,再对总得分情况分析排序,根据中位数规定即可求得.
【详解】由题意得小明同学第一题得6分:
第二题选了2个选项,可能得分情况有3种,分别是得0分、4分和6分;
第三题选了1个选项,可能得分情况有3种,分别是得0分、2分和3分;
由于相同总分只记录一次,因此小明的总得分情况有:
6分、8分、9分、10分、12分、13分、14分、15分共8种情况,所以中位数为.
故选:C.
8.(2024·浙江·三模)在对某校高三学生体质健康状况某个项目的调查中,采用样本量比例分配的分层随机抽样,如果不知道样本数据,只知道抽取了男生80人,女生120人,其方差分别为15,10,由此估计样本的方差不可能为( )
A.11 B.13 C.15 D.17
【答案】A
【分析】根据题意,设男生体质健康状况的平均数为,女生的平均数为,总体的平均数为,方差为,结合方差的公式,分析选项,即可求解.
【详解】设男生体质健康状况的平均数为,女生的平均数为,总体的平均数为,方差为,
则,
,
结合选项,可得A项不符合.
故选:A.
9.(2024·安徽安庆·三模)已知一组数据的平均数为,另一组数据的平均数为.若数据,的平均数为,其中,则的大小关系为( )
A. B. C. D.的大小关系不确定
【答案】B
【分析】根据平均数的定义表示,结合已知列等式,作差比较即可.
【详解】由题意可知,,
,于是,
又,所以,
所以,两式相减得,
所以.
故选:B
10.(2024·陕西榆林·三模)在一次数学模考中,从甲 乙两个班各自抽出10个人的成绩,甲班的十个人成绩分别为,乙班的十个人成绩分别为.假设这两组数据中位数相同 方差也相同,则把这20个数据合并后( )
A.中位数一定不变,方差可能变大
B.中位数可能改变,方差可能变大
C.中位数一定不变,方差可能变小
D.中位数可能改变,方差可能变小
【答案】A
【分析】不妨设,表达出两组数据的中位数,根据中位数相同得到或,则合并后的数据中位数是或者,中位数不变,再设第一组数据的方差为,平均数为,第二组数据的方差为,平均数为,根据公式得到合并后平均数为,方差为,,得到结论.
【详解】不妨设,
则的中位数为,的中位数为,
因为,所以或,
则合并后的数据中位数是或者,所以中位数不变.
设第一组数据的方差为,平均数为,第二组数据的方差为,平均数为,
合并后总数为20,平均数为,方差为,
如果均值相同则方差不变,如果均值不同则方差变大.
故选:A.
二、多选题
11.(2024·全国·三模)在某次数学测试中,甲、乙两个班的成绩情况如下表:
班级 人数 平均分 方差
甲 45 88 1
乙 45 90 2
记这两个班的数学成绩的总平均分为,总方差为,则( )
A. B. C. D.
【答案】BD
【分析】代入公式计算即可.
【详解】依题意得,.
故选:BD.
12.(2024·广东广州·三模)在某次学科期末检测后,从全部考生中选取100名考生的成绩(百分制,均为整数)分成,,,,五组后,得到如下图的频率分布直方图,则( )
A.图中a的值为0.005 B.低于70分的考生人数约为40人
C.考生成绩的平均分约为73分 D.估计考生成绩第80百分位数为83分
【答案】AC
【分析】利用频率分布直方图逐项求解
【详解】对于A,由,解得,故A对;
对于B,低于70分的考生人数约为,故B错;
对于C,考生成绩的平均分约为
,故C对;
对于D,成绩落在内频率为,
落在内频率为,
故考生成绩第80百分位数落在,设为m,
由,解得,
故考生成绩第80百分位数为82.5分,故D错误;
故选:AC
13.(2024·河北·三模)根据中国报告大厅对2023年3月~10月全国太阳能发电量进行监测统计,太阳能发电量(单位:亿千瓦时)月度数据统计如下表:
月份 3 4 5 6
发电量/亿千瓦时 242.94 230.87 240.59 259.33
月份 7 8 9 10
发电量/亿千瓦时 258.9 269.19 246.06 244.31
关于2023年3月~10月全国太阳能发电量,下列四种说法正确的是( )
A.中位数是259.115 B.极差是38.32
C.第85百分位数是259.33 D.第25百分位数是240.59
【答案】BC
【分析】根据题意,由中位数,极差,百分位数的定义,代入计算,逐一判断,即可得到结果.
【详解】将数据从小到大排序可得,共8个数据,
所以中位数是,故A错误;
极差是,故B正确;
因为,所以第85百分位数是第7个数,即,故C正确;
因为,所以第25百分位数是,故D错误;
故选:BC
14.(2024·广东汕头·三模)下图是样本甲与样本乙的频率分布直方图,下列说法判断正确的是( )
A.样本乙的极差一定大于样本甲的极差
B.样本乙的众数一定大于样本甲的众数
C.样本乙的方差一定小于样本甲的方差
D.样本甲的中位数一定小于样本乙的中位数
【答案】BCD
【分析】根据数据分布的最小值和最大值判断A;根据众数、方差、中位数的概念,并结合图象判断BCD.
【详解】对于A,甲的数据介于[1.5,7.5]之间,极差小于或等于6;乙的数据分布于[2.5,8.5],极差小于或等于6;从而甲和乙的极差可能相等,A错误;
对于B,根据频率分布直方图可知,甲的众数介于[2.5,5.5)之间,乙的众数介于(5.5,6.5],乙的众数大于甲的众数,B正确;
对于C,甲的数据比较分散,乙的数据比较集中,因此乙的方差小于甲的方差,C正确;
对于D,甲的各组频率依次为:,其中位数位于[3.5,4.5)之间,
乙的各组频率依次为:,其中位数位于[5.5,6.5)之间,
所以甲的中位数小于乙的中位数,D正确.
故选:BCD
15.(2024·黑龙江·三模)在某市初三年级举行的一次体育考试中(满分100分),所有考生成绩均在[50,100]内,按照[50,60),[60,70),[70,80),[80,90),[90,100]分成五组,甲、乙两班考生的成绩占比如图所示,则下列说法错误的是( )
A.成绩在[70,80)的考生中,甲班人数多于乙班人数
B.甲班成绩在[80,90)内人数最多
C.乙班成绩在[70,80)内人数最多
D.甲班成绩的极差比乙班成绩的极差小
【答案】ACD
【分析】根据折线统计图逐个分析判断即可.
【详解】对于A,由图知,每一组中的成绩占比都是以各自班级的总人数为基数的,
所以每一组中的甲班、乙班人数不能从所占的百分比来判断,故A错误;
对于BC,由图可知甲班成绩主要集中在[80,90),乙班成绩主要集中在[60,70),B正确,C错误;
对于D,由图可知甲班成绩的极差和乙班成绩的极差的大小无法确定,故D错误.
故选:ACD
三、解答题
16.(2024·青海海南·二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据表中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表).
(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
优秀人数 非优秀人数 合计
强化训练前
强化训练后
合计
将上面的表格补充完整,并回答能否有的把握认为跳水运动员是否优秀与强化训练有关.
附:.
0.05 0.010 0.005 0.001
3.841 6.635 7.879 10.828
【答案】(1)
(2)表格见解析,有.
【分析】(1)根据频率分布直方图的数据,结合平均数公式,即可求解;
(2)根据题中数据完善列联表,计算卡方,并与临界值对比分析即可求解.
【详解】(1)强化训练后的平均成绩约为
(2)根据图1可知,强化训练前的优秀人数为,
此时非优秀人数为,
根据图2可知,强化训练后的优秀人数为,
此时非优秀人数为,补充完整的表格为
优秀人数 非优秀人数 合计
强化训练前 40 60 100
强化训练后 60 40 100
合计 100 100 200
则,
所以有的把握认为跳水运动员是否优秀与强化训练有关.
17.(2024·陕西·模拟预测)某公司新研发了一款智能灯,此灯有拍照搜题功能,学生遇到疑难问题,通过拍照搜题后,会在显示屏上显示该题的解答过程以及该题考查的知识点与相应的解题方法该产品投入市场三个月后,公司对部分用户做了调研:抽取了200位使用者,每人填写一份评分表(满分为100分),现从200份评分表中,随机抽取40份(其中男 女使用者的评分表各20份)
作为样本,经统计得到如下的数据:
女生使用者评分:67,71,72,75,80,83,83,83,84,84,85,86,88,90,90,91,92,92,92,92
男生使用者评分:67,68,69,69,70,72,72,73,74,75,76,76,77,78,79,82,84,84,89,92
记该样本的中位数为,按评分情况将使用.都对该智能灯的态度分为两种类型:评分不小于的称为“满意型”,其余的都称为“不满意型”.
(1)求的值,填写如下列联表
女生评分 男生评分 合计
“满意型”人数
“不满意型”人数
合计
(2)能否有的把握认为满意与性别有关?
参考公式与数据:
0.1 0.05 0.025 0.01
2.706 3.841 5.024 6.635
【答案】(1),表格见解析
(2)有的把握认为满意与性别有关
【分析】(1)根据题意求中位数,结合题意完善列联表;
(2)根据(1)中数据求,并与临界值对比分析.
【详解】(1)将40份评分按从小到大的顺序排列,,,
中位数是第20个数80与第21个数82的平均值,
即中位数等于,所以,
女生 男生 合计
“满意型”人数 15 5 20
“不满意型”人数 5 15 20
合计 20 20 40
(2)由(1)可得
所以有的把握认为满意与性别有关.
18.(2024·河南郑州·三模)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2017-2021年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比:
年份 2017年 2018年 2019年 2020年 2021年
年份代码 1 2 3 4 5
6.4 5.5 5.0 4.8 3.8
(1)求2017—2021年年份代码与的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中与之间的关系可用一元线性回归模型进行描述,并求出关于的经验回归方程;
(3)预测2024年的酸雨区面积占国土面积的百分比.
(回归直线的斜率和截距的最小二乘法估计公式分别为:
附:样本相关系数,.
【答案】(1)
(2)
(3)预测2024年的酸雨区面积占国土面积的百分比为2.15%
【分析】(1)由表中数据结合题中数据,求出相关数值,代入相关系数
,即可得出答案;
(2)由(1)知,接近1,即可说明线性相关关系极强;根据(1)中求出的数据,即可求出,,进而得到回归直线方程;
(3)将代入回归直线方程,即可预测2024年的酸雨区面积占国土面积的百分比.
【详解】(1)由己知可得,,
,
由题可列下表:
0 1 2
1.3 0.4
,
.
(2)由小问1知,与的相关系数接近1,所以与之间具有极强的线性相关关系,可用线性回归模型进行描述.
由小问1知,,
,
所求经验回归方程为.
(3)令,则,预测2024年的酸雨区面积占国土面积的百分比为2.15%.
19.(2024·陕西渭南·三模)某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将100个样本数据按,,,,,分成6组,并整理得到如下频率分布直方图.
(1)请通过频率分布直方图估计这100份样本数据的平均值(同一组中的数据用该组区间的中点值作代表)和中位数;
(2)该市决定表彰知识竞赛成绩排名前30%的市民,某市民知识竞赛的成绩是78,请估计该市民能否得到表彰.
【答案】(1)平均值68.3,中位数71.5625;
(2)该市民能得到表彰.
【分析】(1)根据平均数以及中位数的计算公式,即可求得答案;
(2)根据频率分布直方图计算样本的第70 百分位数,与78比较,即可得结论.
【详解】(1)100份样本数据的平均值为.
根据图象可得,对应的频率为0.05,对应的频率为0.10,对应的频率为0.10,对应的频率为0.20,对应的频率为0.32,对应的频率0.23.
设中位数为t,则t在中.
,
解得.
(2)成绩低于70分的频率为0.45,成绩低于80分的频率为0.77,
则被表彰的最低成绩为第70%分位数:,
所以估计该市民能得到表彰.
20.(2024·江西九江·三模)车胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎胎面磨损.某实验室通过实验测得轿车行驶里程与某品牌轮胎凹槽深度的数据,如下表所示:
行驶里程万 0.0 0.4 1.0 1.6 2.4 2.8 3.4 4.4
轮胎凹槽深度 8.0 7.8 7.2 6.2 5.6 4.8 4.4 4.0
(1)求该品牌轮胎凹槽深度与行驶里程的相关系数,并判断二者之间是否具有很强的线性相关性;(结果保留两位有效数字)
(2)根据我国国家标准规定:轿车轮胎凹槽安全深度为(当凹槽深度低于时刹车距离增大,驾驶风险增加,必须更换新轮胎).某人在保养汽车时将小轿车的轮胎全部更换成了该品牌的新轮胎,请问在正常行驶情况下,更换新轮胎后继续行驶约多少公里需对轮胎再次更换?
附:变量与的样本相关系数;对于一组数据,,其线性回归方程的斜率和截距的最小二乘估计分别为:.
【答案】(1),具有很强的线性关系
(2)6.4万公里
【分析】(1)根据题意,由相关系数的公式代入计算,即可判断;
(2)根据题意,由最小二乘法公式代入计算,分别求得,即可得到线性回归方程,即可得到结果.
【详解】(1)计算得,
,
由公式知,二者之间具有很强的线性关系.
(2)设轮胎凹槽深度与行驶里程的线性回归方程为,
则==
线性回归方程为
令,得
即更换新轮胎后继续行驶约6.4万公里需要对轮胎再次更换.
21.(2024·内蒙古·三模)现统计了甲12次投篮训练的投篮次数和乙8次投篮训练的投篮次数,得到如下数据:
甲 77 73 77 81 85 81 77 85 93 73 77 81
乙 71 81 73 73 71 73 85 73
已知甲12次投篮次数的平均数,乙8次投篮次数的平均数.
(1)求这20次投篮次数的中位数,估计甲每次训练投篮次数超过的概率;
(2)求这20次投篮次数的平均数与方差.
【答案】(1)
(2)平均数为78,方差为33
【分析】利用中位数、平均数和方差的公式直接计算即可.
【详解】(1)将这20个数据从小到大排列,第10个数和第11个数都是77,所以,
因为甲的12次投篮训练中,投篮次数超过77次的有6次,
估计甲每次训练投篮次数超过的概率为.
(2)这20次投篮次数的平均数,
方差
22.(2024·甘肃张掖·模拟预测)近年来,马拉松比赛受到广大体育爱好者的喜爱.某地体育局在五一长假期间举办比赛,志愿者的服务工作是成功举办的重要保障.现抽取了200名候选者的面试成绩,并分成六组:第一组,第二组,第三组,第四组,第五组,第六组,绘制成如图所示的频率分布直方图.
男生 女生 合计
被录取 20
未被录取
合计
(1)求;
(2)估计候选者面试成绩的平均数(同一组中的数据用该组区间的中点值为代表);
(3)在抽出的200名候选者的面试成绩中,若规定分数不低于80分的候选者为被录取的志愿者,已知这200名候选者中男生与女生人数相同,男生中有20人被录取,请补充列联表,并判断是否有的把握认为“候选者是否被录取与性别有关”.
附:,其中.
0.05 0.010 0.005 0.001
3.841 6.635 7.879 10.828
【答案】(1)
(2)68.5
(3)没有的把握认为“候选者是否被录取与性别有关
【分析】(1)由频率分布直方图概率之和为1,求解即可;
(2)由频率分布直方图平均数的计算公式求解即可;
(3)先完善列联表,然后利用独立性检验公式求解即可.
【详解】(1)由概率和为1得:,解得;
(2)由题意知,候选者面试成绩的平均数,
所以候选者面试成绩的平均数约为68.5.
(3)由频率分布直方图知不低于80分的人数为,即被录取的共有30人,
所以被录取的女生为,又男生与女生各100人,完善列联表如下:
男生 女生 合计
被录取 20 10 30
未被录取 80 90 170
合计 100 100 200
,
所以没有的把握认为“候选者是否被录取与性别有关”.
23.(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
5.5 8.7 1.9 301 385 79.75
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出关于的回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
性别 佩戴头盔 合计
不佩戴 佩戴
女性 8 12 20
男性 14 6 20
合计 22 18 40
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)更适合
(2)
(3)能
【分析】(1)根据散点图的形状,可判断更适宜作为未佩戴头盔人数与天数的回归方程类型.
(2)将两边取对数,转化为线性回归方程,利用表中的数据和线性回归方程公式求解即可.
(3)应用卡方公式求卡方值,由独立性检验的基本思想下结论即可.
【详解】(1)依据散点图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型.
(2)由,得,
依题意得,
,
所以,即.
(3)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
,
根据小概率值的独立性检验,我们推断不成立,即认为市民佩戴头盔与性别有关联,
此推断犯错误的概率不超过0.