/ 让教学更有效 精品试卷 |数学
第02讲 成对数据的统计分析
(
考纲导向
小
)
考点要求 考题统计 考情分析
(1) 相关系数的统计含义 (2) 最小二乘估计方法与一元线性回归模型 (3) 列联表与独立性检验 2024年天津卷5分2024年甲卷15分2023年天津卷5分2023年甲卷12分2022年甲卷12分2022年I卷12分2022年乙卷12分2021年甲卷12分
(1)本讲为高考命题热点,题型以选择题和解答题为主; (2)重点是样本相关系数的统计含义、最小二乘法原理、一元线性回归模型、列联表和独立性检验,主要考查相关系数的理解,一元线性回归模型参数的最小二乘估计方法,用一元线性回归模型进行预测实际问题,列联表的统计意义和独立性检验的应用.
(
考试要求
小
)
1、了解样本相关系数的统计含义;
2、了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法;
3、针对实际问题,会用一元线性回归模型进行预测;
4、通过实例,理解列联表的统计意义;
5、通过实例,了解独立性检验及其应用.
(
考点突破考纲解读
)
(
考点梳理
小
)
知识点1: 成对数据的相关性
1、变量的相关关系
(1)相关关系:两个变量有关系,但是没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系;
(2)分类:正相关和负相关;
(3)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这个两个变量线性相关;
2、样本相关系数
(1);
(2)当时,称成对样本数据正相关;当时,称成对样本数据负相关;
(3);
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱;
知识点2: 一元线性回归模型
1、一元线性回归模型
(1)将称为关于的经验回归方程,其中
(2)残差:观测值减去预测值称为残差;
知识点3: 列联表与独立性检验
1、分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量;
分类变量的取值可以用实数表示;
2、列联表和独立性检验
(1)关于分类变量和的抽样数据的列联表:
合计
合计
(2)独立性检验
计算随机变量,利用的取值推断分类变量和是否独立的方法称为独立性检验;
(
题型展示
小
)
题型一: 成对数据的相关关系
【例1】(2024·天津)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【答案】A
【解析】
观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,
线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1;答案为A.
【变式1】(2023·天津)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【解析】
对A,根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A错;
对B,散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B错;
对C,把代入可得,C正确;
对D,由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,
即取出的数据的相关系数不一定是,D错;答案为C.
题型二: 线性回归模型
【例2】下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【答案】(1)模型①预测值为226.1,模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.
【解析】
(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 =–30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
【变式2】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份 2020 2021 2022 2023 2024
时间代号 1 2 3 4 5
储蓄存款(千亿元) 5 6 7 8 10
(Ⅰ)求y关于t的回归方程
(Ⅱ)用所求回归方程预测该地区2015年()的人民币储蓄存款.
附:回归方程中;
【答案】(Ⅰ),(Ⅱ)千亿元.
【解析】
(1)列表计算如下
i
1 1 5 1 5
2 2 6 4 12
3 3 7 9 21
4 4 8 16 32
5 5 10 25 50
15 36 55 120
又
;所求回归方程为.
(2)将代入回归方程可预测该地区2015年的人民币储蓄存款为
题型三: 列联表和独立性检验
【例3】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
【答案】(1);(2)答案见解析;(3)有.
【解析】
(1)由表格可知,该市100天中,空气中的浓度不超过75,
且浓度不超过150的天数有天,
该市一天中,空气中的浓度不超过75,且浓度不超过150的概率为;
(2)由所给数据,可得列联表为:
合计
64 16 80
10 10 20
合计 74 26 100
(3)根据列联表中的数据可得
,
根据临界值表可知,有的把握认为该市一天空气中浓度与浓度有关.
【变式3】某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)该市一天的空气质量等级分别为、、、的概率分别为、、、;(2);(3)有,理由见解析.
【解析】
(1)由频数分布表可知,该市一天的空气质量等级为的概率为,
等级为的概率为,等级为的概率为,
等级为的概率为;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为;
(3)列联表如下:
人次 人次
空气质量好
空气质量不好
,
有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
(
考场演练
)
【真题1】(2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】
(1)根据题意可得列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
可得,,
有的把握认为甲、乙两车间产品的优级品率存在差异,
没有的把握认为甲,乙两车间产品的优级品率存在差异.
(2)生产线智能化升级改造后,该工厂产品的优级品的频率为,
用频率估计概率可得,升级改造前该工厂产品的优级品率,
则,
可知,可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
【真题2】(2024·天津)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【答案】A
【解析】
观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,
线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1;答案为A.
【真题3】(2023·全国甲卷)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
【答案】(1)见解析,;(2)(i);见解析,(ii)能
【解析】
(1)依题意,的可能取值为,
则,,,
所以的分布列为:
故.
(2)(i)依题意,可知这40只小白鼠体重增量的中位数是将两组数据合在一起,
从小到大排后第20位与第21位数据的平均数,
观察数据可得第20位为,第21位数据为,,
故列联表为:
合计
对照组 6 14 20
实验组 14 6 20
合计 20 20 40
(ii)由(i)可得,,
能有的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
【真题4】(2023·天津)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】C
【解析】
对A,根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A错;
对B,散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B错;
对C,把代入可得,C正确;
对D,由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,
即取出的数据的相关系数不一定是,D错;答案为C.
【真题5】(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);;(2);(3)
【解析】
(1)样本中10棵这种树木的根部横截面积的平均值;
样本中10棵这种树木的材积量的平均值;
据此可估计该林区这种树木平均一棵的根部横截面积为,平均一棵的材积量为;
(2)
,则
(3)设该林区这种树木的总材积量的估计值为,树木的材积量与其根部横截面积近似成正比,
可得,解之得;则该林区这种树木的总材积量估计为.
【真题6】(2022·全国新Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)见解析(2)(i)见解析;(ii);
【解析】
(1)由已知,
又,,
有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i) ,
,;
(ii) 由已知,,又,,
;
【真题7】(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为,;(2)有
【解析】
(1)根据表中数据,A共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,则;B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,则;A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
准点班次数 未准点班次数 合计
A 240 20 260
B 210 30 240
合计 450 50 500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
【真题8】(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【答案】(1)75%;60%;(2)能.
【解析】
(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为;
(2),
能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
【真题9】(2020·全国)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【答案】D
【解析】
由散点图分布可知,散点图分布在一个对数函数的图象附近,
最适合作为发芽率和温度的回归方程类型的是;答案为D.
【真题10】(2020·全国)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,
【答案】(1);(2);(3)详见解析
【解析】
(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为;
(2)样本(i=1,2,…,20)的相关系数为;
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)/ 让教学更有效 精品试卷 |数学
第02讲 成对数据的统计分析
(
考纲导向
小
)
考点要求 考题统计 考情分析
(1) 相关系数的统计含义 (2) 最小二乘估计方法与一元线性回归模型 (3) 列联表与独立性检验 2024年天津卷5分2024年甲卷15分2023年天津卷5分2023年甲卷12分2022年甲卷12分2022年I卷12分2022年乙卷12分2021年甲卷12分
(1)本讲为高考命题热点,题型以选择题和解答题为主; (2)重点是样本相关系数的统计含义、最小二乘法原理、一元线性回归模型、列联表和独立性检验,主要考查相关系数的理解,一元线性回归模型参数的最小二乘估计方法,用一元线性回归模型进行预测实际问题,列联表的统计意义和独立性检验的应用.
(
考试要求
小
)
1、了解样本相关系数的统计含义;
2、了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法;
3、针对实际问题,会用一元线性回归模型进行预测;
4、通过实例,理解列联表的统计意义;
5、通过实例,了解独立性检验及其应用.
(
考点突破考纲解读
)
(
考点梳理
小
)
知识点1: 成对数据的相关性
1、变量的相关关系
(1)相关关系:两个变量有关系,但是没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 ;
(2)分类: 和 ;
(3)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这个两个变量 ;
2、样本相关系数
(1);
(2)当时,称成对样本数据正相关;当时,称成对样本数据负相关;
(3);
当越接近1时,成对样本数据的线性相关程度越 ;
当越接近0时,成对样本数据的线性相关程度越 ;
知识点2: 一元线性回归模型
1、一元线性回归模型
(1)将称为关于的经验回归方程,其中
(2)残差:观测值减去预测值称为残差;
知识点3: 列联表与独立性检验
1、分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量;
分类变量的取值可以用实数表示;
2、列联表和独立性检验
(1)关于分类变量和的抽样数据的列联表:
合计
合计
(2)独立性检验
计算随机变量,利用的取值推断分类变量和是否独立的方法称为 ;
(
题型展示
小
)
题型一: 成对数据的相关关系
【例1】(2024·天津)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【变式1】(2023·天津)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
题型二: 线性回归模型
【例2】下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【变式2】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份 2020 2021 2022 2023 2024
时间代号 1 2 3 4 5
储蓄存款(千亿元) 5 6 7 8 10
(Ⅰ)求y关于t的回归方程
(Ⅱ)用所求回归方程预测该地区2015年()的人民币储蓄存款.
附:回归方程中;
题型三: 列联表和独立性检验
【例3】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
【变式3】某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级 [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
(
考场演练
)
【真题1】(2024·全国甲卷)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【真题2】(2024·天津)下列图中,线性相关性系数最大的是( )
A. B.
C. D.
【真题3】(2023·全国甲卷)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
【真题4】(2023·天津)鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
【真题5】(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【真题6】(2022·全国新Ⅰ卷)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好 良好
病例组 40 60
对照组 10 90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050 0.010 0.001
k 3.841 6.635 10.828
【真题7】(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
【真题8】(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【真题9】(2020·全国)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【真题10】(2020·全国)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)