2025年高考数学一轮复习讲义专题57成对数据的统计分析(原卷版+解析)

文档属性

名称 2025年高考数学一轮复习讲义专题57成对数据的统计分析(原卷版+解析)
格式 zip
文件大小 2.3MB
资源类型 试卷
版本资源 通用版
科目 数学
更新时间 2025-02-19 17:17:59

文档简介

专题57 成对数据的统计分析(新高考专用)
【知识梳理】 2
【真题自测】 4
【考点突破】 9
【考点1】成对数据的相关性 9
【考点2】回归分析 11
【考点3】独立性检验 14
【分层检测】 18
【基础篇】 18
【能力篇】 22
考试要求:
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计软件进行数据分析.
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
(2)利用决定系数R2刻画回归效果
,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
x y 合计
y=y1 y=y2
x=x1 a b a+b
x=x2 c d c+d
合计 a+c b+d n=a+b+c+d
(2)临界值
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1.求解经验回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).
2.根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
一、单选题
1.(2024·全国·高考真题)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表
亩产量 [900,950) [950,1000) [1000,1050) [1050,1100) [1100,1150) [1150,1200)
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
2.(2023·全国·高考真题)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,则不同的抽样结果共有( ).
A.种 B.种
C.种 D.种
二、多选题
3.(2023·全国·高考真题)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
三、解答题
4.(2024·全国·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
5.(2023·全国·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表
对照组
试验组
(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
6.(2023·全国·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
7.(2023·全国·高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为,.试验结果如下:
试验序号 1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记,记的样本平均数为,样本方差为.
(1)求,;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高)
8.(2023·全国·高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:

利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
(2)设函数,当时,求的解析式,并求在区间的最小值.
【考点1】成对数据的相关性
一、单选题
1.(2024·四川成都·二模)对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
2.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
二、多选题
3.(22-23高三上·江苏无锡·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,得到新的经验回归方程为.在余下的8个样本数据和新的经验回归方程中( ).
A.相关变量x,y具有正相关关系
B.新的经验回归方程为
C.随着自变量x值增加,因变量y值增加速度变小
D.样本的残差为
4.(2024·湖南衡阳·模拟预测)为了研发某种流感疫苗,某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:mg),体内抗体数量为y(单位:AU/mL).根据散点图,可以得到回归直线方程为:.下列说法正确的是( )
A.回归直线方程表示体内抗体数量与抗体药物摄入量之间的线性相关关系
B.回归直线方程表示体内抗体数量与抗体药物摄入量之间的函数关系
C.回归直线方程可以精确反映体内抗体数量与抗体药物摄入量的变化趋势
D.回归直线方程可以用来预测摄入抗体药物后体内抗体数量的变化
三、填空题
5.(23-24高三上·浙江·开学考试)已知成对样本数据中互不相等,且所有样本点都在直线上,则这组成对样本数据的样本相关系数 .
反思提升:
判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)决定系数法:利用决定系数判定,R2越趋近1,拟合效果越好,相关性越强.
【考点2】回归分析
一、单选题
1.(2024·四川绵阳·二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,
x 2 4 6 8
y 5 8.2 13 m
则下列说法正确的是( )
A.
B.变量y与x是负相关关系
C.该回归直线必过点
D.x增加1个单位,y一定增加2个单位
2.(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
二、多选题
3.(23-24高三上·广东揭阳·期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第天的数据如表所示.
x 1 2 3 4 5
y 21 10a 15a 90 109
根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为,则( )
A.样本相关系数在内 B.当时,残差为-2
C.点一定在经验回归直线上 D.第6天到该医院就诊人数的预测值为130
4.(2024·全国·模拟预测)为了预测某地的经济增长情况,某经济学专家根据该地2023年1~6月的GDP的数据y(单位:百亿元)建立了线性回归模型,得到的经验回归方程为,其中自变量x指的是1~6月的编号,其中部分数据如表所示:
时间 2023年1月 2023年2月 2023年3月 2023年4月 2023年5月 2023年6月
编号x 1 2 3 4 5 6
y/百亿元 11.107
参考数据:.
则下列说法正确的是( )
A.经验回归直线经过点
B.
C.根据该模型,该地2023年12月的GDP的预测值为14.57百亿元
D.相应于点的残差为0.103
三、填空题
5.(2024·江苏·一模)已知变量的统计数据如下表,对表中数据作分析,发现与之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为,据此模型预测当时的值为 .
5 6 7 8 9
3.5 4 5 6 6.5
6.(2024·陕西渭南·一模)已知一组数据点,用最小二乘法得到其线性回归方程为,若,则 .
四、解答题
7.(2024·山东日照·二模)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.
(1)已知该公司甲部门有3名负责人,乙部门有4名负责人,该公司从甲、乙两部门中随机选取3名负责人做测试分析,记负责人来自甲部门的人数为,求的最有可能的取值:
(2)该公司统计了七个部门测试的平均成绩(满分100分)与绩效等级优秀率,如下表所示:
32 41 54 68 74 80 92
0.28 0.34 0.44 0.58 0.66 0.74 0.94
根据数据绘制散点图,初步判断,选用作为回归方程.令,经计算得,
(ⅰ)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(ⅱ)根据统计分析,大致认为各部门测试平均成绩,其中近似为样本平均数,近似为样本方差.经计算,求某个部门绩效等级优秀率不低于的概率.
参考公式与数据:①.
②线性回归方程中,,.
③若随机变量,则,,.
8.(22-23高三上·山东青岛·期末)由个小正方形构成长方形网格有行和列.每次将一个小球放到一个小正方形内,放满为止,记为一轮.每次放白球的频率为,放红球的概率为q,.
(1)若,,记表示100轮放球试验中“每一列至少一个红球”的轮数,统计数据如表:
n 1 2 3 4 5
y 76 56 42 30 26
求y关于n的回归方程,并预测时,y的值;(精确到1)
(2)若,,,,记在每列都有白球的条件下,含红球的行数为随机变量,求的分布列和数学期望;
(3)求事件“不是每一列都至少一个红球”发生的概率,并证明:.
附:经验回归方程系数:,,,.
反思提升:
(1)求经验回归方程:利用公式=求;利用=-求,写出经验回归方程.
(2)经验回归方程的拟合效果,可以利用相关系数|r|判断,当|r|越趋近于1时,两变量的线性相关性越强.或利用决定系数R2判断,R2越大,拟合效果越好.
(3)非线性经验回归方程转化为线性经验回归方程的方法
①若=+ ,设t=,则=+t;②若满足对数式:=+ln x,设t=ln x,则=+t;③若满足指数式:y=c1ec2x,两边取对数解ln y=ln c1+c2x,设z=ln y,a=ln c1,b=c2,则z=a+bx.
【考点3】独立性检验
一、单选题
1.(2024·黑龙江哈尔滨·二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
2.(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
合计
附:
P(K2≥k0) 0.05 0.025 0.010 0.005
k0 3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
二、多选题
3.(2024·山东临沂·一模)下列结论正确的是( )
A.一组样本数据的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为
B.已知随机变量,若,则
C.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
D.分别抛掷2枚质地均匀的骰子,若事件“第一枚骰子正面向上的点数是奇数”,“2枚骰子正面向上的点数相同”,则互为独立事件
4.(22-23高三下·浙江·开学考试)下列结论中,正确的有( )
A.数据4,1,6,2,9,5,8的第60百分位数为5
B.若随机变量,则
C.已知经验回归方程为,且,则
D.根据分类变量X与Y的成对样本数据,计算得到,依据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不大于0.001
三、填空题
5.(21-22高二下·福建福州·期末)为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
药物 疾病 合计
未患病 患病
服用 a 50
未服用 50
合计 80 20 100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为 .(其中且)(参考数据:,)
附:,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
6.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物 疾病 合计
未患病 患病
服用 50
未服用 50
合计 80 20 100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
四、解答题
7.(2023·广东深圳·二模)飞盘运动是一项入门简单,又具有极强的趣味性和社交性的体育运动,目前已经成为了年轻人运动的新潮流.某俱乐部为了解年轻人爱好飞盘运动是否与性别有关,对该地区的年轻人进行了简单随机抽样,得到如下列联表:
性别 飞盘运动 合计
不爱好 爱好
男 6 16 22
女 4 24 28
合计 10 40 50
(1)在上述爱好飞盘运动的年轻人中按照性别采用分层抽样的方法抽取10人,再从这10人中随机选取3人访谈,记参与访谈的男性人数为X,求X的分布列和数学期望;
(2)依据小概率值的独立性检验,能否认为爱好飞盘运动与性别有关联?如果把上表中所有数据都扩大到原来的10倍,在相同的检验标准下,再用独立性检验推断爱好飞盘运动与性别之间的关联性,结论还一样吗?请解释其中的原因.
附:,其中.
0.1 0.01 0.001
2.706 6.635 10.828
8.(2024·吉林·模拟预测)短视频已成为当下宣传的重要手段,东北某著名景点利用短视频宣传增加旅游热度,为调查某天南北方游客来此景点旅游是否与收看短视频有关,该景点对当天前来旅游的500名游客调查得知,南方游客有300人,因收看短视频而来的280名游客中南方游客有200人.
(1)依据调查数据完成如下列联表,根据小概率值的独立性检验,分析南北方游客来此景点旅游是否与收看短视颍有关联:单位:人
游客 短视频 合计
收看 未看
南方游客
北方游客
合计
(2)为了增加游客的旅游乐趣,该景点设置一款5人传球游戏,每个人得到球后都等可能地传给其余4人之一,现有甲、乙等5人参加此游戏,球首先由甲传出.
(i)求经过次传递后球回到甲的概率;
(ii)记前次传递中球传到乙的次数为,求的数学期望.
参考公式:,其中;
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
反思提升:
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式χ2=
计算χ2;
(3)通过比较χ2与临界值的大小关系来作统计推断.
【基础篇】
一、单选题
1.(2024·浙江宁波·二模)某校数学建模兴趣小组为研究本地区儿子身高与父亲身高之间的关系,抽样调查后得出与线性相关,且经验回归方程为.调查所得的部分样本数据如下:
父亲身高 164 166 170 173 173 174 180
儿子身高 165 168 176 170 172 176 178
则下列说法正确的是( )
A.儿子身高是关于父亲身高的函数
B.当父亲身高增加时,儿子身高增加
C.儿子身高为时,父亲身高一定为
D.父亲身高为时,儿子身高的均值为
2.(2024·天津河西·一模)随着居民家庭收入的不断提高,人们对居住条件的改善的需求也在逐渐升温.某城市统计了最近5个月的房屋交易量,如下表所示:
时间 1 2 3 4 5
交易量(万套) 0.8 1.0 1.2 1.5
若与满足一元线性回归模型,且经验回归方程为,则下列说法错误的是( )
A.根据表中数据可知,变量与正相关
B.经验回归方程中
C.可以预测时房屋交易量约为(万套)
D.时,残差为
3.(2024·天津·一模)下列说法正确的是( )
A.一组数据的第80百分位数为17;
B.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05;
C.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0;
D.若随机变量满足,则.
4.(23-24高三上·天津北辰·期中)下列结论中,错误的是( )
A.数据4,1,6,2,9,5,8的第60百分位数为6
B.若随机变量,则
C.已知经验回归方程为,且,则
D.根据分类变量与成对样本数据,计算得到,依据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.001
二、多选题
5.(2023·湖北·模拟预测)下列命题中正确的是( )
A.若样本数据,,,的样本方差为3,则数据,,,的方差为7
B.经验回归方程为时,变量x和y负相关
C.对于随机事件A与B,,,若,则事件A与B相互独立
D.若,则取最大值时
6.(2024·山东枣庄·模拟预测)已知两个变量y与x对应关系如下表:
x 1 2 3 4 5
y 5 m 8 9 10.5
若y与x满足一元线性回归模型,且经验回归方程为,则( )
A.y与x正相关 B.
C.样本数据y的第60百分位数为8 D.各组数据的残差和为0
7.(2024·湖北武汉·二模)下列结论正确的是( )
A.一组数据7,8,8,9,11,13,15,17,20,22的第80百分位数为17
B.若随机变量,满足,则
C.若随机变量,且,则
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断与有关
三、填空题
8.(23-24高三下·上海嘉定·阶段练习)某产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 a 50 70
已知y关于x的线性回归方程为,则表格中实数a的值为 .
9.(23-24高二下·江西赣州·期中)甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
10.(2024·上海长宁·二模)收集数据,利用列联表,分析学习成绩好与上课注意力集中是否有关时,提出的零假设为:学习成绩好与上课注意力集中 (填:有关或无关)
四、解答题
11.(2024·四川成都·模拟预测)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,某线下家电商场为提升人气和提高营业额也开通了在线直播,下表统计了该商场开通在线直播的第x天的线下顾客人数y(单位:百人)的数据:
x 1 2 3 4 5
y 10 12 15 18 20
(1)根据第1至第5天的数据分析,计算变量y与x的相关系数r,并用r判断两个变量y与x相关关系的强弱(精确到小数点后三位);
(2)根据第1至第5天的数据分析,可用线性回归模型拟合y与x的关系,试求出该线性回归方程并估计该商场开通在线直播的第10天的线下顾客人数.
(参考公式:相关系数,参考数据:
回归方程:,其中,)
12.(2024·四川内江·三模)2024年2月10日至17日(正月初一至初八),“2024 内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号 1 2 3 4 5
观众人数 0.7 0.8 1 1.2 1.3
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将列联表补充完整,并判断能否有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票 购买非A等票 总计
男性观众 50
女性观众 60
总计 100 200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,其中.
0.100 0.050 0.010
2.706 3.841 6.635
【能力篇】
一、单选题
1.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高(单位: 167 173 175 177 178 180 181
体重(单位: 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:

由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
二、多选题
2.(2024·湖南·一模)下列说法中,正确的是( )
A.设有一个经验回归方程为,变量增加1个单位时,平均增加2个单位
B.已知随机变量,若,则
C.两组样本数据和.若已知且,则
D.已知一系列样本点的经验回归方程为,若样本点与的残差相等,则
三、填空题
3.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
四、解答题
4.(22-23高二下·浙江·阶段练习)人工智能正在改变我们的世界,由OpenAI开发的人工智能划时代标志的ChatGPT能更好地理解人类的意图,并且可以更好地回答人类的问题,被人们称为人类的第四次工业革命.它渗透人类社会的方方面面,让人类更高效地生活.现对130人的样本使用ChatGPT对服务业劳动力市场的潜在影响进行调查,其数据的统计结果如下表所示:
ChatGPT应 用的广泛性 服务业就业人数的 合计
减少 增加
广泛应用 60 10 70
没广泛应用 40 20 60
合计 100 30 130
(1)根据小概率值的独立性检验,是否有的把握认为ChatGPT应用的广泛性与服务业就业人数的增减有关?
(2)现从“服务业就业人数会减少”的100人中按分层随机抽样的方法抽取5人,再从这5人中随机抽取3人,记抽取的3人中有人认为人工智能会在服务业中广泛应用,求的分布列和均值.
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
21世纪教育网(www.21cnjy.com)专题57 成对数据的统计分析(新高考专用)
【知识梳理】 2
【真题自测】 4
【考点突破】 14
【考点1】成对数据的相关性 14
【考点2】回归分析 17
【考点3】独立性检验 25
【分层检测】 35
【基础篇】 35
【能力篇】 43
考试要求:
1.了解样本相关系数的统计含义.
2.了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计软件进行数据分析.
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
(2)利用决定系数R2刻画回归效果
,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
x y 合计
y=y1 y=y2
x=x1 a b a+b
x=x2 c d c+d
合计 a+c b+d n=a+b+c+d
(2)临界值
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1.求解经验回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).
2.根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
一、单选题
1.(2024·全国·高考真题)某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)并整理如下表
亩产量 [900,950) [950,1000) [1000,1050) [1050,1100) [1100,1150) [1150,1200)
频数 6 12 18 30 24 10
根据表中数据,下列结论中正确的是( )
A.100块稻田亩产量的中位数小于1050kg
B.100块稻田中亩产量低于1100kg的稻田所占比例超过80%
C.100块稻田亩产量的极差介于200kg至300kg之间
D.100块稻田亩产量的平均值介于900kg至1000kg之间
2.(2023·全国·高考真题)某学校为了解学生参加体育运动的情况,用比例分配的分层随机抽样方法作抽样调查,拟从初中部和高中部两层共抽取60名学生,已知该校初中部和高中部分别有400名和200名学生,则不同的抽样结果共有( ).
A.种 B.种
C.种 D.种
二、多选题
3.(2023·全国·高考真题)有一组样本数据,其中是最小值,是最大值,则( )
A.的平均数等于的平均数
B.的中位数等于的中位数
C.的标准差不小于的标准差
D.的极差不大于的极差
三、解答题
4.(2024·全国·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
5.(2023·全国·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:
对照组的小白鼠体重的增加量从小到大排序为
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
试验组的小白鼠体重的增加量从小到大排序为
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(1)计算试验组的样本平均数;
(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表
对照组
试验组
(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?
附:,
0.100 0.050 0.010
2.706 3.841 6.635
6.(2023·全国·高考真题)一项试验旨在研究臭氧效应.实验方案如下:选40只小白鼠,随机地将其中20只分配到实验组,另外20只分配到对照组,实验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).
(1)设表示指定的两只小白鼠中分配到对照组的只数,求的分布列和数学期望;
(2)实验结果如下:
对照组的小白鼠体重的增加量从小到大排序为:
15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.1
32.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2
实验组的小白鼠体重的增加量从小到大排序为:
7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.2
19.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5
(i)求40只小鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于的数据的个数,完成如下列联表:
对照组
实验组
(ii)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
附:
0.100 0.050 0.010
2.706 3.841 6.635
7.(2023·全国·高考真题)某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为,.试验结果如下:
试验序号 1 2 3 4 5 6 7 8 9 10
伸缩率 545 533 551 522 575 544 541 568 596 548
伸缩率 536 527 543 530 560 533 522 550 576 536
记,记的样本平均数为,样本方差为.
(1)求,;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高)
8.(2023·全国·高考真题)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:

利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为;误诊率是将未患病者判定为阳性的概率,记为.假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率%时,求临界值c和误诊率;
(2)设函数,当时,求的解析式,并求在区间的最小值.
参考答案:
题号 1 2 3
答案 C D BD
1.C
【分析】计算出前三段频数即可判断A;计算出低于1100kg的频数,再计算比例即可判断B;根据极差计算方法即可判断C;根据平均值计算公式即可判断D.
【详解】对于 A, 根据频数分布表可知, ,
所以亩产量的中位数不小于 , 故 A 错误;
对于B,亩产量不低于的频数为,
所以低于的稻田占比为,故B错误;
对于C,稻田亩产量的极差最大为,最小为,故C正确;
对于D,由频数分布表可得,平均值为,故D错误.
故选;C.
2.D
【分析】利用分层抽样的原理和组合公式即可得到答案.
【详解】根据分层抽样的定义知初中部共抽取人,高中部共抽取,
根据组合公式和分步计数原理则不同的抽样结果共有种.
故选:D.
3.BD
【分析】根据题意结合平均数、中位数、标准差以及极差的概念逐项分析判断.
【详解】对于选项A:设的平均数为,的平均数为,
则,
因为没有确定的大小关系,所以无法判断的大小,
例如:,可得;
例如,可得;
例如,可得;故A错误;
对于选项B:不妨设,
可知的中位数等于的中位数均为,故B正确;
对于选项C:因为是最小值,是最大值,
则的波动性不大于的波动性,即的标准差不大于的标准差,
例如:,则平均数,
标准差,
,则平均数,
标准差,
显然,即;故C错误;
对于选项D:不妨设,
则,当且仅当时,等号成立,故D正确;
故选:BD.
4.(1)答案见详解
(2)答案见详解
【分析】(1)根据题中数据完善列联表,计算,并与临界值对比分析;
(2)用频率估计概率可得,根据题意计算,结合题意分析判断.
【详解】(1)根据题意可得列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
可得,
因为,
所以有的把握认为甲、乙两车间产品的优级品率存在差异,没有的把握认为甲,乙两车间产品的优级品率存在差异.
(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为,
用频率估计概率可得,
又因为升级改造前该工厂产品的优级品率,
则,
可知,
所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
5.(1)
(2)(i);列联表见解析,(ii)能
【分析】(1)直接根据均值定义求解;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)试验组样本平均数为:
(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,
由原数据可得第11位数据为,后续依次为,
故第20位为,第21位数据为,
所以,
故列联表为:
合计
对照组 6 14 20
试验组 14 6 20
合计 20 20 40
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.
6.(1)分布列见解析,
(2)(i);列联表见解析,(ii)能
【分析】(1)利用超几何分布的知识即可求得分布列及数学期望;
(2)(i)根据中位数的定义即可求得,从而求得列联表;
(ii)利用独立性检验的卡方计算进行检验,即可得解.
【详解】(1)依题意,的可能取值为,
则,,,
所以的分布列为:
故.
(2)(i)依题意,可知这40只小白鼠体重增量的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,观察数据可得第20位为,第21位数据为,
所以,
故列联表为:
合计
对照组 6 14 20
实验组 14 6 20
合计 20 20 40
(ii)由(i)可得,,
所以能有的把握认为小白鼠在高浓度臭氧环境中与正常环境中体重的增加量有差异.
7.(1),;
(2)认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
【分析】(1)直接利用平均数公式即可计算出,再得到所有的值,最后计算出方差即可;
(2)根据公式计算出的值,和比较大小即可.
【详解】(1),


的值分别为: ,

(2)由(1)知:,,故有,
所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
8.(1),;
(2),最小值为.
【分析】(1)根据题意由第一个图可先求出,再根据第二个图求出的矩形面积即可解出;
(2)根据题意确定分段点,即可得出的解析式,再根据分段函数的最值求法即可解出.
【详解】(1)依题可知,左边图形第一个小矩形的面积为,所以,
所以,解得:,

(2)当时,

当时,
,
故,
所以在区间的最小值为.
【考点1】成对数据的相关性
一、单选题
1.(2024·四川成都·二模)对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且 B.变量与呈现负相关,且
C.变量与呈现正相关,且 D.变量与呈现负相关,且
2.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
二、多选题
3.(22-23高三上·江苏无锡·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,得到新的经验回归方程为.在余下的8个样本数据和新的经验回归方程中( ).
A.相关变量x,y具有正相关关系
B.新的经验回归方程为
C.随着自变量x值增加,因变量y值增加速度变小
D.样本的残差为
4.(2024·湖南衡阳·模拟预测)为了研发某种流感疫苗,某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:mg),体内抗体数量为y(单位:AU/mL).根据散点图,可以得到回归直线方程为:.下列说法正确的是( )
A.回归直线方程表示体内抗体数量与抗体药物摄入量之间的线性相关关系
B.回归直线方程表示体内抗体数量与抗体药物摄入量之间的函数关系
C.回归直线方程可以精确反映体内抗体数量与抗体药物摄入量的变化趋势
D.回归直线方程可以用来预测摄入抗体药物后体内抗体数量的变化
三、填空题
5.(23-24高三上·浙江·开学考试)已知成对样本数据中互不相等,且所有样本点都在直线上,则这组成对样本数据的样本相关系数 .
参考答案:
题号 1 2 3 4
答案 C B ABD AD
1.C
【分析】利用散点图,结合相关系数的知识可得答案.
【详解】由题意可知,变量的散点图中,随的增大而增大,所以变量与呈现正相关;
再分别观察两个散点图,图比图点更加集中,相关性更好,所以线性相关系数.
故选:C.
2.B
【分析】由散点图的特点可分析相关性的问题,从而判断选项,根据相关系数的定义可判断选项.
【详解】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性,不正确;
又身高和体重的相关系数为,相关系数,
所以学生身高和体重呈正相关,正确,不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是,不正确.
故选:.
3.ABD
【分析】根据线性回归方程的求法、意义可判断ABC ,再由残差的概念判断D.
【详解】,x新平均数,.
y新平均数,∴,∴.
新的线性回归方程,x,y具有正相关关系,A对.
新的线性回归方程:,B对.
由线性回归方程知,随着自变量x值增加,因变量y值增加速度恒定,C错;
,,,D对.
故选:ABD.
4.AD
【分析】根据回归方程的意义判断即可.
【详解】回归直线方程只能表示体内抗体数量与抗体药物摄入量之间的线性相关关系,不是函数关系,A正确,B错误,
回归直线方程不能精确反映体内抗体数量与抗体药物摄入量的变化趋势,但可以用来预测摄入抗体药物后体内抗体数量的变化,C错误,D正确.
故选:AD.
5.
【分析】根据给定条件,利用相关系数的定义求解作答.
【详解】因为所有样本点都在直线上,显然直线的斜率,
所以样本数据成负相关,相关系数为.
故答案为:
反思提升:
判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)决定系数法:利用决定系数判定,R2越趋近1,拟合效果越好,相关性越强.
【考点2】回归分析
一、单选题
1.(2024·四川绵阳·二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,
x 2 4 6 8
y 5 8.2 13 m
则下列说法正确的是( )
A.
B.变量y与x是负相关关系
C.该回归直线必过点
D.x增加1个单位,y一定增加2个单位
2.(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
二、多选题
3.(23-24高三上·广东揭阳·期末)2023年入冬以来,流感高发,某医院统计了一周中连续5天的流感就诊人数y与第天的数据如表所示.
x 1 2 3 4 5
y 21 10a 15a 90 109
根据表中数据可知x,y具有较强的线性相关关系,其经验回归方程为,则( )
A.样本相关系数在内 B.当时,残差为-2
C.点一定在经验回归直线上 D.第6天到该医院就诊人数的预测值为130
4.(2024·全国·模拟预测)为了预测某地的经济增长情况,某经济学专家根据该地2023年1~6月的GDP的数据y(单位:百亿元)建立了线性回归模型,得到的经验回归方程为,其中自变量x指的是1~6月的编号,其中部分数据如表所示:
时间 2023年1月 2023年2月 2023年3月 2023年4月 2023年5月 2023年6月
编号x 1 2 3 4 5 6
y/百亿元 11.107
参考数据:.
则下列说法正确的是( )
A.经验回归直线经过点
B.
C.根据该模型,该地2023年12月的GDP的预测值为14.57百亿元
D.相应于点的残差为0.103
三、填空题
5.(2024·江苏·一模)已知变量的统计数据如下表,对表中数据作分析,发现与之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为,据此模型预测当时的值为 .
5 6 7 8 9
3.5 4 5 6 6.5
6.(2024·陕西渭南·一模)已知一组数据点,用最小二乘法得到其线性回归方程为,若,则 .
四、解答题
7.(2024·山东日照·二模)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.
(1)已知该公司甲部门有3名负责人,乙部门有4名负责人,该公司从甲、乙两部门中随机选取3名负责人做测试分析,记负责人来自甲部门的人数为,求的最有可能的取值:
(2)该公司统计了七个部门测试的平均成绩(满分100分)与绩效等级优秀率,如下表所示:
32 41 54 68 74 80 92
0.28 0.34 0.44 0.58 0.66 0.74 0.94
根据数据绘制散点图,初步判断,选用作为回归方程.令,经计算得,
(ⅰ)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(ⅱ)根据统计分析,大致认为各部门测试平均成绩,其中近似为样本平均数,近似为样本方差.经计算,求某个部门绩效等级优秀率不低于的概率.
参考公式与数据:①.
②线性回归方程中,,.
③若随机变量,则,,.
8.(22-23高三上·山东青岛·期末)由个小正方形构成长方形网格有行和列.每次将一个小球放到一个小正方形内,放满为止,记为一轮.每次放白球的频率为,放红球的概率为q,.
(1)若,,记表示100轮放球试验中“每一列至少一个红球”的轮数,统计数据如表:
n 1 2 3 4 5
y 76 56 42 30 26
求y关于n的回归方程,并预测时,y的值;(精确到1)
(2)若,,,,记在每列都有白球的条件下,含红球的行数为随机变量,求的分布列和数学期望;
(3)求事件“不是每一列都至少一个红球”发生的概率,并证明:.
附:经验回归方程系数:,,,.
参考答案:
题号 1 2 3 4
答案 C B AD AC
1.C
【分析】根据给定数据及回归方程求出样本中心点,再逐项判断即可得解.
【详解】依题意,,
由,解得,A错误;
回归方程中,,则变量y与x是正相关关系,B错误;
由于样本中心点为,因此该回归直线必过点,C正确;
由回归方程知,x增加1个单位,y大约增加2个单位,D错误.
故选:C
2.B
【分析】对于选项A,利用表中数据变化情况或看回归方程的正负均可求解;对于选项B,利用样本中心点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.
【详解】对于选项A,从数据看,随的增大而减小,所以变量与负相关,故A正确;
对于选项B,由表中数据知,,
所以样本中心点为,将样本中心点代入中得,
所以线性回归方程为,所以,残差,故B错误;
对于选项C,当时销量约为(万只),故C正确.
对于选项D,由B选项可知,故D正确.
故选:B.
3.AD
【分析】x,y具有较强的正相关关系,可判断相关系数的范围,判断A;计算x,y的平均值,代入回归直线方程求出a的值,即可求出时的预测值,求得残差,判断B;看是否适合回归直线方程,判断C;将代入回归直线方程,求出预测值,判断D.
【详解】由题意可知x,y具有较强的正相关关系,故样本相关系数在内,A正确;
根据题意得,
故,解得,
故当时,,残差为,B错误;
点即点,当时,,
即点不在经验回归直线上,C错误;
当时,,即第6天到该医院就诊人数的预测值为130,D正确,
故选:AD
4.AC
【分析】求得数据的样本中心点,即可判断A;结合回归直线方程求出可判断B;将代入回归直线方程求得预测值,可判断C;根据残差的计算可判断D.
【详解】选项A:由题意得:,
因为,,所以,得,
因此该经验回归直线经过样本点的中心,故A正确;
选项B:由A知,,得,故B错误;
选项C:由B得,则当时,,
故该地2023年12月的GDP的预测值为14.57百亿元,故C正确;
选项D:当时,,相应于点的残差为,
(相应于点的残差),故D错误,
故选:AC
5.7.4
【分析】经验回归直线方程过样本点的中心,所以把代入求得的值,再代入求解即可.
【详解】由已知得,即样本点中心,
因为经验回归直线方程过样本点的中心,
所以,解得.
所以,当时,.
故答案为:.
6.
【分析】根据回归方程必过样本中心点,即可得到答案.
【详解】根据题意可知该组数据点,
所以,
所以,
故答案为:
7.(1)
(2)(ⅰ)(ⅱ)
【分析】(1)依题意的可能取值为,,,,求出所对应的概率,即可判断;
(2)(ⅰ)对两边取对数,由参考数据可知,根据样本中心点求出,即可求出回归方程,再将代入计算可得;(ⅱ)依题意可得,,再令,求出的取值范围,再由正态分布的性质计算可得.
【详解】(1)依题意,随机变量服从超几何分布,且的可能取值为,,,,
则,,,.
由此可得最大,即的可能性最大,故最有可能的取值为;
(2)(ⅰ)依题意,两边取对数,得,
即,其中,
由提供的参考数据,可知,又,故,
所以,
由提供的参考数据,可得,故,
当时,,即估计其绩效等级优秀率为;
(ⅱ)由(ⅰ)及提供的参考数据可知,,,
又,即,可得,即.
又,且,
由正态分布的性质,得,
记“绩效等级优秀率不低于”为事件,则,
所以绩效等级优秀率不低于的概率等于.
8.(1);3.
(2)分布列见解析;.
(3);证明见解析.
【分析】(1)根据所给数据,结合经验回归方程系数公式,即可求得回归方程,继而求得预测值;
(2)确定X的取值可能为,根据条件概率的概率公式求得每一个值对应的概率,即可得分布列,继而求得期望;
(3)求得每一列都至少一个红球的概率,根据对立事件的概率公式可得事件“不是每一列都至少一个红球”发生的概率,再求得“每一行都至少一个白球”的概率,结合两事件的关系可得其概率大小关系,即可证明结论.
【详解】(1)由题意知 ,
故,
所以 ,
所以线性回归方程为: ,
所以,估计时,.
(2)由题意知:,,,,
则X的取值可能为,
记“含红球的行数为k”为事件,记“每列都有白球”为事件B,
所以 ,


所以X的分布列为:
0 1 2
所以数学期望为.
(3)证明:因为每一列至少一个红球的概率为 ,
记“不是每一列都至少一个红球”为事件A,所以,
记“每一行都至少一个白球”为事件B,所以,
显然, ,所以 ,
即,所以.
【点睛】关键点点睛:解答要首先能正确的理解题意,弄清楚题目的要求是什么,比如第二文中的条件概率的计算,要弄清每种情况的含义,第三问难点在于正确计算出“不是每一列都至少一个红球”以及“每一行都至少一个白球”的概率,并能进行判断二者之间的关系,从而比较概率大小,证明结论.
反思提升:
(1)求经验回归方程:利用公式=求;利用=-求,写出经验回归方程.
(2)经验回归方程的拟合效果,可以利用相关系数|r|判断,当|r|越趋近于1时,两变量的线性相关性越强.或利用决定系数R2判断,R2越大,拟合效果越好.
(3)非线性经验回归方程转化为线性经验回归方程的方法
①若=+ ,设t=,则=+t;②若满足对数式:=+ln x,设t=ln x,则=+t;③若满足指数式:y=c1ec2x,两边取对数解ln y=ln c1+c2x,设z=ln y,a=ln c1,b=c2,则z=a+bx.
【考点3】独立性检验
一、单选题
1.(2024·黑龙江哈尔滨·二模)针对2025年第九届亚冬会在哈尔滨举办,校团委对“是否喜欢冰雪运动与学生性别的关系”进行了一次调查,其中被调查的男、女生人数相同,男生中喜欢冰雪运动的人数占男生人数的,女生中喜欢冰雪运动的人数占女生人数的,若依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,则被调查的学生中男生的人数不可能是( )
附:.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
A.48 B.54 C.60 D.66
2.(2024·宁夏银川·一模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
合计
附:
P(K2≥k0) 0.05 0.025 0.010 0.005
k0 3.841 5.024 6.635 7.879
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”
二、多选题
3.(2024·山东临沂·一模)下列结论正确的是( )
A.一组样本数据的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为
B.已知随机变量,若,则
C.在列联表中,若每个数据均变成原来的2倍,则也变成原来的2倍(,其中)
D.分别抛掷2枚质地均匀的骰子,若事件“第一枚骰子正面向上的点数是奇数”,“2枚骰子正面向上的点数相同”,则互为独立事件
4.(22-23高三下·浙江·开学考试)下列结论中,正确的有( )
A.数据4,1,6,2,9,5,8的第60百分位数为5
B.若随机变量,则
C.已知经验回归方程为,且,则
D.根据分类变量X与Y的成对样本数据,计算得到,依据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率不大于0.001
三、填空题
5.(21-22高二下·福建福州·期末)为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
药物 疾病 合计
未患病 患病
服用 a 50
未服用 50
合计 80 20 100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为 .(其中且)(参考数据:,)
附:,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
6.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
药物 疾病 合计
未患病 患病
服用 50
未服用 50
合计 80 20 100
取显著性水平,若本次考察结果支持“药物对疾病预防有显著效果”,则()的最小值为 .
(参考公式:;参考值:)
四、解答题
7.(2023·广东深圳·二模)飞盘运动是一项入门简单,又具有极强的趣味性和社交性的体育运动,目前已经成为了年轻人运动的新潮流.某俱乐部为了解年轻人爱好飞盘运动是否与性别有关,对该地区的年轻人进行了简单随机抽样,得到如下列联表:
性别 飞盘运动 合计
不爱好 爱好
男 6 16 22
女 4 24 28
合计 10 40 50
(1)在上述爱好飞盘运动的年轻人中按照性别采用分层抽样的方法抽取10人,再从这10人中随机选取3人访谈,记参与访谈的男性人数为X,求X的分布列和数学期望;
(2)依据小概率值的独立性检验,能否认为爱好飞盘运动与性别有关联?如果把上表中所有数据都扩大到原来的10倍,在相同的检验标准下,再用独立性检验推断爱好飞盘运动与性别之间的关联性,结论还一样吗?请解释其中的原因.
附:,其中.
0.1 0.01 0.001
2.706 6.635 10.828
8.(2024·吉林·模拟预测)短视频已成为当下宣传的重要手段,东北某著名景点利用短视频宣传增加旅游热度,为调查某天南北方游客来此景点旅游是否与收看短视频有关,该景点对当天前来旅游的500名游客调查得知,南方游客有300人,因收看短视频而来的280名游客中南方游客有200人.
(1)依据调查数据完成如下列联表,根据小概率值的独立性检验,分析南北方游客来此景点旅游是否与收看短视颍有关联:单位:人
游客 短视频 合计
收看 未看
南方游客
北方游客
合计
(2)为了增加游客的旅游乐趣,该景点设置一款5人传球游戏,每个人得到球后都等可能地传给其余4人之一,现有甲、乙等5人参加此游戏,球首先由甲传出.
(i)求经过次传递后球回到甲的概率;
(ii)记前次传递中球传到乙的次数为,求的数学期望.
参考公式:,其中;
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
参考答案:
题号 1 2 3 4
答案 A C BCD BC
1.A
【分析】根据已知条件设男生人数为,结合独立性检验公式得出不等式,根据的取值,即可求解.
【详解】设男生人数为,因为被调查的男、女生人数相同,
所以女生人数也为,根据题意列出列联表:
男生 女生 合计
喜欢冰雪运动
不喜欢冰雪运动
合计
则,
因为依据的独立性检验,认为是否喜欢冰雪运动与学生性别有关,
所以,即,解得,又,
所以B、C、D正确,A错误.
故选:A
2.C
【分析】根据题中条件计算可判断选项A、B;根据列联表计算出的值,即可判断选项C,D.
【详解】由题意知,成绩优秀的学生数是,
成绩非优秀的学生数是75,所以,
选项A、B错误;
根据列联表中的数据,
得到
因此有97.5%的把握认为“成绩与班级有关系”.
故C正确,D错误,
故选:C.
3.BCD
【分析】根据相关系数的概念判断A,根据正态分布的方差公式及方差的性质判断B,根据卡方公式判断C,根据相互独立事件的定义判断D.
【详解】对于A:若所有样本点都在直线上,则这组样本数据的样本相关系数为,故A错误;
对于B:如,则,又,即
则,故B正确;
对于C:在列联表中,若每个数据均变成原来的2倍,
则,
即也变成原来的倍,故C正确;
对于D:分别抛掷2枚质地均匀的骰子,基本事件总数为个,
事件“第一枚骰子正面向上的点数是奇数”,则事件包含的基本事件数为个,
事件“2枚骰子正面向上的点数相同”,则事件包含的基本事件数为个,
所以,,
又包含的基本事件有个,所以,
所以,则、互为独立事件,故D正确;
故选:BCD
4.BC
【分析】第60百分位数为第五位数据6,所以选项A错误:,所以选项B正确;,所以选项C正确;此推断犯错误的概率大于0.001,所以选项D错误.
【详解】解:数据4,1,6,2,9,5,8整理为1,2,4,5,6,8,9,,则数据4,1,6,2,9,5,8的第60百分位数为第五位数据6,所以选项A错误:
随机变量,则,所以选项B正确;
经验回归方程为,且,则,所以选项C正确;
根据分类变量X与Y的成对样本数据,计算得到,依据小概率值的独立性检验,可判断X与Y有关联,此推断犯错误的概率大于0.001,所以选项D错误.
故选:BC.
5.46
【分析】根据公式列不等式求解.
【详解】由题意可得,
整理得,
所以或,
解得或,
又因为且,
所以,
所以a的最小值为46.
故答案为:46.
6.
【分析】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【详解】由题意可知,
则,
解得或,而,
故m的最小值为44.
故答案为:44.
7.(1)答案见解析
(2)答案见解析
【分析】(1)分别写出对相应概率列分布列求数学期望即可;
(2)先求 再根据数表对应判断相关性即可,对比两次的值可以得出结论说明原因.
【详解】(1)样本中爱好飞盘运动的年轻人中男性 16 人,女性 24 人,比例为 ,
按照性别采用分层抽样的方法抽取 10 人,则抽取男性 4人,女性 6人.
随机变量的取值为:.
,
,
随机变量的分布列为
随机变量的数学期望.
(2)零假设为:爱好飞盘运动与性别无关联.
根据列联表重的数据,经计算得到
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为爱好飞盘运动与性别无关联.
列联表中所有数据都扩大到原来的10倍后,
根据小概率值的独立性检验,推断不成立,即认为爱好飞盘运动与性别有关联.
所以结论不一样,原因是每个数据都扩大为原来的 10 倍,相当于样本量变大为原来的 10 倍,导致推断结论发生了变化.
8.(1)列联表见解析,无关
(2)(i);(ii)
【分析】(1)利用已知条件,完成列联表,利用独立性检验公式求解判断即可;
(2)(i)设经过次传递后回到甲的概率为,求出关系式,得到通项公式;(ii)方法一:设第次传递时甲接到球的次数为,则服从两点分布,,设前次传递中球传到甲的次数为,利用公式求期望即可.方法二:设第次传递时,乙接到球的概率和次数分别为与,则服从两点分布,,利用公式求期望即可.
【详解】(1)将所给数据进行整理,得到如下列联表:
游客 短视频 合计
收看 未看
南方游客 200 100 300
北方游客 80 120 200
合计 280 220 500
零假设:南北方游客来此景点旅游与短视频无关联.
根据小概率值的独立性检验,我们推断不成立,
即认为南北方游客来此景点旅游与收看短视频有关联,此推断犯错误的概率不大于0.001
(2)(i)设经过次传递后回到甲的概率为,
,,
又,
所以是首项为,公比为的等比数列,
所以.
(ii)(方法一)
设第次传递时甲接到球的次数为,则服从两点分布,,
设前次传递中球传到甲的次数为,

因为,所以.
(方法二)
设第次传递时,乙接到球的概率和次数分别为与,则服从两点分布,
,由题可知,,
又,所以,所以是首项为,公比为的等比数列,
,,

故.
【点睛】关键点点睛:本题第2问(ii)的解决关键是,根据题意得到的关系,利用构造法分析出是首项为,公比为的等比数列,由此得解.
反思提升:
1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式χ2=
计算χ2;
(3)通过比较χ2与临界值的大小关系来作统计推断.
【基础篇】
一、单选题
1.(2024·浙江宁波·二模)某校数学建模兴趣小组为研究本地区儿子身高与父亲身高之间的关系,抽样调查后得出与线性相关,且经验回归方程为.调查所得的部分样本数据如下:
父亲身高 164 166 170 173 173 174 180
儿子身高 165 168 176 170 172 176 178
则下列说法正确的是( )
A.儿子身高是关于父亲身高的函数
B.当父亲身高增加时,儿子身高增加
C.儿子身高为时,父亲身高一定为
D.父亲身高为时,儿子身高的均值为
2.(2024·天津河西·一模)随着居民家庭收入的不断提高,人们对居住条件的改善的需求也在逐渐升温.某城市统计了最近5个月的房屋交易量,如下表所示:
时间 1 2 3 4 5
交易量(万套) 0.8 1.0 1.2 1.5
若与满足一元线性回归模型,且经验回归方程为,则下列说法错误的是( )
A.根据表中数据可知,变量与正相关
B.经验回归方程中
C.可以预测时房屋交易量约为(万套)
D.时,残差为
3.(2024·天津·一模)下列说法正确的是( )
A.一组数据的第80百分位数为17;
B.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.05;
C.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0;
D.若随机变量满足,则.
4.(23-24高三上·天津北辰·期中)下列结论中,错误的是( )
A.数据4,1,6,2,9,5,8的第60百分位数为6
B.若随机变量,则
C.已知经验回归方程为,且,则
D.根据分类变量与成对样本数据,计算得到,依据小概率值的独立性检验,可判断与有关联,此推断犯错误的概率不大于0.001
二、多选题
5.(2023·湖北·模拟预测)下列命题中正确的是( )
A.若样本数据,,,的样本方差为3,则数据,,,的方差为7
B.经验回归方程为时,变量x和y负相关
C.对于随机事件A与B,,,若,则事件A与B相互独立
D.若,则取最大值时
6.(2024·山东枣庄·模拟预测)已知两个变量y与x对应关系如下表:
x 1 2 3 4 5
y 5 m 8 9 10.5
若y与x满足一元线性回归模型,且经验回归方程为,则( )
A.y与x正相关 B.
C.样本数据y的第60百分位数为8 D.各组数据的残差和为0
7.(2024·湖北武汉·二模)下列结论正确的是( )
A.一组数据7,8,8,9,11,13,15,17,20,22的第80百分位数为17
B.若随机变量,满足,则
C.若随机变量,且,则
D.根据分类变量与的成对样本数据,计算得到.依据的独立性检验,可判断与有关
三、填空题
8.(23-24高三下·上海嘉定·阶段练习)某产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 a 50 70
已知y关于x的线性回归方程为,则表格中实数a的值为 .
9.(23-24高二下·江西赣州·期中)甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
10.(2024·上海长宁·二模)收集数据,利用列联表,分析学习成绩好与上课注意力集中是否有关时,提出的零假设为:学习成绩好与上课注意力集中 (填:有关或无关)
四、解答题
11.(2024·四川成都·模拟预测)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,某线下家电商场为提升人气和提高营业额也开通了在线直播,下表统计了该商场开通在线直播的第x天的线下顾客人数y(单位:百人)的数据:
x 1 2 3 4 5
y 10 12 15 18 20
(1)根据第1至第5天的数据分析,计算变量y与x的相关系数r,并用r判断两个变量y与x相关关系的强弱(精确到小数点后三位);
(2)根据第1至第5天的数据分析,可用线性回归模型拟合y与x的关系,试求出该线性回归方程并估计该商场开通在线直播的第10天的线下顾客人数.
(参考公式:相关系数,参考数据:
回归方程:,其中,)
12.(2024·四川内江·三模)2024年2月10日至17日(正月初一至初八),“2024 内江市中区新春极光焰火草地狂欢节”在川南大草原举行,共举行了8场精彩的烟花秀节目.前5场的观众人数(单位:万人)与场次的统计数据如表所示:
场次编号 1 2 3 4 5
观众人数 0.7 0.8 1 1.2 1.3
(1)已知可用线性回归模型拟合与的关系,请建立关于的线性回归方程;
(2)若该烟花秀节目分A、B、C三个等次的票价,某机构随机调查了该烟花秀节目现场200位观众的性别与购票情况,得到的部分数据如表所示,请将列联表补充完整,并判断能否有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
购买A等票 购买非A等票 总计
男性观众 50
女性观众 60
总计 100 200
参考公式及参考数据:回归方程中斜率与截距的最小二乘法估计公式分别为,其中.
0.100 0.050 0.010
2.706 3.841 6.635
参考答案:
题号 1 2 3 4 5 6 7
答案 D D B D BC AD CD
1.D
【分析】根据变量的线性相关、经验回归方程特点逐项分析即可得结论.
【详解】由题意知父亲身高与儿子身高具有线性相关关系,
不是函数关系,故A不正确;
当父亲身高增加时,儿子身高约增加,故B不正确;
当儿子身高为时,代入可得,父亲身高可能为,故C不正确;
若某父亲身高为,则其儿子的身高估计为,故D正确.
故选:D.
2.D
【分析】首先求出、,根据回归方程必过样本中心点求出参数,从而得到回归方程,再一一判断即可.
【详解】对于B,依题意,,
所以,解得,所以,故B正确;
对于A,因为经验回归方程,,
所以变量与正相关,故A正确;
对于C,当时,,
所以可以预测时房屋交易量约为(万套),故C正确;
对于D,当时,,
所以时,残差为,故D错误.
故选:D
3.B
【分析】A选项,由百分位数的定义得到答案;B选项,,得到结论;C选项,由相关系数的性质得到C错误;D选项,由方差的性质得到D错误.
【详解】A选项,,故从小到大排列,第8个数和第9个数的平均数作为第80百分位数,
即,A错误;
B选项,由于,得到与有关联,此推断犯错误的概率不大于0.05,B正确;
C选项,两个随机变量的线性相关性越强,相关系数的绝对值越接近于1,C错误;
D选项,若随机变量满足,则,D错误.
故选:B
4.D
【分析】
A选项,将数据排序后,根据百分位数的定义得到答案;B选项,由正态分布的对称性得到答案;C选项,将样本中心点代入回归方程,求出;D选项,由得到D错误.
【详解】A选项,数据4,1,6,2,9,5,8排序后得到1,2,4,5,6,8,9,
,故选取第5个数据作为第60百分位数,即为6,A正确;
B选项,因为,根据对称性可知,
故,B正确;
C选项,已知经验回归方程为,且,则,
解得,C正确;
D选项,,故不能得到此结论,D错误
故选:D
5.BC
【分析】根据方差的性质可判断A;根据变量x,y的线性回归方程的系数,可判断B;利用条件概率及独立事件的定义可判断C;根据二项分布概率公式可判断D.
【详解】对于A,数据,,…,的方差为,所以A错误;
对于B,回归方程的直线斜率为负数,所以变量x与y呈负的线性相关关系,所以B正确;
对于C,由,得,所以事件A与事件B独立,所以C正确;
对于D,由,即,
解得或,所以D错误.
故选:BC.
6.AD
【分析】利用相关性的定义及线性回归直线可判定A,根据样本中心点在回归方程上可判定B,利用百分位数的计算可判定C,利用回归方程计算预测值可得残差即可判定D.
【详解】由回归直线方程知:,所以y与x正相关,即A正确;
由表格数据及回归方程易知,即B错误;
易知,所以样本数据y的第60百分位数为,即C错误;
由回归直线方程知时对应的预测值分别为,
对应残差分别为,显然残差之和为0,即D正确.
故选:AD
7.CD
【分析】A应用百分位数求法判断;B由方差性质判断;C根据正态分布对称性求概率判断;D由独立检验的基本思想判断结论.
【详解】A:由,故第80百分位数为,错;
B:由方差的性质知:,错;
C:由正态分布性质,随机变量的正态曲线关于对称,
所以,对;
D:由题设,结合独立检验的基本思想,在小概率情况下与有关,对.
故选:CD
8.
【分析】先求出,代入回归方程求出,再列方程求实数a的值.
【详解】由条件得,
则,
所以,
解得.
故答案为:.
9.乙
【分析】根据相关系数的定义判断即可.
【详解】因为,所以这四人中,乙研究的两个随机变量的线性相关程度最高,
故答案为:乙.
10.无关
【分析】根据题意,由零假设的定义,即可得到结果.
【详解】零假设等价于两个变量相互独立,
所以此题中的零假设为:学习成绩好与上课注意力集中无关.
故答案为:无关
11.(1)0.997,相关关系很强.
(2),33.2百人.
【分析】(1)根据所给数据及参考公式计算出相关系数,即可判断;
(2)首先求出回归直线方程,再令求出即可得解.
【详解】(1)依题意可得,




,,
∴两个变量与相关关系很强.
(2)
因为,


,所以时(百人),
故预估该商场开通在线直播的第天的线下顾客人数为百人.
12.(1)
(2)表格见解析,没有
【分析】(1)利用表中数据结合最小二乘法计算回归直线即可;
(2)根据题意补全列联表即可,再由卡方公式及独立性检验的思想判定结果即可.
【详解】(1)由表格可知,
,,所以,
则;
(2)根据数据补全表格如下:
购买A等票 购买非A等票 总计
男性观众 40 50 90
女性观众 60 50 110
总计 100 100 200
所以,
故没有的把握认为该烟花秀节目的观众是否购买A等票与性别有关.
【能力篇】
一、单选题
1.(2024·河北·一模)某校为了解本校高一男生身高和体重的相关关系,在该校高一年级随机抽取了7名男生,测量了他们的身高和体重得下表:
身高(单位: 167 173 175 177 178 180 181
体重(单位: 90 54 59 64 67 72 76
由表格制作成如图所示的散点图:

由最小二乘法计算得到经验回归直线的方程为,其相关系数为;经过残差分析,点对应残差过大,把它去掉后,再用剩下的6组数据计算得到经验回归直线的方程为,相关系数为.则下列选项正确的是( )
A.
B.
C.
D.
二、多选题
2.(2024·湖南·一模)下列说法中,正确的是( )
A.设有一个经验回归方程为,变量增加1个单位时,平均增加2个单位
B.已知随机变量,若,则
C.两组样本数据和.若已知且,则
D.已知一系列样本点的经验回归方程为,若样本点与的残差相等,则
三、填空题
3.(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
四、解答题
4.(22-23高二下·浙江·阶段练习)人工智能正在改变我们的世界,由OpenAI开发的人工智能划时代标志的ChatGPT能更好地理解人类的意图,并且可以更好地回答人类的问题,被人们称为人类的第四次工业革命.它渗透人类社会的方方面面,让人类更高效地生活.现对130人的样本使用ChatGPT对服务业劳动力市场的潜在影响进行调查,其数据的统计结果如下表所示:
ChatGPT应 用的广泛性 服务业就业人数的 合计
减少 增加
广泛应用 60 10 70
没广泛应用 40 20 60
合计 100 30 130
(1)根据小概率值的独立性检验,是否有的把握认为ChatGPT应用的广泛性与服务业就业人数的增减有关?
(2)现从“服务业就业人数会减少”的100人中按分层随机抽样的方法抽取5人,再从这5人中随机抽取3人,记抽取的3人中有人认为人工智能会在服务业中广泛应用,求的分布列和均值.
附:,其中.
0.1 0.05 0.01
2.706 3.841 6.635
参考答案:
题号 1 2
答案 A BC
1.A
【分析】根据的特点判断斜率和截距;由于去掉,其它点的线性关系更强,从而可判断相关系数.
【详解】身高的平均数为,
因为离群点的横坐标167小于平均值176,纵坐标90相对过大,
所以去掉后经验回归直线的截距变小而斜率变大,故
去掉后相关性更强,拟合效果也更好,且还是正相关,

故选:A.
2.BC
【分析】根据回归方程可判定A,根据正态分布可判定B,根据数据的平均数可判定C,根据回归方程及残差的概念可判定D.
【详解】若有一个经验回归方程,随着的增大,会减小,A错误;
曲线关于对称,因为,所以,
所以,B正确;
因为,
所以,
故,C正确;
经验回归方程为,且样本点与的残差相等,
则,所以,D错误.
故选:BC.
3.0.5/
【分析】利用样本中心在回归直线上及残差的定义即可求解.
【详解】将代入,得,解得,
所以,
故当时,,
所以残差.
故答案为:0.5.
4.(1)没有
(2)分布列见解析,
【分析】(1)根据题意求,并与临界值对比判断;
(2)根据分层抽样求各层人数,结合超几何分布求分布列和期望.
【详解】(1)零假设为:ChatGPT对服务业就业人数的增减无关.
根据表中数据得,
所以根据小概率值的独立性检验,
没有充分证据推断不成立,因此可以认为无关.
(2)由题意得,采用分层抽样抽取出的5人中,
有人认为人工智能会在服务业中广泛应用,
有人认为人工智能不会在服务业中广泛应用,
则的可能取值为,
又,
所以的分布列为
1 2 3
所以.
21世纪教育网(www.21cnjy.com)
同课章节目录