统计与概率:线性回归、非线性回归、相关性分析与误差分析、独立性检验复习讲义-2026届高三数学一轮复习

文档属性

名称 统计与概率:线性回归、非线性回归、相关性分析与误差分析、独立性检验复习讲义-2026届高三数学一轮复习
格式 zip
文件大小 5.6MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2025-08-26 09:47:59

文档简介

统计与概率:线性回归、非线性回归、相关性分析与误差分析、独立性检验复习讲义
考点目录
线性回归 非线性回归
相关性分析与误差分析 独立性检验
【知识点解析】
1.散点图
每个点对应的一对数据,称为成对数据.这些点构成的图称为散点图.
2.曲线拟合
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个大致趋势,这种趋势通常可以用一条光滑的曲线来近似地描述.这样近似描述的过程称为曲线拟合.
若在两个变量和的散点图中,所有点看上去都在一条直线附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合.
3.最小二乘法
对于给定的两个变量和,可以把其成对的观测值、、...、表示为平面直角坐标系中的个点.现在希望找到一条直线,使得对每一个,由这个直线方程计算出来的值与实际观测值的差异尽可能小.为此,希望达到最小.换句话说,我们希望、的取值能使上式达到最小,这个方法称为最小二乘法.
4.一元线性回归方程
(1) 若变量和具有线性相关关系,有个样本数据,则回归方程
期中,.
其中,称为样本点的中心.
(2)线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量.
【例题分析】
1.(2025·江西新余·模拟预测)某品牌啤酒厂,进行市场调研,发现该品牌啤酒在某地的月销量随着每瓶啤酒的定价不同而发生变化,连续调研5个月得到的数据如下表所示:
第1个月 第2个月 第3个月 第4个月 第5个月
单价/元 6 6.5 7 7.5 8
销量/万瓶 90 85 80 75 70
根据以上数据得到与具有较强的线性关系,若用最小二乘估计得到经验回归方程,则( )
A.相关系数 B.点一定在经验回归直线上
C. D.当每瓶啤酒为9.5元时,月销量一定为50万瓶
【答案】B
【详解】由可得与具有负相关,故A错误;
由表中数据可得,
所以样本中心点为,将代入得,
解得,故C错误.
则回归方程为,当时,,故在回归直线上,故B正确:
当时,,这是一个估计值,不是精确值,故D错误.
故选:B.
2.(24-25高二下·山东济宁·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
【答案】A
【详解】因为经验回归方程为,,
所以.
原样本有10个数据点,,
则.
去除两个样本点后,样本有8个数据点,且,
所以新样本的
因为新的经验回归直线的斜率不变,则设新的经验回归方程为,
将代入方程得,
所以新的经验回归方程为.
故选:A.
3.(24-25高二下·甘肃临夏·期末)某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x 5 6 8 9 12
y 17 a 25 28 35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B.
C. D.时,
【答案】C
【详解】由题,
所以,所以回归直线方程,
所以当时,.
故ABD正确,C错误.
故选:C
4.(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x 1 2 3 4 5
生产能耗y/吨 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
【答案】D
【详解】对于A,因回归方程斜率为负值,则变量y与x负相关,故A正确;
对于B,,,
因回归方程过,则,故B正确;
对于C,当时,由B分析,,则残差为:
故C正确;
对于D,当,由B分析,,故D错误.
故选:D
5.(24-25高二下·陕西西安·期末·多选)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( ).
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
【答案】ACD
【详解】对于A,由,得,故呈负相关关系,故A正确;
对于B,,,
,解得,故B错误;
对于C,当时,,故C正确;
对于D,由得,回归直线必过点,即必过点,故D正确.
故选:ACD.
6.(24-25高二下·山东威海·期末·多选)某位同学10次考试的物理成绩与数学成绩如下表所示:
数学成绩x 76 82 72 87 93 78 89 66 81 76
物理成绩y 80 87 75 86 100 79 93 68 85 77
已知y与x线性相关,计算可得,,回归直线方程为,则( )
A.y与x正相关
B.
C.相关系数
D.若该同学第11次考试的数学成绩为80,物理成绩为83,则以这11次成绩重新计算,得到的回归直线方程不变
【答案】ACD
【详解】对于选项A,在中,,则y与x正相关,故选项A正确;
对于选项B,由,,则样本中心点为,代入得,解得,故选项B错误;
对于选项C,根据选项A可得相关系数,故选项C正确;
对于选项D,新增数据点为,该点恰好是原样本中心,且新增点不影响协方差和方差的计算(新增点的和均为0),所以新的回归直线方程不变,故选项D正确.
故选:ACD.
7.(24-25高二下·新疆乌鲁木齐·期末)某饮料店的日盈利(单位:百元)与当天平均气温(单位:℃)之间有如下数据:
x/℃ 0 1 2
y/百元 5 4 2 2 1
由表中数据可得回归方程中.试预测当天平均气温为℃时,饮料店的日盈利约为 百元.
【答案】
【详解】由已知数据
因为,则,代入,则,
则,
令,则.
故答案为:.
8.(25-26高三上·内蒙古包头·阶段练习)已知电商平台统计的连续5天某商品的点击量(单位:万次)如下:
样本号 1 2 3 4 5
第天 1 2 3 4 5
点击量 2.4 2.7 4.1 6.4 7.9
并计算得,,,,.建立点击量关于天数的线性回归方程,预测第6天的点击量为
【答案】9.11万次
【详解】因为,
则,所以关于的回归直线方程为,
当时,,故预测第6天的点击量约为9.11万次,
故答案为:9.11万次.
9.(24-25高二下·河南商丘·期末)某兴趣小组研究发现昼夜温差变化的大小与患感冒人数之间具有较强的线性相关关系,该兴趣小组在惠民医院抄录了2025年2~5月份每月5日的昼夜温差情况以及附近的居民因患感冒到惠民医院就诊的人数,得到如下数据:
日期 2月5日 3月5日 4月5日 5月5日
昼夜温差 11 13 12 8
因患感冒就诊人数(人) 25 29 26 16
(1)求因患感冒到惠民医院就诊的人数关于昼夜温差的线性回归方程;
(2)如果8月5日昼夜温差是时,试预测因患感冒到惠民医院就诊的人数(精确到整数).
附:线性回归直线中,;
【答案】(1)
(2)19.
【详解】(1),


所以,

所以所求线性回归方程为.
(2)时,,
因此如果8月5日昼夜温差是时,预测因患感冒到惠民医院就诊的人数大约为19.
10.(24-25高二下·吉林白城·阶段练习)花旗银行于2024年12月发布的《人工智能机器人的崛起》报告,深入剖析了AI机器人领域的技术突破、市场机遇与挑战.这份报告传递了一个清晰的信号:AI机器人正在从实验室和工厂加速走向我们的日常生活,预计到2035年将有13亿台,2050年更将达到40亿台.某人工智能公司先后共开发七款人工智能类产品(代码x为1~7),其综合评分y如下表所示:
代码x 1 2 3 4 5 6 7
综合评分y(单位:分) 5.8 6.6 7.2 8.8 9.6 10.4 11.8
(1)根据表中的数据,可推断出变量y与x之间具有线性相关关系,请预测该公司即将研发成功的第八款人工智能类产品的综合评分;
(2)把综合评分不超过8分的人工智能类产品叫做“初级品”,从已开发的七款人工智能类产品中任取2款,X表示取到“初级品”的个数,求X的分布列和数学期望.
参考数据:,.
参考公式:回归直线方程,其中,.
【答案】(1)
(2)分布列见解析,
【详解】(1),

,,
回归直线方程,
当时,,
预测该公司即将研发成功的第八款人工智能类产品的综合评分;
(2)由题意,已开发的七款人工智能类产品中“初级品”为三款,
因此从已开发的七款人工智能类产品中任取2款,
取到"初级品"的个数的值可取0,1,2,
则,,

因此的分布列如下:
0 1 2
.
11.(24-25高二下·山东临沂·期末)我国新能源汽车迅速崛起,正以颠覆性技术重塑传统交通的格局,成为推动绿色革命的核心引擎.某品牌新能源汽车统计了2025年前5个月的月销量(单位:万辆)与月份之间的关系,得到如下数据:
月份 1 2 3 4 5
月销量(单位:万辆) 2.89 3.22 3.82 4.34 5.41
(1)根据上述数据可知与线性相关,试求出关于的经验回归方程,并预测该品牌新能源汽车2025年6月份的销量;
(2)为刺激消费,省出台了以下补贴政策:每购买一辆新能源车,发放8000元补贴.若省甲、乙两人近期购买该新能源汽车的概率分别为,其中,求该省对甲、乙两人补贴总金额期望值的取值范围.
参考公式:经验回归方程为,
其中,.参考数据:,.
【答案】(1);万辆
(2)
【详解】(1)由题意得,,
则,,
所以关于的经验回归方程为,
预测该品牌新能源汽车2025年6月份的销量为(万辆).
(2)设甲、乙两人购买新能源车的辆数为,则的可能取值为,



所以,
依题意,每购买一辆新能源车,发放8000元补贴,
因此该省对甲、乙两人补贴总金额期望值为,
,则,
即,
故该省对甲、乙两人补贴总金额期望值的取值范围是.
12.(24-25高二下·甘肃酒泉·期末)在某种实验中,对变量依次得到五组观测数据如下表所示.
数据编号 1 2 3 4 5
x 10 11 13 12 8
y 23 24 30 27 16
该实验小组确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是编号相邻的2组数据的概率;
(2)若选取的是编号为1和5的两组数据,试根据剩余3组数据求出y关于x的线性回归方程;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为求得的线性回归方程是可靠的,试问:(2)中所得的线性回归方程是否可靠?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)
(3)可靠
【详解】(1)从5组数据中选取2组,样本点为{1,2},{1,3},{1,4},{1,5},{2,3},{2,4},{2,5},{3,4},{3,5},{4,5},共10个,记“所选取的2组数据恰好编号相邻”为事件A,则事件A包含4个样本点,所以.
(2)由剩余3组数据可求得,,


因此y关于x的线性回归方程为.
(3)当时,,;当时,,,
两个检验数据的误差均不超过2,可以认为(2)中所求出的线性回归方程是可靠的.
13.(24-25高二下·宁夏银川·期末)由国家统计局提供的数据可知,2017年至2023年中国居民人均可支配收入(单位:万元)的数据如下表:
年份 2017 2018 2019 2020 2021 2022 2023
年份代号 1 2 3 4 5 6 7
人均可支配收入 1.65 1.83 2.01 2.19 2.38 2.59 2.82
(1)求关于的线性回归方程(系数精确到0.01);
(2)利用(1)中的回归方程,分析2017年至2023年中国居民人均可支配收入的变化情况,并预测2025年中国居民人均可支配收入.
附注:参考数据:.参考公式:回归直线方程的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)
(2)3.16万元
【详解】(1)由题可知:,,,
∴,

故所求线性回归方程为;
(2)由(1)中的回归方程知斜率可知,2017年至2023年中国居民人均可支配收入逐年增加;
令得:,
所以预测2025年中国居民人均可支配收入为3.16万元.
14.(24-25高二下·贵州毕节·期末)2024年1月24日,云南省统计局发布数据,2023年度云南省生产总值(GDP)为30021亿元,年度GDP首次突破3万亿元.以下是2020年至2024年云南省生产总值表.
年份 2020年 2021年 2022年 2023年 2024年
年份代码x 1 2 3 4 5
生产总值y(亿元) 24555 27146 28954 30021 31534
(1)根据以上数据,在答题卡上画出散点图,并判断成对数据是否线性相关?
(2)建立生产总值y(亿元)关于年份代码x的经验回归方程(,精确到1),并预测2025年度云南省生产总值.
参考公式:.
【答案】(1)答案见解析,正线性相关关系
(2),33490亿元.
【详解】(1)画出成对数据的散点图,从散点图看生产总值y(亿元)与年份代码x的数据呈现出正线性相关关系,且相关程度很强.
(2),


所以.
所以生产总值关于年份代码的经验回归方程为.
当时,.
所以根据预测2025年云南省生产总值的估计值为33490亿元.
【知识点解析】
1.非线性回归方程的求解
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的非线性回归模型.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
2.常见的变换
(1)已知函数,令,得.
(2)已知函数,令,得.
(3)已知函数,左右同时取的指数,得,令,得.
(4)已知函数,左右同时取的对数,得,令,得.
(5)已知函数,左右同时取的对数,得,令,得.
(6)已知函数,左右同时取的对数,得,令,得.
(7)已知函数,左右同时取的对数,得,令,,得.
【例题分析】
1.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2 3 4 5 6
1.02 1.20 1.42 1.62 1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
【答案】D
【详解】由表格中数据得,

代入方程得,,解得,因此.
由两边取对数,得.
又,所以,,即.
故选:D
2.(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
【答案】A
【详解】由题意得,解得,
因此,
由两边取对数,得,
又,所以,即.
故选:A.
3.(24-25高二下·辽宁大连·期中)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月 1 2 3
繁殖数量
A.百只 B.百只 C.百只 D.百只
【答案】B
【详解】由两边取自然对数得,令,
则,即与呈线性相关关系,
,,
回归直线必过样本点的中心,,解得,
,则,当时,.
故选:B
4.(24-25高二下·福建泉州·阶段练习)已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
【答案】C
【详解】已知,把,代入可得:
,即.
因为对数函数在上单调递增,且,所以,即有最大值为.
故选:C.
5.(23-24高二下·广东肇庆·期末)用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
【答案】
【详解】因为,两边取自然对数可得,
令,可得,又,
所以,,所以,
所以.
故答案为:
6.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
【答案】
【详解】由已知,
设,则,
由回归直线性质可得在直线上,
又,,
所以点在直线上,故点在曲线上.
故答案为:.
7.(2025·广东广州·模拟预测)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份x 1 2 3 4 5
销售量y(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:.
(1)根据所给数据与回归模型,求y关于x的回归方程(的值精确到0.1);
(2)已知该公司的月利润z(单位:万元)与x,y的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1);
(2)第9个月的月利润预报值最大
【详解】(1)令,则,,
,,所以y关于x的回归方程为;
(2)由(1)知:,
,令,
令得:,令得:,令得:,所以在处取得极大值,也是最大值,
所以第9个月的月利润预报值最大.
8.(24-25高二下·山东潍坊·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量y(库仑)与使用时间t(小时)的散点图,其中t为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ⅱ)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考数据:记
45 12.02 1.55 20.20 285 45.07 3.42
参考公式:.
【答案】(1)更适宜作为回归模型,理由见解析
(2)(i);(ⅱ)会报警提示,理由见解析
【详解】(1)更适宜作为回归模型,理由如下:
从散点图可以看出,剩余电量y(库仑)与使用时间t(小时)不呈线性变化,
减小速度越来越慢,
呈线性变化,不适宜作为回归模型,故更适宜作为回归模型;
(2)(i)两边取对数得,
由于,
故,

即,故,
(ⅱ)会报警提示,理由如下:
中,令得

故会报警提示.
9.(24-25高二下·山东·阶段练习)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15 108.40 3.04 0.16
14.00 -2.10 11.67 0.21 21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
【答案】(1)模型建立与的回归方程更合适
(2)
(3)万元
【详解】(1)由题意知,

因为,所以用模型建立与的回归方程更合适.
(2)令,回归方程为,
因为,

所以关于的回归方程为,即.
(3)由题意知
,当且仅当,即时取等号,
则,所以.当且仅当时等号成立,
所以当研发经费投入为60万元时企业生产的利润最大,最大利润为万元.
10.(24-25高二下·广东深圳·阶段练习)有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份 2013 2014 2015 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5 6 7 8
运营里程y/万千米 1.3 1.6 1.9 2.2 2.5 2.9 3.5 3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
【答案】(1)乙同学的更适合作为y关于x的回归方程类型,理由见解析
(2)
(3)17.25
【详解】(1)因为,所以乙同学的更适合作为y关于x的回归方程类型.
(2),
由得,即.
则,

所以.
(3)2030年对应的年份代码,代入(2)中的y关于x的回归方程,
得.故预测2030年中国高铁运营里程将达到17.25万千米.
11.(24-25高二下·安徽合肥·期末)“十四五”是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主现代化国家新征程、向第二个百年奋斗目标进军的第一个五年,实施时间为2021年到2025年,某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了如下函数模型:,其中λ,t均为常数,e为自然对数的底数.令,经计算得如下数据:,,问
(1)建立y关于x的回归方程(系数精确到0.01);
(2)若希望2025年盈利额y为1000亿元,请预测2025年的研发资金投入额x约为多少亿元?(结果精确到0.01)
附:回归直线中:
参考数据:.
【答案】(1)
(2)
【详解】(1)由于,令,
则,即,
则,,
故v关于x的回归方程为,即
则y关于x的回归方程为;
(2)若希望2025年盈利额y为1000亿元,即,
则,即,
即,解得(亿元),
预测2025年的研发资金投入额x约为34.56亿元
12.(24-25高二下·四川广安·期中)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.

(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84 58.55 6.9
【答案】(1)选.
(2);690
【详解】(1)根据散点图的分布规律,随着的增大,的增长速度越来越快,符合指数函数的增长特征,
所以(均为大于零的常数)适宜作为人次关于活动推出天数的回归方程类型.
(2)因为表示活动推出的天数,,则.
.
因为,所以.
所以,所以.
又,所以.
所以.
当时,.
所以预测活动推出第8天售楼部来访的人次为690.
13.(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【答案】(1)
(2),
(3)指数函数模型拟合效果更好.
【详解】(1)方法一:设关于的回归直线方程为,
由已知,,


所以,

所以关于的回归直线方程为,
方法二:因为关于的回归直线方程为,
因为,,
所以,,
则,
所以关于的回归直线方程为,
(2)若用指数型函数模型拟合与的关系,则有,
设,,,
则,


所以,
所以,
所以关于的回归方程为,
(3)由(1)关于的回归直线方程为,
所以时,,
残差为,
由(2)关于的指数函数模型的回归方程为,
所以时,,
残差为,
因为,所以指数函数模型拟合效果更好.
【知识点解析】
1.刻画回归效果的方式
方式方法 计算公式 刻画效果
决定系数 越接近于,表示回归的效果越好
相关系数 越接近于,相关性越强
残差图 称为相应于点的残差, 残差点均匀地落在水平的带状区域中,说明选用的模型比较合适. 其中这样的带状区域的宽度越窄,说明模型拟合精确度越高
残差平方和 残差平方和越接近于,模型的拟合效果越好
2.常见变换
(1). (2).
(3).
【例题分析】
1.(2025·黑龙江哈尔滨·三模)为了研究变量对变量的影响,对变量和变量的观测数据(,,,)进行研究,计算得到,,若与满足一元线性回归模型,是与之间的随机误差,则参数的最小二乘估计为( )
A. B. C. D.
【答案】C
【详解】由题意知y与x满足的经验回归方程为,
残差平方和,
上式是关于的二次函数,因此要使残差平方和取得最小值,当且仅当,
则参数的最小二乘估计为.
故选:C.
2.(24-25高二下·广东深圳·期末)某智能机器人公司从某年起7年的利润情况如下表所示,y关于x的回归直线方程是,则该智能机器人公司第4年利润的残差是( )
第x年 1 2 3 4 5 6 7
利润y/亿元 m
A.亿元 B.亿元 C.亿元 D.亿元
【答案】A
【详解】由题意,,关于的回归直线方程为,
所以,故,解得,
所以当时,,则.
故选:A
3.(24-25高二下·贵州安顺·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
【答案】A
【详解】由散点图可知,并且第一个图中的点更为集中,更贴近某条直线分布,
第三、四个图中的点的分布更为分散,
因此更接近于1,的绝对值更接近于0,
即最大的是,
故选:A
4.(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
【答案】A
【详解】去掉点后,散点图中点的分布更接近一条直线,因此变量与的线性相关程度变强,故选项B错误;
由散点图,点的分布从左下角到右上角,故变量与呈正相关,故选项D错误;
因为变量与呈正相关,且相关性变强,所以相关系数变大,故A正确,C错误.
故选:A.
5.(24-25高二下·广东江门·期末·多选)下列说法正确的是( )
A.利用进行独立性检验时,的值越大,说明有更大的把握认为两个分类变量独立
B.在残差图中,残差点分布的带状区域的宽度越窄,其模型拟合效果越好
C.样本相关系数r的大小可以反映成对样本数据之间线性相关的程度,当r越小,成对样本数据的线性相关程度越弱
D.用决定系数来比较两个模型的拟合效果.越大,表示残差平方和越小,即模型的拟合效果越好
【答案】BD
【详解】对于A,利用进行独立性检验时,的值越大,说明有更大的把握认为两个分类变量相关,A错误;
对于B,在残差图中,残差点分布的带状区域的宽度越窄,其模型拟合效果越好,B正确;
对于C,样本相关系数r的大小可以反映成对样本数据之间线性相关的程度,当r的绝对值越小,成对样本数据的线性相关程度越弱,C错误;
对于D,用决定系数来比较两个模型的拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好,D正确.
故选:BD
6.(24-25高二下·黑龙江佳木斯·期末·多选)下列说法正确的是( )
A.决定系数越大,表示残差平方和越大,即模型的拟合效果越差
B.经验回归方程相对于点的残差为
C.根据分类变量x与y的成对样本数据,计算得到,则依据的独立性检验,可以认为“x与y没有关联”
D.样本相关系数r的绝对值越接近1,成对样本数据的线性相关程度越强
【答案】BD
【详解】对于A,决定系数越大,表示残差平方和越小,即模型的拟合效果越好,故A不正确.
对于B,残差为,故B正确,
对于C,零假设为:X与Y相互独立,即X与Y没有关联,
由可知依据的独立性检验,
没有充分证据推断不成立,可以认为“X与Y有关联”,选项C不正确.
对于D,当越接近1时,成对样本数据的线性相关程度越强,选项D正确.
故选:BD
7.(2025·广东汕头·一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是 .(填“甲”或“乙”或“丙”)
【答案】丙
【详解】甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①拟合效果更好;
残差平方和越大,即决定系数越小,说明数据点越离散,
所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好.
故答案为:丙.
8.(2025·山西·模拟预测)A市某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了市淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数(万人)与第个月的数据:
1 2 3 4 5
23.1 37.0 62.1 111.6 150.8
根据表中数据可用一元线性回归模型刻画变量与变量之间的线性相关关系,且回归方程中的,则相关系数 (精确到0.01).
参考公式:相关系数.回归方程中斜率的最小二乘法估计公式为;
参考数据:,,,,.
【答案】0.98
【详解】由题设,,,

所以.
故答案为:.
9.(24-25高二下·青海海南·期末)一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:
月份 1月 2月 3月 4月
月广告费用(万元) 3 4 5 6
月销量(万件) 5 6 8 9
已知与线性相关.
(1)求关于的经验回归方程;
(2)求与的相关系数(精确到0.01).
参考公式:回归直线方程为,其中,.
相关系数.
【答案】(1)
(2)
【详解】(1)依题意有,,
列表可得:
可得,

可得,,
故y关于x的经验回归方程为.
(2)由,
所以y与x的相关系数为.
10.(24-25高二下·河北石家庄·期末)一组实验数据如下:
2 5 8 9 11
12 10 8 8 7
(1)根据表中数据,计算,.
(2)根据表中数据计算样本相关系数.(保留两位小数).
(3)由数据用最小二乘法可得线性回归方程为,统计学中常用决定系数刻画回归效果,例如假设,就说明响应变量的差异有由解释变量引起.请计算本题的(保留两位小数),并指出本题中响应变量的差异在多大程度上由解释变量引起.
(附:,,,)
【答案】(1),,
(2)
(3),响应变量的差异有由解释变量引起.
【详解】(1),,
(2),
(3)由于,
响应变量的差异有由解释变量引起.
11.(24-25高二下·山东滨州·期末)已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
【答案】(1)分布列见解析,期望为2.4;
(2),该经验回归直线方程有价值.
【详解】(1)由已知,所以,,
的取值分别为3,1,,,

所以的分布列为
3 1
0.729 0.243
(2)由已知,
,则,
所以,
,则认为该经验回归直线方程有价值.
12.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期 10月1日 10月2日 10月3日 10月4日 10月5日
第x天 1 2 3 4 5
参观人数y 2.2 2.6 3.1 5.2 6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
【答案】(1),回归方程为
(2)的分布列见解析;
【详解】(1)依题意,,而,,,
则.
因为时线性相关程度高,所以y与x线性相关性很强,
可以用线性回归模型拟合.
,,
因此,回归方程为.
(2)记“甲从2号门出学校”为事件A,“甲从1号门进学校”为事件B,
“甲从2号门进学校”为事件C, “甲从3号门进学校”为事件D,
由题意可得,,,
,,,
由全概率公式得:
,同理乙、丙、丁从2号门出学校的概率也为,
为4人中从2号门出学校的人数,则,
,,
,,

故的分布列为:
0 1 2 3 4
所以.
13.(24-25高二下·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天) 1 2 3 4 5
订单数y(件) 13 21 45 55 66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
【答案】(1)
(2)①甲小组的线性回归模型拟合效果更好 ;②138件
【详解】(1)由题可知:
,,
,,
关于x的回归方程为.
(2)①由(1)知,从而有.
x 1 2 3 4 5
12 26 40 54 68



,从来看甲小组的线性回归模型拟合效果更好.
②当时,.预测第10天的订单数为138件.
14.(24-25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市 A B C D E
广告支出x 1 2 3 4 5
销售额W 4 9 14 18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
【答案】(1),相关性很强
(2),0.8
(3)满足一元线性回归模型的的假设,不满足一元线性回归模型的的假设.
【详解】(1)由题知,
0 1 2
1 5 7



相关系数,
接近于1,可以推断两个变量正线性相关,且相关性很强;
(2)因为销售额的方差52.4,
即,
所以,
化为,
解得(舍去),
所以,
因为回归直线方程为经过样本中心点,
把代入得,
销售量关于广告支出的回归直线方程为,
当时,代入得预测值,
而观测值,所以广告支出为5(万元)时销售额度的残差:(万元);
(3)由残差图,模型误差满足一元线性回归模型的的假设,
不满足一元线性回归模型的的假设.
【知识点解析】
1.独立性检验
(1)列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
总计
(2)独立性检验
利用随机变量(也可表示为) (其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
(3)独立性检验的一般步骤
①根据样本数据列出列联表;
②计算随机变量的观测值k,查下表确定临界值:
③如果,就推断“与有关系”,这种推断犯错误的概率不超过;
否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
【例题分析】
1.(24-25高二下·四川雅安·期末)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,根据形成的列联表,计算得到,根据小概率值的独立性检验(已知独立性检验中),下列结论正确的是( )
A.牛的毛色与角无关
B.牛的毛色与角无关,此推断犯错误的概率不超过0.05
C.牛的毛色与角有关
D.牛的毛色与角有关,此推断犯错误的概率不超过0.05
【答案】A
【详解】因为,所以牛的毛色与角无关.
故选:A.
2.(24-25高二下·广东广州·期末)根据分类变量X与Y的成对样本数据,计算得到.已知,依据的独立性检验,结论为( )
A.变量X与Y独立
B.变量X与Y独立,这个结论犯错误的概率不超过0.005
C.变量X与Y不独立
D.变量X与Y不独立,这个结论犯错误的概率不超过0.005
【答案】A
【分析】利用独立性检验规则来进行判断即可。
【详解】因为,所以没有充分的证据推断变量X与Y不相互独立,即认为变量X与Y独立,故BCD错误,A正确;
故选:A.
3.(24-25高二下·河南信阳·期末)调查某医院一段时间内婴儿出生的时间(白天与晚上)和性别(男与女)的关联性,对样本数据分析统计,计算得到,依据小概率值的独立性检验,下列说法正确的是( )(附:)
A.婴儿90%在白天出生
B.婴儿性别与出生时间无关联
C.有0.1的把握认为婴儿性别与出生时间有关联
D.婴儿性别与出生时间有关联,此推断犯错误的概率不大于0.1
【答案】D
【分析】求出并与比较即可求解.
【详解】因为,
依据小概率值的独立性检验,
所以婴儿性别与出生时间有关联,此推断犯错误的概率不大于0.1.
故选:D.
4.(24-25高二下·宁夏银川·阶段练习)为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
【答案】B
【详解】根据两个表中的等高条形图知,药物实验显示不服药与服药时患病差异较药物实验显示明显大,
所以药物的预防效果优于药物的预防效果,
故选:B.
5.(24-25高二下·广东东莞·期末·多选)根据分类变量x与y的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
附:
A.零假设为:分类变量x与y独立
B.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1
C.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
D.若所有样本数据都扩大为原来的10倍,根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
【答案】ABD
【详解】对A:零假设:分类变量x与y独立.是正确的,故A正确;
对B:因为,所以根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1,故B正确;
对C:因为,根据小概率值的独立性检验,我们不能拒绝零假设,即可以认为x与y独立.故C错误;
对D:根据,当所有样本数据都扩大为原来的10倍,的值夜变成原来的10倍,且,所以根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01,故D正确.
故选:ABD
6.(24-25高二下·湖北襄阳·期末·多选)炎炎夏日,许多城市发出高温预警,凉爽的某市成为众多游客旅游的热门选择.为了解来某市旅游的游客旅行方式与年龄是否有关,随机调查了100名游客,得到如下表格.零假设H0旅行方式与年龄没有关联,则下列说法中,正确的有( )
小于40岁 不小于40岁
自由行 38 19
跟团游 20 23
附:χ2=,其中.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
A.在选择自由行的游客中随机抽取一名,其小于40岁的概率为
B.在选择自由行的游客中按年龄分层随机抽样抽取6人,再从中随机选取2人做进一步的访谈,则2人中至少有1人不小于40岁的概率为
C.根据的独立性检验,推断旅行方式与年龄没有关联,且犯错误概率不超过0.01
D.根据的独立性检验,推断旅行方式与年龄有关联,且犯错误概率不超过0.05
【答案】BD
【详解】对于A,选择自由行的游客人数为,其小于40岁的概率是,故A错误;
对于B,选择自由行中小于40岁和不小于40岁的人数比为2:1,
则按年龄分层抽样抽取的6人中,有4人小于40岁,有2人不小于40岁,
设事件为“2人均小于40岁”,则2人中至少有1人不小于40岁的概率为,故B正确;
对于C,因为,
所以可推断旅行方式与年龄没有关联,但对零假设犯错误的概率是不可知的,故C错误;
对于D,因为,所以推断旅行方式与年龄有关联,且犯错误概率不超过0.05,故D正确.
故选:BD.
7.(24-25高二下·河南南阳·阶段练习)某校对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握判断是否喜欢抖音和性别有关,则调查人数中男生可能有 人.
附:
0.100 0.050 0.010
2.706 3.841 6.635
【答案】(答案不唯一)
【详解】由题意,设被调查的男女生为人,则男生喜欢抖音有人,女生喜欢抖音有人,
所以列联表如下:
喜欢抖音 不喜欢抖音 总计
男生
女生
总计
所以,则,
所以被调查的男生为,
又,则人数是5的整数倍,
所以大于等于45的5的整数倍都符合题意,即可能有人.
故答案为:(答案不唯一)
8.(2025·上海黄浦·三模)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人
0.050 0.010 0.001
3.841 6.635 10.828
参考数据及公式如下:参考公式:,其中.
【答案】48
【详解】设男生人数为,依题意可得列联表为
喜欢追星 不喜欢追星 总计
男生
女生
总计
根据小概率值的独立性检验,判断中学生追星与性别有关,
则,
由,解得.
由题意知,应为6的整数倍,
所以若根据小概率值的独立性检验,
判断中学生追星与性别有关,则男生至少有48人.
故答案为:48.
9.(24-25高二下·云南曲靖·期末)2025年,教育部推广“人工智能线上课程”试点应用.某中学随机抽取100名学生(男生与女生的人数之比为)对该线上课程进行评分(满分100分).规定:评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,已知评分不低于70分的频率为0.85.

(1)估计100名学生对人工智能线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“人工智能线上课程是否满意与性别有关”.
性别态度 满意 不满意 合计
男生
女生 10
合计 100
,其中.
0.10 0.05 0.025 0.010 0.005
2.706 3.841 5.024 6.635 7.879
【答案】(1)80
(2)列联表见解析,有的把握认为对“人工智能线上课程是否满意与性别有关”
【详解】(1)由已知得,解得,
又,解得,
评分的平均值为.
(2)不满意的学生人数为人,
完成列联表如下表:
态度性别 满意 不满意 合计
男生 25 35 60
女生 30 10 40
合计 55 45 100
则,
有的把握认为对“人工智能线上课程是否满意与性别有关”.
10.(25-26高三上·广东·开学考试)某校以“和经典相伴,与书香同行”为主题举行学习活动.为了解男女同学对该活动的感兴趣程度,对该校多位同学进行了调查,并将结果整理为如下列联表,其中为正整数.
参加 不参加 合计
男生
女生
合计
(1)当足够大时,估计该校任一不参加活动的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为是否参加该活动与性别有关,求的最小值.
附:
0.1 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
【答案】(1)
(2)
【详解】(1)设事件为“该校任一不参加活动的学生是男生”,由调查数据可知当足够大时,以频率估计概率可知该校任一不参加活动的学生是男生的概率.
(2)零假设为:是否参加活动与性别无关.
由题意可得,
若根据小概率值的独立性检验,认为是否参加该活动与性别有关,即不成立,
则,解得.
因为为正整数,则的最小值为10.
11.(24-25高二下·湖北武汉·期末)为了研究高二学生数学和物理成绩的相关情况,学校在高二学生中采用随机抽样的方法抽取了150名学生,调查他们平时的数学与物理成绩情况,统计数据如下.
数学成绩优秀 数学成绩不优秀 合计
物理成绩优秀 55 20 75
物理成绩不优秀 30 45 75
合计 85 65 150
(1)依据列联表判断,能否有99.9%的把握认为数学成绩优秀与物理成绩优秀有关?
(2)从调查的物理成绩不优秀的学生中,按照数学成绩是否优秀采用分层随机抽样的方法抽取15人.若从这15人中随机抽取2人,记X为数学成绩优秀的人数,求X的分布列及数学期望.参考公式:,其中.
参考数据:
0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
【答案】(1)能;
(2)分布列见解析,数学期望为.
【详解】(1)由题意可知,
由查表可得,由于,
所以能有的把握认为数学成绩优秀与物理成绩优秀有关.
(2)由于物理成绩不优秀的学生中,数学成绩优秀与数学成绩不优秀的人数比为,
所以采用分层抽样的方法抽取的15人中,数学成绩优秀的有6人,数学成绩不优秀的有9人,
可知可取0,1,2,

所以的分布列为
X 0 1 2
P
从而.
12.(2025·浙江宁波·模拟预测)某校在2024年开展了两次劳动基地除草耕地活动,首次活动有800名学生参加.活动结束后,经评估发现有70%的学生的劳动技能得到了提升.为进一步增强劳动教育效果,学校汲取首次活动的经验并进行改进,第二次活动面向未参加第一次活动的学生开展.不仅增加了辨别杂草种类、合理使用农具等具有挑战性的任务,还特邀农业专家进行现场指导.已知第二次活动吸引了1200名学生参加,且活动结束后,有960名学生的劳动技能得到了提升.
(1)补充完整下面的列联表;
劳动技能提升的学生人数 劳动技能未提升的学生人数 合计
首次活动
第二次活动
合计
(2)依据小概率值的独立性检验,能否认为该校第二次除草耕地活动中学生的劳动技能提升与活动改进有关?
(3)从参加第二次除草耕地活动的学生中按照劳动技能是否提升进行分层,用分层随机抽样的方法抽取20名学生进行意见调查,再从这20名学生中随机抽取3名进行深度访谈,求其中恰好有2名学生的劳动技能提升的概率.
附:,.
0.10 0.05 0.01
2.706 3.841 6.635
【答案】(1)列联表见详解
(2)能
(3)
【详解】(1)首次活动劳动技能提升的学生人数70%人;
首次活动劳动技能未提升的学生人数人;
第二次活动劳动技能提升的学生人数为人;
第二次活动劳动技能未提升的学生人数人,
劳动技能提升的学生人数 劳动技能未提升的学生人数 合计
首次活动 560 240 800
第二次活动 960 240 1200
合计 1520 480 2000
(2)零假设为
该校第二次除草耕地活动中学生的劳动技能提升与活动改进无关,

根据小概率值的独立性检验,推断不成立,
即该校第二次除草耕地活动中学生的劳动技能提升与活动改进有关,该推断犯错误的概率不超过.
(3)抽取的名学生中劳动技能得到提升的人数为人,抽取的名学生中劳动技能未得到提升的人数为人,
记从这20名学生中随机抽取3名进行深度访谈,其中恰好有2名学生的劳动技能提升为事件,则.
13.(25-26高三上·山西朔州·开学考试)小张水果店对出售的苹果按大小和色泽两项指标进行分类,最大横切面直径不小于70毫米则大小达标,着色度不低于90%则色泽达标,大小和色泽均达标的苹果为一级果;大小和色泽有一项达标另一项不达标的苹果为二级果;两项均不达标的苹果为三级果.已知小张购进了一批苹果,从中随机抽取200个进行检验,得到如下统计表格:
大小光泽 直径小于70毫米 直径不小于70毫米 合计
着色度低于90% 20 50
着色度不低于90% 120
合计 200
(1)完成上面的2×2列联表,依据小概率值的独立性检验,能否认为苹果的大小达标和色泽达标有关
(2)小张按苹果的等级用分层抽样的方法从样本中抽取10个苹果,再从中随机抽取4个,设X表示抽到的一级果的个数,求X的分布列和数学期望.
附:,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【答案】(1)2×2列联表见详解,有关;
(2)分布列见详解,数学期望为.
【详解】(1)2×2列联表如下:
大小光泽 直径小于70毫米 直径不小于70毫米 合计
着色度低于90% 20 30 50
着色度不低于90% 30 120 150
合计 50 150 200
零假设为:苹果的大小达标和色泽达标无关.
根据列联表中的数据,经计算得到
根据小概率值的独立性检验,我们推断不成立,即认为苹果的大小达标和色泽达标有关;
(2)按苹果的等级用分层抽样的方法从样本中抽取10个苹果,
则一级果:(个),二级果:(个),三级果:(个)
X的所有可能值为0,1,2,3,4,
所以,
,,,
所以X的分布列为:
X 0 1 2 3 4
P
所以.
14.(25-26高三上·湖北荆州·阶段练习)随着短剧在短视频平台的爆发式增长,为其输送内容创作动能的网络文学用户规模也持续增加,目前中国网络文学用户已超过整体网民数量的一半.为了解不同性别的网民对网络文学的喜欢情况,随机调查了200名网民,得到如下数据.
男性网民 女性网民 合计
喜欢网络文学 45 60 105
不喜欢网络文学 55 40 95
合计 100 100 200
(1)判断是否有99%的把握认为是否喜欢网络文学与性别有关;
(2)某网络文学平台组织网民进行文学挑战赛,分成甲、乙两组进行挑战,其规则如下:每次挑战时平台给出文学作品主题要求,甲组与乙组各选出一篇本组优秀作品参加挑战赛,然后由平台组织专家打分确定胜负.根据以往经验,甲组第1次挑战赛获胜的概率为 ,若甲组上一次挑战赛获胜,则下一次挑战赛获胜的概率为;若甲组上一次挑战没有获胜,则下一次挑战赛获胜的概率为,已知按此规则进行了多次挑战赛,每次挑战有且仅有1个组获胜.
(i)在进行了3次挑战赛后,求乙组获胜次数X的分布列与数学期望;
(ii)若第次挑战时甲组获胜的概率为,求的通项公式,并求出使的的最小值.
附 ,其中n=a+b+c+d.
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
【答案】(1)没有把握;
(2)(i)分布列见解析,数学期望为;(ii);6.
【详解】(1)根据列联表中的数据,得,
所以没有的把握认为是否喜欢网络文学与性别有关.
(2)(i)X的可能取值为0,1,2,3,
;;
;,
所以X的分布列为
X 0 1 2 3
P
.
(ii)依题意,,
则,而,
因此数列是首项为,公比为的等比数列,,
当为奇数时,,不合题意;
当为偶数时,,令,得,
当时,,当时,,又数列单调递增,则,
所以的最小值为6.
1.(24-25高二下·福建莆田·期末)下列图中,相关系数最大的是( )
A.B.C. D.
【答案】D
【详解】由图可知,AC选项的散点图呈现出一定的下降趋势,两变量为负相关,相关系数小于0,
BD选项的散点图呈现出一定的上升趋势,两变量为正相关,相关系数大于0,
而B选项的散点图,散点比较分散,D选项的散点图,散点紧密地聚集在一条直线附近,
因此D选项的相关系数最大.
故选:D.
2.(24-25高二下·天津·期末)下列说法中,正确的是( )
A.经验回归直线是由成对样本数据中的两点确定的
B.如果两个变量的相关程度越强,则相关系数越接近于1
C.残差平方和越小的模型,拟合的效果越好
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验:,可判断与有关联,此推断犯错误的概率不超过0.5%
【答案】C
【详解】对于A,经验回归直线是通过最小二乘法,使所有样本点到直线的误差平方和最小来确定的,
并非由成对样本数据中的两点确定,所有A错误;
对于B,如果两个变量的相关程度越强,当是正相关时,相关系数越接近于1;
当是负相关时,相关系数越接近于,并非只接近1,所以B错误;
对于C,残差平方和是衡量回归模型拟合效果的一个重要指标,残差平方和越小,
说明模型对数据的拟合效果越好,所以C正确;
对于D,在独立性检验中,计算得到,而,
因为,所以不能推断出犯错误的概率不超过0.5%,所以D错误.
故选:C.
3.(24-25高二下·山东枣庄·期末)下列四组成对数据:①,,,,;②,,,,;③,,,,;④,,,,.其中样本相关系数最小的是( )(附:样本相关系数)
A.① B.② C.③ D.④
【答案】C
【详解】对于①,数据均在上,故样本相关系数为1,
对于③,数据均在上,故样本相关系数为-1,
对于②,可看出其数据为正相关,故样本相关系数大于0,
对于④,显然所有数据无法落在某一个一次函数上,故,
事实上,

其中,故,
故,
综上,样本相关系数最小的是③.
故选:C
4.(25-26高三上·湖北·开学考试)已知某企业对新品按事先拟定的价格进行试销,得到以下数据
单价/元 40 50 60 70 80 90
/件 45 39 38 35 30 23
由表中数据,求得经验回归方程为,下列说法错误的是(  )
A.产品的销售量和单价呈负相关
B.该经验回归直线过点
C.样本点的残差为
D.当单价定为100元时,销量估计为21件
【答案】C
【详解】由线性回归方程中的回归系数,可知产品的销售量和单价呈负相关,故选项A正确;
由表中数据得,,所以该经验回归直线过点,故选项B正确;
由得,解得,所以.
当时,所以样本点的残差为,故选项C错误;
当时,所以当单价定为100元时,销量估计为21件,故选项D正确.
故选:C.
5.(24-25高二下·黑龙江·期中·多选)下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
【答案】BCD
【详解】因为相关系数绝对值越接近1两个变量的线性相关程度越强,故A选项错误.
因为决定系数越接近0,表示模型对数据的拟合效果越差,故B选项正确.
因为回归直线一定经过样本均值点,故C选项正确.
因为,则没有充分证据推断不成立,即认为与有无,故D选项正确.
故选:BCD
6.(24-25高二下·广东·期末·多选)两个具有相关关系的变量的一组数据为,,…,,其经验回归方程为,记,,决定系数为;若将数据调整为,,…,,其经验回归方程为,记,决定系数为,则( )
附:,,
A. B. C. D.
【答案】BC
【详解】,А错误;
的计算中,数据不变,也不变,所以不变,B正确;
,C正确;
由于,变成了,,
,从而,都不变,所以,D错误.
故选:BC
7.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份 7 8 9 10 11 12
销售量 11 12 14 15 18 20
根据表中所给数据,可得相关系数 .(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
【答案】
【详解】由已知可得,,

则,

所以,.
故答案为:.
8.(24-25高二下·江苏·阶段练习)某软件科技公司近8年的年利润额y与投入的年研发经费x(单位:千万元)如表所示.
x 3 4 5 6 6 7 8 9
y
根据散点图可以认为x与y之间存在线性相关关系,且相关系数,用最小二乘法求线性回归方程(,用分数表示), .
附:(1)参考数据:,.
(2)参考公式:,.
【答案】
【详解】,

由条件可知,
得,
所以,
故答案为:.
9.(24-25高二下·山西吕梁·期末)根据历史资料显示,某种疾病的自然痊愈率为20%.为深入研究该种疾病的痊愈情况与患者身体素质指标的关系,研究人员收集了部分患者的数据,其中8名患者的身体素质综合评分x(满分100分)和痊愈所需时间y(天)的数据如下表所示:
编号 1 2 3 4 5 6 7 8
x 40 50 60 70 80 90 30 20
y 30 25 20 15 10 8 36 40
(1)根据表中数据,得到痊愈所需时间和身体素质综合评分近似为线性相关关系,建立y关于x的一元线性回归模型(的计算结果精确到小数点后2位);
(2)根据(1)所求的经验回归方程,计算2号患者痊愈时间的残差;
(3)某药企针对该疾病研发了一种新药,认为该药可将治愈率提高到80%.医院为检验其疗效,把此药给6个病人服用,试验方案为:若这6个病人中至少有3人痊愈,则认为这种药有效;否则认为这种药无效.求经此试验认定该药无效的概率p,并根据p值的大小解释试验方案是否合理.
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘法估计公式分别为,.
【答案】(1)
(2)
(3),解释见解析
【详解】(1),






(2)把代入得
所以这位患者的痊愈天数的预测值为25.4
所以2号患者痊愈时间的残差为;
(3)将6个病人服用新药视为6重伯努利试验,在每次试验中,每个病人痊愈的概率为0.8,且每个病人是否痊愈是相互独立的.
设X表示这6个病人中痊愈的人数,则,
设“经过试验该药被认定无效”,事件B等价于,
则.
由题意可知,如果新药是有效的,则当痊愈的病人数不超过2人时,认定新药无效,此时作出了错误的判断.
因为作出错误判断的概率很小,属于小概率事件,所以试验方案是合理的.
10.(23-24高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1 5 7 8 9
2 3 6 8 11
0.7 1.1 1.8 2.1 2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和4.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
【答案】(1),
(2)模型②拟合效果更好,11.94万件
【详解】(1)由题知,
所以,
所以,,
所以模型①的经验回归方程为,
由,两边取自然对数可得,即,
所以,,
所以模型②的经验回归方程为
(2)因为,即②的残差平方和较小,所以,模型②的拟合效果更好.
所以当时,,
即当年投入金额为10万元时的年销售量的估计值为11.94万件.
11.(24-25高二下·上海·阶段练习)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20 66 770 200 14
460 4.20 3125000 0.308 21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元 (结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
【答案】(1)模型②;
(2)(i)(ⅱ)27.1亿元
【详解】(1)由题意表格数据得,
同理,
∵0.86<0.91,即,
则从相关系数的角度,选择模型②的拟合程度会更好.
(2)(i)由(1)得,模型②,可建立关于x的线性回归方程,
则,又,
∴,∴,
∴,即.
(ii)由(i)得,
要使下一年销售额达到80亿元,即,,
∴,解得,
故下一年销售额达到80亿元,预测下一年的研发资金投入量是27.1亿元.
12.(24-25高二下·山西·期末)自2020年以来,某地区新能源产值规模呈快速增长态势,下表给出了近5年该地区的新能源产值(单位:亿元).
年份 2020 2021 2022 2023 2024
年份编号 1 2 3 4 5
产值 1.5 2.5 3.4 4.9 7.8
(1)若用作为回归模型,且,求此模型的方程及其决定系数(精确到0.01);
(2)若用作为回归模型,求此模型的方程;
(3)已知回归模型的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的新能源的产值(精确到0.01).
参考数据:
3 4.02 1.24 75.3 104.91 16.16 22.54 1.1 1.5 11.4
附:(1)上表中;
(2)对于一组数据,其经验回归方程为,

决定系数.
【答案】(1),0.93
(2)
(3)拟合效果更好,12.54
【详解】(1)由题意得,
,故此模型的方程为,

.
(2)令,则,


故此模型的方程为.
(3)拟合效果更好,
当时,即预测2025年该地区的新能源的产值为.
13.(2025·江苏徐州·模拟预测)某品牌新能源汽车在某城市2024年1月至5月的销售量如下表所示:
月份x 1 2 3 4 5
销售量y/辆 32 48 63 80 107
(1)求y关于x的经验回归方程;
(2)用(1)中所求的方程来拟合数据时,定义残差的绝对值大于3的一对数据为“异常数据”,现从这5对数据中任取3对做残差分析,求取到的数据中“异常数据”的对数X的概率分布和数学期望.
附:经验回归直线中斜率和截距的最小二乘估计公式分别为:.
【答案】(1);
(2)分布列见解析;期望为.
【详解】(1)由表格可得,,

所以,
故y关于x的经验回归方程是.
(2)当时,,残差的绝对值为;
当时,,残差的绝对值为;
当时,,残差的绝对值为;
当时,,残差的绝对值为;
当时,,残差的绝对值为.
所以“异常数据”为第四对和第五对共2对数据,
故“异常数据”的对数X的所有可能取值为0,1,2,

所以X的概率分布如下:
X 0 1 2
P
数学期望.
14.(25-26高三上·广东深圳·开学考试)某学校号召学生参加“每天锻炼1小时”活动,为调查学生课后体育锻炼的情况,学校采用简单随机抽样的方法抽取80名学生,得到了表中数据:
不经常锻炼 经常锻炼 合计
男生 10 30 40
女生 20 20 40
合计 30 50 80
(1)根据小概率值的独立性检验,能否认为性别因素与学生锻炼的经常性有关系?
(2)根据上表,从经常锻炼的学生中利用分层抽样的方法抽取5人,再从这5人中随机选取3人,设这3人中女生的人数为,求的分布列和期望.
附:.
【答案】(1)不能认为性别因素与同学锻炼的经常性有关系
(2)分布列见详解,
【详解】(1)零假设为:性别因素与锻炼的经常性无关,
因为,所以,,,,,
则,则,
,,,,所以,
则,
根据小概率值的独立性检验为6.635,由,
因此可以认为成立,即不能认为性别因素与同学锻炼的经常性有关系.
(2)经常锻炼的学生为50人(男生30人,女生20人),按比例抽取5人,其中男生抽取3人,女生抽取2人.
则的可能取值为:0,1,2,则:
,,,
所以的分布列为:
0 1 2
15.(24-25高二下·四川资阳·阶段练习)一家调查机构在某地随机抽查1000名成年居民对新能源车与燃油车的购买倾向,得到如下表格:
倾向于购买燃油车 倾向于购买新能源车 合计
女性居民 150 250 400
男性居民 350 250 600
合计 500 500 1000
(1)能否在犯错误不超过1%的前提下认为对新能源车与燃油车的购买倾向存在性别差异?
(2)从倾向于购买燃油车的居民中按性别采用分层随机抽样的方法抽取10人,再从中抽取4人进行座谈,求在有女性居民参加座谈的条件下,恰有2名男性居民也参加座谈的概率.
(3)从所有参加调查的男性居民中按购买这两种车的倾向性,采用分层随机抽样的方法抽出12人,再从中随机抽取3人进行座谈,记这3人中倾向于购买新能源车的居民人数为,求的分布列与数学期望.
参考公式:,
0.1 0.05 0.01 0.005
2.706 3.841 6.635 7.879
【答案】(1)能
(2)
(3)分布列见解析,
【详解】(1)因为,
所以在犯错误不超过1%的前提下认为对新能源车与燃油车的购买倾向存在性别差异.
(2)由表格可得倾向于购买燃油车的居民中男、女性别比为7:3,
所以抽取男性7人,女性3人,再从中抽取4人进行座谈,有女性居民记为事件,则,恰有2名男性居民记为事件,则,
所以在有女性居民参加座谈的条件下,恰有2名男性居民也参加座谈的概率为.
(3)在所有参加调查的男性居民中按购买这两种车的倾向性,采用分层随机抽样的方法抽
12人,抽样比为50:1,可得抽取结果如下表:
倾向于购买燃油车 倾向于购买新能源车
男性居民 7 5
再从中随机抽取3人进行座谈,记这3人中倾向于购买新能源车的居民人数为,
可取0,1,2,3,可求出,,
,,
的分布列如下:
0 1 2 3
数学期望.统计与概率:线性回归、非线性回归、相关性分析与误差分析、独立性检验复习讲义
考点目录
线性回归 非线性回归
相关性分析与误差分析 独立性检验
【知识点解析】
1.散点图
每个点对应的一对数据,称为成对数据.这些点构成的图称为散点图.
2.曲线拟合
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个大致趋势,这种趋势通常可以用一条光滑的曲线来近似地描述.这样近似描述的过程称为曲线拟合.
若在两个变量和的散点图中,所有点看上去都在一条直线附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合.
3.最小二乘法
对于给定的两个变量和,可以把其成对的观测值、、...、表示为平面直角坐标系中的个点.现在希望找到一条直线,使得对每一个,由这个直线方程计算出来的值与实际观测值的差异尽可能小.为此,希望达到最小.换句话说,我们希望、的取值能使上式达到最小,这个方法称为最小二乘法.
4.一元线性回归方程
(1) 若变量和具有线性相关关系,有个样本数据,则回归方程
期中,.
其中,称为样本点的中心.
(2)线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量.
【例题分析】
1.(2025·江西新余·模拟预测)某品牌啤酒厂,进行市场调研,发现该品牌啤酒在某地的月销量随着每瓶啤酒的定价不同而发生变化,连续调研5个月得到的数据如下表所示:
第1个月 第2个月 第3个月 第4个月 第5个月
单价/元 6 6.5 7 7.5 8
销量/万瓶 90 85 80 75 70
根据以上数据得到与具有较强的线性关系,若用最小二乘估计得到经验回归方程,则( )
A.相关系数 B.点一定在经验回归直线上
C. D.当每瓶啤酒为9.5元时,月销量一定为50万瓶
2.(24-25高二下·山东济宁·期末)已知由样本数据组成的一个样本,得到经验回归方程为,且,去除两个样本点和后,新得到的经验回归直线斜率不变,则新得到的经验回归方程为( )
A. B. C. D.
3.(24-25高二下·甘肃临夏·期末)某学校一同学研究温差与本校当天新增感冒人数y(人)的关系,该同学记录了5天的数据:
x 5 6 8 9 12
y 17 a 25 28 35
已知数据的样本中心点为,经过拟合,发现基本符合回归直线方程,则下列结论错误的是( )
A. B. C. D.时,
4.(24-25高二下·吉林·期末)某厂进行技术改造后,生产产品过程中记录的时间x(单位:天)与相应的生产能耗y(单位:吨)的几组数据,如下表所示.若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
时间x 1 2 3 4 5
生产能耗y/吨 5 4.5 4 3.5 2.5
A.由题中数据可知,变量y与x负相关 B.线性回归方程中
C.当时,残差为- D.可以预测当时能耗约为2.2吨
5.(24-25高二下·陕西西安·期末·多选)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,则下列说法正确的是( ).
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间呈现负相关关系 B.
C.可以预测,当时,y约为2.6 D.由表格数据知,该回归直线必过点
6.(24-25高二下·山东威海·期末·多选)某位同学10次考试的物理成绩与数学成绩如下表所示:
数学成绩x 76 82 72 87 93 78 89 66 81 76
物理成绩y 80 87 75 86 100 79 93 68 85 77
已知y与x线性相关,计算可得,,回归直线方程为,则( )
A.y与x正相关
B.
C.相关系数
D.若该同学第11次考试的数学成绩为80,物理成绩为83,则以这11次成绩重新计算,得到的回归直线方程不变
7.(24-25高二下·新疆乌鲁木齐·期末)某饮料店的日盈利(单位:百元)与当天平均气温(单位:℃)之间有如下数据:
x/℃ 0 1 2
y/百元 5 4 2 2 1
由表中数据可得回归方程中.试预测当天平均气温为℃时,饮料店的日盈利约为 百元.
8.(25-26高三上·内蒙古包头·阶段练习)已知电商平台统计的连续5天某商品的点击量(单位:万次)如下:
样本号 1 2 3 4 5
第天 1 2 3 4 5
点击量 2.4 2.7 4.1 6.4 7.9
并计算得,,,,.建立点击量关于天数的线性回归方程,预测第6天的点击量为
9.(24-25高二下·河南商丘·期末)某兴趣小组研究发现昼夜温差变化的大小与患感冒人数之间具有较强的线性相关关系,该兴趣小组在惠民医院抄录了2025年2~5月份每月5日的昼夜温差情况以及附近的居民因患感冒到惠民医院就诊的人数,得到如下数据:
日期 2月5日 3月5日 4月5日 5月5日
昼夜温差 11 13 12 8
因患感冒就诊人数(人) 25 29 26 16
(1)求因患感冒到惠民医院就诊的人数关于昼夜温差的线性回归方程;
(2)如果8月5日昼夜温差是时,试预测因患感冒到惠民医院就诊的人数(精确到整数).
附:线性回归直线中,;
10.(24-25高二下·吉林白城·阶段练习)花旗银行于2024年12月发布的《人工智能机器人的崛起》报告,深入剖析了AI机器人领域的技术突破、市场机遇与挑战.这份报告传递了一个清晰的信号:AI机器人正在从实验室和工厂加速走向我们的日常生活,预计到2035年将有13亿台,2050年更将达到40亿台.某人工智能公司先后共开发七款人工智能类产品(代码x为1~7),其综合评分y如下表所示:
代码x 1 2 3 4 5 6 7
综合评分y(单位:分) 5.8 6.6 7.2 8.8 9.6 10.4 11.8
(1)根据表中的数据,可推断出变量y与x之间具有线性相关关系,请预测该公司即将研发成功的第八款人工智能类产品的综合评分;
(2)把综合评分不超过8分的人工智能类产品叫做“初级品”,从已开发的七款人工智能类产品中任取2款,X表示取到“初级品”的个数,求X的分布列和数学期望.
参考数据:,.
参考公式:回归直线方程,其中,.
11.(24-25高二下·山东临沂·期末)我国新能源汽车迅速崛起,正以颠覆性技术重塑传统交通的格局,成为推动绿色革命的核心引擎.某品牌新能源汽车统计了2025年前5个月的月销量(单位:万辆)与月份之间的关系,得到如下数据:
月份 1 2 3 4 5
月销量(单位:万辆) 2.89 3.22 3.82 4.34 5.41
(1)根据上述数据可知与线性相关,试求出关于的经验回归方程,并预测该品牌新能源汽车2025年6月份的销量;
(2)为刺激消费,省出台了以下补贴政策:每购买一辆新能源车,发放8000元补贴.若省甲、乙两人近期购买该新能源汽车的概率分别为,其中,求该省对甲、乙两人补贴总金额期望值的取值范围.
参考公式:经验回归方程为,
其中,.参考数据:,.
12.(24-25高二下·甘肃酒泉·期末)在某种实验中,对变量依次得到五组观测数据如下表所示.
数据编号 1 2 3 4 5
x 10 11 13 12 8
y 23 24 30 27 16
该实验小组确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是编号相邻的2组数据的概率;
(2)若选取的是编号为1和5的两组数据,试根据剩余3组数据求出y关于x的线性回归方程;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为求得的线性回归方程是可靠的,试问:(2)中所得的线性回归方程是否可靠?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为,.
13.(24-25高二下·宁夏银川·期末)由国家统计局提供的数据可知,2017年至2023年中国居民人均可支配收入(单位:万元)的数据如下表:
年份 2017 2018 2019 2020 2021 2022 2023
年份代号 1 2 3 4 5 6 7
人均可支配收入 1.65 1.83 2.01 2.19 2.38 2.59 2.82
(1)求关于的线性回归方程(系数精确到0.01);
(2)利用(1)中的回归方程,分析2017年至2023年中国居民人均可支配收入的变化情况,并预测2025年中国居民人均可支配收入.
附注:参考数据:.参考公式:回归直线方程的斜率和截距的最小二乘估计公式分别为:,.
14.(24-25高二下·贵州毕节·期末)2024年1月24日,云南省统计局发布数据,2023年度云南省生产总值(GDP)为30021亿元,年度GDP首次突破3万亿元.以下是2020年至2024年云南省生产总值表.
年份 2020年 2021年 2022年 2023年 2024年
年份代码x 1 2 3 4 5
生产总值y(亿元) 24555 27146 28954 30021 31534
(1)根据以上数据,在答题卡上画出散点图,并判断成对数据是否线性相关?
(2)建立生产总值y(亿元)关于年份代码x的经验回归方程(,精确到1),并预测2025年度云南省生产总值.
参考公式:.
【知识点解析】
1.非线性回归方程的求解
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的非线性回归模型.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
2.常见的变换
(1)已知函数,令,得.
(2)已知函数,令,得.
(3)已知函数,左右同时取的指数,得,令,得.
(4)已知函数,左右同时取的对数,得,令,得.
(5)已知函数,左右同时取的对数,得,令,得.
(6)已知函数,左右同时取的对数,得,令,得.
(7)已知函数,左右同时取的对数,得,令,,得.
【例题分析】
1.(2025·河南·模拟预测)已知变量与变量的关系可以用模型(,为常数)拟合,设,变换后得到一组数据如下:
2 3 4 5 6
1.02 1.20 1.42 1.62 1.84
由上表可得经验回归方程为,则( )
A.0.206 B. C.0.596 D.
2.(24-25高二下·江西抚州·期中)细胞在适宜环境下的繁殖通常符合类型的模型,假设某种细胞的初始数量为,在理想条件下,每个细胞单位时间的繁殖率一定,经过个单位时间后,细胞总数(万个)会呈指数增长.设,变换后得到线性回归方程,已知该回归方程的样本中心为,则( )
A. B.0.596 C. D.0.206
3.(24-25高二下·辽宁大连·期中)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月 1 2 3
繁殖数量
A.百只 B.百只 C.百只 D.百只
4.(24-25高二下·福建泉州·阶段练习)已知随机变量呈现非线性关系.为了进行线性回归分析,设,,利用最小二乘法,得到线性回归方程,则变量的估计值有( )
A.最大值为 B.最小值为 C.最大值为 D.最小值为
5.(23-24高二下·广东肇庆·期末)用模型拟合一组数据,令,将模型转化为经验回归方程,则 .
6.(24-25高三上·广东江门·阶段练习)已知,之间的一组数据:若与满足经验回归方程,则此曲线必过点 .
x
y
7.(2025·广东广州·模拟预测)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表.
月份x 1 2 3 4 5
销售量y(万件) 4.9 5.8 6.8 8.3 10.2
该公司为了预测未来几个月的销售量,建立了y关于x的回归模型:.
(1)根据所给数据与回归模型,求y关于x的回归方程(的值精确到0.1);
(2)已知该公司的月利润z(单位:万元)与x,y的关系为,根据(1)的结果,问该公司哪一个月的月利润预报值最大?
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
8.(24-25高二下·山东潍坊·期中)某科技公司研发了一种新型电池,测试该新型电池从满电状态,每使用1小时其电量衰减情况,得到剩余电量y(库仑)与使用时间t(小时)的散点图,其中t为正整数.
(1)利用散点图,判断与哪个更适宜作为回归模型?(给出判断即可,不必说明理由)
(2)在(1)的条件下,
(i)求出剩余电量y与使用时间t的回归方程(精确到0.01);
(ⅱ)当电池剩余电量低于0.3库仑时,电池报警提示需要充电,否则影响电池使用寿命,请利用所求回归方程,预判该新型电池从满电状态使用12小时后,是否会报警提示,并说明理由.
参考数据:记
45 12.02 1.55 20.20 285 45.07 3.42
参考公式:.
9.(24-25高二下·山东·阶段练习)为了促进锂电产业发展,市创新研究院课题组对企业研发经费的投入和企业当年的销售收入的关系进行了研究,他们收集了上一年不同企业销售收入y(单位:10万元)与一定范围内的研发经费x(单位:10万元)的数据,根据收集的13组观测数据,得到如下的散点图,分别利用或建立y关于x的回归方程,令,得到如下数据,且与的相关系数分别为,,且.
10.15 108.40 3.04 0.16
14.00 -2.10 11.67 0.21 21.22
(1)用相关系数说明哪种模型建立y与x的回归方程更合适;
(2)根据(1)的结果及表中数据,建立y关于x的回归方程;
(3)已知企业的利润z满足,试根据回归方程求出企业利润的最大值.
参考数据和公式:,,,对于一组数据,其回归直线方程的斜率和截距的最小二乘法估计分别为,,相关系数.
10.(24-25高二下·广东深圳·阶段练习)有一种速度叫中国速度,有一种骄傲叫中国高铁.高铁可以说是中国的一张行走的名片.截至2020年,中国高铁运营里程已经达到3.9万千米.2013年至2020年中国高铁每年的运营里程统计如下表,它反映了中国高铁的飞速发展.
年份 2013 2014 2015 2016 2017 2018 2019 2020
年份代码x 1 2 3 4 5 6 7 8
运营里程y/万千米 1.3 1.6 1.9 2.2 2.5 2.9 3.5 3.9
根据以上数据,回答下面的问题.
(1)甲同学用曲线来拟合,并算出相关系数;乙同学用曲线来拟合,并算出转化为线性回归方程所对应的相关系数.请判断哪一个更适合作为y关于x的回归方程类型,并说明理由.
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程.(系数精确到0.1)
(3)请你利用得到的模型,预测2030年中国高铁的运营里程将达到多少万千米.
参考公式:用最小二乘法求线性回归方程的系数,公式为;
参考数据:,令,.
11.(24-25高二下·安徽合肥·期末)“十四五”是我国全面建成小康社会、实现第一个百年奋斗目标之后,乘势而上开启全面建设社会主现代化国家新征程、向第二个百年奋斗目标进军的第一个五年,实施时间为2021年到2025年,某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了如下函数模型:,其中λ,t均为常数,e为自然对数的底数.令,经计算得如下数据:,,问
(1)建立y关于x的回归方程(系数精确到0.01);
(2)若希望2025年盈利额y为1000亿元,请预测2025年的研发资金投入额x约为多少亿元?(结果精确到0.01)
附:回归直线中:
参考数据:.
12.(24-25高二下·四川广安·期中)近期国内疫情反复,对我们的学习生活以及对各个行业影响都比较大,某房地产开发公司为了回笼资金,提升销售业绩,让公司旗下的某个楼盘统一推出了为期10天的优惠活动,负责人记录了推出活动以后售楼部到访客户的情况,根据记录第一天到访了12人次,第二天到访了22人次,第三天到访了42人次,第四天到访了68人次,第五天到访了132人次,第六天到访了202人次,第七天到访了392人次,根据以上数据,用表示活动推出的天数,表示每天来访的人次,绘制了以下散点图.

(1)请根据散点图判断,以下两个函数模型与(c,d均为大于零的常数)哪一个适宜作为人次关于活动推出天数的回归方程类型?(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及下表中的数据,求关于的回归方程(保留两位有效数字),并预测活动推出第8天售楼部来访的人次,参考数据:其中,.
线性回归方程:,其中,.
1.84 58.55 6.9
13.(24-25高二下·辽宁·期中)已知与及与的成对数据如下,且关于的回归直线方程为,
(1)求关于的回归直线方程;
(2)由散点图发现可以用指数型函数模型拟合与的关系,请建立关于的回归方程(,的值精确到);
(3)又得到一组新数据,,根据这对数据残差的绝对值的大小判断(1)、(2)两个方程哪个拟合效果更好.
参考数据:
其中,.
参考公式:对于一组数据,,,,
其回归直线方程为,其中,.
【知识点解析】
1.刻画回归效果的方式
方式方法 计算公式 刻画效果
决定系数 越接近于,表示回归的效果越好
相关系数 越接近于,相关性越强
残差图 称为相应于点的残差, 残差点均匀地落在水平的带状区域中,说明选用的模型比较合适. 其中这样的带状区域的宽度越窄,说明模型拟合精确度越高
残差平方和 残差平方和越接近于,模型的拟合效果越好
2.常见变换
(1). (2).
(3).
【例题分析】
1.(2025·黑龙江哈尔滨·三模)为了研究变量对变量的影响,对变量和变量的观测数据(,,,)进行研究,计算得到,,若与满足一元线性回归模型,是与之间的随机误差,则参数的最小二乘估计为( )
A. B. C. D.
2.(24-25高二下·广东深圳·期末)某智能机器人公司从某年起7年的利润情况如下表所示,y关于x的回归直线方程是,则该智能机器人公司第4年利润的残差是( )
第x年 1 2 3 4 5 6 7
利润y/亿元 m
A.亿元 B.亿元 C.亿元 D.亿元
3.(24-25高二下·贵州安顺·期末)下面是不同成对数据的散点图,从左到右对应的样本相关系数分别是,其中最大的是( )
A. B.
C. D.
4.(24-25高二下·甘肃临夏·期末)已知10个成对数据的散点图如图所示,并对进行线性回归分析.若在此图中去掉点后,再次对进行线性回归分析,则下列说法正确的是( )
A.相关系数变大 B.变量与的线性相关程度变低
C.相关系数变小 D.变量与呈负相关
5.(24-25高二下·广东江门·期末·多选)下列说法正确的是( )
A.利用进行独立性检验时,的值越大,说明有更大的把握认为两个分类变量独立
B.在残差图中,残差点分布的带状区域的宽度越窄,其模型拟合效果越好
C.样本相关系数r的大小可以反映成对样本数据之间线性相关的程度,当r越小,成对样本数据的线性相关程度越弱
D.用决定系数来比较两个模型的拟合效果.越大,表示残差平方和越小,即模型的拟合效果越好
6.(24-25高二下·黑龙江佳木斯·期末·多选)下列说法正确的是( )
A.决定系数越大,表示残差平方和越大,即模型的拟合效果越差
B.经验回归方程相对于点的残差为
C.根据分类变量x与y的成对样本数据,计算得到,则依据的独立性检验,可以认为“x与y没有关联”
D.样本相关系数r的绝对值越接近1,成对样本数据的线性相关程度越强
7.(2025·广东汕头·一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是 .(填“甲”或“乙”或“丙”)
8.(2025·山西·模拟预测)A市某个景点自从取消门票实行免费开放后,迅速成为网红打卡点,不仅带动了市淡季的旅游,而且优化了旅游产业的结构.下表是该景点免费开放后前五个月的打卡人数(万人)与第个月的数据:
1 2 3 4 5
23.1 37.0 62.1 111.6 150.8
根据表中数据可用一元线性回归模型刻画变量与变量之间的线性相关关系,且回归方程中的,则相关系数 (精确到0.01).
参考公式:相关系数.回归方程中斜率的最小二乘法估计公式为;
参考数据:,,,,.
9.(24-25高二下·青海海南·期末)一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:
月份 1月 2月 3月 4月
月广告费用(万元) 3 4 5 6
月销量(万件) 5 6 8 9
已知与线性相关.
(1)求关于的经验回归方程;
(2)求与的相关系数(精确到0.01).
参考公式:回归直线方程为,其中,.
相关系数.
10.(24-25高二下·河北石家庄·期末)一组实验数据如下:
2 5 8 9 11
12 10 8 8 7
(1)根据表中数据,计算,.
(2)根据表中数据计算样本相关系数.(保留两位小数).
(3)由数据用最小二乘法可得线性回归方程为,统计学中常用决定系数刻画回归效果,例如假设,就说明响应变量的差异有由解释变量引起.请计算本题的(保留两位小数),并指出本题中响应变量的差异在多大程度上由解释变量引起.
(附:,,,)
11.(24-25高二下·山东滨州·期末)已知某产品的一个零件在甲工厂生产,由于设备老化,甲工厂生产的零件次品率为0.1.
(1)为了解甲工厂生产情况,从生产的所有零件中随机抽取3件,记这3件产品中正品与次品的个数分别为X,Y,记随机变量,求的分布列及;
(2)为降低产品次品率,甲工厂进行了技术改进,从改进后第1个月开始连续收集5个月的观测数据,用表示改进后的第i个月,用(单位:%)表示改进后第i个月的次品率,其中,利用最小二乘法得到经验回归直线方程为,求相关系数r(精确到0.01),并判断该经验回归直线方程是否有价值.
附:①.
②,若,则认为该经验回归直线方程有价值.
③.
12.(24-25高二下·湖南衡阳·期末)某学校校庆时统计连续5天进入学校参加活动的校友数(单位:千人)如下:
日期 10月1日 10月2日 10月3日 10月4日 10月5日
第x天 1 2 3 4 5
参观人数y 2.2 2.6 3.1 5.2 6.9
(1)由上表数据看出,可用线性回归模型拟合y与x的关系,请用相关系数r加以说明(保留小数点后两位);(若,则认为y与x的线性相关性很强),并求出y关于x的线性回归方程;
(2)校庆期间学校开放1号门、2号门和3号门供校友出入,校友从1号门、2号门和3号门进入学校的概率分别为、、,且出学校与进学校选择相同门的概率为,选择与人校不同两门的概率各为.假设校友从1号门、2号门、3号门出入学校互不影响,现有甲、乙、丙、丁4名校友于10月1日回母校参加活动,设X为4人中从2号门出学校的人数,求X的分布列、期望及方差.
附:参考数据:,,,,.
参考公式:回归直线方程,其中,.
相关系数.
13.(24-25高二下·广东东莞·期末)在科技日新月异的今天,无人驾驶网约车正逐渐成为出行领域的新宠,根据统计数据显示,某区域过去5天的订单数如下:
日期x(天) 1 2 3 4 5
订单数y(件) 13 21 45 55 66
为了进一步了解订单数的变化情况,甲乙两个数学学习小组分别进行了研究,
(1)甲小组决定用线性回归模型进行拟合,求此时y关于x的经验回归方程;
(2)乙小组采用非线性回归模型进行拟合,求得y关于x的经验回归方程为,并计算出决定系数,
①根据回归模型的决定系数,说明哪个小组的模型拟合效果更好;
②用①中选择的模型预测该区域第10天的订单数(结果保留整数).
附:,;决定系数.参考数据:
14.(24-25高二下·广东广州·期末)为了研究广告支出与销售额的关系,现随机抽取5家超市作为样本,得到其广告支出x(单位:万元)与销售额W(单位:万元)数据如下:
超市 A B C D E
广告支出x 1 2 3 4 5
销售额W 4 9 14 18
(1)当时,根据表中样本数据,计算相关系数r,并推断它们的相关程度(保留两位小数);
(2)根据表中样本数据,用最小二乘法得到销售额W关于广告支出x的回归直线方程为,销售额W的方差为52.4,求的值,并计算广告支出为5(万元)时销售额的残差;
(3)收集更多变量和的成对样本数据,由一元线性回归模型得到经验回归模型,对应的残差如图所示,则模型误差是否满足一元线性回归模型的与的假设(直接写出结果).
附:相关系数,回归系数,参考数据:.
【知识点解析】
1.独立性检验
(1)列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
总计
总计
(2)独立性检验
利用随机变量(也可表示为) (其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
(3)独立性检验的一般步骤
①根据样本数据列出列联表;
②计算随机变量的观测值k,查下表确定临界值:
③如果,就推断“与有关系”,这种推断犯错误的概率不超过;
否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
【例题分析】
1.(24-25高二下·四川雅安·期末)为了验证牛的毛色(黑色、红色)和角(有角、无角)这两对相对性状是否相关,某学院进行了一次数据统计,根据形成的列联表,计算得到,根据小概率值的独立性检验(已知独立性检验中),下列结论正确的是( )
A.牛的毛色与角无关
B.牛的毛色与角无关,此推断犯错误的概率不超过0.05
C.牛的毛色与角有关
D.牛的毛色与角有关,此推断犯错误的概率不超过0.05
2.(24-25高二下·广东广州·期末)根据分类变量X与Y的成对样本数据,计算得到.已知,依据的独立性检验,结论为( )
A.变量X与Y独立
B.变量X与Y独立,这个结论犯错误的概率不超过0.005
C.变量X与Y不独立
D.变量X与Y不独立,这个结论犯错误的概率不超过0.005
3.(24-25高二下·河南信阳·期末)调查某医院一段时间内婴儿出生的时间(白天与晚上)和性别(男与女)的关联性,对样本数据分析统计,计算得到,依据小概率值的独立性检验,下列说法正确的是( )(附:)
A.婴儿90%在白天出生
B.婴儿性别与出生时间无关联
C.有0.1的把握认为婴儿性别与出生时间有关联
D.婴儿性别与出生时间有关联,此推断犯错误的概率不大于0.1
4.(24-25高二下·宁夏银川·阶段练习)为考查、两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物的预防效果优于药物的预防效果
B.药物的预防效果优于药物的预防效果
C.药物、对该疾病均有显著的预防效果
D.药物、对该疾病均没有预防效果
5.(24-25高二下·广东东莞·期末·多选)根据分类变量x与y的成对样本数据,提出零假设,并计算得到,则下列说法正确的是( )
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
附:
A.零假设为:分类变量x与y独立
B.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.1
C.根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
D.若所有样本数据都扩大为原来的10倍,根据小概率值的独立性检验,可以认为x与y不独立,这个结论犯错误的概率不超过0.01
6.(24-25高二下·湖北襄阳·期末·多选)炎炎夏日,许多城市发出高温预警,凉爽的某市成为众多游客旅游的热门选择.为了解来某市旅游的游客旅行方式与年龄是否有关,随机调查了100名游客,得到如下表格.零假设H0旅行方式与年龄没有关联,则下列说法中,正确的有( )
小于40岁 不小于40岁
自由行 38 19
跟团游 20 23
附:χ2=,其中.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
A.在选择自由行的游客中随机抽取一名,其小于40岁的概率为
B.在选择自由行的游客中按年龄分层随机抽样抽取6人,再从中随机选取2人做进一步的访谈,则2人中至少有1人不小于40岁的概率为
C.根据的独立性检验,推断旅行方式与年龄没有关联,且犯错误概率不超过0.01
D.根据的独立性检验,推断旅行方式与年龄有关联,且犯错误概率不超过0.05
7.(24-25高二下·河南南阳·阶段练习)某校对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握判断是否喜欢抖音和性别有关,则调查人数中男生可能有 人.
附:
0.100 0.050 0.010
2.706 3.841 6.635
8.(2025·上海黄浦·三模)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若根据小概率值的独立性检验,判断中学生追星与性别有关,则男生至少有 人
0.050 0.010 0.001
3.841 6.635 10.828
参考数据及公式如下:参考公式:,其中.
9.(24-25高二下·云南曲靖·期末)2025年,教育部推广“人工智能线上课程”试点应用.某中学随机抽取100名学生(男生与女生的人数之比为)对该线上课程进行评分(满分100分).规定:评分不低于80分视为满意.其得分情况的频率分布直方图如图所示,已知评分不低于70分的频率为0.85.
(1)估计100名学生对人工智能线上课程评分的平均值;(每组数据用该组的区间中点值为代表)
(2)结合频率分布直方图,请完成以下列联表,并回答能否有的把握认为对“人工智能线上课程是否满意与性别有关”.
性别态度 满意 不满意 合计
男生
女生 10
合计 100
,其中.
0.10 0.05 0.025 0.010 0.005
2.706 3.841 5.024 6.635 7.879
10.(25-26高三上·广东·开学考试)某校以“和经典相伴,与书香同行”为主题举行学习活动.为了解男女同学对该活动的感兴趣程度,对该校多位同学进行了调查,并将结果整理为如下列联表,其中为正整数.
参加 不参加 合计
男生
女生
合计
(1)当足够大时,估计该校任一不参加活动的学生是男生的概率;
(2)若根据小概率值的独立性检验,认为是否参加该活动与性别有关,求的最小值.
附:
0.1 0.05 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
11.(24-25高二下·湖北武汉·期末)为了研究高二学生数学和物理成绩的相关情况,学校在高二学生中采用随机抽样的方法抽取了150名学生,调查他们平时的数学与物理成绩情况,统计数据如下.
数学成绩优秀 数学成绩不优秀 合计
物理成绩优秀 55 20 75
物理成绩不优秀 30 45 75
合计 85 65 150
(1)依据列联表判断,能否有99.9%的把握认为数学成绩优秀与物理成绩优秀有关?
(2)从调查的物理成绩不优秀的学生中,按照数学成绩是否优秀采用分层随机抽样的方法抽取15人.若从这15人中随机抽取2人,记X为数学成绩优秀的人数,求X的分布列及数学期望.参考公式:,其中.
参考数据:
0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
12.(2025·浙江宁波·模拟预测)某校在2024年开展了两次劳动基地除草耕地活动,首次活动有800名学生参加.活动结束后,经评估发现有70%的学生的劳动技能得到了提升.为进一步增强劳动教育效果,学校汲取首次活动的经验并进行改进,第二次活动面向未参加第一次活动的学生开展.不仅增加了辨别杂草种类、合理使用农具等具有挑战性的任务,还特邀农业专家进行现场指导.已知第二次活动吸引了1200名学生参加,且活动结束后,有960名学生的劳动技能得到了提升.
(1)补充完整下面的列联表;
劳动技能提升的学生人数 劳动技能未提升的学生人数 合计
首次活动
第二次活动
合计
(2)依据小概率值的独立性检验,能否认为该校第二次除草耕地活动中学生的劳动技能提升与活动改进有关?
(3)从参加第二次除草耕地活动的学生中按照劳动技能是否提升进行分层,用分层随机抽样的方法抽取20名学生进行意见调查,再从这20名学生中随机抽取3名进行深度访谈,求其中恰好有2名学生的劳动技能提升的概率.
附:,.
0.10 0.05 0.01
2.706 3.841 6.635
13.(25-26高三上·山西朔州·开学考试)小张水果店对出售的苹果按大小和色泽两项指标进行分类,最大横切面直径不小于70毫米则大小达标,着色度不低于90%则色泽达标,大小和色泽均达标的苹果为一级果;大小和色泽有一项达标另一项不达标的苹果为二级果;两项均不达标的苹果为三级果.已知小张购进了一批苹果,从中随机抽取200个进行检验,得到如下统计表格:
大小光泽 直径小于70毫米 直径不小于70毫米 合计
着色度低于90% 20 50
着色度不低于90% 120
合计 200
(1)完成上面的2×2列联表,依据小概率值的独立性检验,能否认为苹果的大小达标和色泽达标有关
(2)小张按苹果的等级用分层抽样的方法从样本中抽取10个苹果,再从中随机抽取4个,设X表示抽到的一级果的个数,求X的分布列和数学期望.
附:,其中.
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
14.(25-26高三上·湖北荆州·阶段练习)随着短剧在短视频平台的爆发式增长,为其输送内容创作动能的网络文学用户规模也持续增加,目前中国网络文学用户已超过整体网民数量的一半.为了解不同性别的网民对网络文学的喜欢情况,随机调查了200名网民,得到如下数据.
男性网民 女性网民 合计
喜欢网络文学 45 60 105
不喜欢网络文学 55 40 95
合计 100 100 200
(1)判断是否有99%的把握认为是否喜欢网络文学与性别有关;
(2)某网络文学平台组织网民进行文学挑战赛,分成甲、乙两组进行挑战,其规则如下:每次挑战时平台给出文学作品主题要求,甲组与乙组各选出一篇本组优秀作品参加挑战赛,然后由平台组织专家打分确定胜负.根据以往经验,甲组第1次挑战赛获胜的概率为 ,若甲组上一次挑战赛获胜,则下一次挑战赛获胜的概率为;若甲组上一次挑战没有获胜,则下一次挑战赛获胜的概率为,已知按此规则进行了多次挑战赛,每次挑战有且仅有1个组获胜.
(i)在进行了3次挑战赛后,求乙组获胜次数X的分布列与数学期望;
(ii)若第次挑战时甲组获胜的概率为,求的通项公式,并求出使的的最小值.
附 ,其中n=a+b+c+d.
0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
1.(24-25高二下·福建莆田·期末)下列图中,相关系数最大的是( )
A.B.C. D.
2.(24-25高二下·天津·期末)下列说法中,正确的是( )
A.经验回归直线是由成对样本数据中的两点确定的
B.如果两个变量的相关程度越强,则相关系数越接近于1
C.残差平方和越小的模型,拟合的效果越好
D.根据分类变量与的成对样本数据,计算得到,根据小概率值的独立性检验:,可判断与有关联,此推断犯错误的概率不超过0.5%
3.(24-25高二下·山东枣庄·期末)下列四组成对数据:①,,,,;②,,,,;③,,,,;④,,,,.其中样本相关系数最小的是( )(附:样本相关系数)
A.① B.② C.③ D.④
4.(25-26高三上·湖北·开学考试)已知某企业对新品按事先拟定的价格进行试销,得到以下数据
单价/元 40 50 60 70 80 90
/件 45 39 38 35 30 23
由表中数据,求得经验回归方程为,下列说法错误的是(  )
A.产品的销售量和单价呈负相关 B.该经验回归直线过点
C.样本点的残差为 D.当单价定为100元时,销量估计为21件
5.(24-25高二下·黑龙江·期中·多选)下列结论正确的是( )
A.当研究两个变量之间的关联程度时,若相关系数的绝对值越接近于0,则两个变量的线性相关程度越强
B.在评估模型拟合效果时,决定系数越接近0,表示模型对数据的拟合效果越差
C.通过样本数据得到的回归直线一定经过点
D.设关于分类变量与的独立性检验的原假设为:与无关,根据分类变量与的成对样本数据,计算得到,依据的独立性检验,没有充分证据推断不成立,即认为与无关.
6.(24-25高二下·广东·期末·多选)两个具有相关关系的变量的一组数据为,,…,,其经验回归方程为,记,,决定系数为;若将数据调整为,,…,,其经验回归方程为,记,决定系数为,则( )
附:,,
A. B. C. D.
7.(24-25高二下·河北沧州·期中)某工厂统计了甲产品在2024年7月至12月的销售量(单位:万件),得到以下数据:
月份 7 8 9 10 11 12
销售量 11 12 14 15 18 20
根据表中所给数据,可得相关系数 .(结果用四舍五入法保留2位小数)
(参考公式:相关系数,参考数据:,)
8.(24-25高二下·江苏·阶段练习)某软件科技公司近8年的年利润额y与投入的年研发经费x(单位:千万元)如表所示.
x 3 4 5 6 6 7 8 9
y
根据散点图可以认为x与y之间存在线性相关关系,且相关系数,用最小二乘法求线性回归方程(,用分数表示), .
附:(1)参考数据:,.
(2)参考公式:,.
9.(24-25高二下·山西吕梁·期末)根据历史资料显示,某种疾病的自然痊愈率为20%.为深入研究该种疾病的痊愈情况与患者身体素质指标的关系,研究人员收集了部分患者的数据,其中8名患者的身体素质综合评分x(满分100分)和痊愈所需时间y(天)的数据如下表所示:
编号 1 2 3 4 5 6 7 8
x 40 50 60 70 80 90 30 20
y 30 25 20 15 10 8 36 40
(1)根据表中数据,得到痊愈所需时间和身体素质综合评分近似为线性相关关系,建立y关于x的一元线性回归模型(的计算结果精确到小数点后2位);
(2)根据(1)所求的经验回归方程,计算2号患者痊愈时间的残差;
(3)某药企针对该疾病研发了一种新药,认为该药可将治愈率提高到80%.医院为检验其疗效,把此药给6个病人服用,试验方案为:若这6个病人中至少有3人痊愈,则认为这种药有效;否则认为这种药无效.求经此试验认定该药无效的概率p,并根据p值的大小解释试验方案是否合理.
附:对于一组数据,,…,,其回归直线方程的斜率和截距的最小二乘法估计公式分别为,.
10.(23-24高二下·山东滨州·期中)某小微企业对其产品研发的年投入金额(单位:万元)与其年销售量(单位:万件)的数据进行统计,整理后得到如下的数据统计表:
1 5 7 8 9
2 3 6 8 11
0.7 1.1 1.8 2.1 2.4
(1)公司拟分别用①和②两种模型作为年销售量关于年投入金额的回归分析模型,根据上表数据,分别求出两种模型的经验回归方程;
(2)统计学中常通过残差的平方和比较两个模型的拟合效果,若模型①和②的残差的平方和分别为9.9和4.2,请在①和②中选择拟合效果更好的模型,并估计当年投入金额为10万元时的年销售量.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
参考数据:,,.
11.(24-25高二下·上海·阶段练习)某芯片研究团队为制定下一年的研发投入计划,需要了解年研发资金投入量x(单位:亿元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金投入量和年销售额的数据,该团队建立了两个模型:①;②,其中,,,均为常数,为自然对数的底数.经对历史数据的初步处理,得到右侧散点图,如图.令,,计算得如下数据:
20 66 770 200 14
460 4.20 3125000 0.308 21500
(1)设和的相关系数为,和的相关系数为,请从相关系数的角度,旋转一个拟合程度更好的模型:
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金投入量x是多少亿元 (结果精确到0.01)
附:对于一组数据,样本相关系数
回归直线的斜率和截距的最小二乘估计分别为:
,.
12.(24-25高二下·山西·期末)自2020年以来,某地区新能源产值规模呈快速增长态势,下表给出了近5年该地区的新能源产值(单位:亿元).
年份 2020 2021 2022 2023 2024
年份编号 1 2 3 4 5
产值 1.5 2.5 3.4 4.9 7.8
(1)若用作为回归模型,且,求此模型的方程及其决定系数(精确到0.01);
(2)若用作为回归模型,求此模型的方程;
(3)已知回归模型的决定系数,请说明哪种回归模型拟合效果更好,并用拟合效果好的模型预测2025年该地区的新能源的产值(精确到0.01).
参考数据:
3 4.02 1.24 75.3 104.91 16.16 22.54 1.1 1.5 11.4
附:(1)上表中;
(2)对于一组数据,其经验回归方程为,

决定系数.
13.(2025·江苏徐州·模拟预测)某品牌新能源汽车在某城市2024年1月至5月的销售量如下表所示:
月份x 1 2 3 4 5
销售量y/辆 32 48 63 80 107
(1)求y关于x的经验回归方程;
(2)用(1)中所求的方程来拟合数据时,定义残差的绝对值大于3的一对数据为“异常数据”,现从这5对数据中任取3对做残差分析,求取到的数据中“异常数据”的对数X的概率分布和数学期望.
附:经验回归直线中斜率和截距的最小二乘估计公式分别为:.
14.(25-26高三上·广东深圳·开学考试)某学校号召学生参加“每天锻炼1小时”活动,为调查学生课后体育锻炼的情况,学校采用简单随机抽样的方法抽取80名学生,得到了表中数据:
不经常锻炼 经常锻炼 合计
男生 10 30 40
女生 20 20 40
合计 30 50 80
(1)根据小概率值的独立性检验,能否认为性别因素与学生锻炼的经常性有关系?
(2)根据上表,从经常锻炼的学生中利用分层抽样的方法抽取5人,再从这5人中随机选取3人,设这3人中女生的人数为,求的分布列和期望.
附:.
15.(24-25高二下·四川资阳·阶段练习)一家调查机构在某地随机抽查1000名成年居民对新能源车与燃油车的购买倾向,得到如下表格:
倾向于购买燃油车 倾向于购买新能源车 合计
女性居民 150 250 400
男性居民 350 250 600
合计 500 500 1000
(1)能否在犯错误不超过1%的前提下认为对新能源车与燃油车的购买倾向存在性别差异?
(2)从倾向于购买燃油车的居民中按性别采用分层随机抽样的方法抽取10人,再从中抽取4人进行座谈,求在有女性居民参加座谈的条件下,恰有2名男性居民也参加座谈的概率.
(3)从所有参加调查的男性居民中按购买这两种车的倾向性,采用分层随机抽样的方法抽出12人,再从中随机抽取3人进行座谈,记这3人中倾向于购买新能源车的居民人数为,求的分布列与数学期望.
参考公式:,
0.1 0.05 0.01 0.005
2.706 3.841 6.635 7.879
同课章节目录