2023-2024学年高二数学8.2 一元线性回归模型及其应用- 回归分析 (原卷版+解析版)(人教A版2019选修3)

文档属性

名称 2023-2024学年高二数学8.2 一元线性回归模型及其应用- 回归分析 (原卷版+解析版)(人教A版2019选修3)
格式 zip
文件大小 2.4MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2024-04-16 16:23:09

文档简介

2023-2024学年高二数学8.2 一元线性回归模型及其应用- 回归分析(人教A版2019选修3)
·模块一 一元线性回归模型
·模块二 一元线性回归模型参数的最小二乘估计
·模块三 课后作业
1.回归分析
对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,回归分析就是寻找相关关系中这种非确定关系的某种确定性.
2.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【考点1 解释回归直线方程的意义】
【例1.1】(23-24高二下·河南南阳·开学考试)在线性回归方程中,为回归系数,下列关于的说法中不正确的是( )
A.为回归直线的斜率
B.,表示随增加,值增加,,表示随增加,值减少
C.是唯一确定的值
D.回归系数的统计意义是当每增加(或减少)一个单位,平均改变个单位
【解题思路】利用回归直线方程的特点逐项判断即得.
【解答过程】对于A,线性回归方程中的为回归直线的斜率,A正确;
对于B,,表示随增加,值增加,,表示随增加,值减少,B正确;
对于C,是由总体的一个样本利用一定的方法计算得到的,选择不同的样本
或不同的计算方法得到的一般是不同的,C错误;
对于D,回归系数的统计意义是当每增加(或减少)一个单位,平均改变个单位,D正确.
故选:C.
【例1.2】(2024·浙江·模拟预测)假设变量与变量的对观测数据为,两个变量满足一元线性回归模型.要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
【解题思路】化简为二次函数形式,根据二次函数性质得到最值.
【解答过程】因为

上式是关于的二次函数,
因此要使取得最小值,当且仅当的取值为.
故选:A.
【变式1.1】(23-24高二上·辽宁·期末)下列有关回归分析的说法正确的是( )
A.样本相关系数越大,则两变量的相关性就越强.
B.回归直线就是散点图中经过样本数据点最多的那条直线.
C.回归直线方程不一定过样本中心点.
D.回归分析中,样本相关系数,则两变量是负相关关系.
【解题思路】由知识点:两变量的相关性就越强,则相关系数越接近或,当相关系数时两个变量正相关,时两个变量负相关;回归直线方程一定过样本中心点;回归直线是基于样本数据使残差平方和最小的拟合直线,可得正确答案.
【解答过程】由知识点:两变量的相关性就越强,则相关系数越接近或可知A不正确;由回归直线是基于样本数据使残差平方和最小的拟合直线可判断B不正确;由回归直线方程一定过样本中心点可知C不正确;由当相关系数时两个变量正相关,时两个变量负相关可得D正确.
故选:D.
【变式1.2】(22-23高二下·辽宁大连·期末)根据以下样本数据:
1 3 5 7
6 4.5 3.5 2.5
得到回归直线方程为.则( )
A., B., C., D.,
【解题思路】根据线性回归直线的函数特征,结合体题中数据,即可求解.
【解答过程】由表中数据可得随着的增大,越来越小,所以,
又因为当时,,所以当时,,所以,
故选:.
【考点2 由散点图画求近似回归直线】
【例2.1】(23-24高二下·河南·阶段练习)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( ).
A. B. C. D.
【解题思路】根据散点图据曲线形状结合一次函数,二次函数,反比例函数及幂函数的性质判断即得.
【解答过程】由散点图可以看出y随着x的增长速度越来越快,结合一次函数,二次函数,反比例函数及幂函数的性质可知,
最适宜作为y和x的回归方程类型的是:.
故选:B.
【例2.2】(23-24高二下·河南驻马店·阶段练习)有以下几组的统计数据:要使剩下的数据具有较强的相关关系,应去掉的一组数据是( )
A. B. C. D.
【解题思路】在坐标系中画出五个点,结果除去之外,其余的点都在一条线附近,去掉这个点以后剩下的数据更具有相关关系.
【解答过程】,在坐标系中画出五个点,
结果除去之外,其余的点都在一条线附近,
去掉这个点以后剩下的数据更具有相关关系,
故选:C.
【变式2.1】(23-24高二·全国·课后作业)如图是某地区2012年至2021年的空气污染天数Y(单位:天)与年份X的折线图.根据2012年至2016年的数据,2017年至2021年的数据,2012年至2021年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
【解题思路】在散点图中作出三条线性回归方程对应直线的大致形状,数形结合即得.
【解答过程】记三条回归直线分别为,,,
画出这三条回归直线的大致图象,如图所示,
由图可知这三条回归直线的斜率大小关系为,
截距大小关系为.
故选:C.
【变式2.2】(23-24高一·江苏·课时练习)在一次数学建模活动中,某同学采集到如下一组数据:
x 0 1 2 3
y 0.24 0.51 1 2.02 3.98 8.02
以下四个函数模型(a,b为待定系数)中,最能反映y与x的函数系的是( )
A. B. C. D.
【解题思路】根据题设中表格中的数据画出散点图,结合图象和选项,得到答案.
【解答过程】由表格中的数据,作出数据的散点图,如图所示,
数据散点图和指数型函数的图象类似,所以选项B最能反映之间的函数关系.
故选:B.
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
3.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【考点3 残差的计算】
【例3.1】(2023·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【解题思路】对于响应变量,通过观测得到的数据为观测值,通过线性回归方程得到的称为预测值,观测值减去预测值称为残差.
【解答过程】因为观测值减去预测值称为残差,
所以当时,,
所以残差为 .
故选:C.
【例3.2】(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出与销售额(单位:万元)之间有下表关系:
2 4 5 6 8
30 40 60 50 70
与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
A. B. C.20 D.10
【解题思路】
随机误差的效应(残差)为观测值减去预测值
【解答过程】当广告支出5万元时,观测值为,预测值为,则随机误差的效应(残差)为.
故选:D.
【变式3.1】(2023·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【解题思路】根据一元线性回归模型对随机误差的假定即可判断结果.
【解答过程】图A显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图B说明残差的方差不是一个常数,随观测时间变大而变大;
图C显示残差与观测时间有线性关系,应将时间变量纳入模型;
图D的残差较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,
可见D满足一元线性回归模型对随机误差的假定.
故选:D.
【变式3.2】(22-23高二下·河南新乡·阶段练习)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为( )
A.0 B. C.1 D.2
【解题思路】由回归方程求出,再求出新样本的平均数,,从而求出回归直线方程,再求出预测值,即可得到残差.
【解答过程】将代入,,
去除两个样本点和后,所以,,,
故去除样本点和后的回归直线方程为.
当时,,则样本的残差为.
故选:B.
【考点4 刻画回归效果的方式】
【例4.1】(23-24高二·全国·单元测试)下列说法正确的是( )
A.线性回归模型是一次函数
B.在线性回归模型中,因变量是由自变量唯一确定的
C.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适
D.用来刻画回归方程,越小,拟合的效果越好
【解题思路】利用线性回归模型的特点可判断AB选项;利用残差图的特点可判断C选项;利用决定系数与模型拟合效果的关系可判断D选项.
【解答过程】对于A选项,线性回归模型中,方程表示的是不确定关系,
所以,线性回归模型不是一次函数,A错;
对于B选项,在线性回归模型中,因变量由自变量和随机误差共同决定,B错;
对于C选项,在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适,C对;
对于D选项,用来刻画回归方程,越大,拟合的效果越好,D错.
故选:C.
【例4.2】(2024·山西晋中·模拟预测)下列说法正确的是( )
①线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;
②已知随机变量,若,则;
③在线性回归模型中,计算,则可以理解为解释变量对预报变量的贡献率约为;
④在残差图中,残差点分布的带状区域的宽带越窄,其模型拟合精度越高.
A.①②③ B.②③④ C.②④ D.①②③④
【解题思路】根据相关性定义和基本统计,概率知识进行判断即可.
【解答过程】①错,越大,线性相关性越强;
,,②正确;
根据定义可知③④对.
故选:B.
【变式4.1】(2023·河南安阳·二模)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( ).
A.
相关指数 误差平方和 均方根值
0.949 5.491 0.499
B.
相关指数 误差平方和 均方根值
0.933 4.179 0.436
C.
相关指数 误差平方和 均方根值
0.997 1.701 0.141
D.
相关指数 误差平方和 均方根值
0.997 2.899 0.326
【解题思路】根据相关指数大小和误差平方和以及均方根值即可得到答案.
【解答过程】相关指数越接近于1,拟合效果越好,比较相关指数知,可选C,D,
误差平方和及均方根值都越小,拟合效果越好,观察误差平方和和均方根值,知C的拟合效果最好.
故选:C.
【变式4.2】(22-23高二下·黑龙江·期末)下列说法错误的是( )
A.在回归分析中,回归直线始终过样本点( x1,y1 ),( x2,y2 ),…,( xn,yn ) 的中心()
B.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越接近于0
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在线性回归模型中,相关指数R2越接近于1,说明回归的效果越好
【解题思路】根据回归直线方程及回归分析的相关知识判断即可;
【解答过程】解:回归直线一定经过样本点的中心,故对;
若两个具有线性相关关系的变量的相关性越强,则线性相关系数的值越接近于1或,错;
在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,故对;
在线性回归模型中,相关指数越接近于1,说明回归的效果越好,故对,
故选:B.
【考点5 回归直线方程的计算】
【例5.1】(23-24高二上·广西南宁·开学考试)某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
(月份) 1 2 3 4 5
(万盒) 5 5 6 6 8
若,线性相关,线性回归方程为,则以下判断正确的是( )
A.增加1个单位长度,则一定增加个单位长度
B.减少1个单位长度,则必减少个单位长
C.当时,的预测值为万盒
D.线性回归直线,经过点
【解题思路】通过线性回归方程可以进行预测而不能做出确定的判断,排除A,B选项;线性回归方程一定过样本中心点,排除D选项;令,代入方程求,可得C正确.
【解答过程】由,得每增(减)一个单位长度,不一定增加(减少)0.7,而是大约增加(减少)0.7个单位长度,故选项A,B错误;由已知表中的数据,可知,则回归直线必过点,故D错误;代入回归直线,解得,即,令,解得 万盒,
故选:C.
【例5.2】(22-23高二下·江西赣州·期中)直播带货已经成为农民创业增收的好帮手,数据显示2022年全国农村直播电商已达到573.2万家.已知2022年某农村电商每月直播销售收入Y(单位:万元)与月份具有线性相关关系,利用该电商全年12个月的直播销售月收入数据,求得线性回归方程为,则下列结论一定正确的是( )
A.把代入求得的是第n个月的销售收入
B.相关系数
C.2022年该电商直播销售收入逐月增加
D.该电商2022年直播销售总收入为213.6万元
【解题思路】根据线性回归方程为,分别判断A,C,D选项,根据相关系数概念判断B选项.
【解答过程】利用求得的是每月直播销售收入的预测数据,与每月直播销售收入的真实数据可能不相同,错误;
不是相关系数,,B错误;
,由在回归直线上,得,所以该电商2022年年直播销售总收入为万元.
故选:D.
【变式5.1】(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月) 1 2 3 4 5
销售量y(万件) 1 1.6 2.0 a 3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
【解题思路】
根据给定数据,结合回归直线的特性逐项判断即得.
【解答过程】依题意,,
而y与x的回归直线方程为:,则,
解得,,表中数据的样本中心点为,BC正确;
由,得y和x成正相关,D正确;
2024年1月份,即,由回归直线方程,得,
因此2024年1月份该地区的销售量约为6.8万件,A错误.
故选:A.
【变式5.2】(22-23高三上·河南·开学考试)某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x(单位:百万元)和年利润y(单位:百万元)的数据,并绘制成如图所示的散点图.已知x,y的平均值分别为,.甲统计员得到的回归方程为;乙统计员得到的回归方程为;若甲、乙二人计算均未出现错误,有下列四个结论:
①当投入年科研经费为20(百万元)时,按乙统计员的回归方程可得年利润估计值为75.6(百万元)(取);
②;
③方程比方程拟合效果好;
④y与x正相关.
以上说法正确的是( )
A.①③④ B.②③ C.②④ D.①②④
【解题思路】结合样本中心点过回归直线方程,已知数据,散点图等依次判断各命题即可得答案.
【解答过程】解:将代入,得,①正确;
将,代入得,②正确;
由散点图可知,回归方程比的拟合效果更好,③错误;
因为随的增大而增大,所以与正相关,④正确.故①②④正确.
故选:D.
【考点6 线性回归分析】
【例6.1】(23-24高二上·江西南昌·期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入x(亿元) 1 2 3 4 5
产品收益y(亿元) 3 7 9 10 11
(1)计算的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过50(亿元)则需研发投入至少多少亿元?(结果保留一位小数)
参考数据:;
附:相关系数公式:;
回归直线方程的斜率.
【解题思路】(1)直接通过计算相关系数来进行判断;
(2)先计算回归直线方程,然后再做出预测.
【解答过程】(1),



所以,所以相关程度较高;
(2)由(1)得,,
所以,,
所以,令,
得,所以研发投入至少亿元.
【例6.2】(23-24高二上·陕西渭南·期末)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中x为年份代号,y(单位:万吨)代表新增碳排放量.
年份 2019 2020 2021 2022 2023
年份代号 1 2 3 4 5
新增碳排放万吨 6.1 5.2 4.9 4 3.8
(1)请计算并用相关系数的数值说明与间具有较强的线性相关性(若,则线性相关程度较高);
(2)求关于的线性回归方程,并据此估计该地区年的新增碳排放.
参考数据:,,,,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【解题思路】
(1)通过计算相关系数来确定正确答案.
(2)根据回归方程的求法求得回归方程,并由此作出预测.
【解答过程】(1)依题意,

所以,所以线性相关程度较高.
(2),

所以,
当时,万吨.
【变式6.1】(2024·全国·模拟预测)20世纪80年代初,随着我国的改革开放,经济体制和经营体制逐渐灵活,市场上的商品日益丰富,城市和农村出现小卖部.小卖部主营生活日用商品,有着经营成本小、规模小、商品种类少分布广等特点.近几年,人们的生活水平达到了新的高度,实体小卖部逐渐被应运而生的大小超市所取代.为适应市场,某小卖部经营者欲将经营规模扩大,将小卖部发展成生鲜综合超市,现将2013~2022年的年利润(单位:万元)统计如下:
年限 1 2 3 4 5 6 7 8 9 10
年利润(万元) 2 8 9 12 10 13 15 16 17 18
其中,年限1表示2013年,2表示2014年,3表示2015年,……,以此类推,10表示2022年.
(1)若年利润(单位:万元)与小卖部营业年限成正相关关系,在不改变经营状态的情况下,预测该小卖部2023年的年利润;
(2)以年利润是否低于12万元为评价标准,按照分层抽样从2013~2022年的年利润中随机抽取5个,再从这5个数据中随机抽取2个,求抽取的2个数据至少有1个低于12万元的概率.
附:线性回归方程中,,其中为样本均值.
【解题思路】(1)根据图表利用最小二乘法计算线性回归方程并预测即可;
(2)根据图表利用分层抽样及古典概型计算即可.
【解答过程】(1),
,


线性回归方程为.
当时,,
在不改变经营状态的情况下,预测该小卖部2023年的年利润为20.47万元.
(2)2013~2022年的年利润中低于12万元的有4个,不低于12万元的有6个,
按照分层抽样从2013~2022年的年利润中随机抽取5个,
则年利润低于12万元的有2个,记为,不低于12万元的有3个,
记为.
从这5个数据中随机抽取2个,
所有等可能结果有,,共10种,
其中,抽取的2个数据至少有1个低于12万元的结果有,共7种,
故所求概率为.
【变式6.2】(2024·青海·一模)某公司自去年2月份某项技术突破以后,生产的产品质量得到改进与提升,经过一年来的市场检验,信誉越来越好,因此今年以来产品的市场份额明显提高,业务订单量明显上升,如下表是2023年6月份到12月份的订单量数据.
月份 6 7 8 9 10 11 12
月份代码t 1 2 3 4 5 6 7
订单量y(万件) 4.7 5.3 5.6 5.9 6.1 6.4 6.6
(1)试根据相关系数r的值判断订单量y与t的线性相关性强弱(,则认为y与t的线性相关性较强;,则认为y与t的线性相关性较弱);
(2)建立y关于t的线性回归方程,并预测该公司2024年3月份接到的订单数量;
(3)为进一步拓展市场,该公司适时召开了一次产品观摩与宣传会,在所有参会人员(人数很多)中随机抽取部分参会人员进行问卷调查,其中评价“产品质量很好”的占50%,“质量良好”、“质量还需改进”的分别各占30%,20%,然后在所有参会人员中随机抽取5人作为幸运者赠送礼品,记抽取的5人中评价“产品质量很好”的人数为随机变量X,求X的分布列与期望.
附参考公式:,,.
参考数据:,,.
【解题思路】(1)根据相关系数的公式及表格代入数据计算即可判定;
(2)根据最小二乘法计算即可得回归方程,代入即可预测估计;
(3)根据二项分布的分布列与期望公式计算即可.
【解答过程】(1)由表格可知,

所以,
即订单量y与t的线性相关性较强;
(2)结合数据及(1)可知:,
则,
所以y关于t的线性回归方程为:,
显然,即预测该公司2024年3月份接到的订单数量为万件;
(3)易知,
,,
,,
,,
分别列表如下:
X 0 1 2 3 4 5
则.
【考点7 非线性回归分析】
【例7.1】(2024·辽宁·模拟预测)土壤食物网对有机质的分解有两条途径,即真菌途径和细菌途径.在不同的土壤生态系统中,由于提供能源的有机物其分解的难易程度不同,这两条途径所起的作用也不同.以细菌分解途径为主导的土壤,有机质降解快,氮矿化率高,有利于养分供应,以真菌途径为主的土壤,氮和能量转化比较缓慢,有利于有机质存财和氮的固持.某生物实验小组从一种土壤数据中随机抽查并统计了8组数据,如下表所示:
编号 1 2 3 4 5 6 7 8
细菌百万个 70 80 90 100 110 120 130 140
真菌百万个 8.0 10.0 12.5 15.0 17.5 21.0 27.0 39.0
其散点图如下,散点大致分布在指数型函数的图象附近.
(1)求关于的经验回归方程(系数精确到0.01);
(2)在做土壤相关的生态环境研究时,细菌与真菌的比值能够反映土壤的碳氮循环.以样本的频率估计总体分布的概率,若该实验小组随机抽查8组数据,再从中任选4组,记真菌(单位:百万个)与细菌(单位:百万个)的数值之比位于区间内的组数为,求的分布列与数学期望.
附:经验回归方程的斜率和截距的最小二乘估计公式分别为,
【解题思路】(1)令,将指数型回归方程转化为线性回归方程,利用最小二乘法的估计系数公式,即可求得答案;
(2)确定真菌与细菌的数值之比位于区间内的组数,即可确定X的取值,求出每个值对应的概率,即可得分布列,即可求得数学期望.
【解答过程】(1)由于,故,
令,则,

则,,
故,则关于的经验回归方程为;
(2)由已知图表可知从第1组到第8组的真菌(单位:百万个)与细菌(单位:百万个)的数值之比依次为:
,,
故样本中比值位于内的组数有4组,则X的可能取值为:,
则,,
故X的分布列为:
X 0 1 2 3 4
P
则.
【例7.2】(2023·四川内江·一模)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了两个函数模型:;,其中、、、均为常数,为自然对数的底数,令,,经计算得如下数据:
(1)请从相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立关于的回归方程.(系数精确到0.01)
附:相关系数
回归直线中:,.
【解题思路】(1)计算出两个模型的相关系数,判断即可;
(2)根据最小二乘法计算即可.
【解答过程】(1)设模型的相关系数为,模型的相关系数为,
对于模型,令,即,
所以,
对于模型,有,令,即,
所以,
因为,所以模型拟合度更好.
(2)因为,,
所以关于的回归方程为.
【变式7.1】(2023·四川内江·一模)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,通过对“十二五”和十三五规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了两个函数模型:,,其中、、、均为常数,为自然对数的底数,令,,经计算得如下数据:
(1)请从相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)
(3)若希望2024年盈利额为800亿元,请预测2024年的研发资金投入额为多少亿元?(结果精确到0.01)
附:相关系数,参考数据:,.
回归直线中:,.
【解题思路】(1)计算相关系数得到,得到答案.
(2)根据公式计算,,得到回归方程.
(3)取,解方程得到答案.
【解答过程】(1)设和的相关系数为,和的相关系数为,


,因此从相关系数的角度,模型的拟合程度更好.
(2)先建立关于的线性回归方程,由得,即,
,,
所以关于的线性回归方程为,即.
(3),即,,
,解得.
所以2024年的研发资金投入量的约为亿元.
【变式7.2】(23-24高三下·山东·开学考试)某市为繁荣地方经济,大力实行人才引进政策,为了解政策的效果,统计了2018-2023年人才引进的数量(单位:万人),并根据统计数据绘制了如图所示的散点图(表示年份代码,年份代码1-6分别代表2018-2023年).
(1)根据散点图判断与(均为常数)哪一个适合作为关于的回归方程类型;(给出结论即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出关于的回归方程,并预测该市2025年引进人才的数量;
(3)从这6年中随机抽取4年,记引进人才数量超过4万人的年数为,求的分布列和数学期望.
参考数据:
5.15 1.55 17.5 20.95 3.85
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
【解题思路】(1)观察散点图结合增长速度情况即可求解;
(2)两边取对数后,用最小二乘先得对应的线性回归方程;
(3)的所有可能取值为1,2,3,由超几何分布概率公式先求得对应的概率,即可依次得分布列,数学期望.
【解答过程】(1)根据散点图可知,选择更合适.
(2)因为,所以两边同时取常用对数,得.
设,则,先求关于的线性回归方程.
因为,


所以.
把代入上式,得,
故预测该市2025年引进人才的数量为12.68万人.
(3)这6年中,引进人才的数量超过4万人的年数有3个,所以的所有可能取值为1,2,3.

所以的分布列为
1 2 3
所以.
1.(22-23高二下·宁夏银川·期中)给出下列有关线性回归分析的四个命题:
①线性回归直线未必过样本数据点的中心;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关系数就越接近于.
其中真命题的个数为( )
A. B. C. D.
【解题思路】根据线性回归直线的性质可判断选项A,B;根据相关系数的性质可判断C,D,进而可得正确选项.
【解答过程】对于①,线性回归直线一定过样本数据点的中心,故①错误;
对于②,回归直线在散点图中可能不经过任何一个样本数据点,故②错误;
对于③,当相关系数时,两个变量正相关,故③正确;
对于④,如果两个变量的相关性越强,则相关性系数就越接近于或,故④错误.
故真命题的个数为1,
故选:A.
2.(22-23高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
【解题思路】由散点图的变化趋势,结合四个选项中函数的单调性即可得结论.
【解答过程】由图可知,图象随着x的增大而增高,且增长速度越来越快,
结合选项,可判断最适宜作为感染人数y和时间x的回归方程.
故选:B.
3.(22-23高二下·河南洛阳·期中)杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
周期数(x) 1 2 3 4 5
频数(y) 2 17 36 93 142
由表格可得关于的二次回归方程为,则此回归模型第2周期的残差(实际值与预报值之差)为( )
A.0 B.1 C.4 D.5
【解题思路】令则回归方程为,符合线性回归,计算中心点代入方程求得,继而得到回归方程,算出预估值,即可求出残差.
【解答过程】令则回归方程为,符合线性回归,
周期数的平均数,
频数的平均数,
则中心点为,代入,
可得,则,
所以,
当时的预估值为,
则第2周期的残差为,
故选:B.
4.(23-24高二上·河北保定·阶段练习)研究表明某地的山高与该山的年平均气温具有相关关系,根据所采集的数据得到线性回归方程,则下列说法错误的是
A.年平均气温为时该山高估计为
B.该山高为处的年平均气温估计为
C.该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关
D.该地的山高与该山的年平均气温成负相关关系
【解题思路】由已知线性回归直线方程,可估计平均气温为时该地的山高,即可得到答案.
【解答过程】线性回归直线方程为,当 时即年平均气温为时该山高估计为,故正确;当时解得即山高为处的年平均气温估计为,故错误;该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关,故正确;
由,该地的山高与该山的年平均气温成负相关关系,故正确.
故选B.
5.(2023·浙江杭州·二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
【解题思路】从图中分析得到去掉后,回归效果更好,再由相关系数,决定系数,残差平方和和相关性的概念和性质作出判断即可.
【解答过程】从图中可以看出较其他点,偏离直线远,故去掉后,回归效果更好,
对于A,相关系数越接近于1,模型的拟合效果越好,若去掉后,相关系数r变大,故A错误;
对于B,决定系数越接近于1,模型的拟合效果越好,若去掉后,决定系数变大,故B错误;
对于C,残差平方和越小,模型的拟合效果越好,若去掉后,残差平方和变小,故C错误;
对于D,若去掉后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.
故选:D.
6.(2023·广东梅州·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码x 1 2 3 4 5
云计算市场规模y/千万元 7.4 11 20 36.6 66.7
2 2.4 3 3.6 4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
【解题思路】
根据可得线性回归方程,再由回归方程求出2025年的预测值,代入即可得解.
【解答过程】因为,
所以,
即经验回归方程,
当时,,
所以,
即2025年该科技公司云计算市场规模y的估计值为,
故选:B.
7.(23-24高二下·河南南阳·阶段练习)相关变量的样本数据如下表,
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.x增加1时,y一定增加2.3 B.变量x与y负相关
C.当y为6.3时,x一定是8 D.a=5.2
【解题思路】根据回归直线方程的几何意义判断A、B错误;令求解判断C,计算并代入回归直线方程中,求得a的值,判断D正确.
【解答过程】根据回归直线方程知,x增加1时,估计y增加,故A错误;
由知,,故变量x与y正相关,故B错误;
时,,解得,估计的值应为8,故C错误;
又,,
代入回归直线方程中,则,解得,故D正确.
故选:D.
8.(23-24高二上·全国·单元测试)某学校校医研究温差(℃)与本校当天新增感冒人数y(人)的关系,该医生记录了5天的数据,且样本中心点为.由于保管不善,记录的5天数据中有两个数据看不清楚,现用代替,已知,,则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在确定的条件下,去掉样本点,则样本的相关系数r增大
B.在确定的条件下,经过拟合,发现基本符合线性回归方程,则
C.在确定的条件下,经过拟合,发现基本符合线性回归方程,则当时,残差为
D.事件“,”发生的概率为
【解题思路】根据题意,结合回归直线方程的特征及应用,以及古典摡型的概率计算公式和相关系数公式,即可求解.
【解答过程】对于A中,因为回归直线方程过数据的样本中心点,
所以在确定的条件下去掉样本点,则相关系数不变,所以A错误;
对于B中,由样本中心点为,可得,解得,所以B错误;
对于C中,由,当,可得,则,
所以C错误;
对于D中,由,则可取,的可取,
则的取值为,
所以,的概率为,所以D正确.
故选:D.
9.(23-24高二·全国·课时练习)根据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除两个误差较大的样本点后,重新求得的经验回归方程为
C.去除两个误差较大的样本点后,y的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05
【解题思路】对A:根据经验回归方程为,,即可求解;对B:由线性回归方程的性质,即可求解;对C:比较原线性回归方程的斜率和新回归方程的斜率,即可求解;对D:利用残差公式,即可求解.
【解答过程】解:对A:经验回归方程为,,
变量与具有正相关关系,故选项A正确;
对B:当时,,所以样本中心为,
去掉两个样本点为和,,,
样本中心不变,
去除后重新求得的经验回归直线的斜率为1.2,
,解得,
故去除两个误差较大的样本点后,重新求得的回归方程为,故选项B错误;
对C:,
去除两个误差较大的样本点后,的估计值增加速度变慢,故选项C错误;
对D: ,

去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为,故选项D错误.
故选:A.
10.(23-24高一下·河南郑州·阶段练习)已知具有线性相关的五个样本点,,,,,用最小二乘法得到回归直线方程:,过点,的直线方程:,那么下列4个命题中,①,;②直线过点;③;④,正确命题的个数有( )
A.1个 B.2个 C.3个 D.4个
【解题思路】先求出为,直线的方程为,再逐一分析判断每一个命题真假得解.
【解答过程】由题意可得:,,
则,,
所以线性回归方程为,
直线的方程为:,
故,,,,说法①正确;
,则直线过,说法②正确;
,,说法③错误;
,,说法④错误;
综上可得正确命题的个数有2个.
故选:B.
11.(23-24高一·全国·课后作业)一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:
转速/(转/秒) 16 14 12 8
每小时生产有缺点的零件数/件 11 9 8 5
(1)画出散点图;
(2)如果对有线性相关关系,请画出一条直线近似地表示这种线性关系;
(3)在实际生产中,若它们的近似方程为,允许每小时生产的产品中有缺点的零件最多为件,那么机器的运转速度应控制在什么范围内?
【解题思路】(1)根据题意画出散点图;
(2)根据散点图画出近似直线;
(3)结合题意得到,从而得解.
【解答过程】(1)散点图如图所示:

(2)近似直线如图所示:

(3)由得,解得,
所以机器的运转速度应控制在转/秒内.
12.(23-24高二上·江西九江·期末)2023年9月23日—10月8日,亚运会在杭州举行,“碳中和”是本届亚运会一大亮点.为了打造碳中和亚运会,杭州亚运会上线了“亚运碳中和-减污降碳协同”数字化管理平台.该平台将数字化技术运用到碳排放采集 核算 减排 注销 评价管理全流程,探索建立了一套科学完整的碳排放管理体系.值此机会,某家公司重点推出新型品牌新能源汽车,以下是其中五个月的销售单:
2023月份 5 6 7 8 9
月份代码 1 2 3 4 5
新能源车销售(万辆) 1.6 2.1 2.7 3.7 4.6
(1)根据表中数据,求出关于的线性回归方程;
(2)随着亚运会的火热,新能源汽车也会一直持续下去,试估计2023年12月份该公司出售多少辆新能源汽车?
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
【解题思路】
(1)先分别计算,,,再利用公式求即可求解.
(2)先求2023年12月份月份代码,再利用回归方程即可求解.
【解答过程】(1)
,,
关于的线性回归方程为.
(2)根据表中数据可知,12月份月份代码为8
(万辆),
估计2023年12月份该公司出售6.74万辆新能源汽车.
13.(23-24高三上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.
x 141 152 168 182 195 204 223 254 277
y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?
(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.
附:相关系数,决定系数,.
【解题思路】
(1)根据相关系数的计算公式即可求解,由相关系数的定义结合统计学知识即可求解,
(2)根据残差公式以及决定系数的计算公式即可求解.
【解答过程】(1)
不妨设选择的成对数据分别为,,则
.又由表格数据得,当时,,则.
因为任意两个样本点都在一条直线上,则样本量为2的样本相关系数绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.
样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推新变量之间相关的正负性及线性相关的程度越可靠,而样本量越小,则越不可靠.
(2)
(ⅰ)(直线经过数据的中心).
(ⅱ)∵,∴,
则,
越大,越接近于1,则模型的拟合效果越好,因此经验回归方程②的拟合效果更好,为最优模型.
14.(2024·全国·模拟预测)20世纪80年代初,随着我国的改革开放,经济体制和经营体制逐渐灵活,市场上的商品日益丰富,城市和农村出现小卖部.小卖部主营生活日用商品,有着经营成本小、规模小、商品种类少、分布广等特点.近几年,市场商品极大的丰富,人们的生活水平达到了新的高度,实体小卖部逐渐被应运而生的大小超市所取代.为适应市场,某小卖部经营者欲将经营规模扩大,将小卖部发展成生鲜综合超市,现将2013~2022年的年利润(单位:万元)统计如下:
年限 1 2 3 4 5 6 7 8 9 10
年利润(万元) 2 8 9 12 10 13 15 16 17 18
其中,1表示2013年,2表示2014年,3表示2015年,……,以此类推,10表示2022年.
(1)若年利润(单位:万元)与小卖部营业年限成正相关关系,在不改变经营状态的情况下,预测该小卖部2023年的年利润.(结果保留两位小数)
(2)该小卖部经营者从2013~2022年中年利润不低于12万元的年限里随机抽取3个,记这3个年限中年利润超过14万元的有个,求的分布列和期望.
附:线性回归方程中,,,其中为样本均值.
【解题思路】(1)根据条件,求出利润与年份的线性回归方程,即可求出结果;
(2)的可能取值为1,2,3,求出每个取值对应的概率,即可求出分布列,再根据期望的计算公式,求出期望.
【解答过程】(1),,

=
,所以线性回归方程为,
所以当时,,
所以在不改变经营状态的情况下,预测该小卖部2023年的年利润为20.47万元.
(2)2013~2022年这10年中,年利润不低于12万元的有6年,年利润超过14万元的有4年,故的可能取值为1,2,3,

的分布列为
1 2 3
所以期望.
15.(22-23高三上·广东深圳·期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.

(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
【解题思路】(1)根据散点图的形状,可判断更适宜作为平均产卵数y关于平均温度x的回归方程类型;
(2)将两边同时取自然对数,转化为线性回归方程,即可得到答案;
(3)求出三种方案的收益的均值,根据均值越大作为判断标准.
【解答过程】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,

.
显然,最大,所以选择方案1最佳.2023-2024学年高二数学8.2 一元线性回归模型及其应用- 回归分析(人教A版2019选修3)
·模块一 一元线性回归模型
·模块二 一元线性回归模型参数的最小二乘估计
·模块三 课后作业
1.回归分析
对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,回归分析就是寻找相关关系中这种非确定关系的某种确定性.
2.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
【考点1 解释回归直线方程的意义】
【例1.1】(23-24高二下·河南南阳·开学考试)在线性回归方程中,为回归系数,下列关于的说法中不正确的是( )
A.为回归直线的斜率
B.,表示随增加,值增加,,表示随增加,值减少
C.是唯一确定的值
D.回归系数的统计意义是当每增加(或减少)一个单位,平均改变个单位
【例1.2】(2024·浙江·模拟预测)假设变量与变量的对观测数据为,两个变量满足一元线性回归模型.要利用成对样本数据求参数的最小二乘估计,即求使取最小值时的的值,则( )
A. B.
C. D.
【变式1.1】(23-24高二上·辽宁·期末)下列有关回归分析的说法正确的是( )
A.样本相关系数越大,则两变量的相关性就越强.
B.回归直线就是散点图中经过样本数据点最多的那条直线.
C.回归直线方程不一定过样本中心点.
D.回归分析中,样本相关系数,则两变量是负相关关系.
【变式1.2】(22-23高二下·辽宁大连·期末)根据以下样本数据:
1 3 5 7
6 4.5 3.5 2.5
得到回归直线方程为.则( )
A., B., C., D.,
【考点2 由散点图画求近似回归直线】
【例2.1】(23-24高二下·河南·阶段练习)变量x,y的散点图如图所示,根据散点图,下面四个回归方程类型中最适宜作为y和x的回归方程类型的是( ).
A. B. C. D.
【例2.2】(23-24高二下·河南驻马店·阶段练习)有以下几组的统计数据:要使剩下的数据具有较强的相关关系,应去掉的一组数据是( )
A. B. C. D.
【变式2.1】(23-24高二·全国·课后作业)如图是某地区2012年至2021年的空气污染天数Y(单位:天)与年份X的折线图.根据2012年至2016年的数据,2017年至2021年的数据,2012年至2021年的数据分别建立线性回归模型,,,则( )
A., B.,
C., D.,
【变式2.2】(23-24高一·江苏·课时练习)在一次数学建模活动中,某同学采集到如下一组数据:
x 0 1 2 3
y 0.24 0.51 1 2.02 3.98 8.02
以下四个函数模型(a,b为待定系数)中,最能反映y与x的函数系的是( )
A. B. C. D.
1.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
2.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
3.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【考点3 残差的计算】
【例3.1】(2023·河南·模拟预测)已知一组样本数据,,,,根据这组数据的散点图分析与之间的线性相关关系,若求得其线性回归方程为,则在样本点处的残差为( )
A.38.1 B.22.6 C. D.91.1
【例3.2】(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出与销售额(单位:万元)之间有下表关系:
2 4 5 6 8
30 40 60 50 70
与的线性回归方程为,当广告支出5万元时,随机误差的效应(残差)为( )
A. B. C.20 D.10
【变式3.1】(2023·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【变式3.2】(22-23高二下·河南新乡·阶段练习)已知由样本数据组成的一个样本,得到回归直线方程为,且,去除两个样本点和后,新得到的回归直线方程斜率为3,则样本的残差为( )
A.0 B. C.1 D.2
【考点4 刻画回归效果的方式】
【例4.1】(23-24高二·全国·单元测试)下列说法正确的是( )
A.线性回归模型是一次函数
B.在线性回归模型中,因变量是由自变量唯一确定的
C.在残差图中,残差点比较均匀地落在水平带状区域中,说明选用的模型比较合适
D.用来刻画回归方程,越小,拟合的效果越好
【例4.2】(2024·山西晋中·模拟预测)下列说法正确的是( )
①线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;
②已知随机变量,若,则;
③在线性回归模型中,计算,则可以理解为解释变量对预报变量的贡献率约为;
④在残差图中,残差点分布的带状区域的宽带越窄,其模型拟合精度越高.
A.①②③ B.②③④ C.②④ D.①②③④
【变式4.1】(2023·河南安阳·二模)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( ).
A.
相关指数 误差平方和 均方根值
0.949 5.491 0.499
B.
相关指数 误差平方和 均方根值
0.933 4.179 0.436
C.
相关指数 误差平方和 均方根值
0.997 1.701 0.141
D.
相关指数 误差平方和 均方根值
0.997 2.899 0.326
【变式4.2】(22-23高二下·黑龙江·期末)下列说法错误的是( )
A.在回归分析中,回归直线始终过样本点( x1,y1 ),( x2,y2 ),…,( xn,yn ) 的中心()
B.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的值越接近于0
C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
D.在线性回归模型中,相关指数R2越接近于1,说明回归的效果越好
【考点5 回归直线方程的计算】
【例5.1】(23-24高二上·广西南宁·开学考试)某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
(月份) 1 2 3 4 5
(万盒) 5 5 6 6 8
若,线性相关,线性回归方程为,则以下判断正确的是( )
A.增加1个单位长度,则一定增加个单位长度
B.减少1个单位长度,则必减少个单位长
C.当时,的预测值为万盒
D.线性回归直线,经过点
【例5.2】(22-23高二下·江西赣州·期中)直播带货已经成为农民创业增收的好帮手,数据显示2022年全国农村直播电商已达到573.2万家.已知2022年某农村电商每月直播销售收入Y(单位:万元)与月份具有线性相关关系,利用该电商全年12个月的直播销售月收入数据,求得线性回归方程为,则下列结论一定正确的是( )
A.把代入求得的是第n个月的销售收入
B.相关系数
C.2022年该电商直播销售收入逐月增加
D.该电商2022年直播销售总收入为213.6万元
【变式5.1】(2023·四川南充·一模)某商品的地区经销商对2023年1月到5月该商品的销售情况进行了调查,得到如下统计表.发现销售量y(万件)与时间x(月)成线性相关,根据表中数据,利用最小二乘法求得y与x的回归直线方程为:.则下列说法错误的是( )
时间x(月) 1 2 3 4 5
销售量y(万件) 1 1.6 2.0 a 3
A.由回归方程可知2024年1月份该地区的销售量为6.8万件
B.表中数据的样本中心点为
C.
D.由表中数据可知,y和x成正相关
【变式5.2】(22-23高三上·河南·开学考试)某企业秉承“科学技术是第一生产力”的发展理念,投入大量科研经费进行技术革新,该企业统计了最近6年投入的年科研经费x(单位:百万元)和年利润y(单位:百万元)的数据,并绘制成如图所示的散点图.已知x,y的平均值分别为,.甲统计员得到的回归方程为;乙统计员得到的回归方程为;若甲、乙二人计算均未出现错误,有下列四个结论:
①当投入年科研经费为20(百万元)时,按乙统计员的回归方程可得年利润估计值为75.6(百万元)(取);
②;
③方程比方程拟合效果好;
④y与x正相关.
以上说法正确的是( )
A.①③④ B.②③ C.②④ D.①②④
【考点6 线性回归分析】
【例6.1】(23-24高二上·江西南昌·期末)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
研发投入x(亿元) 1 2 3 4 5
产品收益y(亿元) 3 7 9 10 11
(1)计算的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过50(亿元)则需研发投入至少多少亿元?(结果保留一位小数)
参考数据:;
附:相关系数公式:;
回归直线方程的斜率.
【例6.2】(23-24高二上·陕西渭南·期末)某地区响应“节能减排,低碳生活”的号召,开展系列的措施控制碳排放.环保部门收集到近5年内新增碳排放数量,如下表所示,其中x为年份代号,y(单位:万吨)代表新增碳排放量.
年份 2019 2020 2021 2022 2023
年份代号 1 2 3 4 5
新增碳排放万吨 6.1 5.2 4.9 4 3.8
(1)请计算并用相关系数的数值说明与间具有较强的线性相关性(若,则线性相关程度较高);
(2)求关于的线性回归方程,并据此估计该地区年的新增碳排放.
参考数据:,,,,,,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计公式,相关系数r的公式分别为,,.
【变式6.1】(2024·全国·模拟预测)20世纪80年代初,随着我国的改革开放,经济体制和经营体制逐渐灵活,市场上的商品日益丰富,城市和农村出现小卖部.小卖部主营生活日用商品,有着经营成本小、规模小、商品种类少分布广等特点.近几年,人们的生活水平达到了新的高度,实体小卖部逐渐被应运而生的大小超市所取代.为适应市场,某小卖部经营者欲将经营规模扩大,将小卖部发展成生鲜综合超市,现将2013~2022年的年利润(单位:万元)统计如下:
年限 1 2 3 4 5 6 7 8 9 10
年利润(万元) 2 8 9 12 10 13 15 16 17 18
其中,年限1表示2013年,2表示2014年,3表示2015年,……,以此类推,10表示2022年.
(1)若年利润(单位:万元)与小卖部营业年限成正相关关系,在不改变经营状态的情况下,预测该小卖部2023年的年利润;
(2)以年利润是否低于12万元为评价标准,按照分层抽样从2013~2022年的年利润中随机抽取5个,再从这5个数据中随机抽取2个,求抽取的2个数据至少有1个低于12万元的概率.
附:线性回归方程中,,其中为样本均值.
【变式6.2】(2024·青海·一模)某公司自去年2月份某项技术突破以后,生产的产品质量得到改进与提升,经过一年来的市场检验,信誉越来越好,因此今年以来产品的市场份额明显提高,业务订单量明显上升,如下表是2023年6月份到12月份的订单量数据.
月份 6 7 8 9 10 11 12
月份代码t 1 2 3 4 5 6 7
订单量y(万件) 4.7 5.3 5.6 5.9 6.1 6.4 6.6
(1)试根据相关系数r的值判断订单量y与t的线性相关性强弱(,则认为y与t的线性相关性较强;,则认为y与t的线性相关性较弱);
(2)建立y关于t的线性回归方程,并预测该公司2024年3月份接到的订单数量;
(3)为进一步拓展市场,该公司适时召开了一次产品观摩与宣传会,在所有参会人员(人数很多)中随机抽取部分参会人员进行问卷调查,其中评价“产品质量很好”的占50%,“质量良好”、“质量还需改进”的分别各占30%,20%,然后在所有参会人员中随机抽取5人作为幸运者赠送礼品,记抽取的5人中评价“产品质量很好”的人数为随机变量X,求X的分布列与期望.
附参考公式:,,.
参考数据:,,.
【考点7 非线性回归分析】
【例7.1】(2024·辽宁·模拟预测)土壤食物网对有机质的分解有两条途径,即真菌途径和细菌途径.在不同的土壤生态系统中,由于提供能源的有机物其分解的难易程度不同,这两条途径所起的作用也不同.以细菌分解途径为主导的土壤,有机质降解快,氮矿化率高,有利于养分供应,以真菌途径为主的土壤,氮和能量转化比较缓慢,有利于有机质存财和氮的固持.某生物实验小组从一种土壤数据中随机抽查并统计了8组数据,如下表所示:
编号 1 2 3 4 5 6 7 8
细菌百万个 70 80 90 100 110 120 130 140
真菌百万个 8.0 10.0 12.5 15.0 17.5 21.0 27.0 39.0
其散点图如下,散点大致分布在指数型函数的图象附近.
(1)求关于的经验回归方程(系数精确到0.01);
(2)在做土壤相关的生态环境研究时,细菌与真菌的比值能够反映土壤的碳氮循环.以样本的频率估计总体分布的概率,若该实验小组随机抽查8组数据,再从中任选4组,记真菌(单位:百万个)与细菌(单位:百万个)的数值之比位于区间内的组数为,求的分布列与数学期望.
附:经验回归方程的斜率和截距的最小二乘估计公式分别为,
【例7.2】(2023·四川内江·一模)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,通过对“十二五”和“十三五”规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了两个函数模型:;,其中、、、均为常数,为自然对数的底数,令,,经计算得如下数据:
(1)请从相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立关于的回归方程.(系数精确到0.01)
附:相关系数
回归直线中:,.
【变式7.1】(2023·四川内江·一模)某企业为响应国家号召,汇聚科研力量,加强科技创新,准备加大研发资金投入,为了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,通过对“十二五”和十三五规划发展10年期间年研发资金投入额和年盈利额数据进行分析,建立了两个函数模型:,,其中、、、均为常数,为自然对数的底数,令,,经计算得如下数据:
(1)请从相关系数的角度,分析哪一个模型拟合度更好?
(2)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)
(3)若希望2024年盈利额为800亿元,请预测2024年的研发资金投入额为多少亿元?(结果精确到0.01)
附:相关系数,参考数据:,.
回归直线中:,.
【变式7.2】(23-24高三下·山东·开学考试)某市为繁荣地方经济,大力实行人才引进政策,为了解政策的效果,统计了2018-2023年人才引进的数量(单位:万人),并根据统计数据绘制了如图所示的散点图(表示年份代码,年份代码1-6分别代表2018-2023年).
(1)根据散点图判断与(均为常数)哪一个适合作为关于的回归方程类型;(给出结论即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出关于的回归方程,并预测该市2025年引进人才的数量;
(3)从这6年中随机抽取4年,记引进人才数量超过4万人的年数为,求的分布列和数学期望.
参考数据:
5.15 1.55 17.5 20.95 3.85
其中.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:.
1.(22-23高二下·宁夏银川·期中)给出下列有关线性回归分析的四个命题:
①线性回归直线未必过样本数据点的中心;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关系数就越接近于.
其中真命题的个数为( )
A. B. C. D.
2.(22-23高二下·福建福州·期末)某个国家某种病毒传播的中期感染人数y和天数x的散点图如图所示,下列最适宜作为感染人数y和天数x的经验回归方程类型的是( )
A. B.
C. D.
3.(22-23高二下·河南洛阳·期中)杂交水稻之父袁隆平,推进粮食安全,消除贫困,造福民生做出杰出贡献,他在杂交水稻育种的某试验中,第1个周期到第5个周期育种频数如下
周期数(x) 1 2 3 4 5
频数(y) 2 17 36 93 142
由表格可得关于的二次回归方程为,则此回归模型第2周期的残差(实际值与预报值之差)为( )
A.0 B.1 C.4 D.5
4.(23-24高二上·河北保定·阶段练习)研究表明某地的山高与该山的年平均气温具有相关关系,根据所采集的数据得到线性回归方程,则下列说法错误的是
A.年平均气温为时该山高估计为
B.该山高为处的年平均气温估计为
C.该地的山高与该山的年平均气温的正负相关性与回归直线的斜率的估计值有关
D.该地的山高与该山的年平均气温成负相关关系
5.(2023·浙江杭州·二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
6.(2023·广东梅州·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
年份 2018年 2019年 2020年 2021年 2022年
年份代码x 1 2 3 4 5
云计算市场规模y/千万元 7.4 11 20 36.6 66.7
2 2.4 3 3.6 4
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A. B. C. D.
7.(23-24高二下·河南南阳·阶段练习)相关变量的样本数据如下表,
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得y与x线性相关,并由最小二乘法求得回归直线方程为,下列说法正确的是( )
A.x增加1时,y一定增加2.3 B.变量x与y负相关
C.当y为6.3时,x一定是8 D.a=5.2
8.(23-24高二上·全国·单元测试)某学校校医研究温差(℃)与本校当天新增感冒人数y(人)的关系,该医生记录了5天的数据,且样本中心点为.由于保管不善,记录的5天数据中有两个数据看不清楚,现用代替,已知,,则下列结论正确的是( )
x 5 6 8 9 12
y 17 m 25 n 35
A.在确定的条件下,去掉样本点,则样本的相关系数r增大
B.在确定的条件下,经过拟合,发现基本符合线性回归方程,则
C.在确定的条件下,经过拟合,发现基本符合线性回归方程,则当时,残差为
D.事件“,”发生的概率为
9.(23-24高二·全国·课时练习)根据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得的经验回归直线l的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除两个误差较大的样本点后,重新求得的经验回归方程为
C.去除两个误差较大的样本点后,y的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点(2,3.75)的残差为0.05
10.(23-24高一下·河南郑州·阶段练习)已知具有线性相关的五个样本点,,,,,用最小二乘法得到回归直线方程:,过点,的直线方程:,那么下列4个命题中,①,;②直线过点;③;④,正确命题的个数有( )
A.1个 B.2个 C.3个 D.4个
11.(23-24高一·全国·课后作业)一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:
转速/(转/秒) 16 14 12 8
每小时生产有缺点的零件数/件 11 9 8 5
(1)画出散点图;
(2)如果对有线性相关关系,请画出一条直线近似地表示这种线性关系;
(3)在实际生产中,若它们的近似方程为,允许每小时生产的产品中有缺点的零件最多为件,那么机器的运转速度应控制在什么范围内?
12.(23-24高二上·江西九江·期末)2023年9月23日—10月8日,亚运会在杭州举行,“碳中和”是本届亚运会一大亮点.为了打造碳中和亚运会,杭州亚运会上线了“亚运碳中和-减污降碳协同”数字化管理平台.该平台将数字化技术运用到碳排放采集 核算 减排 注销 评价管理全流程,探索建立了一套科学完整的碳排放管理体系.值此机会,某家公司重点推出新型品牌新能源汽车,以下是其中五个月的销售单:
2023月份 5 6 7 8 9
月份代码 1 2 3 4 5
新能源车销售(万辆) 1.6 2.1 2.7 3.7 4.6
(1)根据表中数据,求出关于的线性回归方程;
(2)随着亚运会的火热,新能源汽车也会一直持续下去,试估计2023年12月份该公司出售多少辆新能源汽车?
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为.
13.(23-24高三上·重庆·阶段练习)混凝土的抗压强度x较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由x推算y的经验公式,下表列出了现有的9对数据,分别为,,…,.
x 141 152 168 182 195 204 223 254 277
y 23.1 24.2 27.2 27.8 28.7 31.4 32.5 34.8 36.2
以成对数据的抗压强度x为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.
(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数r.结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?
(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验回归方程分别为:①,②.经验回归方程①和②的残差计算公式分别为,,.
(ⅰ)求;
(ⅱ)经计算得经验回归方程①和②的残差平方和分别为,,经验回归方程①的决定系数,求经验回归方程②的决定系数.
附:相关系数,决定系数,.
14.(2024·全国·模拟预测)20世纪80年代初,随着我国的改革开放,经济体制和经营体制逐渐灵活,市场上的商品日益丰富,城市和农村出现小卖部.小卖部主营生活日用商品,有着经营成本小、规模小、商品种类少、分布广等特点.近几年,市场商品极大的丰富,人们的生活水平达到了新的高度,实体小卖部逐渐被应运而生的大小超市所取代.为适应市场,某小卖部经营者欲将经营规模扩大,将小卖部发展成生鲜综合超市,现将2013~2022年的年利润(单位:万元)统计如下:
年限 1 2 3 4 5 6 7 8 9 10
年利润(万元) 2 8 9 12 10 13 15 16 17 18
其中,1表示2013年,2表示2014年,3表示2015年,……,以此类推,10表示2022年.
(1)若年利润(单位:万元)与小卖部营业年限成正相关关系,在不改变经营状态的情况下,预测该小卖部2023年的年利润.(结果保留两位小数)
(2)该小卖部经营者从2013~2022年中年利润不低于12万元的年限里随机抽取3个,记这3个年限中年利润超过14万元的有个,求的分布列和期望.
附:线性回归方程中,,,其中为样本均值.
15.(22-23高三上·广东深圳·期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.

(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.