专题8.3 一元线性回归模型及其应用(重难点题型精讲)
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【题型1 一元线性回归模型】
【方法点拨】
根据一元线性回归模型的定义,结合具体题目条件,进行求解即可.
【例1】(2022·高二单元测试)根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,Y平均( )
X 3 4 5 6 7
Y 4.0 -0.5 0.5
A.增加1.4个单位 B.减少1.4个单位 C.增加7.9个单位 D.减少7.9个单位
【解题思路】根据已知条件解出m和n,得到线性回归方程,即可得到答案.
【解答过程】样本点的中心为,则,故,且,
解得,,则,可知当X每增加1个单位时,
Y平均减少1.4个单位.
故选:B.
【变式1-1】(2022春·黑龙江大庆·高二期末)给出下列说法中错误的是( )
A.回归直线恒过样本点的中心
B.两个变量相关性越强,则相关系数就越接近1
C.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变
D.在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位
【解题思路】A中,根据回归直线方程的特征,可判定是否正确;B中,根据相关系数的意义,可判定是否正确;C中,根据方差的计算公式,可判定是否正确;D中,根据回归系数的含义,可判定是否正确.
【解答过程】对于A中,回归直线恒过样本点的中心,所以正确;
对于B中,根据相关系数的意义,可得两个变量相关性越强,
则相关系数就越接近1,所以是正确的;
对于C中,根据平均数的计算公式可得,
根据方差的计算公式,所以是不正确的;
对于D中,根据回归系数的含义,可得在回归直线方程中,
当解释变量增加一个单位时,
预报变量平均减少0.5个单位,所以是正确的.
故选:C.
【变式1-2】(2022春·河南南阳·高二期中)已知变量x和y的回归直线方程为,变量y与z负相关.下列结论中正确的是( )
A.x与y正相关,x与z正相关 B.x与y正相关,x与z负相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
【解题思路】根据变量x和y的回归直线方程判断.
【解答过程】解:因为变量x和y的回归直线方程为,且,
所以变量x与y正相关,
又变量y与z负相关,
所以x与z负相关,
故选:B.
【变式1-3】(2022春·陕西渭南·高一期末)根据如下样本数据:
得到线性回归方程为,则( )
A. B. C. D.
【解题思路】根据与负相关且样本点集中在第一象限可判断出结果.
【解答过程】由样本数据知:与负相关,;
又样本点位于第一象限,在轴截距为正,.
故选:B.
【题型2 残差的计算】
【方法点拨】
根据题目条件,得出经验回归方程,再进行残差的计算.
【例2】(2022春·湖北·高二期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为ycm,测得一些数据如下表所示:
第x天 1 2 3 4 5 6 7
高度y/cm 1 4 6 9 11 12 13
由表格中数据可得y关于x的经验回归方程为,则第7天的残差为( )
A.1.12 B.2.12 C. D.
【解题思路】依题意求出、,根据回归直线方程必过样本中心点求出,即可得到回归直线方程,再根据残差公式计算可得;
【解答过程】解:通过表格计算得,,,
因为经验回归直线过点,所以,
所以关于的经验回归方程为.
所以回归模型第天的残差.
故选:C.
【变式2-1】(2023春·河南开封·高三开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:
月份代号x 1 2 3 4 5 6 7
在线外卖规模y(百万元) 11 13 18 ★ 28 ★ 35
其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则( )
A.1.0 B.2.0 C.3.0 D.4.0
【解题思路】根据给定条件,求出,再借助回归直线的特征及残差列出方程组即可求解作答.
【解答过程】依题意,,而,于是得,
而当时,,即,联立解得,
所以.
故选:B.
【变式2-2】(2022春·河南许昌·高二期末)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):
x 5.5 6.5 7 7.5 8.5
y 9 8 6 4 3
若由最小二乘法求得y关于x的回归直线方程为,则据此计算残差为1.1的样本点是( )A.(5.5,9) B.(6.5,8) C.(7,6) D.(7.5,4)
【解题思路】先求出回归方程的样本中心点,从而可求得,再根据残差的定义可判断.
【解答过程】由题意可知,,,
所以回归方程的样本中心点为,
因此有,
所以,
当时,;
当时,;
当时,;
当时,;
故选:B.
【变式2-3】(2022春·江苏宿迁·高二阶段练习)在对具有线性相关的两个变量和进行统计分析时,得到如下数据:
4 8 10 12
1 2 3 5 6
由表中数据求得关于的回归方程为,则,,这三个样本数据中,残差的绝对值最小的是( )
A. B. C. D.和
【解题思路】根据样本中心点一定在线性回归方程上,求出,分别计算出三个样本数据的残差的绝对值,比较得到结果.
【解答过程】,,
因为样本中心点一定在上,代入解得:
,
当时,,;
当时,,,
当时,,,
因为,
所以残差的绝对值最小的是
故选:B.
【题型3 刻画回归效果的方式】
【方法点拨】
根据刻画回归效果的三种方式,结合具体题目条件,选取适当的方式来刻画模型的拟合效果,即可得解.
【例3】(2022秋·宁夏银川·高三开学考试)下列说法正确的个数是( )
(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好
(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位
A.2 B.3 C.4 D.1
【解题思路】根据残差分析的性质判断(1),(3)选项,由概率的意义判断(2)选项,根据回归直线方程的意义判断(4).
【解答过程】解:对(1),在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故错误;
对(2),概率只说明事件发生的可能性,某次事件不一定发生,所以并不能说明天气预报不科学,故错误;
对(3),在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故正确;
对(4),在回归直线方程,当解释变量每增加1个单位时,预报变量增加0.1个单位,故正确.
故选:A.
【变式3-1】(2022春·山东菏泽·高二期末)关于线性回归的描述,下列命题错误的是( )
A.回归直线一定经过样本点的中心 B.残差平方和越小,拟合效果越好
C.决定系数越接近1,拟合效果越好 D.残差平方和越小,决定系数越小
【解题思路】根据线性回归的性质判断即可
【解答过程】对A,回归直线一定经过样本点的中心正确;
对B,残差平方和越小,拟合效果越好正确;
对C,决定系数越接近1,拟合效果越好正确;
对D,残差平方和越小,拟合效果越好,决定系数越接近1,故D错误;
故选:D.
【变式3-2】(2022秋·广东广州·高三阶段练习)对两个变量和进行回归分析,得到一组样本数据,,…,则下列说法不正确的是( )
A.若变量和之间的相关系数为,则变量和之间具有较强的线性相关关系
B.残差平方和越小的模型,拟合的效果越好
C.用决定系数来刻画回归效果,越小说明拟合效果越好
D.在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高
【解题思路】变量和之间的相关系数为越大,则变量和之间具有较强的线性相关关系可判断A;
残差平方和越小的模型,拟合的效果越好可判断B;用决定系数来刻画回归效果,越大说明拟合效果越好可判断 C;在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高可判断D.
【解答过程】变量和之间的相关系数为越大,则变量和之间具有较强的线性相关关系,故A正确;
残差平方和越小的模型,拟合的效果越好,故B正确;
用决定系数来刻画回归效果,越大说明拟合效果越好,故C错误;
在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高,故D正确.
故选:C.
【变式3-3】(2022春·甘肃天水·高二阶段练习)关于线性回归的描述,有下列命题:
①回归直线一定经过样本中心点;
②相关系数的绝对值越大,拟合效果越好;
③相关指数越接近1拟合效果越好;
④残差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【解题思路】根据回归直线方程的性质,相关系数、相关系数及残差平方和的意义判断各项的正误即可.
【解答过程】对于①,回归直线一定经过样本中心点,故正确;
对于②,相关系数的绝对值越接近于1,相关性越强,故错误;
对于③,相关指数越接近1拟合效果越好,故正确;
对于④,残差平方和越小,拟合效果越好,故正确.
故选:C.
【题型4 代入法求线性经验回归方程】
【方法点拨】
经验回归直线一定经过样本点的中心(,),求出样本点的中心后代入线性回归方程求解相应字母.
【例4】(2023秋·四川广安·高二阶段练习)已知两个变量和之间存在线性相关关系,某兴趣小组收集了一组,的样本数据如下表所示:
1 2 3 4 5
0.5 0.6 1 1.4 1.5
根据表中数据利用最小二乘法得到的回归方程是( )
A. B.
C. D.
【解题思路】求出,,由回归直线必过样本中心,将点(,)依次代入各项检验是否成立可得结果.
【解答过程】∵,
∴回归直线必过样本中心(3,1),
而A、B、D项中的回归直线方程不过点(3,1),C项的回归直线方程过点(3,1),
故选:C.
【变式4-1】(2022秋·陕西榆林·高二期中)已知,的取值如下表所示:
x 0 1 3 4
y 2.2 4.3 4.8 6.7
若与线性相关,且,则( )
A.2.2 B.2.9 C.2.8 D.2.6
【解题思路】利用平均数可得样本的中心点为,将中心点对应的值代入题目中的等式即可求出的值.
【解答过程】由表格,得,
,
线性回归直线过样本中心点,
所以,所以.
故选:D.
【变式4-2】(2023秋·河南焦作·高二期末)某产品的广告费用x与销售额y的统计数据如表:
广告费用x(万元) 3 4 5 6
销售额y(万元) 25 30 40 45
根据如表可得回归方程中的为7.根据此模型预测广告费用为10万元时销售额为( )万元A.63.6 B.75.5 C.73.5 D.72.0
【解题思路】线性回归方程.根据回归方程必过样本中心点,求出回归系数,再将代入,即可得到预报销售额.
【解答过程】解:由题意,,,
由回归方程中的为7可得,,解得,
所以,回归方程为,
所以时,元.
故选:C.
【变式4-3】(2023秋·四川宜宾·高二期末)某小区流感大爆发,当地医疗机构使用中西医结合的方法取得了不错的成效,每周治愈的患者人数如表所示,由表格可得y关于x的线性经验回归方程为,则测此回归模型第4周的治愈人数为( )
周数(x) 1 2 3 4 5
治愈人数(y) 5 15 35 ? 140
A. B. C. D.
【解题思路】设第4周的治愈人数为,表示出样本中心点,代入到回归方程中,进而可求出答案.
【解答过程】根据题意,设第4周的治愈人数为,
则有,,
所以样本中心点为,代入到回归方程中,
得,
故选:B.
【题型5 经验回归模型的应用】
【方法点拨】
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量;
(2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)确定经验回归方程的类型(如我们观察到数据呈线性关系,则选用线性经验回归方程);
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数;
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异
常,则检查数据是否有误,或模型是否合适等.
【例5】(2023秋·四川雅安·高二期末)某连锁经营公司所属5个零售店某月的销售额和利润额资料如表.
商店名称 A B C D E
销售额x(千万元) 3 5 6 7 9
利润额y(千万元) 2 3 3 4 5
(1)若销售额和利润额具有相关关系,用最小二乘法计算利润额y对销售额x的回归直线方程.
(参考公式,)
(2)若该公司计划再开一个店想达到预期利润为8百万,请预估销售额需要达到多少
【解题思路】(1)根据已知条件,结合最小二乘法和回归直线方程的公式,即可求解.
(2)将代入回归直线方程中,即可求解.
【解答过程】(1)由表中的数据可得,,,
,,
故利润额y对销售额x的回归直线方程为.
(2)∵该公司计划再开一个店想达到预期利润为8百万,即0.8千万,
∴,解得,故预计销售额需要达到8百万.
【变式5-1】(2023·全国·模拟预测)目前手机已经成为人们生活中的必需品,国内市场已经进入成熟期,下表是2016—2021年某市手机总体出货量(单位:万部)统计表.
年份 2016年 2017年 2018年 2019年 2020年 2021年
年份代码 1 2 3 4 5 6
手机总体出货量/万部 5.6 4.9 4.1 3.9 3.2 3.5
(1)已知该市手机总体出货量y与年份代码x之间可用线性回归模型拟合,求y关于x的线性回归方程(系数精确到0.01);
(2)预测2022年该市手机总体出货量.
附:线性回归方程中斜率与截距的最小二乘估计公式分别为,.
【解题思路】(1)根据题中所给数据,利用最小二乘法求出,即可得解;
(2)将代入(1)中回归方程,即可得解.
【解答过程】(1)由题中统计表得,
,
所以 ,
,
则,
,
所以y关于x的线性回归方程为;
(2)由题意得2022年对应的年份代码,
代入,得,
所以预测2022年该市手机总体出货量为2.63万部.
【变式5-2】(2023秋·四川成都·高二期末)某工厂统计2022年销售网点数量与售卖出的产品件数的数据如下表:
销售网点数x(单位:个) 17 19 20 21 23
售卖出的产品件数y(单位:万件) 21 22 25 27 30
假定该工厂销售网点的个数与售卖出的产品件数呈线性相关关系,
(1)求2022年售卖出的产品件数y(单位:万件)关于销售网点数x(单位:个)的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测2022年该工厂建立40个销售网点时售卖出的产品件数.
参考公式:,.
【解题思路】(1)由参考公式可算出销售网点数x(单位:个)的线性回归方程;
(2)将代入由(1)算得的回归方程可得答案.
【解答过程】(1)由题,可得,
,
,
.
则,.
故回归方程为:.
(2)将代入回归方程,则.
故2022年该工厂建立40个销售网点时售卖出的产品件数约万件.
【变式5-3】(2023·山东·模拟预测)我国技术给直播行业带来了很多发展空间,加上受疫情影响,直播这种成本较低的获客渠道备受商家青睐,某商场统计了2022年1~5月某商品的线上月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表示.
月份 1 2 3 4 5
售价x(元/件) 60 56 58 57 54
月销售量y(千件) 5 9 7 10 9
(1)求相关系数,并说明是否可以用线性回归模型拟合与的关系(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.01);
(2)建立关于的线性回归方程,并估计当售价为元/件时,该商品的线上月销售量估计为多少千件?
(3)若每件商品的购进价格为元/件,如果不考虑其他费用,由(2)中结论,当商品售价为多少时,可使得该商品的月利润最大?(该结果保留整数)
参考公式:对于一组数据,相关系数,其回归直线的斜率和截距的最小二乘估计分别为:.参考数据:.
【解题思路】(1)根据数据计算,从而分别代入计算出,,,由公式计算相关系数并判断相关性;
(2)代入公式求解,,从而写出回归方程,再代入,计算;
(3)设每月的利润为元,写出关于的函数解析式,根据二次函数的性质,求解对称轴即可.
【解答过程】(1)由已知数据可得,
,
,
,
所以相关系数,
因为,所以与有很强的线性相关性,可以用线性回归模型拟合.
(2)由于,
,
所以关于的线性回归方程为,
当时,,
故当售价为元/件时,该商品的线上月销售量估计为千件.
(3)设每月的利润为元,则,
当时,Z取得最大值.
即当商品售价为元/件时,可使得该商品的月利润最大.
【题型6 非线性经验回归方程的求法】
【方法点拨】
(1)作散点图确定曲线模型:曲线所对应的函数种类繁多,这就要求我们充分想象,大胆猜测拟合函数类型,
粗略估计使用哪个函数拟合.
(2)非线性转化为线性:先通过适当变换化非线性关系为线性关系,然后按照线性检验回归方程的求解步骤
进行求解.
(3)分析模型的拟合效果,得出结论.
【例6】(2023·陕西西安·统考一模)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6
繁殖个数y 3 6 13 25 45 100
(1)判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值,
3.50 32 2.85 17.5 307 12.12
(ⅰ)证明:对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即为常数);
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据其回归直线方程的斜率和截距的最小二乘估计分别为.
【解题思路】(1)根据给定数据作出散点图,再借助散点图即可判断作答.
(2)(ⅰ)由(1)选定的回归方程类型,取对数即可得关于x的直线方程作答;(ⅱ)由(ⅰ)的结果,利用最小二乘法求解作答.
【解答过程】(1)作出繁殖个数y关于天数x变化的散点图,如图,
观察散点图知,样本点分布在一条指数型曲线周围,
所以更适宜作为繁殖个数y关于天数x变化的回归方程类型.
(2)(ⅰ)由(1)知,(为常数,且),又,
因此,令,即有为常数,
所以繁殖个数的对数z关于天数x具有线性关系.
(ⅱ),,由(ⅰ)知,
,
,因此,
所以y关于x的回归方程为.
【变式6-1】(2023·云南·高三阶段练习)近年来,云南省保山市龙陵县紧紧围绕打造“中国石斛之乡”的发展定位,大力发展石斛产业,该产业带动龙陵县近四分之一人口脱贫致富.2022年8月,龙陵紫皮石斛获国家地理标志运用促进工程重点项目,并被评为优秀等次.在政府的大力扶持下,龙陵紫皮石斛产量逐年增长,2017年底到2022年底龙陵县石斛产量统计如下及散点图如图.
年份 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6
紫皮石斛产量y(吨) 3200 3400 3600 4200 7500 9000
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)经计算得下表中数据,根据(1)中结果,求出y关于x的回归方程;
3.5 5150 8.46 17.5 20950 3.85
其中.
(3)龙陵县计划到2025年底实现紫皮石斛年产量达1.5万吨,根据(2)所求得的回归方程,预测该目标是否能完成?(参考数据:)
附:,.
【解题思路】(1)根据判断即可;
(2)根据表中数据和参考数据,利用公式求解即可;
(3)根据(2)中所得的回归方程即可预测到2025年底该目标值,从而即可判断.
【解答过程】(1)由散点图可知,更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型.
(2)对两边取自然对数,得.
令,所以.
因为,
所以.
所以,
所以.
所以龙陵县紫皮石斛产量y关于年份代码x的回归方程为.
(3)当时,,
故预测该目标可以完成.
【变式6-2】(2023·江西抚州·高三开学考试)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1—5.
年份代码x 1 2 3 4 5
车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0
(1)由上表数据知,可用指数函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.1);
(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方程后,通过修正,把作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.
参考数据:
1.94 33.82 1.7 1.6
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【解题思路】(1)由得,由回归直线的斜率和截距的最小二乘估计公式求得,从而求得y关于x的回归方程.
(2)两年的年平均增长率为0.3,故2024年的中国车载音乐市场规模为
【解答过程】(1)因为,所以两边同时取常用对数,得,设,所以,设,
因为,所以
,
所以
所以
所以
(2)由题意知2023年与2024年这两年的年平均增长率,
2022年中国车载音乐市场规模为1.7,
故预测2024年的中国车载音乐市场规模(十亿元).
【变式6-3】(2023·全国·高三专题练习)某企业为改进生产,现 某产品及成本相关数据进行统计.现收集了该产品的成本费y(单位:万元/吨)及同批次产品生产数量x(单位:吨)的20组数据.现分别用两种模型①,②进行拟合,据收集到的数据,计算得到如下值:
14.5 0.08 665 0.04 -450 4
表中,.
若用刻画回归效果,得到模型①、②的值分别为,.
(1)利用和比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求y关于x的回归方程;并求同批次产品生产数量为25(吨)时y的预报值.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.
【解题思路】(1)根据已知,根据的意义,即可得出模型②的拟合效果好,选择模型②;
(2)与可用线性回归来拟合,有,求出系数,得到回归方程,即可得到成本费与同批次产品生产数量的回归方程为,代入,即可求出结果.
【解答过程】(1)应该选择模型②.
由题意可知,,则模型②中样本数据的残差平方和比模型①中样本数据的残差平方和小,即模型②拟合效果好.
(2)由已知,成本费与可用线性回归来拟合,有.
由已知可得,,
所以,
则关于的线性回归方程为.
成本费与同批次产品生产数量的回归方程为,
当(吨)时,(万元/吨).
所以,同批次产品生产数量为25(吨)时y的预报值为6万元/吨.专题8.3 一元线性回归模型及其应用(重难点题型精讲)
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称
为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用刻画拟合效果
=.
越大,模型的拟合效果越好,越小,模型的拟合效果越差.
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【题型1 一元线性回归模型】
【方法点拨】
根据一元线性回归模型的定义,结合具体题目条件,进行求解即可.
【例1】(2022·高二单元测试)根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,Y平均( )
X 3 4 5 6 7
Y 4.0 -0.5 0.5
A.增加1.4个单位 B.减少1.4个单位 C.增加7.9个单位 D.减少7.9个单位
【变式1-1】(2022春·黑龙江大庆·高二期末)给出下列说法中错误的是( )
A.回归直线恒过样本点的中心
B.两个变量相关性越强,则相关系数就越接近1
C.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变
D.在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位
【变式1-2】(2022春·河南南阳·高二期中)已知变量x和y的回归直线方程为,变量y与z负相关.下列结论中正确的是( )
A.x与y正相关,x与z正相关 B.x与y正相关,x与z负相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
【变式1-3】(2022春·陕西渭南·高一期末)根据如下样本数据:
得到线性回归方程为,则( )
A. B. C. D.
【题型2 残差的计算】
【方法点拨】
根据题目条件,得出经验回归方程,再进行残差的计算.
【例2】(2022春·湖北·高二期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为ycm,测得一些数据如下表所示:
第x天 1 2 3 4 5 6 7
高度y/cm 1 4 6 9 11 12 13
由表格中数据可得y关于x的经验回归方程为,则第7天的残差为( )
A.1.12 B.2.12 C. D.
【变式2-1】(2023春·河南开封·高三开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:
月份代号x 1 2 3 4 5 6 7
在线外卖规模y(百万元) 11 13 18 ★ 28 ★ 35
其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则( )
A.1.0 B.2.0 C.3.0 D.4.0
【变式2-2】(2022春·河南许昌·高二期末)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):
x 5.5 6.5 7 7.5 8.5
y 9 8 6 4 3
若由最小二乘法求得y关于x的回归直线方程为,则据此计算残差为1.1的样本点是( )A.(5.5,9) B.(6.5,8) C.(7,6) D.(7.5,4)
【变式2-3】(2022春·江苏宿迁·高二阶段练习)在对具有线性相关的两个变量和进行统计分析时,得到如下数据:
4 8 10 12
1 2 3 5 6
由表中数据求得关于的回归方程为,则,,这三个样本数据中,残差的绝对值最小的是( )
A. B. C. D.和
【题型3 刻画回归效果的方式】
【方法点拨】
根据刻画回归效果的三种方式,结合具体题目条件,选取适当的方式来刻画模型的拟合效果,即可得解.
【例3】(2022秋·宁夏银川·高三开学考试)下列说法正确的个数是( )
(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好
(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位
A.2 B.3 C.4 D.1
【变式3-1】(2022春·山东菏泽·高二期末)关于线性回归的描述,下列命题错误的是( )
A.回归直线一定经过样本点的中心 B.残差平方和越小,拟合效果越好
C.决定系数越接近1,拟合效果越好 D.残差平方和越小,决定系数越小
【变式3-2】(2022秋·广东广州·高三阶段练习)对两个变量和进行回归分析,得到一组样本数据,,…,则下列说法不正确的是( )
A.若变量和之间的相关系数为,则变量和之间具有较强的线性相关关系
B.残差平方和越小的模型,拟合的效果越好
C.用决定系数来刻画回归效果,越小说明拟合效果越好
D.在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高
【变式3-3】(2022春·甘肃天水·高二阶段练习)关于线性回归的描述,有下列命题:
①回归直线一定经过样本中心点;
②相关系数的绝对值越大,拟合效果越好;
③相关指数越接近1拟合效果越好;
④残差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
【题型4 代入法求线性经验回归方程】
【方法点拨】
经验回归直线一定经过样本点的中心(,),求出样本点的中心后代入线性回归方程求解相应字母.
【例4】(2023秋·四川广安·高二阶段练习)已知两个变量和之间存在线性相关关系,某兴趣小组收集了一组,的样本数据如下表所示:
1 2 3 4 5
0.5 0.6 1 1.4 1.5
根据表中数据利用最小二乘法得到的回归方程是( )
A. B.
C. D.
【变式4-1】(2022秋·陕西榆林·高二期中)已知,的取值如下表所示:
x 0 1 3 4
y 2.2 4.3 4.8 6.7
若与线性相关,且,则( )
A.2.2 B.2.9 C.2.8 D.2.6
【变式4-2】(2023秋·河南焦作·高二期末)某产品的广告费用x与销售额y的统计数据如表:
广告费用x(万元) 3 4 5 6
销售额y(万元) 25 30 40 45
根据如表可得回归方程中的为7.根据此模型预测广告费用为10万元时销售额为( )万元A.63.6 B.75.5 C.73.5 D.72.0
【变式4-3】(2023秋·四川宜宾·高二期末)某小区流感大爆发,当地医疗机构使用中西医结合的方法取得了不错的成效,每周治愈的患者人数如表所示,由表格可得y关于x的线性经验回归方程为,则测此回归模型第4周的治愈人数为( )
周数(x) 1 2 3 4 5
治愈人数(y) 5 15 35 ? 140
A. B. C. D.
【题型5 经验回归模型的应用】
【方法点拨】
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量;
(2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系等);
(3)确定经验回归方程的类型(如我们观察到数据呈线性关系,则选用线性经验回归方程);
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数;
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异
常,则检查数据是否有误,或模型是否合适等.
【例5】(2023秋·四川雅安·高二期末)某连锁经营公司所属5个零售店某月的销售额和利润额资料如表.
商店名称 A B C D E
销售额x(千万元) 3 5 6 7 9
利润额y(千万元) 2 3 3 4 5
(1)若销售额和利润额具有相关关系,用最小二乘法计算利润额y对销售额x的回归直线方程.
(参考公式,)
(2)若该公司计划再开一个店想达到预期利润为8百万,请预估销售额需要达到多少
【变式5-1】(2023·全国·模拟预测)目前手机已经成为人们生活中的必需品,国内市场已经进入成熟期,下表是2016—2021年某市手机总体出货量(单位:万部)统计表.
年份 2016年 2017年 2018年 2019年 2020年 2021年
年份代码 1 2 3 4 5 6
手机总体出货量/万部 5.6 4.9 4.1 3.9 3.2 3.5
(1)已知该市手机总体出货量y与年份代码x之间可用线性回归模型拟合,求y关于x的线性回归方程(系数精确到0.01);
(2)预测2022年该市手机总体出货量.
附:线性回归方程中斜率与截距的最小二乘估计公式分别为,.
【变式5-2】(2023秋·四川成都·高二期末)某工厂统计2022年销售网点数量与售卖出的产品件数的数据如下表:
销售网点数x(单位:个) 17 19 20 21 23
售卖出的产品件数y(单位:万件) 21 22 25 27 30
假定该工厂销售网点的个数与售卖出的产品件数呈线性相关关系,
(1)求2022年售卖出的产品件数y(单位:万件)关于销售网点数x(单位:个)的线性回归方程;
(2)根据(1)中求出的线性回归方程,预测2022年该工厂建立40个销售网点时售卖出的产品件数.
参考公式:,.
【变式5-3】(2023·山东·模拟预测)我国技术给直播行业带来了很多发展空间,加上受疫情影响,直播这种成本较低的获客渠道备受商家青睐,某商场统计了2022年1~5月某商品的线上月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表示.
月份 1 2 3 4 5
售价x(元/件) 60 56 58 57 54
月销售量y(千件) 5 9 7 10 9
(1)求相关系数,并说明是否可以用线性回归模型拟合与的关系(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.01);
(2)建立关于的线性回归方程,并估计当售价为元/件时,该商品的线上月销售量估计为多少千件?
(3)若每件商品的购进价格为元/件,如果不考虑其他费用,由(2)中结论,当商品售价为多少时,可使得该商品的月利润最大?(该结果保留整数)
参考公式:对于一组数据,相关系数,其回归直线的斜率和截距的最小二乘估计分别为:.参考数据:.
【题型6 非线性经验回归方程的求法】
【方法点拨】
(1)作散点图确定曲线模型:曲线所对应的函数种类繁多,这就要求我们充分想象,大胆猜测拟合函数类型,
粗略估计使用哪个函数拟合.
(2)非线性转化为线性:先通过适当变换化非线性关系为线性关系,然后按照线性检验回归方程的求解步骤
进行求解.
(3)分析模型的拟合效果,得出结论.
【例6】(2023·陕西西安·统考一模)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6
繁殖个数y 3 6 13 25 45 100
(1)判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)
(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值,
3.50 32 2.85 17.5 307 12.12
(ⅰ)证明:对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即为常数);
(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).
附:对于一组数据其回归直线方程的斜率和截距的最小二乘估计分别为.
【变式6-1】(2023·云南·高三阶段练习)近年来,云南省保山市龙陵县紧紧围绕打造“中国石斛之乡”的发展定位,大力发展石斛产业,该产业带动龙陵县近四分之一人口脱贫致富.2022年8月,龙陵紫皮石斛获国家地理标志运用促进工程重点项目,并被评为优秀等次.在政府的大力扶持下,龙陵紫皮石斛产量逐年增长,2017年底到2022年底龙陵县石斛产量统计如下及散点图如图.
年份 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6
紫皮石斛产量y(吨) 3200 3400 3600 4200 7500 9000
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)
(2)经计算得下表中数据,根据(1)中结果,求出y关于x的回归方程;
3.5 5150 8.46 17.5 20950 3.85
其中.
(3)龙陵县计划到2025年底实现紫皮石斛年产量达1.5万吨,根据(2)所求得的回归方程,预测该目标是否能完成?(参考数据:)
附:,.
【变式6-2】(2023·江西抚州·高三开学考试)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1—5.
年份代码x 1 2 3 4 5
车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0
(1)由上表数据知,可用指数函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.1);
(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方程后,通过修正,把作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.
参考数据:
1.94 33.82 1.7 1.6
其中,.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【变式6-3】(2023·全国·高三专题练习)某企业为改进生产,现 某产品及成本相关数据进行统计.现收集了该产品的成本费y(单位:万元/吨)及同批次产品生产数量x(单位:吨)的20组数据.现分别用两种模型①,②进行拟合,据收集到的数据,计算得到如下值:
14.5 0.08 665 0.04 -450 4
表中,.
若用刻画回归效果,得到模型①、②的值分别为,.
(1)利用和比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选择的模型,求y关于x的回归方程;并求同批次产品生产数量为25(吨)时y的预报值.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.