第2课时 回归分析及非线性回归模型
学习目标
1.结合实例,了解随机误差、残差、残差图的概念. 2.对回归模型会进行残差分析. 3.了解非线性回归模型的基本思想方法,能转化为一元线性回归模型解决实际问题. 4.能利用R2判断回归模型的拟合效果.
eq \o(\s\up7( INCLUDEPICTURE "新知学习探究LLL.TIF" INCLUDEPICTURE "新知学习探究LLL.TIF" \* MERGEFORMAT ),\s\do5( ))
INCLUDEPICTURE "新课导学1LLL.TIF" INCLUDEPICTURE "新课导学1LLL.TIF" \* MERGEFORMAT
思考1 对于教材P105表8.2-1中的数据,由最小二乘法得儿子身高y关于父亲身高x的经验回归方程为=0.839x+28.957,那么当x=172时,=0.839×172+28.957=173.265(cm),如果一位父亲的身高为172 cm,他儿子长大成人后的身高一定是173 cm吗?为什么?
提示:不一定,因为还有其他影响他儿子身高的因素,父亲的身高不能完全决定儿子的身高.
思考2 对于教材P105表8.2-1中的第6个数据,我们发现当父亲身高为172 cm时,儿子的身高实际为176 cm,实际身高与预测的身高相差了多少?
提示:176-173.265=2.735(cm).
思考3 只要给出一组成对样本数据,利用最小二乘法就可求出经验回归方程吗?
提示:不一定,成对样本数据除了线性相关,还有非线性相关.
一 残差及残差分析
1.残差的概念
对于响应变量Y,通过观测得到的数据称为____________,通过经验回归方程得到的称为____________,观测值减去预测值所得的差称为________.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为____________.
2.残差分析
作图时__________为残差,____________可以选为样本编号,或身高数据等,这样作出的图形称为残差图.若残差点比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,带状区域越窄,则说明拟合效果越好.
[答案自填] 观测值 预测值 残差
残差分析 纵坐标 横坐标
INCLUDEPICTURE "例1LLL.TIF" INCLUDEPICTURE "例1LLL.TIF" \* MERGEFORMAT (1)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是( )
INCLUDEPICTURE "25RJS8-13.TIF" INCLUDEPICTURE "25RJS8-13.TIF" \* MERGEFORMAT
(2)已知变量x和y的统计数据如下表:
x -2 -1 0 1 2
y 5 ? 2 2 1
由表中的数据得到经验回归方程=-x+2.6,那么当x=-1时残差为________.(注:残差=观测值-预测值)
【解析】 (1)用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高,显然D选项的拟合精度最高.故选D.
(2)由题表知,==0,则=-+2.6=2.6,因此x=-1时的观测值为5-(5+2+2+1)=3,而x=-1时的预测值为-(-1)+2.6=3.6,所以当x=-1时残差为3-3.6=-0.6.
【答案】 (1)D (2)-0.6
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
(1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预测精度越高.
(2)残差是随机误差的估计值,i=yi-i.
[跟踪训练1] (1)已知某成对样本数据的残差图如图,则样本点数据中可能不准确的是从左到右第( )
INCLUDEPICTURE "A38.TIF" INCLUDEPICTURE "A38.TIF" \* MERGEFORMAT
A.4个 B.5个
C.6个 D.7个
解析:选C.原始数据中的可疑数据往往是残差绝对值过大的那个数据,即偏离平衡位置过大.
(2)某工厂为研究某种产品的产量x(单位:吨)与所需某种原材料的质量y(单位:吨)的相关性,在生产过程中收集4组对应数据(x,y),如表所示.(残差=观测值-预测值)
x 3 4 5 6
y 2.5 3 4 m
根据表中数据,得出y关于x的经验回归方程为=0.7x+.据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为________.
解析:由题意可得x=4时的预测值为3-(-0.15)=3.15,
则有3.15=0.7×4+,所以=0.35,即=0.7x+0.35,
又==4.5,
==,
故=0.7×4.5+0.35,
所以m=4.5.
答案:4.5
二 非线性经验回归方程
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
2.非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
INCLUDEPICTURE "例2LLL.TIF" INCLUDEPICTURE "例2LLL.TIF" \* MERGEFORMAT (对接教材P115问题)中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:℃)关于时间x(单位:min)的回归模型,通过实验收集在25 ℃室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据及相应散点图,并对数据做初步处理,如下表:
INCLUDEPICTURE "25RJS8-14A.TIF" INCLUDEPICTURE "25RJS8-14A.TIF" \* MERGEFORMAT
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
表中:wi=ln (yi-25),=i,
假如该茶水温度y关于时间x的回归方程为y=d·cx+25,请求出此回归方程.
附:(1)对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=+x的斜率和截距的最小二乘估计分别为=,=-;
(2)参考数据:e-0.08≈0.92,e4.09≈60.
【解】 由y=d·cx+25,得y-25=d·cx,两边取自然对数,得ln (y-25)=ln d+x ln c,令w=ln (y-25),则w=ln d+x ln c,
=i==3,(xi-)2=(-3)2+(-2)2+(-1)2+12+22+32=28,结合题表数据,
得ln c===-0.08,
结合参考数据可得c=e-0.08≈0.92,由ln d=-ln c=3.85-3×(-0.08)=4.09,得d=e4.09≈60,
所以茶水温度y关于时间x的回归方程为=60×0.92x+25.
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
解决非线性回归问题的方法及步骤
INCLUDEPICTURE "A43.TIF" INCLUDEPICTURE "A43.TIF" \* MERGEFORMAT
[跟踪训练2] (1)如图是一组实验数据的散点图,拟合方程y=+c(x>0),令t=,则y关于t的经验回归直线过点(2,5),(12,25),则当y∈(1.01,1.02)时,x的取值范围是( )
A.(0.01,0.02) B.(50,100)
C.(0.02,0.04) D.(100,200)
INCLUDEPICTURE "25RJS8-14.TIF" INCLUDEPICTURE "25RJS8-14.TIF" \* MERGEFORMAT
解析:选D.根据题意可得y=bt+c(t>0),由y关于t的经验回归直线过点(2,5),(12,25)可得解得
所以y=2t+1,由y∈(1.01,1.02)可得1.01<2t+1<1.02,
所以0.005<t<0.01,所以0.005<<0.01,所以100<x<200.故选D.
(2)已知变量y关于x的回归方程为=ebx-0.5,若对=ebx-0.5两边取自然对数,可以发现ln 与x线性相关,现有一组数据如下表所示,当x=5时,预测的值为________.
x 1 2 3 4
y e e3 e4 e6
解析:对=ebx-0.5两边取对数,
得ln =bx-0.5令z=ln =bx-0.5,则
x 1 2 3 4
y e e3 e4 e6
z 1 3 4 6
==2.5,==3.5,代入= -0.5得3.5=·2.5-0.5,
故=1.6,故z=1.6x-0.5,=e1.6x-0.5.
当x=5时,=e1.6×5-0.5=e7.5.
答案:e7.5
三 残差平方和与决定系数R2
1.残差平方和法
残差平方和(yi-i)2________,模型的拟合效果越好,残差平方和________,模型的拟合效果越差.
2.利用决定系数R2刻画回归效果
R2=1-,R2越______,模型的拟合效果越好;R2越______,模型的拟合效果越差.
[答案自填] 越小 越大 大 小
INCLUDEPICTURE "例3LLL.TIF" INCLUDEPICTURE "例3LLL.TIF" \* MERGEFORMAT 已知某种汽车新购入价格为14万元,但随着使用年限增加汽车会贬值.通过调查发现使用年限 x(单位:年)与出售价y(单位:万元)之间的关系有如下一组数据:
x 1 2 4 8 10
y 12 10 7 6 5
(1)求y关于x的经验回归方程;
(2)已知R2=1-,当R2≥0.9时,经验回归方程的拟合效果非常好;当0.8<R2<0.9时,经验回归方程的拟合效果良好.试问该经验回归方程的拟合效果是非常好还是良好?说明你的理由.(结果保留三位小数)
(附:用最小二乘法求经验回归方程=x+的系数公式= eq \f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-)) \o(y,\s\up6(-)),\i\su(i=1,n,x)-n\o(x,\s\up6(-))2) =;=-)
【解】 (1)由题意,得=×(1+2+4+8+10)=5,=×(12+10+7+6+5)=8,
iyi-5=1×12+2×10+4×7+8×6+10×5-200=-42,
(xi-)2=(1-5)2+(2-5)2+(4-5)2+(8-5)2+(10-5)2=60,
===-0.7,
则=-=8+0.7×5=11.5,
所以y关于x的经验回归方程是=-0.7x+11.5.
(2)列出残差表:
xi 1 2 4 8 10
yi 12 10 7 6 5
i 10.8 10.1 8.7 5.9 4.5
yi-i 1.2 -0.1 -1.7 0.1 0.5
yi- 4 2 -1 -2 -3
所以(yi-i)2=1.22+(-0.1)2+(-1.7)2+0.12+0.52=4.6,(yi-)2=42+22+(-1)2+(-2)2+(-3)2=34,
所以R2=1-=1-≈0.865,则0.8<R2<0.9,所以该经验回归方程的拟合效果良好.
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
(1)回归模型拟合效果的好坏可以通过计算决定系数R2来判断,其值越大,说明拟合效果越好.
(2)在含有一个解释变量的线性回归模型中,决定系数R2恰好等于样本相关系数r的平方.在线性回归模型中有0≤R2≤1,因此R2和两个变量的样本相关系数r都能刻画用线性回归模型拟合数据的效果.|r|越大,R2就越大,线性回归模型拟合数据的效果就越好.
[跟踪训练3] (1)通过对两个具有线性相关关系的变量x和y,利用两组不同的统计数据建立了模型:①=7.5x+2;②=6.8x+2.5.对这两个模型进行了残差分析发现:第①个线性回归模型比第②个线性回归模型拟合效果好.若用R,R,Q1,Q2分别表示模型①与模型②的决定系数与残差平方和,则下列结论正确的是( )
A.R>R,Q1<Q2
B.R>R,Q1>Q2
C.R<R,Q1<Q2
D.R解析:选A.用决定系数R2的值判断模型的拟合效果,R2越大,说明残差平方和越小,模型的拟合效果越好,因为第①个线性回归模型比第②个线性回归模型拟合效果好,所以R>R,Q1<Q2.故选A.
(2)甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表:
甲 乙 丙 丁
散点图 INCLUDEPICTURE "25RJS8-15.TIF" INCLUDEPICTURE "25RJS8-15.TIF" \* MERGEFORMAT INCLUDEPICTURE "25RJS8-16.TIF" INCLUDEPICTURE "25RJS8-16.TIF" \* MERGEFORMAT INCLUDEPICTURE "25RJS8-17.TIF" INCLUDEPICTURE "25RJS8-17.TIF" \* MERGEFORMAT INCLUDEPICTURE "25RJS8-18.TIF" INCLUDEPICTURE "25RJS8-18.TIF" \* MERGEFORMAT
残差平方和 115 106 124 103
则试验结果体现拟合A,B两变量关系的模型拟合精度最高的同学是________.
解析:对于已经获取的样本数据,R2表达式中(yi-i)2为确定的数,则残差平方和越小,R2越大,由此知丁同学的回归模型的拟合精度最高.
答案:丁
eq \o(\s\up7( INCLUDEPICTURE "课堂巩固自测LLL.TIF" INCLUDEPICTURE "课堂巩固自测LLL.TIF" \* MERGEFORMAT ),\s\do5( ))
1.为研究某航空公司最近一段时间的正点率,用模型①和模型②模拟正点率y(单位:%)与时间x(x的取值为5,10,15,20,25,30天)的回归关系:模型①y=a+bx,模型②y=ec+dx,设两模型的决定系数依次为R和R.若两模型的残差图分别如下图所示,则( )
INCLUDEPICTURE "25RJS8-19.TIF" INCLUDEPICTURE "25RJS8-19.TIF" \* MERGEFORMAT
A.RC.R>R D.R,R关系不能确定
解析:选A.根据题图知,模型②残差点比较均匀地落在水平的带状区域中,带状区域宽度窄,拟合精度较高,所以RINCLUDEPICTURE "25RJS8-20.TIF" INCLUDEPICTURE "25RJS8-20.TIF" \* MERGEFORMAT
2.(多选)(教材P116思考改编)某研究小组采集了5组数据,作出如图所示的散点图.若去掉D(3,10)后,下列说法正确的是( )
A.样本相关系数r变小
B.决定系数R2变大
C.残差平方和变大
D.解释变量x与响应变量y的线性相关程度变强
解析:选BD.根据题图可知,去掉点D(3,10)后,y与x的线性相关程度加强,且为正相关,样本相关系数r变大,则A错误,D正确;去掉点D(3,10)后,残差平方和变小,则R2变大,B正确,C错误.故选BD.
3.已知变量x和y的统计数据如下表:
x 6 7 8 9 10
y 3.5 4 5 6 6.5
若由表中数据得到经验回归方程为=0.8x+,则当x=10时的残差为________.
解析:==8,==5,故5=0.8×8+,解得=-1.4,则当x=10时,=0.8×10-1.4=6.6,故残差为6.5-6.6=-0.1.
答案:-0.1
4.(教材P120练习T2改编)数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为2018-2023年某市夜间经济的市场发展规模(单位:亿元),其中2018-2023年对应的年份代码依次为1~6.
年份代码x 1 2 3 4 5 6
某市夜间经济的市场发展规模y/亿元 20.5 22.9 26.4 30.9 36.4 42.4
(1)已知可用函数模型y=a·bx拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.001);
(2)现用(1)中求得的回归方程预测2025年该市夜间经济的市场规模.
参考数据:
ivi e2.848 e0.148 1.167 1.168
3.366 73.282 17.25 1.16 2.83 3.28
其中vi=ln yi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
解:(1)将y=a·bx的等号左右两边同时取自然对数得ln y=ln (a·bx)=ln a+x ln b,
所以v=ln a+x ln b.
==3.5,
而=12+22+32+42+52+62=91,
所以== eq \f(\i\su(i=1,6,x)ivi-6\o(x,\s\up6(-)) \o(v,\s\up6(-)),\i\su(i=1,6,x)-6\o(x,\s\up6(-))2)
=
=≈0.148,
ln ≈3.366-0.148×3.5=2.848.
所以=2.848+0.148x,
即ln =2.848+0.148x,
所以=e2.848+0.148x=17.25×1.16x.
(2)2025年对应的年份代码为8,
当x=8时,=17.25×1.168≈17.25×3.28=56.58(亿元),
即2025年该市夜间经济的市场规模约为56.58亿元.
INCLUDEPICTURE "课堂小结.TIF" INCLUDEPICTURE "课堂小结.TIF" \* MERGEFORMAT
1.已学习:(1)残差的概念与残差图;(2)残差平方和及决定系数R2;(3)非线性经验回归方程.
2.须贯通:回归分析时,必须先画散点图,确定两个变量是否有关系,有什么样的关系,然后确定是哪种回归模型才能进一步求解.
3.应注意:混淆残差图法、残差平方和法和R2法的概念,导致刻画回归效果出错.