8.2.2 一元线性回归模型的应用
1.能通过具体实例说明一元线性回归模型修改的依据与方法.
2.通过对具体问题的进一步分析,能将某些非线性回归问题转化为线性回归问题并加以解决,提高数学运算能力.
3.能通过实例说明决定系数R2的意义和作用,提高数据分析能力。
重点:一元线性回归模型的修改,将非线性回归问题转化为线性回归问题,决定系数R2的意义和作用.
难点:运用合适的变换将非线性相关问题转化为线性相关问题,用决定系数R2判断模型的优度.
问题1:经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.
{5940675A-B579-460E-94D1-54222C63F5DA}编号
1
2
3
4
5
6
胸径/cm
树高/m
{5940675A-B579-460E-94D1-54222C63F5DA}编号
1
2
3
4
5
6
胸径/cm
18.1
20.1
22.2
24.4
26.0
28.3
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
{5940675A-B579-460E-94D1-54222C63F5DA}编号
7
8
9
10
11
12
胸径/cm
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
22.4
22.6
23.0
24.3
23.9
24.7
解:以胸径为横坐标,树高为纵坐标作散点图如下:
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系
用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为
{5940675A-B579-460E-94D1-54222C63F5DA}编号
胸径/cm
树高观测值/m
树高预测值/m
残差/m
1
18.1
18.8
19.4
-0.6
2
20.1
19.2
19.9
-0.7
3
22.2
21.0
20.4
0.6
4
24.4
21.0
20.9
0.1
5
26.0
22.1
21.3
0.8
6
28.3
22.1
21.9
0.2
7
29.6
22.4
22.2
0.2
8
32.4
22.6
22.9
-0.3
9
33.7
23.0
23.2
-0.2
10
35.7
24.3
23.7
0.6
11
38.3
23.9
24.4
-0.5
12
40.2
24.7
24.9
-0.2
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
以胸径为横坐标,残差为纵坐标,作残差图,得到下图.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴
为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关
系,我们可以根据经验回归方程由胸径预测树高.
问题2:人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到图
{5940675A-B579-460E-94D1-54222C63F5DA}编号
1
2
3
4
5
6
7
8
年份
1896
1912
1921
1930
1936
1956
1960
1968
记录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为:
将经验回归直线叠加到散点图,得到下图:
①
追问1:从图中可以看到,经验回归方程①较好地刻画了散点的变化趋势。请再仔细观察图形,你能看出其中存在的问题吗?
追问1:从图中可以看到,经验回归方程①较好地刻画了散点的变化趋势。请再仔细观察图形,你能看出其中存在的问题吗?
以经验回归直线为参照,可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征,例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
仔细观察上图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近。
追问2:你能对模型进行修改,以使其更好地反映散点的分布特征吗?
回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征.
注意到100m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0.
y=f(t)=c1+c2ln(t-1895)
这是一个非线性经验回归函数,如何利用成对数据估计参数c1、c2
令x=ln(t-1895),则Y=c2x+c1
{5940675A-B579-460E-94D1-54222C63F5DA}编号
1
2
3
4
5
6
7
8
年份/t
1896
1912
1921
1930
1936
1956
1960
1968
x
0.00
2.83
3.26
3.56
3.71
4.11
4.17
4.29
记录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
对数据进行变化可得下表:
得到散点图如下:
*
由表中的数据得到经验回归方程为:
将经验回归直线叠加到散点图,得到下图:
上图表明,经验回归方程(*)对于成对数据具有非常好的拟合精度。
将x=ln(t-1895)代入:
②
问题3:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
方法一:直接观察法。在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色)。
我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
问题3:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
方法二:残差分析。残差平方和越小,模型拟合效果越好.
Q1=0.6687;Q2=0.0043
Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程.
方法三:利用R2刻画回归效果。
问题3:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
在(2)的残差分析中,如果在同一量纲下考虑残差平方和的大小来比较回归模型的优劣是有意义的,但是如果两个回归模型的量纲不同,就不能这样比较,应剔除量纲的影响,用相对误差来比较。
R2越大,表示残差平方和越小,即模型的拟合效果越好,R2越小,表示残差平方和越大,即模型拟合效果越差。
显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
题型一:线性回归分析
例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
{5940675A-B579-460E-94D1-54222C63F5DA}推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
解:(1)以工作年限为x轴,推销金额为y轴,画出散点图如下:
散点大致分布在一条从左下角到右上角的
直线附近,表明两个变量线性相关,并且
是正相关。
(1)画出散点图.
(2)建立年推销金额y关于工作年限x的经验回归方程;
(3)说明回归模型拟合效果的好坏;
(4)若第6名推销员的工作年限为11年,预测他的年推销金额.
????=????????=????(?????????????)????=????.????,
?
????=????????=????(?????????????)????=????.????
?
参考数据:
题型一:线性回归分析
例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
{5940675A-B579-460E-94D1-54222C63F5DA}推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)画出散点图.
(2)建立年推销金额y关于工作年限x的经验回归方程;
(3)说明回归模型拟合效果的好坏;
(4)若第6名推销员的工作年限为11年,预测他的年推销金额.
(2)
题型一:线性回归分析
例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
{5940675A-B579-460E-94D1-54222C63F5DA}推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)画出散点图.
(2)建立年推销金额y关于工作年限x的经验回归方程;
(3)说明回归模型拟合效果的好坏;
(4)若第6名推销员的工作年限为11年,预测他的年推销金额.
????=1????=5(????i?????)2=0.2
?
????=1????=5(????i?????)2=5.2
?
参考数据:
(3)????????=?????????=1????=5(????i?????)2????=1????=5(????i?????)2≈????.????????
?
所以回归模型拟合效果很好。
题型一:线性回归分析
例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
{5940675A-B579-460E-94D1-54222C63F5DA}推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
(1)画出散点图.
(2)建立年推销金额y关于工作年限x的经验回归方程;
(3)说明回归模型拟合效果的好坏;
(4)若第6名推销员的工作年限为11年,预测他的年推销金额.
(4)
【变式1】
已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
{5940675A-B579-460E-94D1-54222C63F5DA}x
14
16
18
20
22
y
12
10
7
5
3
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
建立线性回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.
(2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等).
(3)由经验确定回归方程的类型.
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.
(5)得出结果后需进行线性回归分析.
①残差平方和越小,模型的拟合效果越好.
②决定系数R2取值越大,说明模型的拟合效果越好.
需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.
题型二:非线性回归分析
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;
参考公式:对于一组数据(u1,υ1),(u2,υ2),…,(un,υn),其回归直线υ=α+βu的斜率和截距的最小二乘估计分别为:
建立非线性经验回归模型的基本步骤:
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换,将非线性经验回归模型转化为线性经验回归模型;
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
方法总结
非线性回归分析
(1)指数型函数y=ebx+a类
函数y=ebx+a的图象,如图所示
线性回归分析
②处理方法:两边取对数得ln y=ln ebx+a,即 ln y=bx+a
令z=ln y,把原始数据(x,y)转化为(x,z),再根据求解线性回归模型的方法求出a,b
(2)对数型函数y=b ln x+a类
函数y=b ln x+a 的图象,如图所示
②处理方法:设x’=ln x,原方程可转化为 y=bx’+a
把原始数据(x,y)转化为(x’,y),再根据求解线性回归模型的方法求出a,b
方法总结
非线性回归分析
线性回归分析