第八章
8.2
一元线性回归模型及其应用
学习目标
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
2.针对实际问题,会用一元线性回归模型进行预测.
核心素养:数据分析、数学建模、数学运算、逻辑推理、数学抽象.
新知学习
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表8.2-1所示.
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表8.2-1中的成对样本数据表示为散点图,如图8.2-1所示.
图8.2-1
????≈0.886
?
表明儿子身高和父亲身高正线性相关,且相关程度较高.
思考:根据表8.2-1中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数
模型刻画吗?
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
在表8.2-1的数据中,存在父亲身高相同,而儿子身高不同的情况.例如,第6个和第8个观测的父亲身高均为172 cm,而对应的儿子身高分别为176 cm和174 cm;同样,第3,4两个观测中,儿子身高都是170 cm,而父亲身高分别为173 cm和169 cm.可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
图8.2-1中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型.其中,随机误差是一个随机变量.
图8.2-1
用????表示父亲身高,????表示儿子身高,????表示随机误差.假定随机误差????的均值为0,方差为与父亲身高无关的定值????2,则它们之间的关系可以表示为????=????????+????+????,????????=0,????????=????2. (1)
我们称(1)式为????关于????的一元线性回归模型.其中,????称为因变量或响应变量,????称为自变量或解释变量;????和????为模型的未知参数,????称为截距参数,????称为斜率参数;????是????与????????+????之间的随机误差.模型中的????也是随机变量,其值虽然不能由变量????的值确定,但是却能表示为????????+????与????的和(叠加),前一部分由????所确定,后一部分是随机的.如果????=0,那么????与????之间的关系就可用一元线性函数模型来描述.
?
对于父亲身高????和儿子身高????的一元线性回归模型(1),可以解释为父亲身高为????????的所有男大学生的身高组成一个子总体,该子总体的均值为????????????+????,即该子总体的均值与父亲身高是线性函数关系.而对于父亲身高为????????的某一名男大学生,他的身高????????并不一定为????????????+????,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项????????=?????????(????????????+????).
?
思考:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?
在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差????的原因.
?
在一元线性回归模型中,表达式????=????????+????+????刻画的是变量????与变量????之间的线性相关关系,其中参数????和????未知,需要根据成对样本数据进行估计.由模型的建立过程可知,参数????和????刻画了变量????与变量????的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
?
探究:利用散点图8.2-1找出一条直线,使各散点在整体上
与此直线尽可能接近.
图8.2-1
有的同学可能会想,可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置.测量出此时的斜率和截距,就可得到一条直线,如图8.2-2所示.
图8.2-2
探究:利用散点图8.2-1找出一条直线,使各散点在整体上
与此直线尽可能接近.
图8.2-1
有的同学可能会想,可以在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图8.2-3所示.
图8.2-3
探究:利用散点图8.2-1找出一条直线,使各散点在整体上
与此直线尽可能接近.
图8.2-1
还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距如图8.2-4所示.
图8.2-4
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线????=????????+????的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.我们设满足一元线性回归模型的两个变量的n对样本数据为(????1,????1),(x2,y2),…,(xn,yn),由????????=????????????+????+????????(????=1,2,…,????),得|?????????(????????????+????)|=|????????|.
?
因此,可以用这????个竖直距离之和
来刻画各样本观测数据与直线????=????????+????的“整体接近程度”.
?
显然|????????|越小,表示点(????????,????????)与点(????????,????????????+????)的“距离”越小,即样本数据点离直线????=????????+????的竖直距离越小,如图8.2-5所示.特别地,当????????=0时,表示点(????????,????????)在这条直线上.
?
图8.2-5
在上式中,????????,????????(????=1,2,3,…,????)是已知的成对样本数据,所以????由????和????所决定,即它是????和????的函数.因为????还可以表示为 ,即它是随机误差的平方和,这个和当然越小越好,所以我们取使????达到最小的????和????的值,作为截距和斜率的估计值.
?
上式右边各项均为非负数,且前????项与????无关.所以,要使????取到最小值,后一项的值应为0,即????=?????????????? .此时
?
上式是关于????的二次函数,因此要使????取得最小值,当且仅当????的取值为
?
我们将????=????????+????称为????关于????的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的????,????叫做????,????的最小二乘估计.
?
对于表8.2-1中的数据,利用公式(2)可以计算出
????=0.839,????=28.957,得到儿子身高????关于父亲身
高????的经验回归方程为????=0.839????+28.957,
相应的经验回归直线如图8.2-6所示.
?
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
表8.2-1
图8.2-6
思考:当????=176时,????≈177.如果有一位父亲的身高为176 cm,他儿子长大成人后的身高一定
是177 cm吗?为什么?
?
显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高.不过,我们可以作出推测,当父亲身高为176 cm时,儿子身高一般在177 cm左右.
实际上,如果把这所学校父亲身高为176 cm的所有儿子身高作为一个子总体,那么177 cm是这个子总体的均值的估计值.
这里的经验回归方程????=0.839????+28.957,其斜率可以解释为父亲身高每增加1 cm,其儿子身高平均增加0.839 cm.分析模型还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如
????=185(cm),则????=184.172(cm);
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如
????=170(cm),则????=171.587(cm).
?
对于响应变量????,通过观测得到的数据称为观测值,通过经验回归方程得到的????称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
例如,对于表8.2-1中的第6个观测,父亲身高为172 cm,其儿子身高的观测值为
????6=176(????????),
预测值为????6=0.839×172+28.957=173.265(cm),
残差为176-173.265=2.735(cm).
?
类似地,可以得到其他的残差,如表8.2-2所示.
编号
父亲身高/cm
儿子身高观测值/cm
儿子身高预测值/cm
残差/cm
1
174
176
174.943
1.057
2
170
176
171.587
4.413
3
173
170
174.104
?4.104
4
169
170
170.748
?0.748
5
182
185
181.655
3.345
6
172
176
173.265
2.735
7
180
178
179.977
?1.977
8
172
174
173.265
0.735
9
168
170
169.909
0.091
10
166
168
168.231
?0.231
11
182
178
181.655
?3.655
12
173
172
174.104
?2.104
13
164
165
166.553
?1.553
14
180
182
179.977
2.023
编号
父亲身高/cm
儿子身高观测值/cm
儿子身高预测值/cm
残差/cm
1
174
176
174.943
1.057
2
170
176
171.587
4.413
3
173
170
174.104
4
169
170
170.748
5
182
185
181.655
3.345
6
172
176
173.265
2.735
7
180
178
179.977
8
172
174
173.265
0.735
9
168
170
169.909
0.091
10
166
168
168.231
11
182
178
181.655
12
173
172
174.104
13
164
165
166.553
14
180
182
179.977
2.023
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图8.2-7所示.
图8.2-7
表8.2-2
编号
父亲身高/cm
儿子身高观测值/cm
儿子身高预测值/cm
残差/cm
1
174
176
174.943
1.057
2
170
176
171.587
4.413
3
173
170
174.104
-4.104
4
169
170
170.748
-0.748
5
182
185
181.655
3.345
6
172
176
173.265
2.735
7
180
178
179.977
-1.977
8
172
174
173.265
0.735
9
168
170
169.909
0.091
10
166
168
168.231
-0.231
11
182
178
181.655
-3.655
12
173
172
174.104
-2.104
13
164
165
166.553
-1.553
14
180
182
179.977
2.023
观察表8.2-2可以看到,残差有正有负,残差的绝对值最大是4.413.
图8.2-7
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边.说明残差比较符合一元线性回归模型的假定,是均值为0、方差为????2的随机变量的观测值.可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
?
思考:观察下面四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
(1) (2)
(3) (4)
根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为σ2的随机变量的观测值.
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大;
图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内.
可见,只有图(4)满足一元线性回归模型对随机误差的假设.
典例剖析
例 经验表明,一般树的胸径(树的主干在地面以上1.3 m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程.
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}编号
1
2
3
4
5
6
7
8
9
10
11
12
胸径/cm
18.1
20.1
22.2
24.4
26.0
28.3
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
22.4
22.6
23.0
24.3
23.9
24.7
表8.2-3
解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.2-9.
在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,
并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为?=0.249?3????+14.84,
相应的经验回归直线如图8.2-10所示.
?
图8.2-9 图8.2-10
根据经验回归方程,由表8.2-3中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.2-4所示.
编号
胸径/cm
树高观测值/m
树高预测值/m
残差/m
1
18.1
18.8
19.4
-0.6
2
20.1
19.2
19.9
-0.7
3
22.2
21.0
20.4
0.6
4
24.4
21.0
20.9
0.1
5
26.0
22.1
21.3
0.8
6
28.3
22.1
21.9
0.2
7
29.6
22.4
22.2
0.2
8
32.4
22.6
22.9
-0.3
9
33.7
23.0
23.2
-0.2
10
35.7
24.3
23.7
0.6
11
38.3
23.9
24.4
-0.5
12
40.2
24.7
24.9
-0.2
表8.2-4
以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
图8.2-11
问题 人们常将男子短跑100 m的高水平运动员称为“百米飞人”.表8.2-5给出了1968年之前男子短跑100 m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100 m世界纪录关于纪录产生年份的经验回归方程.
编号
1
2
3
4
5
6
7
8
年份
1896
1912
1921
1930
1936
1956
1960
1968
纪录/s
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
表8.2-5
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到图8.2-12.
在图8.2-12中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
图8.2-12
用????表示男子短跑100 m的世界纪录,????表示纪录产生的年份,利用一元线性回归模型
????=????????+????+????,????????=0,????????=????2
来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为 ????1=?0.020?337?43????+49.769?130?31. ①
将经验回归直线叠加到散点图,得到图8.2-13.
?
图8.2-13
观察:从图8.2-13中可以看到,经验回归方程①较好地刻画了散点的变化趋势,请再
仔细观察图形,你能看出其中存在的问题吗?
以经验回归直线为参照,可以发现经验回归方程的不足之处,以及散点的更为精细的分布特征.例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?
仔细观察图8.2-12,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数????=?ln?????的图象具有类似的形状特征.注意到100 m短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线????=????(????)=????1+????2ln?(?????1?895)的周围,其中????1和????2为未知的参数,且????2<0.
?
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中????1,????2是待定参数.现在问题转化为如何利用成对数据估计参数????1和????2.
?
图8.2-12
为了利用一元线性回归模型估计参数????1和????2,我们引进一个中间变量????,令????=ln?(??????1?895).通过????=ln?(?????1?895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如表8.2-6所示.
?
编号
1
2
3
4
5
6
7
8
????
0.00
2.83
3.26
3.56
3.71
4.11
4.17
4.29
????/????
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
编号
1
2
3
4
5
6
7
8
0.00
2.83
3.26
3.56
3.71
4.11
4.17
4.29
11.80
10.60
10.40
10.30
10.20
10.10
10.00
9.95
如果表8.2-6对应的散点图呈现出很强的线性相关特征,我们就可以借助一元线性回归模型和新的成对数据,对参数????1和????2作出估计,进而可以得到????关于????的非线性经验回归方程.
?
表8.2-6
在直角坐标系中画出表8.2-6中成对数据的散点图,如图8.2-14所示,散点的分布呈现出很强的线性相关特征.
因此,用一元线性回归模型
????=????2????+????1+????,????????=0,????????=????2
拟合表8.2-6中的成对数据,得到经验回归方程
????2=?0.426?439?8????+11.801?265?3, (*)
?
图8.2-14
再在图8.2-14中画出(*)式所对应的经验回归直线,得到图8.2-15.
图8.2-15
图8.2-15表明,经验回归方程(*)对于表8.2-6中的成对数据具有非常好的拟合精度.
将图8.2-15与图8.2-13进行对比,可以发现????和????之间的线性相关程度比原始样本数据的线性相关程度强得多.
将????=ln?(?????1?895)代入(*)式,得到由创纪录年份预报世界纪录的经验回归方程
????2=?0.426?439?8ln?(?????1?895)+11.801?265?3. ②
?
图8.2-15
图8.2-13
在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象以及经验回归方程①的图象.如图8.2-16所示.我们发现,散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
图8.2-16
下面通过残差来比较这两个经验回归方程对数据刻画的好坏.在表8.2-5中,用????????表示编号为????的年份数据,用????????表示编号为????的纪录数据,则经验回归方程①和②的残差计算公式分别为
????????=????????+0.020?337?43?????????49.769?130?31,????=1,2,…,8;
????????=????????+0.426?439?8ln?(?????????1?895)?11.801?265?3,????=1,2,…,8.
?
两个经验回归方程的残差(精确到0.001)如表8.2-7所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的拟合效果要远远好于①.
编号
1
2
3
4
5
6
7
8
????
1896
1912
1921
1930
1936
1956
1960
1968
????
0.591
?0.284
?0.301
?0.218
?0.196
0.111
0.092
0.205
????
?0.001
0.007
?0.012
0.015
?0.018
0.052
?0.021
?0.022
编号
1
2
3
4
5
6
7
8
1896
1912
1921
1930
1936
1956
1960
1968
0.591
0.111
0.092
0.205
0.007
0.015
0.052
表8.2-7
在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过比较残差的平方和来比较两个模型的效果.由
可知????2小于????1.因此在残差平方和最小的标准下,非线性回归模型
????=????2ln?????1??895+????1+????,????????=0,????????=????2
的拟合效果要优于一元线性回归模型的拟合效果.
?
也可以用决定系数????2来比较两个模型的拟合效果,????2的计算公式为
?
?
在????2表达式中, 与经验回归方程无关,残差平方和 与经验回归方程有关.因此????2越大,表示残差平方和越小,即模型的拟合效果越好;????2越小,表示残差平方和越大,即模型的拟合效果越差.
?
由表8.2-7容易算出经验回归方程①和②的????2分别约为0.732 5和0.998 3,因此经验回归方程②的刻画效果比经验回归方程①的好很多.
?
另外,我们还可以用新的观测数据来检验模型的拟合效果.事实上,我们还有1968年之后的男子短跑100 m世界纪录数据,如表8.2-8所示.
编号
9
10
11
12
13
14
15
????
1983
1988
1991
1991
1994
1996
1999
????/????
9.93
9.92
9.90
9.86
9.85
9.84
9.79
?
?
?
?
?
?
?
?
编号
16
17
18
19
20
21
?
????
2002
2005
2007
2008
2008
2009
?
????/????
9.78
9.77
9.74
9.72
9.69
9.58
?
编号
9
10
11
12
13
14
15
1983
1988
1991
1991
1994
1996
1999
9.93
9.92
9.90
9.86
9.85
9.84
9.79
?
?
?
?
?
?
?
?
编号
16
17
18
19
20
21
?
2002
2005
2007
2008
2008
2009
?
9.78
9.77
9.74
9.72
9.69
9.58
?
表8.2-8
在散点图8.2-12中,绘制表8.2-8中的散点,再添加经验回归方程①所对应的经验回归直线,以及经验回归方程②所对应的经验回归曲线,得到图8.2-17.显然散点分布在经验回归曲线的附近,远离经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.
图8.2-17
思考:在上述问题情境中,男子短跑100 m世界纪录和纪录创建年份之间呈现出对数关系,
能借助于样本相关系数刻画这种关系的强弱吗?
在使用经验回归方程进行预测时,需要注意下列问题:
(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.
(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.
(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.
(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.
随堂小测
零件数????(个)
10
20
30
40
50
加工时间????(min)
52
65
70
78
10
20
30
40
50
52
65
70
78
1.某国产芯片车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),用最小二乘法求得经验回归方程为 ????=0.62????+46.4.
现发现表中有一个数据模糊不清,则该数据的值为 .
?
60
2.设某大学的女生体重?????(单位:kg)与身高?????(单位:cm)具有线性相关关系,根据一组样本数据(????????,????????)(????=1,2,…,????),?用最小二乘法建立的经验回归方程为????=0.85?????85.71,那么针对某个体(170,58)的残差是 .
?
?0.79
?
课堂小结
一元线性回归模型及随机误差产生的原因
经验回归方程
????=????????+????
?
残差分析、线性及非线性回归分析
用????????比较模型的拟合效果
?
谢 谢!