8.2.2 一元线性回归模型
参数的最小二乘法估计
复习回顾
1.一元线性回归模型
2.一元线性回归模型与函数模型的区别
Y称为因变量或响应变量,
x称为自变量或解释变量,
e是Y与bx+a之间的随机误差.
a称为截距参数,
b称为斜率参数.
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.
由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
探究!利用前面的散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
有的同学可能会想,可以采用测量的方法,先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置 . 测量出此时的斜率和截距,就得到一条直线.
有的同学可能会想,可以在散点图中选则这样的两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.如图所示.
还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.如图.
同学们不妨去实践一下,看看这些方法是不是真的可行.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看, 各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1 , y1),(x2 , y2),…,(xn , yn),
由yi=bxi+a+ei (i=1,2,…,n),得
|yi?(bxi+a)|=|ei|.
由yi=bxi+a+ei (i=1,2,…,n),得
|yi?(bxi+a)|=|ei|.
显然|ei|越小,表示点(xi,yi)与点(xi,bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如图所示.
特别地,当ei=0时,表示点(xi,yi)在这条直线上.
来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
因此可以用这n个竖直距离之和
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
刻画 “整体接近程度”.
在上式中, xi,yi (i=1,2,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数.
这个和当然越小越好.
所以我们取使Q达到最小的a和b值, 作为截距a和斜率b的估计值.
Q越小越好.
下面利用成对样本数据求使Q取最小值的a和b.
上式右边的各项均为非负数,且前n项与a无关 . 所以,
要使Q取到最小值,后一项的值应为0,即a=????-b???? . 此时
?
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
所以,要使Q取到最小值,a=????-b???? .
?
时, Q达到最小.
综上,当a, b的取值为
我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.
求得的????,????叫做b,a的最小二乘估计.
?
易得: 经验回归直线必过样本中心(????, ????); ????与相关系数r符号相同.
?
对于上表中的数据,利
用我们学过的公式可以计算出
????=0.839 ,?????=28.957,求出儿
子身高Y关于父亲身高x的经验
回归方程为
?
相应的经验回归直线如图所示.
思考? 当x=176时,????≈177. 如果一位父亲身高为176cm,他儿子长大成人后的身高一定是177cm吗? 为什么?
?
显然不一定,因为还有其他影响儿子身高的因素,父亲的身高不能完全决定儿子的身高. 不过, 我们可以作出推测, 当父亲的身高为176cm时, 儿子身高一般在177cm左右.
实际上,如果把这所学校父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
这里的经验回归方程????=0.839x+28.957中, 其斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.
?
分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如
x=185(cm), 则 ???? =184.172(cm).
?
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如
x=170(cm), 则 ???? =171.587(cm).
?
根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?你怎么看这个判断?
通过经验回归方程 ???? =0.839x +28.957,令 ????=x,则x=179.733,即当父亲身高为179.733cm时,儿子的平均身高与父亲的身高一样.
?
对于响应变量Y , 通过观察得到的数据称为观测值 , 通过经验回归方程得到的 ????为预测值. 观察值减去预测值称为残差.
?
残差为 ???????? =yi? ???????? ,
?
例如,对于前表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y6=176cm,预测值
???????? =0.839×172+28.957=173.265cm ,
?
残差为 ???????? =176?173.265=2.735cm.
?
类似地,可以得到其他残差,如下表所示
残差是随机误差的估计结果,通过对残差的分析可判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}编号
父亲身高/cm
儿子身高观测值/cm
儿子身高预测值/cm
残差/cm
1
174
176
174.943
1.057
2
170
176
171.587
4.413
3
173
170
174.104
?4.104
4
169
170
170.748
?0.748
5
182
185
181.655
3.345
6
172
176
173.256
2.735
7
180
178
179.977
?1.977
8
172
174
173.256
0.735
9
168
170
169.909
0.091
10
166
168
168.231
?0.231
11
182
178
181.655
?3.655
12
173
172
174.104
?2.104
13
164
165
166.553
?1.553
14
180
182
179.977
2.023
为了使数更加直观,用父亲身高作为横坐标,残差作
为纵坐标,可以画出残差图,如下图所示.
观察残差表可以看到,残差有正有负,残差的绝对值最大是4.413.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边 , 说明残差比较符合一元线性回归模型的假设 ,是均值为0, 方差为σ2的随机变量的观测值. 可见,通过观察残差图可以直观判断模型是否满足一元线性回归模的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析 . 借助残差分析还可以对模型进行改进 , 使我们能根据改进模型作出更符合实际的预测与决策.
思考? 观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为σ2的随机变量的观测值.
图(1)显示残差与观测时间有线性关系 , 应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系 , 应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大;
图(4)的残差比较均匀地分布在以取值为 0 的横轴为对称轴的水平带状区域内.
可见, 只有图(4)满足一元线性回归模型对随机误差的假设.