8.2.2 一元线性回归模型
参数的最小二乘估计
1.通过用数学方法刻画散点与直线接近的程度,体会一元线性回归模型参数的最小二乘估计原理,能推导参数估计公式,发展数学运算能力.
2.通过对残差和残差图的分析,能用残差判断一元线性回归模型的有效性,发展数据分析能力.
重点:一元线性回归模型参数的最小二乘估计.
难点:参数估计值公式的推导,利用残差分析回归模型.
问题1:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型
达式 刻画的是变量Y与变量x之间的线性相关关系,
其中参数a和b未知,我们能否通过样本数据估计参数a和b?
参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数。
追问1:我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?
目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”
利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
由yi=bxi+a+ei(i=1,2,…,n),得|yi一(bxi+a)|=|ei|.显然|ei|越小,表示点(xi,yi)与点(xi,bxi十a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小。特别地,当ei=0时,表示点(xi,yi)在这条直线上.
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn)
因此,可以用 来刻画各样本观测数据与直线y=bx+a的整体接近程度。
残差平方和:
求a,b的值,使Q(a,b)最小
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.
注意:1、经验回归必过 .
2、 都是估计值.
3 、 与r符号相同.
问题2:利用上节课的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程。
通过信息技术,计算求得
追问1:当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.一般地,因为E(Y)=bx+a,????是bx+a的估计值,所以????是E(Y)的估计值.
?
追问2:根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?
经验回归方程????=0.839x+28.957中,斜率0.839可以解释为父亲身高每增加1cm,
其儿子的身高平均增加0.839cm.由模型可以发现,高个子父亲x=185(cm),
则????=184.172(cm).
?
追问3:根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?
你怎么看这个判断?
通过经验回归方程????=0.839x+28.957,令????=x,则x=179.733,即当父亲身
高为179.733cm时,儿子的平均身高与父亲的身高一样.
?
我们称yi为随机变量Y的观测值,通过经验回归方程得到的????????为预测值.为了研究回归模型的有效性,定义残差为????????=yi-????????,残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
?
概念新授
问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?
残差图:作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设。所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模的假设,从而判断回归模型拟合的有效性。
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
(1)
(2)
(3)
(4)
追问1:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大;
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为????????的随机变量的观测值.
?
所以,只有图(4)满足一元线性回归模型对随机误差的假设。