(共18张PPT)
8.2.2一元线性回归模型参数的最小二乘估计
为了研究两个变量之间的相关关系,我们建立了一元线性回归模型,表达式 刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.
由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
问题1
从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
思路1:先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线.
图 8.2-2
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
问题1
从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
思路2:可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.
图 8.2-3
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
问题1
从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
图 8.2-4
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
思路3:在散点图中多取几对点,确定出几条直线,再分别求出这些直线的斜率、截距的平均数作为所求直线的斜率和截距.
图 8.2-5
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…, (xn,yn).
设 表示点 到直线 的距离,表示点 到直线
的竖直距离, 表示直线 的倾斜角,则 ,所以思路1可以用中的距离可以用竖直距离替换.
图 8.2-5
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…, (xn,yn).
由 ,得 .显然 越小,表示点
与点 的“距离”越小,即样本数据点离直线
的竖直距离越小.因此可以用这n个竖直距离之和 来刻画各样本观测数据与直线 的“整体接近程度”.
问题2
如何求a,b的值,使 最小?
记
注意到
所以
当 取最小值时, 取最小值0,即 .
此时
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
综上,当a,b的取值为
时, Q达到最小.
我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法,求得的 , 叫做b,a的最小二乘估计.
易得:(1)经验回归直线必过样本中心 ;
(2) 与相关系数r符号相同.
问题3
如何理解经验回归直线?
图 8.2-6
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
1)当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
2)根据模型,父亲身高为多少时,儿子的平均身高与父亲的一样?
1)当x=185时,
1)当x=170时,
问题3
如何理解经验回归直线?
图 8.2-6
儿子身高/cm
父亲身高/cm
190
185
180
175
170
165
160
3)斜率0.839有什么含义?
对于响应变量Y,通过观测得到的数据为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
问题4
如何判断模型刻画数据的效果?
图 8.2-7
父亲身高/cm
160 165 170 175 180 185
5
4
3
2
1
0
-1
-2
-3
-4
-5
残差/cm
问题5
观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
课堂小结
1.经验回归方程 ,其中
2.残差分析
课后作业: 教科书第113页练习第2、3题.
再会!