第八章 成对数据的统计分析
8.2.1一元线性回归模型与应用
复习回顾
为了研究两个变量之间的相关关系,我们建立了一元线性回归模型达式
刻画的是变量Y与变量x之间的线性相关关系
残差平方和:
残差:实际值与估计值之间的差值,即
建模
复习回顾
对于一组具有线性相关关系的数据(x1 ,y1 ) ,(x2 , y2),···, (xn ,yn),
记 ,其回归直线Y=bx+a的斜率和截距的最小二乘估计分
别为
我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法,求得的 , 叫做b,a的最小二乘估计.
算模
课堂探究
编号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
父亲身高/cm
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高/cm
176
176
170
170
185
176
178
174
170
168
178
172
165
182
对于上表中的数据,利用公式(2)可以计算出 得到儿子身高Y关于父亲身高x的经验回归方程为 相应的经验回归直线如下图所示.
课堂探究
问题1:
当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
课堂探究
问题2:根据经验回归方程中斜率的具体含义,高个子的父亲一定生高个子的儿子吗?同样,矮个子的父亲一定生矮个子的儿子吗?
问题3:建立经验回归方程后,通常需要对模型刻画数据的效果进行分析,如何分析?
验模
残差分析
定义残差为????????=yi-????????,残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
?
课堂探究
对于右表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y==176(cm),预测值为96=0.839×172+28.957=173.265(cm),残差为176-173.265=2.735(cm).类似地,可以得到其他的残差,如表所示.
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
残差图:
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm
?
?
?
?
?
?
?
?
?
?
?
?
?
?
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定.
根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为????????的随机变量的观测值.
?
对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.
思考 观察下列四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
通过观察发现,图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内. 所以在四幅残差图中,只有图(4)满足一元线性回归模型对随机误差的假设.
课堂探究
问. 在回归分析中,分析残差能够帮助我们解决哪些问题?
解:分析残差可以帮助我们解决以下几个问题:
(1) 寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.
(2) 分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.
课堂探究
【例】如图是我国2008年至2014年生活垃圾无害化处理量(单位:
亿吨)的折线图.
(1)由折线图可以看出,可用线性回归模型拟合y与t的关系,请用
相关系数加以说明.
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活
垃圾无害化处理量.
课堂探究
解:(1)由折线图中数据和附注中参考数据得t=4,
因为y与t的相关系数近似为0.99,所以y与t的线性相关程度相当高,从而可以用
经验回归模型拟合y与t的关系.
(2)由 及(1)得
所以y与t的回归方程为
将2016年对应的t=9代入回归方程得
所以预测2016年我国生活垃圾无害化处理量为1.82亿吨.
课堂小结
建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.
(2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等).
(3)计算r的值,评估变量间的线性相关程度.
(4)由经验确定回归方程的类型.
(5)按一定规则(如最小二乘法)估计经验回归方程中的参数.
课堂探究
例 经验表明,一般树的胸径 (树的主干在地面以上1.3m处的直径)越大, 树就越高 . 由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高 . 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号
1
2
3
4
5
6
胸径/cm
18.1
20.1
22.2
24.4
26.0
28.3
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
编号
7
8
9
10
11
12
胸径/cm
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
22.4
22.6
23.0
24.3
23.9
24.7
课堂探究
例 根据下面数据建立树高关于胸径的经验回归方程.
编号
1
2
3
4
5
6
胸径/cm
18.1
20.1
22.2
24.4
26.0
28.3
树高/m
18.8
19.2
21.0
21.0
22.1
22.1
编号
7
8
9
10
11
12
胸径/cm
29.6
32.4
33.7
35.7
38.3
40.2
树高/m
22.4
22.6
23.0
24.3
23.9
24.7
分析:因为要由胸径预测树高,所以要以成对样本数据的胸径为横坐标、树高为纵坐标描出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关 . 如果是,再利用公式计算出????,????即可.
?
解: 以胸径为横坐标,树高为纵坐标作散点图如下:
在右图中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径 , h表示树高 , 根据据最小二乘法 , 计算可得经验回归方程为
相应的经验回归直线如图所示.
编号
胸径/cm
树高观测值/m
树高预测值/m
残差/m
1
18.1
18.8
19.4
-0.6
2
20.1
19.2
19.9
-0.7
3
22.2
21.0
20.4
0.6
4
24.4
21.0
20.9
0.1
5
26.0
22.1
21.3
0.8
6
28.3
22.1
21.9
0.2
7
29.6
22.4
22.2
0.2
8
32.4
22.6
22.9
-0.3
9
33.7
23.0
23.2
-0.2
10
35.7
24.3
23.7
0.6
11
38.3
23.9
24.4
-0.5
12
40.2
24.7
24.9
-0.2
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
以胸径为横坐标, 残差为纵坐标, 作残差图, 得到下图.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 . 可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
0
0.5
1.0
-0.5
-1.0
15
20
25
30
35
40
残差/m
胸径/cm
?
?
?
?
?
?
?
?
?
?
?
?
?
?
45
(2)
决定系数R2:
通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.
决定系数R2的计算公式为
在R2表达式中,由于 与经验回归方程无关,残差平方和
与经验回归方程有关,因此R2越大,表示残差平方和越小,即模型的拟合效果越好; R2越小,表示残差平方和越大,即模型的拟合效果越差.
决定系数R2:
决定系数是总偏差平方和中回归平方和所占的比重. 显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好.
还可以证明,在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
回归平方和
总偏差平方和
课堂小结
2.残差平方和:
1.最小二乘法
将 称为Y 关于x 的经验回归方程.
3.判断模型拟合的效果: 残差分析
R2越大,模型的拟合效果越好,
R2越小,模型拟合效果越差.