(共41张PPT)
8.2 一元线性回归模型及其应用
1.结合具体实例,了解一元线性回归模型的含义
2.了解模型参数的统计意义,了解最小二乘原理
3.会通过分析残差和利用 R2 判断回归模型的拟合效果
4.了解非线性回归模型
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等. 进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测. 下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高. 为了进一步研究两者之间的关系,有人调查了某所高校14名男大学生的身高及其父亲的身高,得到的数据如表所示.
一元线性回归模型
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图. 可以发现,散点大致分布在一条从左下角到右
上角的直线附近,表明儿子身高
和父亲身高线性相关. 利用统计
软件,求得样本相关系数为,表
明儿子身高和父亲身高正线性相
关,且相关程度较高.
思考1:根据表中数据,儿子身高和父亲身高这两两个变量之间的关系可以用函数模型刻画吗?
表中所示数据,存在父亲身高相同,而儿子身高不同的情况. 可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
但散点图表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型. 其中,随机误差是一个随机变量.
用 x 表示父亲身高,Y 表示儿子身高,e 表示随机误差. 假定随机误差 e 的均值为0,方差为与父亲身高无关的定值 σ2 ,则它们之间的关系可以表示为
我们称上式为 Y 关于 x 的一元线性回归模型. 其中,Y 称为因变量或响应变量,x 称为自变量或解释变量;a 和 b 为模型的未知参数,a 称为截距参数,b 称为斜率参数;e 是 Y 与 之间的随机误差.
例1 在一元线性回归模型 中,下列说法正确的是( )
A. 是一次函数
B.响应变量 Y 是由解释变量 x 唯一确定的
C.响应变量 Y 除了受解释变量 x 的影响外,可能还受到其他因素的影响,这些因素会导致随机误差 e 的产生
D.随机误差 e 是由于计算不准确造成的,可通过精确计算避免随机误差 e 的产生
C
1.关于一元线性回归模型 给出下列说法:
①表达式 刻画的是变量 Y 与变量 x 之间的线性相关关系;
② 反映了由于 x 的变化而引起的 Y 的线性变化;
③误差项 e 是一个期望值为0的随机变量,即 E(e)=0;
④对于所有的 x 值,e 的方差都相同.
其中正确的是___________(填序号).
①②③④
一元线性回归模型参数的最小二乘估计
思考2:如何利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近?
先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
我们设满足一元线性回归模型的两个变量的 n 对样本数为 ,
,..., ,由 ,
得 .
通常,我们会想到利用点到直线 的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
显然, 越小,表示点 与点 的“距离”越小,即样本数据点离直线 的竖直距离越小. 特别地,当 时,表示点 在这条直线上.
因此,可以用这 n 个竖直距离之和
来刻画各样本观测数据与直线的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”.
在上式中,xi,yi( i =1,2,...,n )是已知的成对样本数据,所以 Q由 a 和 b 所决定,即它是 a 和 b 的函数. 因为 Q 还可以表示为,即它是随机误差的平方和,这个和当然是越小越好,所以我们取使 Q 达到最小的 a 和 b 的值,作为截距和斜率的估计值.
下面利用成对样本数据求使 Q 取最小值的 a,b.
记 , .因为
注意到
所以
上式右边各项均为非负数,且前 n 项与 a 无关. 所以要使 Q 取到最小值, 的值应为0,即. 此时
上式是关于 b 的二次函数,因此要使 Q 取得最小值,当且仅当 b 的取值为
综上,当 a,b 的取值为
时,Q 达到最小值.
我们将 称为 Y 关于 x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,求得的 , 叫做 b,a 的最小二乘估计. 把由一个或多个变量的变化去推测另一个变量的变化的方法称为回归分析.
对于前面儿子和父亲的身高数据,利用公式可以计算出 ,
,得到儿子身高 Y 关于父亲身高 x 的经验回归方程为
.
思考3:当时 , . 如果一位父亲的身高为176cm,他儿子长大成人后的身高一定是177cm吗?为什么?
显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高. 不过,我们可以作出推测,当父亲身高为176cm时,儿子身高一般在177cm左右.
实际上,如果把这所学校父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体的均值的估计值.
对经验回归方程的理解
(1)经验回归方程:
(2)经验回归直线必过样本点的中心
AD
例2.(多选)下列有关经验回归方程 叙述正确的是( )
A.反映 与 x 之间的函数关系
B.反映 y 与 x 之间的函数关系
C.表示 与 x 之间不确定关系
D.表示最接近 y 与 x 之间真实关系的一条直线
12.1
2.某地区近十年居民的年收入 x 与支出 y 之间的关系大致符合 (单位:亿元),预计今年该地区居民收入为15亿元,则年支出估计是__________亿元.
解析:因为 , (亿元).
模型拟合效果的判断
方法一(残差分析):对于响应变量 Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
例如,对于前面儿子身高和父亲身高的数据表,父亲身高为172cm,其儿子身高的观测值为176cm,预测值为 (cm),
残差为 (cm).
类似地,可以得到其他的残差,如下表所示.
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 166.553 -1.553
14 180 182 179.977 2.023
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下所示.
观察表格可以发现,残差有正有负,残差的绝对值最大是4.413. 观察残差的散点图可以发现,残差比较均匀地分布在横轴的两侧. 说明残差比较符合一元线性回归模型的假定,是均值为0,、方差为σ2的随机变量的观测值. 可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析. 借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
在 R2 的表达式中,与经验回归方程无关,残差平方和与经验回归方程有关. 显然,R2 的值越大,说明残差平方和越小,也就是说模型拟合效果越好;R2 的值越小,残差平方和越大,即模型的拟合效果越差.
法二:我们可以用决定系数 R2 来刻画回归的效果,其计算公式是
R2 与 r 的区别
(1)相关系数 r 反映两个变量的相关关系的强弱及正相关或负相关,决定系数 R2 反映回归模型的拟合效果.
(2)当相关系数|r|接近于1时,说明两变量的相关性较强,当|r|接近于0时,说明两变量的相关性较弱;而当 R2 接近于1时,说明经验回归方程的拟合效果较好.
例3.(多选)下列关于残差图的描述正确的是( )
A.残差图的纵坐标只能是残差
B.残差图的横坐标可以是编号、解释变量和响应变量
C.残差点分布的带状区域的宽度越窄,残差平方和越小,决定系数 R2 越大
D.残差点分布的带状区域的宽度越窄,决定系数 R2 越小
ABC
3.某种产品的广告费支出 x (单位:万元)与销售额 y (单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知 y 与 x 的经验回归方程为 ,则当广告支出5万元时,残差为________.
10
1. 有下列说法:
①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.
②用相关指数 R2来刻画回归的效果, R2 值越大,说明模型的拟合效果越好.
③比较两个模型的拟合效果,可以比较相关系数的大小,相关系数越大的模型,拟合效果越好.
其中正确命题的个数是( )
A.0 B.1 C.2 D.3
C
2.两个变量 y 与 x 的回归模型中,分别选择了4个不同模型,它们的决定系数 R2 如下,其中拟合效果最好的模型是( )
A.模型1的决定系数 R2 =0.15
B.模型2的决定系数 R2 =0.85
C.模型3的决定系数 R2 =0.25
D.模型4的决定系数 R2 =0.95
D
3.有下列数据:
x 1 2 3
y 3 5.99 12.01
下列四个函数中,模拟效果最好的为( )
A. B. C. D.
A
4.对具有线性相关关系的变量 x,y,测得一组数据如下表,根据表中数据,利用最小二乘法得到经验回归方程 ,根据此模型预测当 时,y 的估计值为( )
x 2 4 5 6 8
y 20 40 60 70 80
A.210 B.210.5 C.211.5 D.212.5
C
5.已知某种商品的单价 x(单位:元)与需求量 y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)求 y 关于 x 的经验回归方程;
(2)判断(1)中经验回归方程的回归效果是否良好.(若 ,则认为回归效果良好)
解:计算可得 ,
,
,
,
所以 , ,
所以经验回归方程为 .
(2)列出残差表
y 12 10 7 5 3
12 9.7 7.4 5.1 2.8
0 0.3 -0.4 -0.1 0.2
所以 ,又
所以
所以回归效果良好.
回归分析
统计案例
独立性检验
线 性
非线性
列联表
等高条形图
独立性检验步骤