(共28张PPT)
第八章
成对数据的统计分析
8.2 一元线性回归模型及应用 8.2.2 一元线性回归模型参数的最小二乘估计(1)
一元线性回归模型:
一元线性回归模型与函数模型的区别
Y称为因变量或响应变量
x称为自变量或解释变量
e是Y与bx+a之间的随机误差.
a称为截距参数
b称为斜率参数
复习回顾
问题1 为了研究两个变量之间的相关关系,我们建立了一元线性回归模型表达式
刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b
参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.
新课导入
新知探究:经验回归方程
问题2 如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置. 然后测量出此时的斜率和截距,就可得到一 条直线,如图(1)所示.
方法一:
新知探究:经验回归方程
问题2 如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
方法二:
在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图(2)所示.
新知探究:经验回归方程
问题2 如何用数学的方法刻画“从整体上看,各散点与直线最接近”?
方法三:
在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距,如图(3)所示.
同学们不妨去实践一下,看看这些方法是不是真的可行.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
新知探究:经验回归方程
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), , (xn, yn),
设 表示点 到直线 的距离, 表示点 到直线
的竖直距离, 表示直线 的倾斜角,则 ,所以方法1中的点到直线的距离可以用竖直距离替换.
由yi=bxi+a+ei (i=1, 2, , n),得
新知探究:经验回归方程
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如图所示.
特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
方便计算
n个竖直距离之和
随机误差平方和
刻画各样本观测数据与直线y=bx+a的“整体接近程度”
新知探究:经验回归方程
在上式中, xi,yi (i=1,2,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数.
所以我们取使Q达到最小的a和b值, 作为截距a和斜率b的估计值.
Q越小越好.
问题3 如何求a,b的值,使 最小?
新知探究
问题3 如何求a,b的值,使 最小?
新知探究:经验回归方程
所以
当 取最小值时, 取最小值0,即 .
此时
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
综上,当a,b的取值为 时, Q达到最小.
人们经过长期的实践与研究,已经找到了计算回归方程的一般公式 ,其中:
问题3 如何求a,b的值,使 最小?
新知探究:经验回归方程
该公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小。
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法,利用该公式求得的 叫做b, a的最小二乘估计.
这里的“二乘”是平方的意思.
易得:(1)经验回归直线必过样本中心;
(2)与相关系数r符号相同.
新知探究:经验回归方程
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
对于上表中的数据,利用公式(2)可以计算出
得到儿子身高Y关于父亲身高x的经验回归方程为
相应的经验回归直线如图所示.
由经验回归方程可以预测儿子的身高。
追问1 当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
一般地,因为E(Y)=bx+a,是bx+a的估计值,所以是E(Y)的估计值.
新知探究:经验回归方程
追问2 根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗 同样,矮个子的父亲一定生矮个子的儿子吗
根据经验回归方程 中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.
分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则
新知探究:经验回归方程
新知探究:经验回归方程
英国著名统计学家高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
追问3 根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样?你怎么看这个判断?
通过经验回归方程 =0.839x +28.957,令 =x,则x=179.733,即当父亲身高为179.733cm时,儿子的平均身高与父亲的身高一样.
典例解析
例1 某厂经过节能降耗技术改造后,生产甲产品过程中记录的产量 (单位:吨)与相应的生产能耗 (单位:吨标准煤)的几组对应数据如表所示.
3 4 5 6
2.5 3 4 4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出 关于 的经验回归方程
(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤,试根据(2)中求出的经验回归方程,预测技改后生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.参考数据: .
典例解析
(3) 由(2)中的经验回归方程及技改前生产100吨甲产品的生产能耗,
得降低的生产能耗为 (吨)标准煤.
解: (1)由题设所给数据可
得散点图,如图.
(2)由题中数据计算得 ,
, ,又 ,
所以 ,
所以 .
因此所求的经验回归方程为 .
(1)作出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算:,,,;
(3)代入公式求出中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
求经验回归方程的基本步骤
方法归纳
巩固练习
1. 某单位为了了解用电量 (单位:度)与气温 (单位: )之间的关系,随机统计了4天的用电量与当天气温,并制作了如右对照表.
气温 18 13 10 -1
用电量 (度) 24 34 38 64
由表中数据得经验回归方程 中的 ,预测当气温为 时,用电量约为_____度.
68
[解析] 由表中数据可得 , ,
∵经验回归直线过点 ,
,
, .
令 ,得 .
新知探究:残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的)称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
例如,对于下表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y6=176(cm),预测值为 残差为176-173.265=2.735(cm).
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
类似地,我们还可以得到其他的残差,如下表所示.
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 66.553 -1.553
14 180 182 179.977 2.023
残差表
新知探究:残差分析
新知探究:残差分析
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
残差图:
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm
残差图:作图时纵坐标为残差,
横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.
通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区域内.且带状区域越窄,说明模型拟合效果越好.
越窄越好
新知探究:残差分析
问题4 观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
(1)
(2)
(3)
(4)
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
可见, 只有图(4)满足一元线性回归模型对随机误差的假设.
新知探究:残差分析
一般地, 建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
2.残差的平方和越小越好;
3.原始数据中的可疑数据往往是残差绝对值过大的数据;
4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集中在水平带状区域内.
1.残差等于观测值减预测值
残差的性质:
2. 关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
C
3. 已知变量x,Y之间具有线性相关关系,其散点图如图所示,
则其经验回归方程可能为( )
A. =1.5x+2 B. =-1.5x+2
C. =1.5x-2 D. =-1.5x-2
B
巩固练习
巩固练习
x 2 4 5 6 8
Y 30 40 60 50 70
4. 某种产品的广告支出费用x(单位:万元)与销售
额Y(单位: 万元)的数据如表:
已知Y关于x的经验回归方程为 =6.5x+17.5,则当广告支出费用为5万元时,残差为________.
解:当x=5时, =6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.
10
5.根据如右表的样本数据:
得到的经验回归方程为 ,则( )
B
x 2 3 4 5 6
Y 4 2.5 -0.5 -2 -3
1. 经验回归方程:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 最小二乘估计:
经验回归方程中的参数 计算公式为:
课堂小结
3.残差分析
残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.