(共34张PPT)
第八章成对数据的统计分析
8.2.2一元线性回归模型参数的最小二乘估计(第二课时)
李思
目录
CONTENT
03
04
01
02
典型例题
课堂总结
知识回顾
残差分析与非
线性回归分析
知识回顾
PART.01
知识回顾
1. 什么是经验回归方程?
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 什么是最小二乘估计
经验回归方程中的参数计算公式为:
问题引入
对于上表中的数据,利用我们学过的公式可以计算出=0.839 ,=28.957,
求出儿子身高Y关于父亲身高x的经验回归方程为
相应的经验回归直线如图所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
问题引入
思考:当x=176时,≈177. 如果一位父亲身高为176cm,他儿子长大成人后的身高一定是177cm吗 为什么
不一定,还有其他影响儿子身高的因素,父亲的身高不能完全决定儿子的身高. 不过, 我们可以作出推测, 当父亲的身高为176cm时, 儿子身高一般在177cm左右.
残差分析与非线性回归分析
PART.02
残差
残差分析:
残差表:将残差以表格的形式呈现;
残差图:将残差以图象的形式呈现。
残差表
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 66.553 -1.553
14 180 182 179.977 2.023
残差表:
残差
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,画出残差图,如下:
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定。
可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
残差图法:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
若残差点比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,带状区域越窄,则说明拟合效果越好.
残差图
思考:以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定
通过观察发现,图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内. 所以在四幅残差图中,只有图(4)满足一元线性回归模型对随机误差的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
残差
残差
非线性回归分析
问题:人们常将男子短跑100m的高水平运动员称为“百米飞人”. 下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据. 试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
1. 画散点图:
非线性回归分析
由散点图可知,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
2. 求经验回归方程:
将经验回归方程叠加到散点图,如图(3)所示.
由图形可知,散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
根据最小二乘法,由表中数据可得经验回归方程为
非线性回归分析
3. 修改模型:
散点更趋向于落在中间下凸且递减的某条曲线附近.
函数y=-lnx的图象具有类似的形状特征.
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1, c2 是待定参数. 现在问题转化为如何利用成对数据估计参数c1和c2.
注意到100m短跑的第一个世界纪录产生于1896年,因此可认为散点集中在曲线y=c1+c2ln(t-1895)的周围. 其中c1和c2为未知参数,且c2 < 0.
非线性回归分析
为了利用一元线性回归模型估计参数c1和c2,引进一个中间变量x,令x=ln(t-1895). 通过x=ln(t-1895),将年份变量数据进行变换,得到新的成对数据(精确到0.01),如下表所示.
编号 1 2 3 4 5 6 7 8
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29
Y/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
作出上表的散点图:
由散点图可知,现在散点的分布呈现出很强的线性相关特征,故可以一元线性回归模型建立经验回归方程.
②
非线性回归分析
在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图像(蓝色)以及经验回归方程①的图像(红色),如图所示.
我们发现,散点图中各散点都非常靠近②的图像, 表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
下面通过残差来比较这两个经验回归方程对数据刻画的好坏.
非线性回归分析
用ti表示编号为i的年份数据,用yi表示编号为i的纪录数据,则经验回归方程①和②的残差计算公式分别为
两个经验回归方程的残差(精确到0.001)如下表所示.
观察各项残差的绝对值,发现经验回归方程②远远小于①,
即经验回归方程②的拟合效果要远远好于①.
编号 1 2 3 4 5 6 7 8
t 1896 1912 1921 1930 1936 1956 1960 1968
0.591 -0.284 -0.301 -0.218 -0.196 0.111 0.092 0.205
-0.001 0.007 -0.012 0.015 -0.018 0.052 -0.021 -0.022
非线性回归分析
在一般情况下,直接比较两个模型的残差比较困难,因为在某些散点上一个模型的残差的绝对值比另一个模型的小,而另一些散点的情况则相反. 可以通过比较残差的平方和来比较两个模型的效果. 由
可知Q2小于Q1. 因此在残差平方和最小的标准下,
非线性回归模型
的拟合效果要优于一元线性回归模型的拟合效果.
决定系数R2
通过前面的讨论我们知道,当残差的平方和越小,经验回归模型的拟合效果就越好,故我们可以用决定系数R2来验证模型的拟合效果.
决定系数R2的计算公式为
R2越大,表示残差平方和越小,即模型的拟合效果越好;
R2越小,表示残差平方和越大,即模型的拟合效果越差.
注意点:在含有一元线性回归模型中,决定系数R2=r2.在线性回归模型中有0≤R2≤1,因此R2和r都能刻画用线性回归模型拟合数据的效果.
|r|越大,R2就越大,线性回归模型拟合数据的效果就越好.
决定系数R2
编号 1 2 3 4 5 6 7 8
t 1896 1912 1921 1930 1936 1956 1960 1968
0.591 -0.284 -0.301 -0.218 -0.196 0.111 0.092 0.205
-0.001 0.007 -0.012 0.015 -0.018 0.052 -0.021 -0.022
由上述残差表可算出经验回归方程①和②的决定系数R2分别为
由于 因此经验回归方程②的刻画效果比经验回归方程①的好很多.
刻画回归效果的三种方法
刻画回归效果的三种方法1.残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.2.残差平方和法:残差平方和越小,模型的拟合效果越好.3.决定系数法:R2=越接近1,表明回归模型的拟合效果越好.
典例2:在建立两个变量y与x的回归模型中,分别选择了4个不同的模型,模型1~4的R2值分别是0.98,0.80,0.60,0.55,则其中拟合效果最好的模型是( )A.模型1 B.模型2C.模型3 D.模型4
A
典型例题
PART.03
残差分析
例1:为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求经验回归方程;(2)求出R2并说明回归模型拟合的效果;(3)进行残差分析.
残差分析
解:(1)散点图如图所示.
样本点分布在一条直线附近,所以y与x具有线性相关关系.
残差分析
非线性回归分析
非线性回归分析
非线性回归分析
例3:某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
非线性回归分析
非线性回归分析
课堂总结
PART.04
课堂总结
1.残差;
2.残差表和残差图;
3.残差平方和;
4.决定系数;
5.非线性回归分析。