(共40张PPT)
8.2.2
一元线性回归模型
参数的最小二乘估计
高二数学选择性必修 第三册 第八章 成对数据的统计分析
学习目标
1.通过用数学方法刻画散点与直线接近的程度,体会一元线性回归模型参数的最小二乘估计原理,能推导参数估计公式;
2.通过对残差和残差图的分析,能用残差判断一元线性回归模型的有效性.
3.核心素养: 直观想象、数据分析、数学运算.
一、回顾旧知
1.一元线性回归模型
2.一元线性回归模型与函数模型的区别
Y称为因变量或响应变量
x称为自变量或解释变量
e是Y与bx+a之间的随机误差.
a称为截距参数
b称为斜率参数
二、探究新知
1.问题1.为了研究两个变量之间的相关关系, 我们
建立了一元线性回归模型表达式
刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b
与函数不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数.
参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
2问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?
从成对样本数据出发,用数学的方法刻画
“从整体上看,各散点与直线最接近”
利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
父亲身高/cm
180
175
170
165
160
160
165
170
175
180
185
190
·
·
·
·
·
·
·
儿子身高/cm
·
·
·
·
·
·
·
185
父亲身高/cm
180
175
170
165
160
160
165
170
175
180
185
190
·
·
·
·
·
·
·
儿子身高/cm
·
·
·
·
·
·
·
185
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn)
父亲身高/cm
180
175
170
165
160
160
165
170
175
180
185
190
·
·
·
·
·
·
·
儿子身高/cm
·
·
·
·
·
·
·
185
y=bx+a
·
残差平方和:
求a,b的值,使Q ( a,b )最小
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
3.最小二乘法
我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.
4.问题2:依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程.
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
1). 当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
2).根据经验回归方程 中斜率的
具体含义,高个子的父亲一定生高个子的儿子吗?同
样,矮个子的父亲一定生矮个子的儿子吗?
根据经验回归方程 中斜率
0.839可以解释为父亲身高每增加1cm,其儿子的身
高平均增加0.839cm. 由模型可以发现,高个子父亲
x=185(cm),则
我们可以通过残差
来判断模型拟合的效果,判断原始数据中是否存在
可疑数据,这方面的分析工作称为残差分析.
(1)残差的定义
5.判断模型拟合的效果:残差分析
残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据或体重估计值等,这样作出的图形称为残差图.
从上面的残差图可以看出,残差有正有负,残差点比较均匀地分布在横轴的两边,可以判断样本数据基本满足一元线性回归模型对于随机误差的假设.所以,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假设,从而判断回归模型拟合的有效性.
6.问题3:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
所以,只有图(4)满足一元线性回归模型对随机误差的假设
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
根据一元线性回归模型中对随机误差的假定,残差应是均值为0,方差为 的随机变量的观测值.
7.观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
1.残差等于观测值减预测值;
2.残差的平方和越小越好;
3.原始数据中的可疑数据往往是残差绝对值过大的数据;
4. 对数据刻画效果比较好的残差 图特征:残差点比较均匀的集中在水平带状区域内.
1.关于残差图的描述错误的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
C
三、巩固新知
2.根据如下样本数据:
得到的经验回归方程为 ,则( )
A. >0, >0 B. >0, <0
C. <0, >0 D. <0, <0
x
2
3
4
5
6
Y
4
2.5
-0.5
-2
-3
B
3.某种产品的广告支出费用x(单位:万元)与销售额Y(单位:
万元)的数据如表:
已知Y关于x的经验回归方程为 =6.5x+17.5,则当广告支
出费用为5万元时,残差为________.
x 2 4 5 6 8
Y 30 40 60 50 70
当x=5时, =6.5×5+17.5=50,表格中对应y=60,
于是残差为60-50=10.
10
4.已知变量x,Y之间具有线性相关关系,其散点图如图所示,
则其经验回归方程可能为( )
A. =1.5x+2 B. =-1.5x+2
C. =1.5x-2 D. =-1.5x-2
B
编号 1 2 3 4 5 6
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3
树高/m 18.8 19.2 21.0 21.0 22.1 22.1
编号 7 8 9 10 11 12
胸径/cm 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 22.4 22.6 23.0 24.3 23.9 24.7
1).例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.
5.一元线性回归模型的应用
d
h
·
·
·
·
·
·
·
·
·
·
·
·
解: 以胸径为横坐标,树高为纵坐标作散点图如下:
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
·
·
·
·
·
·
·
·
·
·
·
·
用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为
编号 胸径/cm 树高观测值/m 树高预测值/m 残差/m
1 18.1 18.8 19.4 -0.6
2 20.1 19.2 19.9 -0.7
3 22.2 21.0 20.4 0.6
4 24.4 21.0 20.9 0.1
5 26.0 22.1 21.3 0.8
6 28.3 22.1 21.9 0.2
7 29.6 22.4 22.2 0.2
8 32.4 22.6 22.9 -0.3
9 33.7 23.0 23.2 -0.2
10 35.7 24.3 23.7 0.6
11 38.3 23.9 24.4 -0.5
12 40.2 24.7 24.9 -0.2
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
以胸径为横坐标,残差为纵坐标,作残差图,得到下图.
30
25
20
15
-1.0
-0.5
0.0
0.5
1.0
·
·
·
·
·
·
·
残差/m
·
·
·
·
·
35
40
45
胸径/cm
观察残差表和残差图,可以看到残差的绝对值最大是 0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
2).例2.人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图
在左图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
将经验回归直线叠加到散点图,得到下图:
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为:
从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗
第一个世界纪录所对应的散点远离经验回归直线, 并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围, 而是围绕着经验回归直线有一定的变化规律, 即成对样本数据呈现出明显的非线性相关的特征.
回顾已有的函数知识,可以发现函数y=-lnx的图象具有
类似的形状特征
你能对模型进行修改,以使其更好地反映散点的分布特征吗?
仔细观察右图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.
注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0.
y=f(t)=c1+c2ln(t-1895)
令x=ln(t-1895),则 Y=c2x+c1
编号 1 2 3 4 5 6 7 8
年份/t 1896 1912 1921 1930 1936 1956 1960 1968
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
这是一个非线性经验回归函数,如何利用成对数据
估计参数c1、c2
对数据进行变化可得下表:
得到散点图如下:
由表中的数据得到经验回归方程为:
上图表明,经验回归方程对于成对数据具有非常好的拟合精度.
将经验回归直线叠加到散点图,得到下图:
将x=ln(t-1895)代入:
对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
①
②
我们发现,散点图中各散点都非常靠近②的图象, 表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
①
②
(2).残差分析:残差平方和越小,模型拟合效果越好.
Q2明显小于Q1,说明非线性回归方程的拟合效果
要优于线性回归方程.
R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.
①和②的R2分别为0.7325和0.9983
(3).利用决定系数R2刻画回归效果.
①
②
显然0≤R2≤1,R2越接近1,则线性回归刻画的效果越好. 在一元线性回归模型中 R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
在使用经验回归方程进行预测时,需注意以下问题
1.回归方程只适用于我们所研究的样本的总体;
2.我们所建立的回归方程一般都有时间性;
3.样本采集的范围会影响回归方程的适用范围;
4.不能期望回归方程得到的预报值就是预报
变量的精确值.事实上,它是预报变量的可取
值的平均值.
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.
(2)画出解释变量与响应变量的散点图,观察它们之间的关系
(如是否存在线性关系等).
(3)由经验确定回归方程的类型.
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.
(5)得出结果后需进行线性回归分析.
①残差平方和越小,模型的拟合效果越好.
②决定系数R2取值越大,说明模型的拟合效果越好.
注意:若题中给出了检验回归方程是否理想的条件,
则根据题意进行分析检验即可.
6.建立线性回归模型的基本步骤
7.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了6组观测数据列于表中:
温度x/℃ 21 23 24 27 29 32
产卵数y/个 6 11 20 27 57 77
经计算得:
线性回归残差的平方和:
其中 分别为观测数据中的温度和产卵数, 1,2,3,4,5,6.
(1)若用线性回归模型拟合,求y关于x的回归方程 (精确到0.1);
(2)若用非线性回归模型拟合,求得y关于x回归方程为
且相关指数R2=0.9522.
①试与(1)中的线性回归模型相比较,用R2说明哪种模型的拟合效果更好
②用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数.
(结果取整数). 附:相关系数
解:
所以y关于x的经验回归方程为
∵0.9398<0.9522
∴非线性回归模型的回归方程 比线性回归方程为:y=6.6x-139.4拟合的拟合效果更好
=0.06e0.2303x= =0.06e0.2303×35=0.06×e8.0605≈3167×0.06≈190(个)
预测温度为35℃时该种药用昆虫的产卵数为190个.
②
四、课堂小结
1.残差平方和:
2.最小二乘法
将 称为Y 关于x 的经验回归方程,
3.判断模型拟合的效果:残差分析
R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.
作业: 课本P121 习题8.2 4题