【高中数学】8.2一元线性回归模型参数的最小二乘估计(1)-高二数学人教A版(2019)选择性必修第三册

文档属性

名称 【高中数学】8.2一元线性回归模型参数的最小二乘估计(1)-高二数学人教A版(2019)选择性必修第三册
格式 pptx
文件大小 2.1MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2024-07-31 14:00:25

图片预览

文档简介

(共30张PPT)
8.2.2 一元线性回归模型参数的最小二乘估计(1)
8.2 一元线性回归模型及其应用
2.建立一元线性回归模型的步骤
1.一元线性回归模型
(1)与函数模型的区别
(2)随机误差产生的原因及分布
定性分析
定量分析
函数关系 or 相关关系 or 没有关系?
(1)整理数据
复习回顾
四、估计一元线性回归模型的参数
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), , (xn, yn), 由yi=bxi+a+ei (i=1, 2, , n),得
说明:参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.显然|ei|越小,从整体上看,各点与此直线的距离最小,即样本数据点离直线y=bx+a的竖直距离越小,特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
方便计算
刻画“整体接近程度”
随机误差平方和
要使Q达到最小值时,a和b的估算值应该是多少?
四、估计一元线性回归模型的参数
设一元线性回归方程为:,其中:
我们将称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.
以上公式的推导的原理较为简单:各点到该直线的距离的平方和最小,这一方法叫最小二乘法。
易得:(1)经验回归直线必过样本中心;
(2)与相关系数r符号相同.
五、利用一元线性回归方程进行预测
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
参考数据:
利用公式(2)可以计算出b=0.839, a=28.957,
得到儿子身高Y关于父亲身高x的经验回归方程为:
由经验回归方程可以预测儿子的身高。
答:儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.
一般地,因为E(Y)=bx+a,是bx+a的估计值,所以是E(Y)的估计值.
思考:当x=176时,,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
思考:根据经验回归方程 中斜率的具体含义,高个子的父亲一定生高个子的儿子吗 同样,矮个子的父亲一定生矮个子的儿子吗
根据经验回归方程 中斜率0.839可以解释为父亲身高每增加1cm,其儿子的身高平均增加0.839cm.
分析模型可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则
英国著名统计学家高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
巩固练习 某研究机构对高三学生的记忆力 和判断力 进行统计分析,得下表数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出 关于 的经验回归方程;
(3)试根据求出的经验回归方程,预测记忆力为7的同学的判断力.
6 8 10 12
2 3 5 6
解:(1)作出散点图如图所示.
导学案P121
导学案P121
解:(2)
由题知,,
,则,故经验回归方程为.
巩固练习 某研究机构对高三学生的记忆力 和判断力 进行统计分析,得下表数据
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出 关于 的经验回归方程;
(3)试根据求出的经验回归方程,预测记忆力为7的同学的判断力.
6 8 10 12
2 3 5 6
(3)由(2)中经验回归方程知,当时, ,故预测记忆力为7的同学的判断力为2.6.
(1)作出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算:,,,;
(3)代入公式求出中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
求经验回归方程的基本步骤
六、刻画回归效果的方式——(1)残差图法
我们称yi为响应变量Y的观测值,通过经验回归方程得到的为预测值.为了研究回归模型的有效性,定义残差为=yi-,残差是随机误差的估计值。
通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)列残差表
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
… … … … …
编号 父亲身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 66.553 -1.553
14 180 182 179.977 2.023
残差表:
我们称yi为响应变量Y的观测值,通过经验回归方程得到的为预测值.为了研究回归模型的有效性,定义残差为=yi-,残差是随机误差的估计值。
(2)残差图
残差图:作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
好的回归方程对应的残差散点图应是均匀地分布在横轴两侧的带状区域内.且带状区域越窄,说明模型拟合效果越好.
越窄越好
六、刻画回归效果的方式——残差图法
(1)
(2)
(3)
(4)
观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
(1)
(2)
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
(3)
(4)
图(3)说明残差的方差不是一个常数,随观测时间变大而变大
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.满足一元线性回归模型对随机误差的假设。
一般地, 建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
在使用经验回归方程进行预测时,需要注意下列问题:
(1) 经验回归方程只适用于所研究的样本的总体.
(2) 经验回归方程一般都有时效性.
(3) 解释变量的取值不能离样本数据的范围太远.
(4) 不能期望经验回归方程得到的预报值就是响应变量的精确值. 事实上,它是响应变量的可能取值的平均值.
决定系数R2公式:
R2的范围:[0,1];
R2越大,表示残差平方和越小,模型的拟合效果越好;反之,模型的拟合效果越差;
决定系数是总偏差平方和中回归平方和所占的比重,R2越接近于1,表示回归的效果越好.
还可以证明,在一元线性回归模型中R2=r2,即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
六、刻画回归效果的方式——决定系数R2法
例题 经验表明,一般树的胸径 (树的主干在地面以上1.3m处的直径)越大, 树就越高 . 由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高 . 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6 7 8 9 10 11 12
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 18.8 19.2 21.0 21.0 22.1 22.1 22.4 22.6 23.0 24.3 23.9 24.7
分析:求一元线性回归方程的步骤:
(1)以成对样本数据描出散点图,通过散点图观察成对样本数据是否线性相关。
(2)计算样本相关系数r,判断两个变量之间的线性相关关系。(可省)
(3)利用公式计算出,得到经验回归方程。
(4)残差分析:残差表、残差图及决定系数R2对回归模型的拟合效果进行评估。
例题 经验表明,一般树的胸径 (树的主干在地面以上1.3m处的直径)越大, 树就越高 . 由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高 . 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6 7 8 9 10 11 12
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 18.8 19.2 21.0 21.0 22.1 22.1 22.4 22.6 23.0 24.3 23.9 24.7
解:
以胸径为横坐标,树高为纵坐标作散点图
在右图中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
例题 经验表明,一般树的胸径 (树的主干在地面以上1.3m处的直径)越大, 树就越高 . 由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高 . 在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6 7 8 9 10 11 12
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 18.8 19.2 21.0 21.0 22.1 22.1 22.4 22.6 23.0 24.3 23.9 24.7
解:
用d表示胸径 , h表示树高 , 根据据最小二乘法 , 计算可得经验回归方程为:
相应的经验回归直线如图所示.
编号 胸径/cm 树高观测值/m 树高预测值/m 残差/m
1 18.1 18.8 19.4 -0.6
2 20.1 19.2 19.9 -0.7
3 22.2 21.0 20.4 0.6
4 24.4 21.0 20.9 0.1
5 26.0 22.1 21.3 0.8
6 28.3 22.1 21.9 0.2
7 29.6 22.4 22.2 0.2
8 32.4 22.6 22.9 -0.3
9 33.7 23.0 23.2 -0.2
10 35.7 24.3 23.7 0.6
11 38.3 23.9 24.4 -0.5
12 40.2 24.7 24.9 -0.2
残差分析:根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
以胸径为横坐标, 残差为纵坐标, 作残差图, 得到下图.
观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 . 可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
计算决定系数R2:
R2≈0.9326
故回归模型的拟合效果很好.
说明:当两个变量已明显呈线性相关关系时,则无需作散点图,就可直接求经验回归方程,否则要先判定相关性再求经验回归方程.判断拟合效果的好坏需要利用<确定,越接近1,说明拟合效果越好.
建立树的胸径和树高的关系是有实际意义的.实际上,在采伐设计、资源评估、森林规划调查等林业工作中常需测算森林蓄积量.可以从森林中抽取部分树木,通过树的胸径与树高估计抽到的每棵树的体积,进而推断整片森林的蓄积量.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.因此,建模时将胸径作为解释变量,树高作为响应变量,即树高作为响应变量是解决实际问题的需要.
回归分析的实际意义
巩固练习1 某同学用收集到的6组数据(,,,,,)制作成如图8-2-1所示的散点图(点旁边的数据为该点坐标),并由最小二乘法计算得到经验回归直线,样本相关系数为,决定系数为,经过残差分析确定点为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到经验回归直线,样本相关系数为,决定系数为.下列结论不正确的是( )
导学案P122例2(1)
A., B., D.
D
巩固练习2 已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
解:
巩固练习2 已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
解:
列残差表如下:
y 12 10 7 5 3
12 9.7 7.4 5.1 2.8
0 0.3 -0.4 -0.1 0.2
4.6 2.6 -0.4 -2.4 -4.4
故回归模型的拟合效果很好.
利用残差图直观判断模型是否满足一元线性回归模型的假设。残差散点图应均匀地分布在横轴两侧,呈带状,宽度越窄,说明模型拟合精度越高。也可以利用决定系数R2判断回归模型的拟合效果。
1. 经验回归方程:
我们将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 最小二乘估计:
经验回归方程中的参数计算公式为:
课堂小结
3. 残差分析:
课本120页
1. 在回归分析中,分析残差能够帮助我们解决哪些问题
解:分析残差可以帮助我们解决以下几个问题:
(1) 寻找残差明显比其他残差大很多的异常点,如果有,检查相应的样本数据是否有错.
(2) 分析残差图可以诊断选择的模型是否合适,如果不合适,可以参考残差图提出修改模型的思路.
(1)确定研究对象, 明确哪个变量是解释变量, 哪个变量是响应变量.
(2)画出解释变量与响应变量的散点图,观察它们之间的关系
(如是否存在线性关系等).
(3)由经验确定回归方程的类型.
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.
(5)得出结果后需进行线性回归分析.
①残差平方和越小,模型的拟合效果越好.
②决定系数R2取值越大,说明模型的拟合效果越好.
建立线性回归模型的基本步骤:
课堂小结