8.2.2 一元线性回归模型参数的最小二乘估计 课件 (共27张PPT)2024-2025学年 人教A版(2019)选择性必修第三册

文档属性

名称 8.2.2 一元线性回归模型参数的最小二乘估计 课件 (共27张PPT)2024-2025学年 人教A版(2019)选择性必修第三册
格式 pptx
文件大小 2.1MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2024-09-06 09:36:08

图片预览

文档简介

(共27张PPT)
8.2.2 一元线性回归模型参数的
最小二乘估计(2)
对于响应变量Y,通过观测得到的数据为观测值,通过经验回归
方程得到的 称为预测值,观测值减去预测值称为残差,即 = y -
残差是随机误差的估计结果,通过对残差的分析可判断回归 模型刻画数据的效果, 以及判断原始数据中是否存在可疑数据等, 这方面的工作称为残差分析.
一元线性回归模型Y = bx + a + e
经验回归方程 = x + ,
b

探究新知
思考: 儿子身高与父亲身高的关系 , 运用残差分析所得的一元线性回归模型的 有效性吗?
: 作图时纵坐标为残差, 横坐标可以选为样本编号, 或身高数据 或体重估计值等 ,这样作出的图形称为残差图 .
探究新知
从上面的残差图可以看出 , 残差有正有负 , 残差点比较均匀地分布在横
轴的两边 , 可以判断样本数据基本满足一元线性回归模型对于随机误差的假设. 所以 ,通过观察残差图可以直观判断样本数据是否满足一元线性回归模型的假 设 ,从而判断回归模型拟合的有效性.
为了使数据更加直观 , 用父亲身高作为横坐标 , 残差作为
纵坐标 , 可以画出残差图 , 如下图所示:
探究新知
(1) (2)
图(3)说明残
差的方差不是
一个常数, 随
观测时间变大
而变大
追问:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随 机误差的假定?
图(2)显示残差 与观测时间有 非线性关系,应 在模型中加入 时间的非线性 函数部分;
图(4)的残差 比较均匀地集 中在以横轴为 对称轴的水平
图(1)显示残 差与观测时间 有线性关系,
应将时间变量 纳入模型;
(3) (4)
探究新知
残差的性质:
1.残差等于观测值减预测值 = y -
2.残差的平方和越小越好;
3.原始数据中的可疑数据往往是残差绝对值过大的数据;
4. 对数据刻画效果比较好的残差图特征:残差点比较均匀的集 中在水平带状区域内 .
一般地, 建立经验回归方程后,通常需要对模型刻画数据的效 果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改 进模型作出更符合实际的预测与决策.
探究新知
1.关于残差图的描述错误的是( C )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
2.已知变量x,Y之间具有线性相关关系,其散点图如图所示,
则其经验回归方程可能为( B )
A. =1.5x+2 B. =-1.5x+2 C. =1.5x-2 D. =-1.5x-2
巩固练习
x 2 4 5 6
8
Y 30 40 60 50
70
已知Y关于x的经验回归方程为 =6.5x+17.5,则当广告支出费用
为5万元时,残差为 10 .
当x =5时, =6.5 × 5+17.5 =50,表格中对应y =60,
∴残差为60-50 =10.
3.某种产品的广告支出费用x(单位:万元)与销售额Y(单位: 万元)的
数据如表:
巩固练习
得到的经验回归方程为 = x + ,则( B )
A. > 0, > 0 B. > 0, < 0
C. < 0, > 0 D. < 0, < 0
b
^
b
^
b
^
b
^
b
^
x 2 3 4 5
6
Y 4 2.5 -0.5 -2
-3
(xi - x)2 = 17.5
i=1
= = -1.4
b
^
= x - y = 7.95
b

4.根据如下样本数据:
巩固练习
记录/s
·
· ·
· ·
问题 人们常将男子短跑100m的高水平运动员称为 “百米飞人”.下表给出 了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这 些成对数据 , 建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程.
编号 1 2 3 4 5 6 7
8
年份 1896 1912 1921 1930 1936 1956 1960
1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00
9.95
在左图中 , 散点看 上去大致分布在一条 直线附近 , 似乎可用 一元线性回归模型建 立经验回归方程.
以成对数据中的世界纪录产生年份为横坐标, 世界纪录为纵坐标作散点图,
12.0
11.5
11.0
10.5
10.0
9.5
1890
探究新知
得到下图
1920 1930 1940 1950
1960 1970
年份
1900
1910
·
·
·
来刻画世界纪录和世界纪录产生年份之间的关系. 根据最小二乘法, 由表中的数 据得到经验回归方程为
1 = -0.02033743t + 49.76913031
将经验回归直线叠加到散点图 , 得到下图:
·
·
用Y表示男子短跑100m的世界纪录, t表示纪录产生的年份, 利用一元线性
Y/s
12.0
11.5
11.0
10.5
10.0
9.5
1890
探究新知
1920 1930 1940 1950 1960 1970
回归模型
1900
1910
·
·
·
·
·
·
t
第一个世界纪录所对应的散点远离经验回归直线 , 并且前后两时间段中
的散点都在经验回归直线的上方 , 中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围 , 而是围绕着经验回 归直线有一定的变化规律 , 即成对样本数据呈现出明显的非线性相关的特征.
·
·
思考 :从图中可以看到 , 经验回归方程较好地刻画了散点的变化趋势 , 请再 仔细观察图形 , 你能看出其中存在的问题吗
Y/s
12.0
11.5
11.0
10.5
10.0
9.5
1890
探究新知
1920 1930 1940 1950 1960 1970
1900
1910
·
·
·
·
·
·
t
仔细观察 , 可以发现散点更趋向于落在中间下凸且递减的某条曲线附近
回顾已有的函数知识 , 可以发现函数y=-lnx的图象具有类似的形状特征
注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是 集中在曲线y =f(t) =c1 +c2 ln(t-1895)的周围 , 其中c1,c2为未知参数 , 且c2 <0.
·
·
思考 :你能对模型进行修改, 以使其更好地反映散点的分布特征吗?
Y/s
12.0
11.5
11.0
10.5
10.0
9.5
1890
探究新知
1920 1930 1940 1950 1960 1970
1900
1910
·
·
·
·
·
·
t
对数据进行变化可得下表:
y =f(t) =c1 +c2 ln(t-1895)
这是一个非线性经验回归函数 , 如何利用成对数据估计参数c1,c2 令x=ln(t-1895) ,则 Y =c2x+c1
对数据进行变化可得下表:
编号 1 2 3 4 5 6 7
8
年份/t 1896 1912 1921 1930 1936 1956 1960
1968
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17
4.29
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00
9.95
探究新知
由表中的数据得到经验回归方程为:
2 = -0.4264398x +11.8012653
将经验回归直线叠加到散点图 , 如图所示:
上图表明, 经验回归方程对于成对数据具有非常好的拟合精度.
将x =ln(t-1895)代入 2 = -0.4264398x +11.8012653, 得
2 = -0.4264398ln( t -1895) +11.8012653
探究新知
得到散点图如下:
1 = -0.4264398x +11.8012653 ①
2 = -0.4264398ln(t -1895)+11.8012653 ②
(1) 直接观察法. 在同一坐标系中画出成对数据散点图、 非线性经验回 归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
思考 :对于通过创纪录时间预报世界纪录的问题 ,我们建立了两个回归模型, 得到了两个回归方程 ,你能判断哪个回归方程拟合的精度更好吗?
我们发现 , 散点图中各
散点都非常靠近②的图象 , 表明非线性经验回归方程② 对于原始数据的拟合效果远 远好于经验回归方程① .
探究新知
1 = -0.4264398x +11.8012653 ①
2 = -0.4264398ln(t -1895)+11.8012653 ② (2) 残差分析: 残差平方和越小, 模型拟合效果越好.
2 ≈ 0 .669, Q 2 = 2 ≈ 0 .004
Q2 明显小于Q1 , 说明非线性回归方程的拟合效果 要优于线性回归方程.
思考 :对于通过创纪录时间预报世界纪录的问题 ,我们建立了两个回归模型, 得到了两个回归方程 ,你能判断哪个回归方程拟合的精度更好吗?
探究新知
①和②的R2分别为0.7325和0.9983
R2越大 , 表示残差平方和越小 , 即模型的拟合效果越好; R2越小 , 表示残差平方和越大 , 即模型的拟合效果越差. 显然0≤R2 ≤1 , R2越接近1 ,则线性回归刻画的效果越好.
在一元线性回归模型中 R2 =r2 , 即决定系数R2等于响应变量与解释 变量的样本相关系数r的平方.
思考 :对于通过创纪录时间预报世界纪录的问题 ,我们建立了两个回归模型, 得到了两个回归方程 ,你能判断哪个回归方程拟合的精度更好吗?
(yi - i )2
R 2 = 1 - = 1 -
(yi - y)2
(3) 利用决定系数R2刻画回归效果.
探究新知
总偏差平方和
残差平方和
在使用经验回归方程进行预测时,需注意以下问题
1.回归方程只适用于我们所研究的样本的总体; 2.我们所建立的回归方程一般都有时间性;
3.样本采集的范围会影响回归方程的适用范围;
4.不能期望回归方程得到的预报值就是预报变量的精确 值. 事实上, 它是预报变量的可能取值的平均值.
探究新知
巩固练习
巩固练习
②两边取对数得lny=ln ebx+a ,即 lny=bx+a
令z=lny,把原始数据(x, y)转化为(x, z),
再根据求解线性回归模型的方法求出a, b.
②设u=ln x ,原方程可转化为y=bu+a
把原始数据(x, y)转化为(u, y) ,再根据
求解线性回归模型的方法求出a, b.
(2)对数型函数y=b ln x+a 类
①函数y=b ln x+a 的图象,如图所示
(1)指数型函数y=ebx+a 类
①函数y=ebx+a 的图象,如图所示
非线性回归分析 线性回归分析
归纳总结
1.残差平方和
将 = x + 称为Y 关于x 的经验回归方程
3.判断模型拟合的效果:
①残差分析
②决定系数R2 = 1- (y - ) = 1-
i
i
总偏差平方和
残差平方和
2
2
b

y

2.最小二乘法
课堂小结
Σ(yi -y)
i=1
P67-71
课外资料相应练习
一元线性回归模型及其应用( 1)