(共50张PPT)
·选择性必修第三册·
第八章 成对数据的统计分析
8.2.2
一元线性回归模型参数的
最小二乘估计(第一课时)
学习目标
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义;
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;(重点)
3.针对实际问题,会用一元线性回归模型进行预测.(难点)
情景导入
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
01
复习回顾,引入新知
一元线性回归模型
Y称为因变量或响应变量,
x称为自变量或解释变量,
e是Y与bx+a之间的随机误差.
a称为截距参数,
b称为斜率参数.
一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
02
探究新知
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.
由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
探究新知
探究
利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
方法一:采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置. 然后测量出此时的斜率和截距,就可得到一 条直线,如上图所示.
探究新知
方法二:在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如右图所示.
方法三:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距,如右图所示.
探究新知
上面这些方法虽然有一定的道理,但比较难操作,我们需要考虑其他可行方法.先进一步明确我们面临的任务: 从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), , (xn, yn), 由yi=bxi+a+ei (i=1, 2, , n),得
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如右图所示. 特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
探究新知
因此,可以用这个竖直距离之和来刻画各样本观测数据与直线的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”.
在上式中,,是已知的成对样本数据,所以由和所决定,即它是和的函数.因为还可以表示为,即它是随机误差的平方和,这个和当然越小越好,所以我们取使达到最小的和的值,作为截距和斜率的估计值.
下面利用成对样本数据求使取最小值的,.
探究新知
记,.因为
,
注意到
探究新知
所以 .
上式右边各项均为非负数,且前项与无关.所以,要使取到最小值,后一项的值应为0,即.此时
.
上式是关于的二次函数,因此要使取得最小值,当且仅当的取值为
.
综上,当,的取值为(2)时,达到最小.
探究新知
经验回归方程与最小二乘估计:
我们将称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法,求得的 , 叫做b,a的最小二乘估计.
注意:(1)经验回归直线必过样本中心 ;
(2) 与相关系数r符号相同.
残差分析
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
03
探究新知
对于前面表中出现的数据,利用公式(2)可以计算出,,得到儿子身高关于父亲身高的经验回归方程为,相应的经验回归直线如图所示.
探究新知
思考:当时,.如果一位父亲的身高为,他儿子长大成人后的身高一定是吗?为什么?
不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高.不过,我们可以作出推测,当父亲身高为时,儿子身高一般在左右.
实际上,如果把这所学校父亲身高为的所有儿子身高作为一个子总体,那么是这个子总体的均值的估计值.
这里的经验回归方程,其斜率可以解释为父亲身高每增加,其儿子身高平均增加.
探究新知
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
例如,对于前面表中的第6个观测,父亲身高为,其儿子身高的观测值为,预测值为,残差为.
残差分析
探究新知
类似地,我们还可以得到其他的残差,如下表所示.
探究新知
残差图:为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值. 可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
探究新知
思考:观察下列四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定
通过观察发现,图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内. 所以在四幅残差图中,只有图(4)满足一元线性回归模型对随机误差的假设.
能力提升
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
04
能力提升
题型一
最小二乘法的概念及辨析
例题1
ABD
能力提升
题型一
最小二乘法的概念及辨析
解析
总结
题型二
求回归直线方程及其应用
例题2
解析
能力提升
总结
求经验回归方程的基本步骤
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(4)写出经验回归方程并对实际问题作出估计.
【注意】只有在散点图大致呈线性相关关系时,求出的经验回归方程才有实际意义,否则求出的经验回归方程毫无意义.
能力提升
题型三
计算残差及残差图分析拟合效果
例题3
解析
1.5
能力提升
题型三
计算残差及残差图分析拟合效果
例题3
D
能力提升
题型三
计算残差及残差图分析拟合效果
解析
能力提升
题型三
计算残差及残差图分析拟合效果
总结
能力提升
题型四
一元线性回归模型的实际应用
例题4
能力提升
题型四
一元线性回归模型的实际应用
解析
课堂小结+限时小练
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
05
课堂小结
随堂限时小练
解
B
随堂限时小练
解
C
随堂限时小练
A
随堂限时小练
解
随堂限时小练
解
-0.79
随堂限时小练
随堂限时小练
解
作业布置与课后练习答案
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
06
巩固作业
作业布置
作业1:完成教材: 第113页 练习第2、3题.
作业2:配套辅导资料对应的《一元线性回归模型参数的最小二乘估计》.
课后作业答案
1.对一元线性回归模型参数a和b的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘整体接近程度’的定义,可以得到参数a和b不同的估计,只要‘整体接近程度’定义合理即可.”你觉得这个说法对吗
课后作业答案
课后作业答案
3.根据8.1.1节表8.1-1中的数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
先画人体的脂肪含量与年龄的散点图,如图所示.由散点图可以发现人体的脂肪含量与年龄呈现近似线性关系,可以用一元线性回归模型刻画.
课后作业答案
课后作业答案
4.计算表8.2-2中的所有残差之和,你能发现什么规律
经计算可知残差的总和为0.027,这是由于计算过程中四舍五入的原因导致.
课后作业答案
THANKS
感谢您的聆听