数学人教A版(2019)选择性必修第三册8.2.1一元线性回归模型 课件(共15张ppt)

文档属性

名称 数学人教A版(2019)选择性必修第三册8.2.1一元线性回归模型 课件(共15张ppt)
格式 pptx
文件大小 445.1KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2024-06-11 08:15:34

图片预览

文档简介

(共15张PPT)
8.2.1一元线性回归模型
复习回顾:
2. 样本相关系数:
3.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数
据的线性相关程度越弱;
特别地,当|r|=0时,成对数据的没有线性相关关系;
当|r|=1时,成对数据都落在一条直线上.
1. 散点图
把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.
进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高. 为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
问题1.根据上述数据,你如何分析儿子的身高与父亲的身高的关系?
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关,而且还是正相关.
求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
问题2.根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182

172

父亲身高

176
174

儿子身高
儿子身高不是父亲身高的函数

170

儿子身高

173
169

父亲身高
父亲身高不是儿子身高的函数
但由于父子的身高有较强的线性相关,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响
问题3.除父亲身高外,还有哪些因素影响儿子的身高?
母亲身高
生活环境
饮食习惯
体育锻炼
……
随机误差e
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
我们称(1)式为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 模型中的Y也是随机变量,其值虽不能由变量x的值确定,但却能表示为bx+a与e的和,前一部分由x所确定,后一部分是随机的. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
儿子身高和父亲身高之间不是函数关系,故不能用函数模型刻画. 但由于父子的身高有较强的线性相关,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素作为随机误差,得到刻画两个变量之间关系的线性回归模型.
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
如果随机误差时一个不为0的常数,则可以将合并到截距项a中,否则模型无法确定,即参数没有唯一解.
另外,如果不为0,则表示存在系统误差,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差.
追问1.为什么要假设E(e)=0,而不假设其为某个不为0的常数?
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
追问2.你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
可以解释为父亲身高为的所有男大学生身高组成一个子总体,该子总体的均值为bxi+a,即该子总体的均值与父亲的身高是线性函数关系.
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
追问3.对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?
对于父亲身高为的某一名男大学生,他的身高并不一定为 bxi+a ,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi -(+a).
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
(1) 忽略了其它因素的影响,如除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
追问4.在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有哪些?
例1.(多选)在如图所示的四个散点图,适合用一元线性回归模型拟合其中两个变量的是( ).
AC
例2.在一元线性回归模型中,下列关于Y=bx+a+e的说法正确的是( )
A.Y=bx+a+e是一次函数
B.响应变量Y是由解释变量x唯一确定的
C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
C
例3.若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单元:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过多少?
解:因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,
其中b=0.7,a=3,所以得到 y=0.7 x+3+e,
当x=10时,得y=0.7×10+3+e=10+e,
而|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.
一元线性回归模型:
课堂小结
Y称为因变量或响应变量
x称为自变量或解释变量
e是Y与bx+a之间的随机误差.
a称为截距参数
b称为斜率参数