(共15张PPT)
8.2.1一元线性回归模型
复习回顾:
2. 样本相关系数:
3.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数
据的线性相关程度越弱;
特别地,当|r|=0时,成对数据的没有线性相关关系;
当|r|=1时,成对数据都落在一条直线上.
1. 散点图
把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.
进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高. 为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如下表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
问题1.根据上述数据,你如何分析儿子的身高与父亲的身高的关系?
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关,而且还是正相关.
求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
问题2.根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
…
172
…
父亲身高
…
176
174
…
儿子身高
儿子身高不是父亲身高的函数
…
170
…
儿子身高
…
173
169
…
父亲身高
父亲身高不是儿子身高的函数
但由于父子的身高有较强的线性相关,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响
问题3.除父亲身高外,还有哪些因素影响儿子的身高?
母亲身高
生活环境
饮食习惯
体育锻炼
……
随机误差e
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
我们称(1)式为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 模型中的Y也是随机变量,其值虽不能由变量x的值确定,但却能表示为bx+a与e的和,前一部分由x所确定,后一部分是随机的. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
儿子身高和父亲身高之间不是函数关系,故不能用函数模型刻画. 但由于父子的身高有较强的线性相关,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素作为随机误差,得到刻画两个变量之间关系的线性回归模型.
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
如果随机误差时一个不为0的常数,则可以将合并到截距项a中,否则模型无法确定,即参数没有唯一解.
另外,如果不为0,则表示存在系统误差,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差.
追问1.为什么要假设E(e)=0,而不假设其为某个不为0的常数?
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
追问2.你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
可以解释为父亲身高为的所有男大学生身高组成一个子总体,该子总体的均值为bxi+a,即该子总体的均值与父亲的身高是线性函数关系.
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
追问3.对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?
对于父亲身高为的某一名男大学生,他的身高并不一定为 bxi+a ,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi -(+a).
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
(1) 忽略了其它因素的影响,如除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
追问4.在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有哪些?
例1.(多选)在如图所示的四个散点图,适合用一元线性回归模型拟合其中两个变量的是( ).
AC
例2.在一元线性回归模型中,下列关于Y=bx+a+e的说法正确的是( )
A.Y=bx+a+e是一次函数
B.响应变量Y是由解释变量x唯一确定的
C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
C
例3.若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单元:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过多少?
解:因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,
其中b=0.7,a=3,所以得到 y=0.7 x+3+e,
当x=10时,得y=0.7×10+3+e=10+e,
而|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.
一元线性回归模型:
课堂小结
Y称为因变量或响应变量
x称为自变量或解释变量
e是Y与bx+a之间的随机误差.
a称为截距参数
b称为斜率参数