(共13张PPT)
8.2一元线性回归模型及其应用
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.
进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
8.2.1一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高 . 为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示(身高单位cm).
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高 176 176 170 170 185 176 178 174 170 168 178 172 165 182
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表中的成对样本数据表示为散点图.
利用统计软件,求得样本相关系数为r ≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
思考 根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗
在上表的数据中, 存在父亲身高相同而儿子身高不同的情况 . 例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176cm和174cm;同样在第3,4个观测中 , 儿子的身高都是170cm , 而父亲的身高分别为173cm , 169cm . 可见儿子的身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高 176 176 170 170 185 176 178 174 170 168 178 172 165 182
散点图中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型. 其中,随机误差是一个随机变量.
用x表示父亲身高,Y表示儿子身高,e表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
我们称(1)式为Y关于x的一元线性回归模型.
(1)
用x表示父亲身高,Y表示儿子身高,e表示随机误差,则它们之间的关系可以表示为
我们称(1)式为Y关于x的一元线性回归模型.
(1)
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由 x所确定,后一部分是随机的. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
思考 为什么要假设E(e)=0,而不假设其为某个不为0的常数
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
如果随机误差是一个不为0的常数α,则可以将α合并到截距项a中,否则模型无法确定,即参数没有唯一解.
另外,如果α不为0,则表示存在系统误差,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差.
(1)
对于父亲身高x和儿子身高Y的一元线性回归模型(1),可以解释为父亲身高为xi的所有男大学生身高组成一个子总体,该子总体的均值为bxi +a,即该子总体的均值与父亲的身高是线性函数关系.
而对于父亲身高为 xi 的某一名男大学生,他的身高yi并不一定为b xi +a,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi -(bxi +a).
思考 你能结合具体实例解释产生模型(1)中随机误差项的原因吗
在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
练习:1. 说明函数模型与回归模型的区别,并分别举出两个应用函数模型与回归模型的例子。
解析:函数模型刻画的是变量之间具有的函数关系,是一种确定性的关系. 回归模型刻画的是变量之间具有的相关关系,不是一种确定性关系,即回归模型刻画的是两个变量之间的随机关系.
举例:路程与速度的关系、正方体体积与边长的关系可以应用函数模型刻画,体重与身高的关系、冷饮销量与气温的关系可以用回归模型刻画。
2. 在一元线性回归模型(1)中,参数b的含义是什么?
解:在一元线性回归模型(1)中,参数b为斜率参数,参数b的含义是父亲的身高每增加1cm,儿子的身高平均增加bcm.
(1)
3. 将图中的点按父亲身高的大小次序用折线连起来,所得到的图像是一个折线图,可以用这条折线图表示儿子身高和父亲身高之间的关系吗?
解析:不能 . 一是父亲的身高与儿子的身高之间是随机关系,不是函数关系;二是这组数据仅是总体的一个样本,不一定能很好地描述两个变量之间的关系.
谢谢聆听!