课题:8.2
一元线性回归模型及其应用
1、一元线性回归模型
当样本点散布在某一条直线的附近,而不是在一条直线上时,不能用一次函数来描述两个变量之间的关系,可用线性回归模型来表示,这里a和b为模型的未知参数,a称为截距参数,b称为斜率参数,e是Y与bx+a之间的误差。通常e为随机变量,称为随机误差,它的均值
E
(e)=0,方差>0。这样线性回归模型的完整表达式为:
我们称上式为Y关于x的一元线性回归模型,其中,Y称为因变量或响应变量,x称为自变量或解释变量。
在线性回归模型中,随机误差e的方差越小,通过回归直线响应真实值y的精度越高。
2、经验回归方程:
对于一组具有线性相关关系的数据:()
,
()
,…,
(),回归方程的截距和斜率的最小二乘估计公式分别为:
=,,
其中,()成为样本点的中心.
(注:回归直线过样本中心)
我们将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归直线的方法叫做最小二乘法,求得得,叫做b,a的最小二乘估计
3、残差与残差图
对干响应变量Y,诵过测得到的数据称为观测值,通过经验回归方程得列的称为预测值,观测值减去预测值称为残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析。
我们可以利用图形来分析残差特性。作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图
残差点比较均匀的落在水平的带状区域内,说明选用的模型比较合适。这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的响应精度越高。
4、相关指数
我们可以用相关指数来比较两个模型的拟合的效果,其计算公式是:
取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好。
例题与练习
1、在画两个变量的散点图时,下面哪个叙述是正确的(
)
A、响应变量在轴上,解释变量在轴上
B、解释变量在轴上,响应变量在轴上
C、可选择两变量中任一变量在轴上
D、可以选择两个变量中任意一个变量在轴上
2、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为,用这个模型预测这个孩子10岁时的身高,则正确的叙述是(
)
A、身高一定是145.83cm
B、身高在145.83cm以上
C、身高在145.83cm以下
D、身高在145.83cm左右
3、设有一个回归方程为,则变量增加一个单位时,则(
)
A、平均增加2.5个单位
B、平均增加2个单位
C、平均减少2.5个单位
D、平均减少2个单位
4、经验回归方程必过(
)
A、(0,0)点
B、(,0)点
C、(0,)点
D、()点
5、两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下,其中拟合效果最好的模型是(
)
A、模型1的相关指数为0.98
B、模型2的相关指数为0.80
C、模型3的相关指数为0.50
D、模型4的相关指数为0.25
6、三点(3,10)、(7,20)、(11,24)的经验回归方程是(
)
A、
B、
C、
D、
001
002