(共33张PPT)
回归分析的步骤
画散点图
求回归直线方程
用回归直线方程进行预报
函数关系是一种确定性关系
相关关系是一种非确定性关系
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
对于一组具有线性相关关系的数据
(x1,y1),(x2,y2),…,(xn,yn)
回归方程的最小二乘估计公式
截距
斜率
与?,?无关
≥0
例1
从某大学中随机选取8名女大学生,其身高和体重数据如下表
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.
画散点图
求回归直线方程
用回归直线方程进行预报
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
58
解
取身高为自变量x,真实体重为因变量y
作散点图
可用线性回归方程刻画它们之间的关系
根据公式可得
回归方程为
所以,对于身高172cm的女大学生,由回归方程可以得到预报其体重
r>0时,表明两个变量正相关;
r<0时,表明两个变量负相关.
相关系数r衡量两个变量间线性相关关系的方法
r的绝对值越接近1,表面两个变量的线性相关性越强;
r的绝对值越接近0,表面两个变量之间几乎不存在线性相关关系.
当r>0.75时认为两个变量有很强的线性相关关系
身高172cm的女大学生体重一定是60.316kg吗?
样本点散布在某一条直线附近
用y=bx+a+e表示身高和体重的关系
y=bx+a+e
随机误差,
E(e)=0,
D(e)=?2>0
线性回归模型
随机误差e
产生随机误差e的原因是什么?
一个人的体重值除了受身高的影响外,
还有
线性模型只是近似模型
怎样研究随机误差?如何衡量预报的精度?
随机变量数字特征
所以用方差?2来衡量随机误差的大小
均值
反映随机变量取值平均水平
方差
反映随机变量集中于均值程度
因E(e)=0
根据样本的估计值来估计?2
残差
残差平方和
根据截距和斜率的估计公式,建立回归方程
衡量回归方程的预报精度;其越小,预报精度越高.
残差分析
根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据
通过残差来判断模型按惯例的效果,判断原始数据中是否存在可疑数据.
女大学生身高体重原始数据和相应的残差数据表
利用图形分析
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
58
残差_
-6.373
2.627
2.419
-4.618
1.137
6.627
-2.883
0.382
如残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适.带状区域宽度越窄,模型拟合精度越高,回归方程的预报精度超高.
利用相关指数R2来刻画回归的效果
R2越接近于1,表示回归的效果越好
R2取值越大,表示残差平方和越小,模型的拟合效果越好.
用身高预报体重时,需要注意下列问题:
回归方程只适用于我们所研究的样本总体.
所建立的回归方程一般都有时间性.
样本取值的范围分影响回归方程的适用范围.
不能期望回归方程得到的预报值就是预报变量的精确值.而是可能取值的平均值
建立回归模型的基本步骤
确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
画出确定好的解释变量和预报变量的散点图,观察它们之间的关系;
由经验确定回归方程的类型;
按一定规则估计回归方程中的参数;
得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否合适.
例2
一只红铃虫的产卵数y各温度x有关.现收集了7组观测数据列于下表中,试建立y与x之间的回归方程.
温度x/℃
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
解
作出散点图
令z=lny
样本点分布在直线
z=bx+a
(a=lnc1,b=c2)
建立y和x的非线性回归方程
变换后的样本数据及其散点图
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
得到线性回归方程为
红铃虫的产卵数对温度的非线性回归方程为
令t=x2,
得y与x之间的非线性回归方程
红铃虫的产卵数和对应的温度的平方的数据表及散点图
不宜有二次曲线来拟合
t
441
529
625
729
841
1024
1225
y
7
11
21
24
66
115
325
利用残差来分析
两方程的残差
对应的残差表
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
0.518
-0.167
1.760
-9.149
8.889
-14.153
32.928
47.693
19.397
-5.835
-41.003
-40.107
-58.268
77.965
比较两个模型的残差平和的大小来判断模型的拟合效果.
残差平方和越小的模型,拟合的效果越好.
<
可以用R2来比较两个模型的拟合效果
R2越大,拟合的效果越好
两个含有未知参数的模型
其中a,b是未知参数
比较两个拟合效果的步骤
比较两个拟合效果的步骤
回归分析基本思想及其初步应用
基本思想
实际应用
回归分析
相关性方法分析
回归优劣分析
总偏差平方和
残差平方和
回归平方和
小结