(共64张PPT)
1.1
回归分析的基本思想
及其初步应用
变量间的关系
回顾复习
函数关系
确定关系
没有关系
相关关系
随机性
建立回归模型的过程:
提出问题
确定研究对象
收集数据(抽样
)
散点图
求回归直线方程
残差分析
预报解决问题
散点图
以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫作散点图.
回归分析方法研究问题的步骤:
(1)根据抽样的数据(,),画出散点图.
(2)求回归直线方程.
(3)用回归直线方程进行预报
样本点中心
最小二乘法
样本中心点在回归直线上
我们可以用下面的线性回归模型来表示:
,其中和为模型的未知参数,称为随机误差。
?
预习探究
?
相关关系
线性回归分析
?
=
+
x
?
?
y=bx+a+e
a和b
e
预习探究
[思考]
(1)产生随机误差的主要原因有哪些?
(2)回归分析中,利用线性回归方程求出的函数值一定是真实值吗?
解:(1)
(2)不一定是真实值,利用线性回归方程求出的值,在很多时候是预报值,例如人的体重与身高存在一定的线性关系,但体重除了受身高的影响外,还受其他因素的影响,如饮食习惯,是否喜欢运动等.
?
考点类析一
线性回归方程
解:(1)列表如下:
例1
某设备的使用年限x和所支出的维修费y(万元)有如下的统计资料:
若由资料可知,y与x之间具有线性相关关系.
(1)求线性回归方程.
(2)估计使用年限为10年时,维修费用为多少万元?
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
i
xi
yi
xiyi
1
2
2.2
4
4.4
2
3
3.8
9
11.4
3
4
5.5
16
22.0
4
5
6.5
25
32.5
5
6
7.0
36
42.0
∑
20
25
90
112.3
?
考点类析
[小结]
(1)求线性回归方程的一般步骤:
①作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否在一条直线附近,从而判断两变量是否具有线性相关关系;
②当两变量具有线性相关关系时,求回归系数
,
,写出线性回归方程.
(2)线性回归方程
=
+
x中的
表示x每增加1个单位时,y的变化量的估计值为
.
可以利用线性回归方程
=
+
x预报在x取某个值时,y的估计值.
回归直线中的系数
和
是通过样本估计而来的,存在着误差,且这种误差可能导致预报结果有偏差.
相关系数
1.计算公式
2.相关系数的性质
(1)|r|≤1.
(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小.
问题:达到怎样程度,x、y线性相关呢?它们的相关程度怎样呢?
负相关
正相关
显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。
R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的
线性相关性越强)。
如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值
来做出选择,即选取R2较大的模型作为这组数据的模型。
总的来说:
相关指数R2是度量模型拟合效果的一种指标。
在线性模型中,它代表自变量刻画预报变量的能力。
我们可以用相关指数R2来刻画回归的效果,其计算公式是
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,
是否可以用回归模型来拟合数据。
残差分析与残差图的定义:
然后,我们可以通过残差
来判断模型拟合的效果,判断原始
数据中是否存在可疑数据,这方面的分析工作称为残差分析。
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本
编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。