回归分析的基本思想及其初步应用
教学准备
1.?? 教学目标
1、通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用
2、从相关指数和残差分析角度探讨回归模型的拟合效果
3、了解评价回归效果的两个统计量:相关指数、残差和残差平方和,掌握建立回归模型的基本步骤
2.?? 教学重点/难点
教学重点:从残差分析、相关指数角度探讨回归模型拟合效果,以及建立回归模型的基本步骤
教学难点:了解评价回归效果的两个统计量:相关指数、残差和残差平方和
3.?? 教学用具
多媒体
4.?? 标签
?? 教学过程
一、复习引入
【师】在必修3中我们已经初步了解了关于数据分析的简单方法,请同学回忆:变量之间有哪几种关系?
【板演/PPT】
?问题1:正方形的面积y与正方形的边长x之间的函数关系是什么关系?
【师】引导学生回忆回答
【生】y=x2-----确定关系
【板演/PPT】
问题2:某水田水稻产量y与施肥量x之间是否有一个确定性的关系?
例如:在 7 块并排、形状大小相同的试验田上 进行施肥量对水稻产量影响的试验,得到如下所示的一组数据:
施化肥量x ?15 ???20 ? ? ? 25??? 30 ? ?35 ? ? ?40? ??45
水稻产量y ?330? 345 ???365? ?405 ?445? ?450? ?455
【师】引导学生回忆回答
自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。
【板演/PPT】
(1)相关关系是一种不确定性关系;
(2)对具有相关关系的两个变量进行统计分析的方法叫回归分析。
【师】请回忆回归分析的内容与步骤:
【生】师生共同总结
【板演/PPT】
回归分析的基本过程:
(1)画出两个变量的散点图;
(2)判断是否线性相关
(3)求回归直线方程(利用最小二乘法)
(4)并用回归直线方程进行预报
【师】最小二乘法公式:
【生】师生共同回忆
【板演/PPT】
二、新知介绍
[1]回归分析基本过程,引入残差概念
【师】请同学们思考以下问题:(引导学生结合问题,回忆旧知解决问题)
【板书/PPT】
例1:从某大学中随机选取8名女大学生,其身高和体重数据如表所示。求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重。
【师】读例1的要求,引导学生理解例题含义题目中表达了哪些信息?
【生】思考解决问题思路,根据以前所学的知识,让学生自己动手求出回归方程
【板书/PPT】
根据以前所学的知识,让学生自己动手求出回归方程
求解过程如下:
①画出散点图,判断身高x与体重y之间存在什么关系(线性关系)?
②列表求出相关的量,并求出线性回归方程
代入公式公式有
③利用回归方程预报身高172cm的女大学生的体重约为多少?
当x=172时,
【师】思考:身高为172cm的女大学生的体重一定是60.316kg吗?
【生】(不一定,但一般可以认为她的体重在60.316kg左右.)
【师】从散点图可观察出,女大学生的体重和身高之间的关系并不能用一次函数y=bx+a来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系).
那么我们可以用什么模型近似的刻画出身高和体重之间的相关关系呢?
【板书/PPT】
从散点图可观察出,女大学生的体重和身高之间的关系并不能用一次函数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重与身高的关系,那么身高为165cm的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响结果的(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y=bx+a
+e,其中残差变量中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
【师】思考:产生随机误差项e的原因是什么?
【生】思考、交流总结原因
【板书/PPT】
1、忽略了其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包括遗传基因、饮食习惯、生长环境等因素;
2、用线性回归模型近似真实模型所引起的误差;
3、身高 y 的观测误差。
以上三项误差越小,说明我们的回归模型的拟合效果越好。
【师】引导学生比较函数模型和回归模型之间的差异
【板书/PPT】
线性回归模型y=bx+a+e增加了随机误差项e,因变量y的值由自变量x和随机误差项e共同确定,即自变量x只能解析部分y的变化。在统计中,我们也把自变量x称为解析变量,因变量Y称为预报变量。
【师】那么,如何衡量随机误差e?又如何衡量所建的回归方程的模型的精度呢?下面我们就来探讨一下!
【板书/PPT】
提出问题,指导学生画出残差图(以残差为纵坐标,样本编号或身高或体重为横坐标作出图形),引导学生进行残差分析,从而做到检查数据是否有误,或模型是否合适等。
【师】观察上面的残差图,你认为哪几个样本点采集时可能存在人为错误?为什么?
【生】交流后得出第一个和第六个样本点在采集时可能存在错误,因为其他的样本点基本都集中在一个区域内,只有这两个样本点的残差比较大,相对其他样本点来说,分布得较为分散。
[2]?探讨相关指数
【师】为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?
我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和。
【板书/PPT】
总偏差平方和:每个效应(观测值减去总的平均值)的平方加起来,即用表示总的效应;
【师】引导学生学生动手计算出例1中的总偏差平方和。=354
【生】学生交流计算
【师】残差平方和:数据点和它在回归直线上相应的位置的差异是随机误差的效应,称为残差,为残差平方和;
学生动手计算出例1中的残差(如下表)与残差平方和。
【板书/PPT】
回归平方和:解释变量和随机误差的总效应(总偏差平方和),即总的偏差平方和=回归平方和+残差平方和,所以回归平方和=总的偏差平方和-残差平方和
【生】学生动手计算出例1中的回归平方和。354-128.361=225.639
【板书/PPT】
①注意的区别;
②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和;
③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;
④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越接近于1,说明残差平方和越小,也就是说模型拟合的效果越好,即解释变量和预报变量的线相关性越强.
代入例1中的数据知例1中的≈0.64,即解释变量对总效应约贡献了64%,而随机误差贡献了剩余的36%,所以身高对体重的效应比随机误差的效应大得多。
【师】引导学生共同总结建立回归方程的基本步骤
【生】交流总结,组织语言
【学生表达/PPT】
[3]?应用新知
【师】下面我们看这样具体实例
【学生表达/PPT】
例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为:
价格x? ?? 14? 16? 18? 20? 22
需求量Y?? 12? 10? ?7? ?5? ?3
求出Y对的回归直线方程,并说明拟合效果的好坏。
【生】结合例题进行计算,分析拟合效果
【学生表达/PPT】
≈-1.15
[4]随堂练习
【师】下面针对本节课所学,做几道练习题
【板书/PPT】
牛刀小试
1.设有一个回归方程为=2-2.5x,当变量x增加一个单位时( ? ? )
A.y平均增加2.5个单位
B.y平均增加2个单位
C.y平均减少2.5个单位
D.y平均减少2个单位
[答案]C
2.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( ? ?)
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
[答案]A
3.(2015·湖北文)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
[答案]C
4.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为11和12,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( ? ? )
A.11和12有交点(s,t)
B.11与12相关,但交点不一定是(s,t)
C.11与12必定平行
D.11与12必定重合
[答案]A
5.(2015·山东沂水县高二期中)已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线方程是__________.
[答案]=1.23x+0.08
?? 课堂小结
引导学生总结本节课所学
1.掌握求回归模型方程的方法和步骤。
2.分清总偏差平方和、残差平方和、回归平方和
3.了解和掌握如何判断回归模型的拟合度
?? 板书