回归分析的基本思想及其初步
教学目标
知识目标:了解回归分析的基本思想,会对两个变量进行回归分析。
能力目标:明确建立回归模型的基本步骤,能对具体问题进行回归分析,来解决实际问题。
情感目标:体会分析过程中的统计学思想,了解数学中统计学的社会意义与价值。
教学重点:
了解回归模型与函数模型的区别;
2、了解任何模型只能近似描述实际问题;
3、了解模型拟合效果的分析工具——残差分析与
教学难点:
解释、分析残差变量
解释 的含义
教学过程:
【正课讲授】
首先我们先看看我们的学习目标。(展示学习目标)
看起来好像比较复杂,但是其实这些只是都蕴藏在生活中,今天我们的课程就是一次统计案例分析,大家完整地一起经历一次实验,加上回归分析,最后再进行评价体验。就能逐步领悟回归分析的思想。
我们今天所要统计分析的两个变量,就是上课伊始的时候给大家说的身高与体重,统计方法分析这两个变量之间的相关关系的具体思路是这样的。
1、确定总体;
2、选择合适的变量;
3、用适当的抽样方法收集数据;
4、选择恰当的统计方法分析整理数据。
首先,我们的要研究的总体是高中一年级男生,总体已经确认好了,选择的变量就是身高和体重,也很明确。用适当的方法抽取样本,这件事儿咱们高一分班其实就是平行随机分配的,所以把我们班20名男同学选取作为样本,也是符合随机抽样的原则的。所以,抽样过程我们也算完成了。最后,也就是今天的重点,选择适当的统计方法分析整理数据以得到最可靠的结论。
一,数据统计,形成表格
既然有了样本,首先就得收集样本数据,为了便于我们记录处理数据,我们借助交互式白板的Excel帮助我们,请咱们班男同
学依次上来录入自己的身高体重信息,身高以CM为单位,体重以KG为单位。(学生录入数据)
好,数据录入完毕以后,接来下我们要分析这些数据,通过观察这些数据,大家是否能看出来一些规律或者特点?(学生自由回答)
二,做散点图
其实,大家说的这些规律到底对不对?可能这么一个填写了数字的表格不能直观的反映出来。要想让这两个变量的关系更直观,更形象,更具体,更有视觉冲击力。大家说,图像是不是更有效一些?(是)好的,看来数形结合的思想走到统计学里也依然吃香啊,著名数学家华罗庚先生说过:数形结合百般好,隔裂分家万事休。很精辟啊!如果让大家做散点图的话?应该怎么做?
(通常横坐标表示自变量,即解释变量,纵坐标作为因变量,即预报变量,描点作图)
好了,为了加速我们的统计分析进程,这项过程就不要大家亲自动手了。(操作形成散点图)
三,构建回归直线,求回归方程
我们在散点图中能直观地看出这些数据的分布,也能推断出这两个变量之间确实存在线性相关,根据我们必修三学习的知识,
我们可以用回归直线y=bx+a来近似地刻画它们之间的关系。
用最小二乘法,也可以求出回归直线方程的系数a和b,同样的,今天我们主要是感受统计分析过程,具体复杂的运算就交给计算机。我们可以直接作出回归直线,并且得到回归直线方程。(建立回归直线,得出回归直线方程)
回归方程的系数b是回归直线斜率的估计值,说明身高没增加一个单位,身高也会随之增加b个单位,说明体重和身高具有正相关关系。
根据回归直线,我们可以根据身高来预报其体重的近似值。比如某同学刚才并没有录入身高体重信息,我们现在来预测一下。(按照回归直线方程,预报某些同学的体重)
四,建立回归模型,引入残差概念y=bx+a+e
b和a我们都知道是什么概念和意义,这里的e就是我们今天新接触到的一个概念,随机误差。(教师介绍随机误差的产生原因,对比一次函数模型和线性回归模型的不同之处,在统计中,我们把自变量x称为解释变量,y称为预报变量)引入残差概念,知道学生们自主求出残差并且录入。(作出残差图)
1、如果残差较大,分析数据采集过程中是否有人为错误。
2、如果残差点均匀落在水平带状区域中,说明模型比较合适,带状越窄,模拟精度越高,回归方程预报的精度越高。
五,引入拟合优度统计量,可决系数(确定系数),介绍模型评价体系
根据公式可以看到,公式分母是一个样本数据决定的常数,因此R2\r2越大,说明残差平方和越小,即模型拟合度越好,
越小,说明残差平方和越大,拟合效果越差。
六,预报时需要注意的问题
1回归方程只适用于我们研究的样本的总体。
2模型的时效性
3样本取值范围会影响回归方程的使用范围
4不能期望回归方程得到的预报值就是预报变量的精确值。
【课堂小结】
七,建立回归模型的基本步骤
1确定研究对象,明确哪个变量是解释变量,哪个是预报变量。
2画出两个变量的散点图,观察他们之间的关系(是否存在线性关系等)。
3由经验确定回归方程的类型。(如我们观察到数据呈线性关系,则选用线性回归方程)
4按照一定规则(如最小二乘法)估计回归方程的参数
5得出结果后分析残差图是否异常(如个别数据对应残差过大,残差呈不随机的规律等),利用拟合优度评价模型