3.1 回归分析的基本思想及其初步应用(广东省佛山市)

文档属性

名称 3.1 回归分析的基本思想及其初步应用(广东省佛山市)
格式 rar
文件大小 55.4KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2010-12-25 09:26:00

图片预览

文档简介

3.1 回归分析的基本思想及其初步应用(1)
教学目的:
1、了解线性回归模型与函数模型的区别,能根据散点分布特点,建立回归模型;
2、体会统计方法的应用,了解回归分析的实际应用。
教学重点:
1、了解线性回归模型与函数模型的区别;
2、建立的回归模型拟合好坏的刻画——相关指数和残差分析。
教学难点:
残差变量的解释;偏差平方和分解的思想。
教学过程:
1、 复习
1、相关关系
(1)相关关系是一种不确定性关系;
(2)对具有相关关系的两个变量进行统计分析的方法叫回归分析。
2、回归直线方程
所求直线方程叫做回归直 ---线方程;其中
称为样本点的中心。
3、相应的直线叫做回归直线。对两个变量进行的线性分析叫做线性回归分析。
二、讲解新课
例1:从某大学中随机选取8名女大学生,其身高和体重数据如表:
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y.作散点图。
由散点图可看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,可以用线性回归方程刻画它们之间的关系。
得到回归方程是
所以,对于身高172cm的女大学生,由回归方程可以预报其体重为(kg)
思考:如何描述两个变量之间线性相关关系的强弱?
1.用相关系数 r 来衡量
2.公式:
2、引申
探究:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗?
体重不一定是60.316,可以认为体重接近于60.316。由图形观察可以看出,样本点和回归直线的相互位置就可说明。
由于所有的样本点不共线,只是散布在某一条直线的附近,所以身高与体重的关系就用下面的线性回归模型来表示:
y=bx+a+e
3、定义
线性回归模型y=bx+a+e其中a和b为模型的未知参数,e是y与 之间的误差,通常e称为随机误差。
在线性回归模型中,随机误差e的方差越小,通过回归直线预报真实值y的精度越高。
思考:产生随机误差项e的原因是什么?
假设随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有的点将完全落在回归直线上。但是,在图中,数据点并没有完全落在回归直线上。这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了。
体重除了受身高的影响外,还受如饮食习惯、是否喜欢运动、度量误差等影响。
4、随机误差e的来源(可以推广到一般):
(1)其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包括遗传基因、饮食习惯、生长环境等因素;
(2)用线性回归模型近似真实模型所引起的误差;
(3)身高 y 的观测误差。
问题:在线性回归模型中,e是随机误差,它是不可观测的量,那应该怎样研究随机误差?如何衡量预报的精度?
随机误差是随机变量,用随机误差的均值和方差来刻画它的总体特征,而E(e)=0,就用方差来衡量随机误差的大小。而e隐含在预报变量y中,无法精确地把它从y中分离出来,解决问题的途径是通过样本的估计值来估计。
5、残差分析与残差图的定义:
在研究两个变量间的关系时,
(1)要根据散点图来粗略判断它们是否线性相关
(2)是否可以用回归模型来拟合数据。
(3)我们可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。
表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
残差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。
6、残差图的制作及作用。
坐标纵轴为残差变量,横轴可以有不同的选择;
若模型选择的正确,残差图中的点应该分布在以横轴为心的带状区域,带状区域的宽度越窄精度越高。
对于远离横轴的点,要特别注意。
7、几点说明:
第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因。
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
还可以用相关指数R2来刻画回归的效果,其计算公式是:
由公式知,R2(相关指数)的值越大,说明残差平方和越小,也就是说模型拟合效果越好。
在含有一个解释变量的线性模型中R2恰好等于相关系数r的平方,即R2=r2
在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的线性相关性越强)。
如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来做出选择,即选取R2较大的模型作为这组数据的模型。
总的来说:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表自变量刻画预报变量的能力。
在例1中,R2=0.64,表明”学生身高解释了64%的体重变化“,或者说“学生的体重差异有64%是有身高引起的”。
所以,解析变量对总效应约贡献64%,而随机误差贡献了剩余的36%。身高对体重的贡献比随机误差的效应大得多。
用身高预报体重时,需要注意下列问题:
1、回归方程只适用于我们所研究的样本的总体;
2、我们所建立的回归方程一般都有时间性;
3、样本采集的范围会影响回归方程的适用范围;
4、不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。
三、小结
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或模型是否合适等。
四、练习
P103 1、2
五、作业
P104习题3.1 第1题
3.1 回归分析的基本思想及其初步应用(2)
教学目的:
1、能根据散点分布特点,建立不同的回归模型;知道有些非线性模型通过变换可以转化为线性回归模型
2、会通过散点图及相关指数比较判断不同模型的拟合效果,体会统计方法的应用及“转化”的思想。
3、了解回归分析的实际应用,感受数学“源于生活,用于生活” ,激发好奇心、求知欲,培养探索精神和创新精神,以及转化能力题。
教学重点:
根据散点分布特点,建立不同的回归模型,知道有些非线性模型可以运用等量变换、对数变换转化为线性回归模型。
教学难点:
如何运用等量变换、对数变换,转化非线性模型为线性回归模型。
教学过程:
一、创设情景
1.建立回归模型的基本步骤是什么
选变量→ 画散点图 → 选模型 → 估计参数分析和预测
1953年,18省发生红铃虫大灾害,受灾面积300万公顷,损失皮棉约二十万吨。红铃虫喜高温高湿,适宜各虫态发育的温度为25一32C,相对湿度为80%一100%,低20C和高于35C卵不能孵化,相对湿度60% 以下成虫不产卵。冬季月平均气温低于一4.8 ℃时,红铃虫就不能越冬而被冻死。
二、讲授新课
例2、现收集了一只红铃虫的产卵数y和温度x之间的7组观测数据列于下表:
(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
探究:
方案1(学生实施):
(1)选择变量,画散点图。
(2)通过计算器求得线性回归方程:=19.87x-463.73
(3)进行回归分析和预测:
R2=r2≈0.8642=0.7464
预测当气温为28 时,产卵数为92个。这个线性回归模型中温度解释了74.64%产卵数的变化。
困惑:随着自变量的增加,因变量也随之增加,气温为28 时,估计产卵数应该低于66个,但是从推算的结果来看92个比66个却多了26个,是什么原因造成的呢?
方案2:
(1)找到变量t=x 2,将y=bx2+a转化成y=bt+a;
(2)利用计算器计算出y和t的线性回归方程:y=0.367t-202.54
(3)转换回y和x的模型:y=0.367x2 -202.54
(4)计算相关指数R2≈0.802这个回归模型中温度解释了80.2%产卵数的变化。
预测:当气温为28 时,产卵数为85个。
困惑:比66还多19个,是否还有更适合的模型呢?
方案3:指数函数曲线的
(1)作变换令z=lny,则变换后样本点分布在一条直线z=bx+a(a=lnc1,b=lnc2)的周围
x 21 23 25 27 29 32 35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
(2)利用计算器计算出z和x的线性回归方程:
(3)转换回y和x的模型:
(4)计算相关指数R2≈0.985这个回归模型中温度解释了98.5%产卵数的变化。
预测:当气温为28 时,产卵数为4 2个。
2、比较三个模型的以合效果,
函数模型 相关指数R2
线性回归模型 0.7464
二次函数模型 0.802
指数函数模型 0.985
指数函数模型比较好。
三、小结:
(1)如何发现两个变量的关系?
(2)如何选用、建立适当的非线性回归模型 ?
(3)如何比较不同模型的拟合效果?
四、练习 P103 3
五、作业 P104习题3.1 第3题
身高与体重残差图
温度xoC
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
温度
21
23
25
27
29
32
35
温度的平方t
441
529
625
729
841
1024
1225
产卵数y/个
7
11
21
24
66
115
325
产卵数
气温
产卵数
气温