高中数学下人教A版选修1-2 1.1回归分析的基本思想及其初步应用(2) 教案+课件(50张PPT)

文档属性

名称 高中数学下人教A版选修1-2 1.1回归分析的基本思想及其初步应用(2) 教案+课件(50张PPT)
格式 zip
文件大小 1.2MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2020-06-30 08:47:13

文档简介



教学基本信息
课题
3.1.2
回归分析的基本思想及其初步应用(2)
学科
数学
学段:
高中
年级
高二
教材
书名:普通高中课程标准实验教科书数学选修2-3(A版)
出版社:人民教育出版社
出版日期:2009年4月
教学目标及教学重点、难点
一、教学目标
1.
了解回归分析的基本思想方法及其简单应用,
明确建立回归模型的基本步骤.
2.
了解残差分析和指标R2,
会初步应用.
3.
通过本节课的学习,培养应用意识,提升发现问题、解决问题的能力.
二、教学重点、难点
1.教学重点:残差分析和指标R2.
2.教学难点:利用残差和指标R2分析回归模型的拟合效果.
教学过程(表格描述)
教学环节
主要教学活动
设置意图
引入
通过上节课的实例分析,我们对回归分析的基本思想及其应用有了初步的认识,那么结合实例请同学们回顾所学知识:
1.
判断两个变量线性相关的方法.
2.
回归方程的求法.
3.
利用回归方程进行预测.
4.
随机误差.
5.
线性回归模型的完整表达式.
6.
产生随机误差项e的原因.
复习旧知
引出新课
新课
我们知道e是用预报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差?如何发现数据中的错误?如何衡量模型的拟合效果呢?这就是本节课我们要探究的问题!
(二)、讲解新课
1.残差的定义:
对于样本点()
,
()
,…,
()而言,它们的随机误差为
,
其估计值为
,
称为相应于点的残差(residual
).
2.计算残差
计算实例中每个样本点的残差,由残差的定义:
当时,
同理我们得到其他样本点的残差,
编号12345678身高/cm165165157170175165155170体重/kg4857505464614359体重/kg54.37354.37347.58158.61862.86354.37345.88358.618残差-6.3732.6272.419-4.6181.1376.627-2.8830.382
3.残差图:以纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.
通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.
探究1:如何通过残差来分析模型的拟合效果呢?
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
探究2:通过残差表或残差图判断模型拟合的效果是直观判断,如何精确判断模型拟合的效果呢?
实际上,我们还可以用指标R2来刻画回归效果.
4.指标R2:
在统计学中,将回归平方和与总偏差平方和的比值叫做决定系数,用R2表示.
即.
注:三者的关系为:回归平方和=总偏差平方和-残差平方和.
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
(2)残差平方和:回归值与样本值差的平方和,即.
(3)回归平方和:相应回归值与样本均值差的平方和,即.
说明:对于已经获取的样本数据,R2表达式中的总偏差平方和为确定的数.因此R2越大,意味着残差平方和越小,即模型的拟合效果越好.R2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好(因为R2越接近于1,表示解释变量和预报变量的线性相关性越强).
探究3:相关系数r与指标R2间有什么关系呢?
二者不尽相同,相关系数r可以解释两个变量的相关程度,
但不能解释回归模型的拟合效果.指标R2是解释变量对于预报变量变化的贡献率,利用残差的大小来说明回归模型的拟合效果.此外,只有在简单线性回归模型中,有
R2=r2.
探究4:用身高预报体重需要注意哪些问题?
(1)回归方程只适用于我们所研究的样本的总体.例如,根据女大学生的身高与体重的数据建立的回归方程,不能用来描述女运动员的身高和体重之间的关系.同样,根据生长在南方多雨地区的树木的高与直径的数据建立的回归方程,不能用来描述北方干旱地区的树木的高与直径之间的关系.
(2)我们所建立的回归方程一般都有时间性.
例如,根据20世纪80年代的身高与体重的数据建立的回归方程,不能用来描述现在的身高和体重之间的关系.
(3)样本取值的范围会影响回归方程的适用范围.例如,根据女大学生的身高和体重的数据建立的回归方程,不能用来描述一个人幼儿时期的身高和体重之间的关系.(在实例的回归方程中,解释变量x的样本的取值范围为155~170,而用这个方程计算x=70时的y值是不合适的.)
(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
提出问题,激发学生求知欲
提供解决问题的思路,进而确立解决问题的方案
通过残差的计算,加深对概念的理解
通过残差表,发现样本数据中的可疑数据,使学生体会初步的分析
残差图的引入,能够直观的看出模型拟合的效果,使学生掌握残差分析这一判断模型拟合的效果的方法,同时也解决了课前提出的问题,使同学感受生到探究的快乐、成功的喜悦,同时培养其分析问题、解决问题的能力!
指标R2的引入使我们从数的角度,通过计算来判断模型拟合的效果,这一过程,进行了简单的推理论述,使学生对知识的理解程度化繁为简,流畅自然,同时这一环节也培养了学生逻辑推理、数据分析等核心素养.
使学生区分不同的量在回归分析中各自的作用
结合实例,使同学们注意到,在进行回归分析时,具体问题还需具体分析.
例题
例.
1993年至2002年每年中国人口总数的数据如下表:
年份19931994199519961997年末人数/万人118517119850121121122389123626年份19981999200020012002年末人数/万人124761125786126743127627128453
数据来源:中国统计年鉴,2003.
(1)作年份和人口总数的散点图,根据该图猜想它们之间的关系应该是什么形式;
(2)建立年份为解释变量,人口总数为预报变量的回归模型,并计算残差;
(3)计算R2,你认为这个模型能较好地刻画年份和人口总数之间的关系吗?请说明理由.
解:(1)将解释变量年份作为横轴,预报变量人口总数作为纵轴绘制散点图如下:
根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.
(2)由线性回归模型的最小二乘法估计量的计算公式得,
从而线性回归方程为.
其残差值计算结果如下表:
年份19931994199519961997年末人数/万人118517119850121121122389123626残差-371.176-149.07911.018168.115294.212年份19981999200020012002年末人数/万人124761125786126743127627128453残差318.309232.40678.503-148.4-433.303
(3)对于(2)中所建立的线性回归方程,由公式

计算得,说明在线性回归模型中年份解释了99.4%的人口总数的变化,所以线性回归模型对数据的拟合非常好.
我们也可以通过残差图观察拟合效果:
探究5:你能总结出建立回归模型的基本步骤吗?
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.
通过对例题的讲解,使学生再一次尝试解决具体问题,并巩固所学知识.
判断变量间是否具有相关关系,培养学生的识图能力.
巩固残差的定义,并熟练残差的求解过程.
从残差分析和指标的角度探究模型的拟合效果问题,学以致用.
意在使学生梳理回归分析的基本思想,并会初步应用.
总结
本节课我们学习了残差的概念,绘制了残差图,因而从图形的角度进行了相应的残差分析,同时,我们也学习了指标R2,这样便可从残差分析和指标的角度探究模型的拟合效果问题.
在此基础上,我们总结了建立回归模型的基本步骤,希望同学们课下进一步整理与巩固,这是今天的作业,同学们再见!
通过课堂小结,理清本节课所学内容.
作业
某厂为了研究生产率与废品率之间的关系,记录了7天的数据,试根据以下数据建立废品率与生产率的回归模型.
生产率/(个?
天-1)1000200030003500400045005000废品率/%5.26.56.88.110.210.313
(1)作生产率和废品率的散点图,根据该图猜想它们之间的关系应该是什么形式;
(2)建立生产率为解释变量,废品率为预报变量的回归模型,并计算残差;
(3)计算R2,你认为这个模型能较好地刻画生产率和废品率之间的关系吗?请说明理由.
巩固提升(共50张PPT)
回归分析的基本思想及其初步应用(2)
高二年级
数学
从某大学中随机选取8名女大学生,其身高和体重数据如表
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
一、复习回顾
实例回顾
求根据女大学生的身高预报体重的回归方程,
并预报一名身高为172cm的女大学生的体重.
1.
判断两个变量是否具有线性相关关系
一、复习回顾
(1)散点图
一、复习回顾
(2)计算相关系数r
1.
判断两个变量是否具有线性相关关系
一、复习回顾
(2)计算相关系数r
1.
判断两个变量是否具有线性相关关系

,则变量x
和y
负相关性很强;

,则变量x
和y
正相关性很强;


,则变量x
和y相关性一般;

,则变量x
和y
相关性较弱.
代入相关系数公式:
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
代入公式:
得到
于是得到身高预报体重的回归方程
2.建立回归方程
一、复习回顾
3.利用回归方程进行预测
一、复习回顾
对于身高172cm的女大学生,由回归方程可以预报其体重为
身高172cm的女大学生的体重一定是60.316kg吗?
一、复习回顾
4.随机误差:预报值与真实值之间的误差.
5.线性回归模型的完整表达式
一、复习回顾
e为随机误差
一、复习回顾
(1)用线性回归模型近似真实模型所引起的误差
真实模型是客观存在的,通常我们并不知道真实模型到底是什么,可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表示这种关系,结果就会产生误差.这种由于模型近似所引起的误差包含在e中.
6.产生随机误差e的原因
一、复习回顾
(2)忽略了某些因素的影响
影响变量y的因素不只变量x一个,可能还包括其他许多因素.例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响,但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在e中.
6.产生随机误差e的原因
一、复习回顾
(3)观测误差
由于测量工具等原因,得到的y的观测值一般存在误差.例如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真值之间存在误差,这样的误差也包含在e中.
上面三项误差越小,回归模型的拟合效果越好.
6.产生随机误差e的原因
思考:我们知道
e
是用
预报真实值
y
的随机误差,
它是一个不可观测的量.
如何发现数据中的错误?
如何衡量模型的拟合效果呢?
二、讲授新课
怎样研究随机误差?
二、讲授新课
1.残差定义:
在实际应用中,我们用回归方程
中的
估计
中的
.
由于随机误差

所以
是e的估计量.
二、讲授新课
1.残差定义:
对于样本点
而言,它们的随机误差为
,其估计值为
称为相应于点
的残差.
残差等于观测值减预测值
当i=1时,
二、讲授新课
2.计算残差
编号
1
身高/cm
165
体重/kg
48
二、讲授新课
编号
1
2
3
4
5
6
7
8
身高
/cm
165
165
157
170
175
165
155
170
体重
/kg
48
57
50
54
64
61
43
59
体重
/kg
54.373
残差
-6.373
54.373
2.627
47.581
2.419
58.618
-4.618
62.863
1.137
54.373
6.627
45.883
-2.883
58.618
0.382
二、讲授新课
3.残差图
以纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图.
残差图
O
残差
编号
二、讲授新课
探究1:我们如何通过残差来分析模型的拟合效果呢?
二、讲授新课
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
残差分析
异常点
残差图
O
残差
编号
二、讲授新课
二、讲授新课
探究2:通过残差表或残差图判断模型拟合的效果是直观
判断,如何精确判断模型拟合的效果呢?
二、讲授新课
{
}
}
x
y
o
总偏差
平方和
回归
平方和
残差
平方和
偏差
残差
回归
部分
二、讲授新课
思考:
二、讲授新课
思考:
总偏差平方和=残差平方和+回归平方和
二、讲授新课
三者的关系为:
整理可得:
二、讲授新课
{
}
}
x
y
o
总偏差
平方和
回归
平方和
残差
平方和
二、讲授新课
推导过程
4.
决定系数:R2
回归平方和与总偏差平方和的比值
二、讲授新课
R2?1,说明回归方程拟合的越好;
R2?0,说明回归方程拟合的越差.
4.
决定系数:R2
48
57
50
54
64
61
43
59
-6.373
2.627
2.419
-4.618
1.137
6.627
-2.883
0.382
-6.5
2.5
-4.5
-0.5
9.5
6.5
-11.5
4.5
40.6151
6.9011
5.8516
21.3259
1.2928
43.9171
8.3117
0.1459
42.25
6.25
20.25
0.25
90.25
42.25
132.25
20.25
二、讲授新课
二、讲授新课
代入公式得:
女大学生的身高解释了64%的体重变化
女大学生的体重差异有64%是由身高引起的
二、讲授新课
探究3:在进行回归分析时,相关系数r与指标R2间
有什么关系呢?
二、讲授新课
探究3:在进行回归分析时,相关系数r与指标R2间
有什么关系呢?
r
两个变量的相关程度
R2
回归模型的拟合效果
在含有一个解释变量的线性回归模型中
R2=r2
区别
联系
二、讲授新课
探究4:用身高预报体重需要注意哪些问题?
(1)回归方程只适用于我们所研究的样本的总体
例如,根据女大学生的身高与体重的数据建立的回归方程,不能用来描述女运动员的身高和体重之间的关系.同样,根据生长在南方多雨地区的树木的高与直径的数据建立的回归方程,不能用来描述北方干旱地区的
树木的高与直径之间的关系.
二、讲授新课
探究4:用身高预报体重需要注意哪些问题?
(2)我们所建立的回归方程一般都有时间性
例如,根据20世纪80年代的身高与体重的数据建立的回
归方程,不能用来描述现在的身高和体重之间的关系.
二、讲授新课
探究4:用身高预报体重需要注意哪些问题?
(3)样本取值的范围会影响回归方程的适用范围
例如,根据女大学生的身高和体重的数据建立的回归方程,不能用来描述一个人幼儿时期的身高和体重之间的关系.(在实例的回归方程中,解释变量x的样本的取值范围为155~170,而用这个方程计算x=70时的y值是不合适的.)
二、讲授新课
探究4:用身高预报体重需要注意哪些问题?
(4)不能期望回归方程得到的预报值就是预报变量的精确值
事实上,它是预报变量的可能取值的平均值.
三、典例分析

1993年至2002年每年中国人口总数的数据如下表:
年份
1993
1994
1995
1996
1997
年末人数/万人
118517
119850
121121
122389
123626
年份
1998
1999
2000
2001
2002
年末人数/万人
124761
125786
126743
127627
128453
数据来源:中国统计年鉴,2003.
三、典例分析
(1)作年份和人口总数的散点图,根据该图猜想
它们之间的关系应该是什么形式;
(2)建立年份为解释变量,人口总数为预报变量
的回归模型,并计算残差;
(3)计算R2,你认为这个模型能较好地刻画年份
和人口总数之间的关系吗?请说明理由.
三、典例分析
解(1)将解释变量年份作为横轴,预报变量人口总数作为纵轴绘制散点图
三、典例分析
解(2)由线性回归模型的最小二乘法估计量的计算公式得
从而线性回归方程为
经过计算我们得到:
年份
1993
1994
1995
1996
1997
年末人数/万人
118517
119850
121121
122389
123626
残差
-371.176
-149.079
11.018
168.115
294.212
年份
1998
1999
2000
2001
2002
年末人数/万人
124761
125786
126743
127627
128453
残差
318.309
232.406
78.503
-148.4
-433.303
三、典例分析
解(3)对于(2)中所建立的线性回归方程,由公式
计算得
说明在线性回归模型中年份解释了99.4%的人口总
数的变化,所以线性回归模型对数据的拟合非常好.
三、典例分析
三、典例分析
残差图
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是
预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们
之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性
关系,则选用线性回归方程).
探究5:你能总结出建立回归模型的基本步骤吗?
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差
过大,残差呈现不随机的规律等),若存在异常,则检查
数据是否有误,或模型是否合适等.
探究5:你能总结出建立回归模型的基本步骤吗?
四、课堂小结
1.残差
2.残差图
5.建立回归模型的基本步骤
4.指标R2
3.残差分析
五、课后作业
某厂为了研究生产率与废品率之间的关系,记录了7天的
数据,试根据以下数据建立废品率与生产率的回归模型.
生产率/(个?
天-1)
1000
2000
3000
3500
4000
4500
5000
废品率/%
5.2
6.5
6.8
8.1
10.2
10.3
13
五、课后作业
(1)作生产率和废品率的散点图,根据该图猜想
它们之间的关系应该是什么形式;
(2)建立生产率为解释变量,废品率为预报变量
的回归模型,并计算残差;
(3)计算R2,你认为这个模型能较好地刻画生产
率和废品率之间的关系吗?请说明理由.