本资料来自于资源最齐全的21世纪教育网www.21cnjy.com
3.1回归分析的基本思想及其初步应用(二)
一、基本说明
1所属模块:高中数学选修2-3
2年级:高二年级
3教材出版单位:人民教育出版社 A
4所属的章节:第三章第一节
5学时数: 40 分钟 多媒体教室
二、教学设计
教学目的:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.
教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.
教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.
教学过程:
一、复预引入
问题1:建立回归模型的一般基本步骤是哪五步
问题2:残差及相关指数R2怎样对回归方程拟合程度进行分析?
问题3:根据例2所给的样本数据作散点图,并观察散点图,判断样本数据组具有线性关系吗?
二、讲授新课:
例2、一只红铃虫的产孵数y和温度x有关,现收集了7组数据列于表3-3中,
温度x/℃ 21 23 25 27 29 32 35
产卵数y/个 7 11 21 24 66 115 325
(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
设计意图:由散点图,结合线性回归模型的回归分析的基本步骤,诱出新知识生长点。
(学生描述步骤,教师演示分析数据,讨论拟合函数模型。)
探究1:分析散点图,估计样本数据组的回归方程的拟合模型。
1、讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归模型y=ax+b来建立两个变量之间的关系.
2、探究非线性回归方程的确定:
① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.
② 根据已有的函数知识,可以发现样本点分布象某一条抛物线y=bx2+a,也象某一条指数函数曲线y=(其中是待定的参数),故可考虑用以上两个模型来拟合两个变量.
③抛物型:将y=bx2+a进行平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
观察交换数据后的散点图可以发现抛物线模型的拟合效果不是很好,因为散点图不成一条直线。
利用计算器算得y和t之间的线性回归方程为y=0.367t-202.543,相关指数R2=0.802
当x=28时,y=0.367×282-202.54≈85,
二次函数模型中温度解释了80.2%的产卵数变化。
④指数型:将y=进行对数变换:两边取对数,得,
再令,则y=就转换为:z=bx+a,而与间的关系如下:
观察与的散点图,可以发现变换后样本点分布在一条直线的附近,因此用线性回归方程来拟合可能会更好.
利用计算器算得,与间的线性回归方程为,因此红铃虫的产卵数对温度的非线性回归方程为. R2=0.98
当x=28oC 时,y ≈44
指数回归模型中温度解释了98.5%的产卵数的变化
⑤ 利用回归方程探究非线性回归问题,可按“作散点图建模确定方程”这三个步骤进行.
其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.
3、回归分析模型比较:
①残差分析:
表3-6
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(1) 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675
(2) 47.696 19.400 -5.832 -41.000 -40.104 -58.265 77.968
由残差可以发现:指数函数模型拟合效果要好些。
②相关指数R2分析:
函数模型 线性回归模型 二次函数模型 指数函数模型
相关指数R2 0.7464 0.80 0.98
从上表可以发现,指数函数模型R2最接近1,所以指数函数模型最好,
三、小结练习:
练习:
为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天 1 2 3 4 5 6
繁殖个数y/个 6 12 25 49 95 190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2)描述解释变量与预报变量之间的关系;
(3) 计算残差、相关指数R2.
解:(1)散点图如右所示
(2)由散点图看出样本点分布在一条指数函数y= 的周围,于是令Z=lny,则
由计数器算得则有
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
四、作业:P89 习题3.1 2、3
温度
21
23
25
27
29
32
35
温度的平方t
441
529
625
729
841
1024
1225
产卵数y/个
7
11
21
24
66
115
325
t
温度xoC
21
23
25
27
29
32
35
z=lny
1.946
2.398
3.045
3.178
4.190
4.745
5.784
产卵数y/个
7
11
21
24
66
115
325
x
z
繁殖个数
天数
x
1
2
3
4
5
6
Z
1.79
2.48
3.22
3.89
4.55
5.25
6.06
12.09
24.09
48.04
95.77
190.9
y
6
12
25
49
95
190
21世纪教育网 -- 中国最大型、最专业的中小学教育资源门户网站。 版权所有@21世纪教育网(共19张PPT)
数学选修2-3[人教版]
复习回顾
1、线性回归模型:
y=bx+a+e, (3)
其中a和b为模型的未知参数,e称为随机误差。
y=bx+a+e,
E(e)=0,D(e)= (4)
2、数据点和它在回归直线上相应位置的差异 是随机误差的效应,称 为残差。
在残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
3 我们可以用相关指数R2来刻画回归的效果,其 计算公式如下.是怎样说明回归方程拟合程度?
R2 1,说明回归方程拟合的越好;R2 0,说明回归方程拟合的越差。
案例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:
(1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。
(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
温度xoC
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
0
50
100
150
200
250
300
350
0
3
6
9
12
15
18
21
24
27
30
33
36
39
设其为线性回归方程为 : =bx+a?
方案1?
不好!
0
50
100
150
200
250
300
350
0
3
6
9
12
15
18
21
24
27
30
33
36
39
设其回归方程为 :
y=bx2+a ?
y=bx2+ax+c
方案2?
其散点图象什么图像?
y=bx2+a 变换 y=bt+a
非线性关系 线性关系
t=x2
方案2解答
平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
温度
21
23
25
27
29
32
35
温度的平方t
441
529
625
729
841
1024
1225
产卵数y/个
7
11
21
24
66
115
325
t
t
方案2解答
作散点图,
并由计算器得:y和t之间的线性回归方程为
y=0.367t-202.543,
相关指数R2=0.802
将t=x2代入线性回归方程得:
y=0.367x2 -202.543
当x=28时,y=0.367×282-202.54≈85,
且R2=0.802,
所以二次函数模型中温度解释了80.2%的产卵数变化。
0
50
100
150
200
250
300
350
0
3
6
9
12
15
18
21
24
27
30
33
36
39
从散点图看,除象抛物线外还象什么函数图像的一部分?
指数函数模型
如何选取指数函数的底
变换 y=bx+a
非线性关系 线性关系
对数
方案3
方案3解答
温度xoC
21
23
25
27
29
32
35
z=lny
1.946
2.398
3.045
3.178
4.190
4.745
5.784
产卵数y/个
7
11
21
24
66
115
325
对数变换:在 中两边取常用对数得
方案3解答
温度xoC
21
23
25
27
29
32
35
z=lny
1.946
2.398
3.045
3.178
4.190
4.745
5.784
产卵数y/个
7
11
21
24
66
115
325
x
z
由计算器得:z关于x的线性回归方程为
相关指数 R2=0.98
当x=28oC 时,y ≈44 ,R2=0.98
指数回归模型中温度解释了98.5%的产卵数的变化
线性模型
产卵数
气温
二次函数模型
产卵数
气温
指数函数模型
函数
模型 线性回归模型 二次函数模型
指数函数模型
相关
指数R2 0.7464 0.80 0.98
哪个模型最好
R2分析
则回归方程的残差计算公式分别为:
由计算可得:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675
47.696 19.400 -5.832 -41.000 -40.104 -58.265 77.968
残差分析
从上表中残差数据可以看出指数模型的残差的绝对值显然比抛物线模型的残差的绝对值小,因此前者的拟合效果比后者拟合效果好.
哪个模型最好
小结
对于给定的样本点
两个含有未知参数的模型:
其中a和b都是未知参数。拟合效果比较的步骤为:
1、分别建立对应于两个模型的回归方程
与 其中 和 分别是参数a和b的估计值.
2、分别计算两个模型的相关系数
3、若 则 的效果比
的效果好;反之, 的效果不如 的效果好。
练习:为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2) 描述解释变量与预报变量
之间的关系;
(3) 计算残差、相关指数R2.
天数
繁殖个数
解:(1)散点图如右所示
(2)由散点图看出样本点分布在一条指数函数y= 的周围,于是令Z=lny,则
x
1
2
3
4
5
6
Z
1.79
2.48
3.22
3.89
4.55
5.25
由计数器算得 则有
6.06
12.09
24.09
48.04
95.77
190.9
y
6
12
25
49
95
190
(3)
即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
作业:P89 习题3.1 2、3