(共55张PPT)
回归分析的基本思想及其初步应用(1)
高二年级
数学
(1)正方体的体积与边长之间的关系;
1.
下列变量之间的关系哪些是函数关系?哪些是相关关系?
(3)商品销售收入与广告支出经费之间的关系;
(4)人体内的脂肪含量与年龄之间的关系.
(2)某人骑行了1km,他骑车的平均速度与骑行时间之间的
关系;
知识概要
(1)正方体的体积与边长之间的关系;
1.
下列变量之间的关系哪些是函数关系?哪些是相关关系?
(3)商品销售收入与广告支出经费之间的关系;
(4)人体内的脂肪含量与年龄之间的关系.
(2)某人骑行了1km,他骑车的平均速度与骑行时间之间的
关系;
知识概要
(1)、(2)是函数关系.
(1)正方体的体积与边长之间的关系;
1.
下列变量之间的关系哪些是函数关系?哪些是相关关系?
(3)商品销售收入与广告支出经费之间的关系;
(4)人体内的脂肪含量与年龄之间的关系.
(2)某人骑行了1km,他骑车的平均速度与骑行时间之间的
关系;
知识概要
(3)、(4)是相关关系.
对于两个变量,当自变量取值一定时,因变量的值也确定,则为函数关系,函数关系是一种确定性关系;
当自变量取值一定时,因变量的取值带有随机性,则为相关关系,相关关系是一种非确定性关系.
x
y
O
散点图
x
y
O
x
y
O
函数关系
x
y
O
x
y
O
相关关系
x
y
O
正相关
x
y
O
负相关
2.
什么是线性相关关系?什么是回归直线?
x
y
O
回归直线
回归方程
2.
什么是线性相关关系?什么是回归直线?
x
y
O
如何求出回归方程?
方案1:
先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距;
x
y
O
x
y
O
方案2:
在散点图中选择这样的两个点画直线,使得直线两侧的点的个数基本相同;
方案3:
在散点图中多取几组点,确定出几条直线的方程,再分别求出各条直线的斜率、截距的平均数.
x
y
O
整体距离最小
x
O
y
y=bx+a
x
O
y
y=bx+a
x
O
}
}
y
3.
能否将各点差值直接相加,然后通过比较各点的差值和的大小来找到最佳方程?
y=bx+a
x
O
}
}
y
x
y
O
}
}
y=bx+a
求使得
最小的a,b值来获取回归直线的斜率和截距的方法叫最小一乘法.
整体距离
y=bx+a
4.
要确定线性回归方程,“最小一乘法”是不是唯一的方法?你能否想到其它的判定标准?
x
O
}
}
y
整体距离
当
取何值时
最小?
最小二乘法
当
取何值时
最小?
回归方程
常用于计算
最小二乘法
其中
,
,
称为样本点的中心.
1
1
5.
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其具体步骤是什么?
步骤为:画散点图
求回归直线方程
利用回归直线方程
进行预报.
案例分析
例
从某大学中随机选取8名女大学生,其身高和体重数据如表所示
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高
为172cm的女大学生的体重.
案例分析
例
从某大学中随机选取8名女大学生,其身高和体重数据如表所示
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高
为172cm的女大学生的体重.
案例分析
例
从某大学中随机选取8名女大学生,其身高和体重数据如表所示
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高
为172cm的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y
,作散点图.
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
代入前面的公式:
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
代入前面的公式:
n=8
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
代入前面的公式:
8名女大学生的
身高数据
8名女大学生的
体重数据
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
代入前面的公式:
8名女大学生的身高
和体重的平均数据
可以得到
0.849,
-85.712.
0.849是回归直线的斜率的估计值,说明身高x每增加1个单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.
于是得到身高预报体重的回归方程
0.849x
85.712.
因此,对于身高172cm的女大学生,由回归方程可以预报
其体重为
0.849
85.712
172
60.316(kg).
问题1
女大学生的身高能够在多大程度上决定体重?
相关系数:
符号:
当r为正时,表明变量x和y正相关;
当r为负时,表明变量x和y负相关.
大小:
如果
,那么变量x和y相关性很强;
如果
,那么变量x和y相关性一般;
如果
,那么变量x和y相关性较弱.
编号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
代入相关系数公式:
探究
身高172cm的女大学生的体重一定是60.316kg吗?如果不是,其原因是什么?
不一定.
60.316kg是身高为172cm的女大学生的平均体重的估计值,而不一定是这位身高172cm的女大学生的真实体重,但一般可以认为她的体重在60.316kg左右.
0.849x
85.712
随机变量
问题2
用一次函数模型
求出的y值与真实的y值之间的误差是常数还是随机变量?
问题3
如果我们将上述误差用字母e来表示,可以如何完善身高
与体重的线性回归模型?
y=bx+a+e
在函数关系中,y的值由自变量x唯一确定.与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,x只能解释部分y的变化.
因此,在回归模型中,我们把x称为解释变量,
y称为预报变量.
问题4
在函数关系中,y的值由哪些量确定?在回归模型中,y的值又由哪些量确定?
随机误差
在线性回归模型
中,a和b为模型的未知参数,
e是y与bx+a之间的误差.
通常e为随机变量,称为随机误差.
它的
均值
,方差
.
表达式为
这样线性回归模型的完整
问题5
在上述线性回归模型中,引起预报值
与真实值y之间存在误差的原因是什么?
在上述线性回归模型中,随机误差是引起预报值
与真实
值
之间存在误差的原因之一,
随机误差e的方差
越小,用
预报真实值y的精度越高;
另一方面,由于用最小二乘法得出的
和
为斜率和截距
的估计值,它们与真实值a和b之间也存在误差,这种误差是引
起预报值
与真实值y之间存在误差的另一个原因.
思考
在前面的案例中,产生随机误差项e的原因是什么?
3.
线性回归模型近似真实模型所引起的误差.
1.
一个人的体重值除了受身高的影响外,还受遗传基因、饮食习惯、是否喜欢运动等因素的影响;
2.
数据的观测误差;
课堂小结
结合本节课的案例,思考我们在用线性回归模型进行预报时
需要注意什么问题呢?
1.
回归方程只适用于我们所研究的样本的总体.例如,根据女大学生的身高和体重的数据建立的回归方程,不能用来描述女运动员的身高和体重之间的关系.同样,根据生长在南方多雨地区的树木的高与直径的数据建立的回归方程,不能用来描述北方干旱地区的树木的高与直径之间的关系.
课堂小结
2.
我们所建立的回归方程一般都有时间性.例如,根据20世纪80年代的身高与体重的数据建立的回归方程,不能用来描述现在的身高和体重之间的关系.
结合本节课的案例,思考我们在用线性回归模型进行预报时
需要注意什么问题呢?
课堂小结
3.
样本取值的范围会影响回归方程的适用范围.例如,根据女大学生的身高和体重的数据建立的回归方程,不能用来描述一个人幼儿时期的身高和体重之间的关系.(在例题的回归方程中,解释变量x的样本的取值范围为155~175,而用这个方程计算x=70时的y值是不合适的.)
结合本节课的案例,思考我们在用线性回归模型进行预报时
需要注意什么问题呢?
课堂小结
4.
不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
结合本节课的案例,思考我们在用线性回归模型进行预报时
需要注意什么问题呢?
年份
1993
1994
1995
1996
1997
GDP/亿元
34634.4
46759.4
58478.1
67884.6
74462.6
年份
1998
1999
2000
2001
2002
GDP/亿元
78345.2
82067.5
89468.1
97314.8
104790.6
1.
1993年到2002年中国的国内生产总值(GDP)的数据如下:
课后作业
(1)做GDP和年份的散点图,根据该图猜想它们之间的关系应
是什么.
(2)建立年份为解释变量,GDP为预报变量的回归模型.
(3)根据你得到的模型,预报2003年的GDP,看看你的预报与
实际的GDP(117251.9亿元)的误差是多少.教
案
教学基本信息
课题
3.1.1
回归分析的基本思想及其初步应用(1)
学科
数学
学段:高中
年级
高二
教材
书名:普通高中课程标准实验教科书数学选修2-3(A版)
出版社:人民教育出版社
出版日期:2009年4月
教学目标及教学重点、难点
教学目标:
1、通过本节的学习,进一步掌握回归分析的基本方法与步骤,会对两个变量进行回归分析,明确建立回归模型的基本步骤,能够说出随机误差产生的原因,理解引入随机误差对完善线性回归模型的意义;
2、在提出统计问题的基础上,进一步体会用回归分析方法解决这些实际问题的思想与方法,了解任何数学模型只能是近似描述实际问题,我们追求的是根据问题的实际背景不断寻求描述效果更好的模型;
3、通过具体实例的应用,培养数学应用意识,形成实事求是的严谨的治学态度和锲而不舍的求学精神.
教学重点、难点:
教学重点:回归模型与函数模型的区别;回归分析的方法与步骤;随机误差及其产生的原因.
教学难点:引入随机误差的必要性;随机误差的解释与分析.
教学过程
教学环节
主要教学活动
设置意图
引入
在必修3中我们学习了抽样调查、用样本估计总体、线性回归等基本知识.
本章中,我们将在此基础上通过对典型案例的分析,进一步学习回归分析的方法及其应用.本节课的题目是回归分析的基本思想及其初步应用(1).
表明本节课与所学知识的联系以及本节课的主要内容.
新课
一、知识概要
1、下列变量之间的关系哪些是函数关系?哪些是相关关系?
(1)正方体的体积与边长之间的关系;
(2)某人骑行了1km,它骑车的平均速度与骑行时间之间的关系;
(3)商品销售收入与广告支出经费之间的关系;
(4)人体内的脂肪与年龄之间的关系.
答:(1)、(3)是函数关系;(2)、(4)是相关关系.
总的来说,对于两个变量,当自变量取值一定时,因变量也确定,则为函数关系,函数关系是一种确定性关系;当自变量取值一定时因变量的取值带有随机性,则为相关关系。相关关系是一种非确定性关系,在现实生活中大量存在.
在分析两个变量的关系时,我们可以通过统计图、表对两个变量之间的关系有一个直观上的印象和判断.
我们将两组数据在平面直角坐标系中构成的坐标点分布图称为散点图.
下面我们来看看如何通过散点图来判断两个变量间的关系.
这幅散点图中,所有点都落在同一条直线上,这表明两个变量间是函数关系.
这幅散点图中,样本点不能都落在同一函数曲线上,而是分布在某一条曲线的附近,这表明两个变量间是相关关系.
另外,这些点散布的位置也是值得注意的。如果这些点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
例如,在一定范围内,粮食产量与施肥量成正相关.
如果这些点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关.
例如,汽车的重量和汽车每消耗1L汽油所行驶的平均路程成负相关.
2、
什么是线性相关关系?什么是回归直线?
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量间具有线性相关关系.
这条直线叫做回归直线.
回归直线的方程叫做回归方程.
如果能够求出回归方程,我们就可以清楚地了解两个变量之间的相关性.
就像平均数可以作为一个变量的数据的代表一样,这条直线可以作为两个变量具有相关关系的代表.
那么如何具体求出回归方程呢?由于对于具有相关关系的两个变量,我们无法在散点图中作一条直线,使其经过每个样本点,所以同学们可能会想到以下方案.
方案1:
先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,从而得到回归方程;
方案2:
在散点图中选择这样的两个点画直线,使得直线两侧的点的个数基本相同;
方案3:
在散点图中多取几组点,确定出几条直线的方程,再分别求出各条直线的斜率、截距的平均数,将这两个数当成回归方程的斜率和截距.
上面这些方法虽然有一定的道理,但可靠性不强.
实际上,求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.
假设我们已经得到两个具有线性相关关系的变量的一组数据,,……,,注意到点与直线上,横坐标为的点,之间存在偏差,该偏差值为,
3、那么能否将各点偏差值直接相加,然后通过比较偏差和的大小来找到最佳方程?
不能,因为直接相加会导致正负抵消,不能反映真实的差异情况.
那么如何改进这个方案?
为避免偏差值正负抵消,我们可以用表示点到直线的远近.
这样,用这n个距离之和来刻画各点与此直线的“整体距离”是比较合适的。求使得该偏差绝对值之和最小的a,b值来获取回归直线的斜率和截距的方法叫最小一乘法.
但实际上求出使得“偏差绝对值之和最小”的a,b值计算起来并不方便.
4.、那么要确定线性回归方程,“最小一乘法”是不是唯一的方法呢?你能否想到其它的判定标准?
“最小一乘法”不是唯一的方法,我们还可以用使得样本数据点到回归直线的距离平方和最小的方法来获取回归直线的斜率和截距,这种方法叫最小二乘法.
这样问题就归结为:当a,b取什么值时最小?经过数学上的推导,a,b的最小二乘估计值由下列公式给出.
我们常用后面这个表达式来计算,它的分子的表达式为,分母的表达式为。利用上述公式可以求出具体的回归方程。
其中点()称为样本点的中心,且回归直线过样本点的中心.
5、回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其具体步骤是什么?回归分析的具体步骤是:画散点图;求回归直线方程;利用回归直线方程进行预报.
二、案例分析
下面,我们通过案例,进一步学习回归分析的基本思想及其应用.
例:从某大学中随机选取
8
名女大学生,其身高和体重数据如表所示:
求根据女大学生的身高预报体重的回归方程,并预报一名身高为
172
cm
的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量
x
,体重为因变量
y
.
作散点图.
从图中可以看出,样本点呈条状分布,这表明身高和体重有比较好的线性相关关系,因此可以用回归方程y=bx+a来近似刻画它们之间的关系.
我们将表格中8名女大学生的身高与体重的数据,代入前面最小二估计公式中,经过计算,可以得到
.
于是得到身高预报体重的回归方程是
.
其中是斜率的估计值,说明身高
x
每增加1个单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.
因此,对于身高172cm的女大学生,由回归方程可以预报其体重为
.
问题1:女大学生的身高能够在多大程度上决定体重呢?
这是相关强弱的问题.
不同的相关性除了可以从散点图上直观地反映出来,我们还可以将其数量化.
统计中用相关系数
来衡量两个变量之间线性关系的强弱.
首先注意r的符号:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
其次注意r的大小:
时,表明两个变量的线性相关性很强;
时,表明两个变量的线性相关性一般;
时,表明两个变量的线性相关性较弱.
在本例中,可以计算出r
=0.
798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.
探究:前面我们根据女大学生的身高预报体重的回归方程,预报出身高172cm的女大学生的体重是60.316kg,那么身高172cm的女大学生的体重一定60.316kg吗?如果不是,其原因是什么?
答案是不一定.
身高为172cm的女大学生的平均体重的估计值为60.316kg,不一定是这位身高172cm的女大学生的真实体重,但一般可以认为她的体重在60.316kg左右.
样本点和回归直线的相互位置也说明了这一点.
问题2:可以看到,用一次函数模型y=bx+a求出的y值不一定是真实的y值,那么二者之间的误差是常数还是随机变量?
我们知道真实的y值取决于样本数据,随着样本数据的变化,它的值也在发生改变,因此用一次函数模型y=bx+a求出的y值与真实的y值之间的误差是随机变量.
问题3:如果我们将上述误差用字母e来表示,可以如何完善身高与体重的线性回归模型?
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以,身高和体重的关系可以用线性回归模型y=bx+a+e来表示.
问题4:那么请问在函数关系中,y的值由哪些量确定?在回归模型中,y的值又由哪些量确定?
在函数关系中,y的值由自变量x唯一确定.
与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,x只能解释部分y的变化.
因此,在回归分析中,我们把x称为解释变量,
y称为预报变量.
三、随机误差
在线性回归模型
y=bx+a+e
中,
a和b是模型的未知参数,e是y与bx+a之间的误差。通常e为随机变量,称为随机误差.
它的均值为0,方差>0
.这样线性回归模型的完整表达式为:
问题5:在上述线性回归模型中,引起预报值与真实值y之间存在误差的原因是什么?
在上述线性回归模型中,随机误差是引起预报值与真实值
y
之间存在误差的原因之一,其大小取决于随机误差的方差。随机误差e的方差越小,用预报真实值y的精度越高。
另一方面由于用最小二乘法得出的和为截距和斜率的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间存在误差的另一个原因.
思考:在前面的案例中,产生随机误差项e的原因是什么?
一个人的体重值除了受身高的影响外,还受许多其他因素的影响.例如遗传基因、饮食习惯、是否喜欢运动以及度量误差等.事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系,这种近似以及上面提到的影响因素都是产生随机误差
e
的原因.以上三项误差越小,说明我们的回归模型的拟合效果越好.
复习变量间的关系类型,帮助学生区分变量间的函数关系和相关关系.
体会用数学的图表语言来表示取变量间的关系,反之,也能够从图中读取不同的散点位置代表的变量间的关系.
了解有关线性相关关系的概念,为后面内容的展开做概念铺垫.
讨论求回归方程的方案,并对其进行评估,确定求回归方程的关键是如何用数学的方法来刻画“从整体上看,各点与此直线的距离最小”.
用代数式来表达各点与直线的距离偏差,体会数学语言、数学式子的魅力.
强调偏差有正有负,不可以直接相加来获取
“整体距离”.
然后自然过渡到用偏差绝对值来表示各点与直线的“整体距离”.
拓展思维,类比方差的概念,引导学生说出用
“偏差平方和”最小也可以作为一种判定标准.
教会学生公式得使用方法.
回顾并总结回归分析的步骤与方法,为下面例题的展开做铺垫.
引导学生明确如何选取自变量和因变量.
首先从图形上对两个变量的关系有一个直观上的判断,为后续的模型选择提供依据.
说明参数的实际意义,使学生能够更好地理解回归模型.
由问题1
引出相关强弱和相关系数问题.
用相关系数的值来评价模型中两个变量的相关关系的强弱,从而对回归模型的选择有一个简单的评估.
引导学生明白,用回归模型所作的预测值不一定是真实值,而只是所有可能取值的一个均值.
用图形也可以解释上述问题.
为随机误差的出现做铺垫.
再次强调相关关系与函数关系的不同,回归模型中的y值还受许多随机因素的影响,并引出解释变量和预报变量的概念.
引入随机误差,优化回归模型.
分析预报值与真实值y之间存在误差的原因,让同学们能够更好地理解回归模型.
分析随机误差项e产生的原因,使学生明白任何数学模型只能是近似描述实际问题,我们追求的是根据问题的实际背景不断寻求描述效果更好的模型.
例题
从某大学中随机选取
8
名女大学生,其身高和体重数据如表所示:
求根据女大学生的身高预报体重的回归方程,并预报一名身高为
172
cm
的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量
x
,体重为因变量
y
.
作散点图.
从图中可以看出,样本点呈条状分布,这表明身高和体重有比较好的线性相关关系,因此可以用回归方程y=bx+a来近似刻画它们之间的关系.
我们将表格中8名女大学生的身高与体重的数据,代入前面最小二估计公式中,经过计算,可以得到回归直线斜率的估计值为0.849,截距的估计值为-85.712.
于是得到身高预报体重的回归方程是
.
其中是斜率的估计值,说明身高
x
每增加1个单位时,体重y就增加0.849个单位,这表明体重与身高具有正的线性相关关系.
因此,对于身高172cm的女大学生,由回归方程可以预报其体重为
.
通过例题明确回归分析的基本步骤,体会其中的思想方法.
总结
结合本节课的案例,思考我们在用线性回归模型进行预报时需要注意什么问题呢?
1.回归方程只适用于我们所研究的样本的总体.例如,根据女大学生的身高和体重的数据建立的回归方程,不能用来描述女运动员的身高和体重之间的关系.同样,根据生长在南方多雨地区的树木的高与直径的数据建立的回归方程,不能用来描述北方干旱地区的树木的高与直径之间的关系.
2.我们所建立的回归方程一般都有时间性.例如,根据
20
世纪
80
年代的身高与体重的数据建立的回归方程,不能用来描述现在的身高和体重之间的关系.
3.样本取值的范围会影响回归方程的适用范围.例如,根据女大学生的身高和体重的数据建立的回归方程,不能用来描述一个人幼儿时期的身高和体重之间的关系(即在例题中的回归方程中,解释变量x的样本的取值范围为155~170,用这个方程计算
x=70
时的y值是不合适的.)
4.不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
总结用线性回归方程进行预报时需要注意的问题,使同学们更好地理解和使用线性回归模型.
作业
人教A版选修2-3:
习题3.1
1.
1993年到2002年中国的国内生产总值(GDP)的数据如下:
年份19931994199519961997GDP/亿元34634.446759.458478.167884.674462.6年份19981999200020012001GDP/亿元78345.282067.589468.197314.8104790.6
(1)做GDP和年份的散点图,根据该图猜想它们之间的关系应是什么.
(2)建立年份为解释变量,GDP为预报变量的回归模型.
(3)根据你得到的模型,预报2003年的GDP,看看你的预报与实际的GDP(117251.9亿元)的误差是多少.