3.1 回归分析的基本思想及其初步应用
学习目标
重点、难点
1.能知道用回归分析处理两个变量之间的不确定关系的统计方法.
2.会利用散点图分析两个变量是否存在相关关系.会用残差及R2来刻画线性回归模型的拟合效果.
3.能记住建立回归模型的方法和步骤;能知道如何利用线性回归模型求非线性回归模型.
重点:建立变量之间的线性回归方程,能根据散点图初步判断两个变量之间是否具有线性关系.
难点:1.会求线性回归方程.
2.掌握建立回归模型的步骤,会选择回归模型,特别是非线性回归模型.
1.线性回归模型
(1)函数关系是一种______关系,而相关关系是一种________关系.
(2)回归分析是对具有____关系的两个变量进行统计分析的一种常用方法.
(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线的斜率和截距的最小二乘估计公式分别为__________________.
其中(,)称为________.
(4)线性回归模型y=bx+a+e,其中e称为________,a和b是模型的未知参数,自变量x称为________,因变量y称为________.
预习交流1
如果记录了x,y的几组数据分别为(0,1),(1,4),(2,7),(3,10),则y关于x的线性回归直线必过点( ).
A.(2,2) B.(1.5,2) C.(1,2) D.(1.5,5.5)
2.残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=____,i=1,2,…,n,其估计值为i=__________=__________,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
3.回归模型拟合效果的刻画
类别
残差图法
残差平方和法
R2法
特点
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高
残差平方和(yi-i)2越小,模型的拟合效果越好
R2=__________表示________对于________变化的贡献率,R2越接近于__,表示回归的效果越好
预习交流2
怎么理解散点图和相关指数的关系?
4.建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程=x+).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
预习交流3
用回归方程求预报值应注意哪些问题?
答案:
1.(1)确定性 非确定性 (2)相关 (3)==,=- 样本点的中心 (4)随机误差 解释变量 预报变量
预习交流1:提示:D
2.yi-bxi-a yi-i yi-xi-
3.1- 解释变量 预报变量 1
预习交流2:提示:散点图可以说明变量间有无线性相关关系,只能粗略地说明两个变量之间关系的密切程度,而相关指数R2能精确地描述两个变量之间的密切程度.
预习交流3:提示:(1)回归方程只适用于所研究的样本的总体.
(2)所建立的回归方程一般都有时间性.
(3)样本的取值范围会影响回归方程的适用范围.
(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
在预习中,还有哪些问题需要你在听课时加以关注?请在下列表格中做个备忘吧!
我的学困点
我的学疑点
一、求线性回归方程
某工厂1~8月份某种产品的产量与成本的统计数据见下表:
月份
1
2
3
4
5
6
7
8
产量(吨)
5.6
6.0
6.1
6.4
7.0
7.5
8.0
8.2
成本(万元)
130
136
143
149
157
172
183
188
以产量为x,成本为y.
(1)画出散点图;
(2)y与x是否具有线性相关关系?若有,求出其回归方程.
思路分析:画出散点图,观察图形的形状得x与y是否具有线性相关关系.把数值代入回归系数公式求回归方程.
某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:
x
35
40
45
50
y
56
41
28
11
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程.(方程的斜率保留一个有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
(1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
二、线性回归分析
某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果;
(4)计算R2,并说明其含义.
思路分析:先画出散点图,确定是否具有线性相关关系,求出回归方程,再求出残差,确定模型的拟合的效果和R2的含义.
1.(2011山东高考,文8)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( ).
A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元
2.在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y对x的回归直线方程,并说明拟合效果的好坏.
“相关指数R2、残差图”在回归分析中的作用:
(1)相关指数R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高, 回归方程预报精度越高.
三、非线性回归分析
下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
思路分析:先由数值表作出散点图,然后根据散点的形状模拟出近似函数,进而转化为线性函数,由数值表求出回归函数.
在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.
答案:
活动与探究1:解:(1)由表画出散点图,如图所示.
(2)从图上可看出,这些点基本上散布在一条直线附近,可以认为x和y线性相关关系显著,下面求其回归方程,首先列出下表.
序号
xi
yi
x
y
xiyi
1
5.6
130
31.36
16 900
728.0
2
6.0
136
36.00
18 496
816.0
3
6.1
143
37.21
20 449
872.3
4
6.4
149
40.96
22 201
953.6
5
7.0
157
49.00
24 649
1 099.0
6
7.5
172
56.25
29 584
1 290.0
7
8.0
183
64.00
33 489
1 464.0
8
8.2
188
67.24
35 344
1 541.6
∑
54.8
1 258
382.02
201 112
8 764.5
=6.85,=157.25.
∴==≈22.17,
=-=157.25-22.17×6.85≈5.39,
故线性回归方程为=22.17x+5.39.
迁移与应用:解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
设回归直线为=x+,由题知=42.5,=34,
则求得
==≈-3.
=-=34-(-3)×42.5=161.5.
∴=-3x+161.5.
(2)依题意有
P=(-3x+161.5)(x-30)
=-3x2+251.5x-4 845
=-32+-4 845.
∴当x=≈42时,P有最大值,约为426.
即预测销售单价为42元时,能获得最大日销售利润.
活动与探究2:解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875,=12 656,
=13 731,iyi=13 180,
∴==≈1.041 5,
=-=-0.003 875,
∴线性回归方程为=1.041 5x-0.003 875.
(3)作残差图如图所示,
由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
迁移与应用:1.B 解析:∵=-=-9.4×=9.1,
∴回归方程为=9.4x+9.1.
令x=6,得=9.4×6+9.1=65.5(万元).
2.解:=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
∴====-1.15.
∴=7.4+1.15×18=28.1,
∴回归直线方程为=-1.15x+28.1.
列出残差表为:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
∴(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994.
故R2≈0.994说明拟合效果较好.
活动与探究3:解:(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,y=e0.272x-3.849≈1 131.
迁移与应用:解:画出散点图如图所示.
根据散点图可知y与x近似地呈反比例函数关系,设y=,令t=,
则y=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系.列表如下:
序号
ti
yi
tiyi
t
y
1
4
16
64
16
256
2
2
12
24
4
144
3
1
5
5
1
25
4
0.5
2
1
0.25
4
5
0.25
1
0.25
0.0625
1
∑
7.75
36
94.25
21.312 5
430
所以=1.55,=7.2.
所以=≈4.134 4,=-≈0.8.
所以=4.134 4t+0.8.
所以y与x的回归方程是=+0.8.
1.(2011江西高考,文8)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( ).
A.y=x-1 B.y=x+1 C.y=88+x D.y=176
2.在两个变量y与x的回归模型中,分别选择了4个不同的模型.它们的相关指数R2如下,其中拟合效果最好的模型是( ).
A.模型1的相关指数R2为0.98 B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50 D.模型4的相关指数R2为0.25
3.设有一个回归方程=2-1.5x,则变量x增加一个单位时( ).
A.y平均增加1.5个单位 B.y平均增加2个单位
C.y平均减少1.5个单位 D.y平均减少2个单位
4.若施化肥量x(kg)与小麦产量y(kg)之间的回归直线方程为=250+4x,当施化肥量为50 kg时,预计小麦产量为________.
5.若对于变量y与x的10组统计数据的回归模型中,相关指数R2=0.95,又知残差平方和为120.53,那么(yi-)2的值为______.
答案:
1.C 解析:法一:由线性回归直线方程过样本中心(176,176),排除A,B答案,结合选项可得C为正确答案.
法二:将表中的五组数值分别代入选项验证,可知y=88+x最适合.
2.A 解析:相关指数R2越接近于1,则该模型的拟合效果就越好,精度越高.
3.C 解析:∵=-1.5<0,∴x增加一个单位时,y减少1.5个单位.
4.450 kg 解析:将x=50代入回归方程得=450 kg.
5.2410.6 解析:依题意有0.95=1-,所以(yi-)2=2 410.6.
用精练的语言把你当堂掌握的核心知识的精华部分和基本技能的要领部分写下来,并进行识记.
知识精华
技能要领
3.1 回归分析的基本思想及其初步应用
知识网络
知识梳理
1.回归分析
(1)函数关系是一种_____________关系,而相关关系是一种_____________关系.
(2)回归分析是对具有_____________关系的两个变量进行统计分析的一种常用方法.
(3)线性回归分析的步骤是:_____________、_____________、_____________.
(4)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归方程的截距和斜率的最小二乘估计公式分别为_____________、_____________.
2.相关系数
(1)样本相关系数的计算公式为_____________.
(2)当_____________时,表示两个变量正相关,当_____________时,表示两个变量负相关.
(3)r的绝对值越接近于1,表明两个变量的线性相关性_____________;r的绝对值越接近于_____________时,表明两个变量之间几乎不存在线性相关关系.
(4)通常,当r大于_____________时,认为两个变量具有很强的线性相关关系.
3.随机误差
(1)随机误差的均值E(e)= _____________,方差D(e)= _____________.
(2)线性回归模型的完整表达式是_____________.在线性回归模型中,随机误差e的方差越小,通过回归直线预报真实值y的精确度越_____________.
(3)对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,相应于它们的随机误差为_____________,其估计值为_____________.称为相应于(xi,yi)的.可以用_____________作为σ2的估计量,Q()称为_____________.
4.简单的非线性回归分析
(1)我们可以用相关指数R2来刻画回归的效果,其计算公式是_____________.
(2)R2越大,意味着残差的平方和_____________,也就是说,模型拟合的效果越_____________.
知识导学
要学好本节内容,要先巩固必修Ⅲ中与此有关的基础知识,并结合生活中的实际,在应用中体现知识的联系.
对于回归分析我们首先要知道它的意义是:可以对一些不确定关系进行预报.一般情况下,都是根据数据的规律,转换为最接近的一条直线,根据直线上对应点的值预报可能出现的情况.这就是线性回归.
误差分析主要研究预报的准确度,为了使这种预报更加精确,我们对预报的误差进行分析,尽量使其降低到最小情况,这就需要对一组数据进行分析,找出一种最能代表误差的量,于是就出现了相关系数等概念,在此基础上来分析随机误差可能出现的结果,从而给出线性回归模型的完整表达式,根据表达式可以研究一般的相关关系,对生产、生活中的实际问题进行更准确的数值预报.
有些数据不在一条直线附近,也就是说,不是所有的数据都能直接利用线性回归进行分析,但是为了研究方便,我们通常也是用一条最接近的线性回归模型进行拟合,这里亦需要考虑怎样减小误差,使拟合的数据尽量与实际数据相近.这就是简单的非线性回归问题.因此,对误差的分析也是解决问题的关键.
疑难突破
1.相关分析的意义和作用
剖析:函数关系是大家比较熟悉的概念,它是指变量之间的确定性关系,即当X取某一数值x时,变量Y按照某种规则总有一个或多个确定的数值与之对应.相关关系则是指变量之间的非确定性关系,由于随机因素的干扰,当变量X取确定值x时,变量Y的取值不确定,是一个随机变量,但它的概率分布与X的取值有关.这里,我们看到了函数关系与相关关系的本质区别,在函数关系中变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,只能运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生产实践.
2.举例说明怎样确定线性回归的模型
剖析:在确定数据适合哪种模型之前首先应该将观测量的数据绘图,以便进行简单的观测.例如:为了研究建立初始工资与现有工资的回归模型,首先对观测量制图如下图所示.
观测量数据绘图
从图中可以发现初始工资与当前工资的趋势大概呈线性关系,可以建立线性方程.如果观测量数据不呈线性分布,那么还可以根据其他方程模型的观测量分布图形的特点以及对建立各方程后所得的R2进行比较以便确定一种最佳方程式.
一般说来,如果所有的观测量都落到回归线上,那么R2等于1;如果自变量与因变量之间没有回归关系,那么R2等于0.
另外,我们通过对观测量绘图的仔细观察还可以发现一些奇异值,如本图中画圈的观测值,因为不可能哪一位教师的初始工资为6 000 左右,而当前工资却高达?32 000 ,这与其他情况极为不同,所以还可以通过对数据的检查来消除奇异值.但是,对待奇异值时要格外小心,因为也可能那位雇员的高工资是参与教学改革,获得奖励后获得的.
3.1 回归分析的基本思想及其初步应用
课堂导学
三点剖析
一、回归方程及其应用
【例1】研究某灌溉渠道水的流速Y与水深x之间的关系,测得一组数据如下:
水深x/m
1.40
1.50
1.60
1.70
1.80
1.90
2.00
2.10
流速Y/(m·s-1)
1.70
1.79
1.88
1.95
2.03
2.10
2.16
2.21
(1)求Y对x的回归直线方程;
(2)预测水深为1.95 m时水的流速是多少?
思路分析:从散点图可以直观地看出变量x与Y之间有无线性相关关系,为此把这8对数据描绘在平面直角坐标系中,得到平面上8个点,如图所示.
由图容易看出,x与Y之间有近似的线性相关关系,或者说,可以用一个回归直线方程=a+bx来反映这种关系,这些是我们在必修模块数学3中学过的知识.
进一步观察这8个点,容易发现它们并不是“严格地”在一条直线上,对于某个xi,由上式能确定一个=a+bxi,一般地说,由于测量流速可能存在误差,或者受某些随机因素的影响,或者上面的回归直线方程本身就不够精确,与测得的数据yi很可能不相等,即yi=i+ei(i=1,2,…,8),其中ei是随机误差项.于是,就有yi=a+bxi+ei(i=1,2,…,8),这就是本题的线性模型.
从上述线性模型出发,我们可以求出a与回归系数b的估计值,,使得全部误差e1,e2,…,e8的平方和达到最小,当然,这是一种很好的估计.最后得到的求,的数学公式为
=
.
解析:(1)可采用列表的方法计算a与回归系数b.
序号
x
y
x2
xy
1
1.40
1.70
1.96
2.380
2
1.50
1.79
2.25
2.685
3
1.60
1.88
2.56
3.008
4
1.70
1.95
2.89
3.315
5
1.80
2.03
3.24
3.654
6
1.90
2.10
3.61
3.990
7
2.00
2.16
4.00
4.320
8
2.10
2.21
4.41
4.641
∑
14.001
5.822
4.922
7.993
于是,=×14.00=1.75, =×15.82=1.977 5,
=≈0.733.
=1.977 5-×1.75≈0.694.
Y对x的回归直线方程为
=+x=0.694+0.733x.
回归系数=0.733的意思是,在此灌溉渠道中,水深每增加0.1 m,水的流速平均增加0.733 m/s(本例数据是以0.1 m为水深间隔测得的),=0.694可以解释为水的流速中不受水深影响的部分.
(2)由(1)中求出的回归直线方程,把x=1.95代入,易得
=0.694+0.733×1.95≈2.12(m/s).
计算结果表明,当水深为1.95 m时可以预测渠水的流速约为2.12 m/s.
二、熟悉建立回归模型的基本步骤,会分析残差图的异常情况
【例2】1993年到2002年中国的国内生产总值(GDP)的数据如下:
年份
GDP
1993
34 634.4
1994
46 759.4
1995
58 478.1
1996
67 884.6
1997
74 462.6
1998
78 345.2
1999
82 067.5
2000
89 468.1
2001
97 314.8
2002
104 790.6
(1)作GDP和年份的散点图,根据该图猜想它们之间的关系应是什么?
(2)建立年份的解释变量,GDP为预报变量的回归模型,并计算残差.
(3)根据你得到的模型,预报2003年的GDP,并查资料,看看你的预报与实际的GDP的误差是多少?
(4)你认为这个模型能较好地刻画GDP和年份的关系吗?请说明理由.
解析:(1)
(2)从上图中可以看出,x与y之间有近似的线性相关关系,即可以用一个回归直线方程
=x+表示
通过计算可得
=×19 975=1 997.5
=×734 204.7=73 420.47
=7 206.5
=73 420.47-7 206.5×1 997.5
=-14 321 563.28
∴y对x的回归直线模型为
=7 206.5x-14 321 563.28
残差为:
x
1993
1994
1995
1996
1997
y
34 634.4
46 759.4
58 478.1
67 884.6
74 462.6
-6 356.82
-1 438.32
3 073.88
5 273.88
4 645.38
x
1998
1999
2000
2001
2002
y
78 345.2
82 067.5
89 468.1
97 314.8
104 790.6
1321.48
-2 162.72
-1 968.2
-1 328.42
-1 059.12
(3)=7 206.5×2 003-14 321 563.28=113 056.22(亿元)
2003年的实际GDP为117 390亿元,误差为4 333.78亿元.
(4)以样本编号为横坐标,残差为纵坐标作残差图.
从残差图可以看出这个模型能较好地刻画GDP和年份的关系.
三、比较拟合效果的基本步骤
【例3】一只红铃虫的产卵数y和温度x有关.现收集了7组观测数据列于表1中,试建立y与x之间的回归方程.
表1
温度 x/℃
21
23
25
27
29
32
35
产卵数y/个
7
11
21
24
66
115
325
解析:根据收集的数据作散点图(图1).
在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈现线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=的周围,其中c1和c2是待定参数.
现在,问题变为如何估计待定参数c1和c2.我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnc1,b=c2)的周围.这样,就可以利用线性回归模型来建立y和x之间的非线性回归方程了.由表1的数据可以得到变换后的样本数据表2,图2给出了表2中数据的散点图.从图2中可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
表2
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
由表2中的数据得到线性回归方程
=0.272x-3.843.
因此红铃虫的产卵数对温度的非线性回归方程为
=e 0.272x-3.843.(1)
另一方面,可以认为图1中样本点集中在某二次曲线y=c3x2+c4的附近,其中c3和c4为待定参数.因此可以对温度变量做变换,即令t=x2,然后建立y与t之间的线性回归方程,从而得到y与x之间的非线性回归方程.
表3是红铃虫的产卵数和对应的温度的平方,图3是相应的散点图.
表3
t
441
529
625
729
841
1 024
1 225
Y
7
11
21
24
66
115
325
从图3中可以看出,y与t的散点图并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线y=c3x2+c4来拟合y和x之间的关系.这个结论还可以通过残差分析得到.
各个击破
【类题演练1】在一段时间内:某种商品价格x(万元)和需求量Y(t)之间的一组数据为
价 格x:1.4 1.6 1.8 2 2.2
需求量Y:12 10 7 5 13 3
(1)画出散点图;
解析:(1)
(2)求出Y对x的回归直线方程,并在(1)的散点图中画出它的图象;
解析:采用列表的方法计算a与回归系数b.
序号
x
y
x2
xy
1
2
3
4
5
1.4
1.6
1.8
2
2.2
12
10
7
5
3
1.96
2.56
3.24
4
4.84
16.8
16
12.6
10
6.6
∑
9
37
16.6
62
x=×9=1.8 =×37=7.4
=≈-11.5
=7.4+11.5×1.8=28.1
Y对x的回归直线方程为
=+x=28.1-11.5x
(3)如价格定为1.9万元,预测需求量大约是多少(精确到0.01 t)?
解析:当x=1.9时,Y=28.1-11.5×1.9=6.25,
所以价格定为1.9万元,需求量大约是6.25(t).
【变式提升1】弹簧长度Y(cm)随所挂物体质量x(g)不同而变化的情况如下:
物体质量x:5 10 15 20 25 30
弹簧长度y:7.25 8.12 8.95 9.90 10.96 11.80
(1)画出散点图;
解析:(1)
(2)求Y对x的回归直线方程;
解析:采用列表的方法计算a与回归系数b
序号
x
y
x2
xy
1
2
3
4
5
6
5
10
15
20
25
30
7.25
8.12
8.95
9.90
10.96
11.80
25
100
225
400
625
900
36.25
81.2
134.25
198
274
354
∑
105
56.98
2 275
1 077.7
=×105=17.5
=×56.98≈9.50
=≈0.183
=9.50-0.183×17.5≈6.30
Y对x的回归直线方程为
=6.30+0.183x
(3)预测所挂物体质量为27 g时的弹簧长度(精确到0.01 cm).
解析:当质量为27 g时,有
=6.30+0.183×27≈11.24 cm
所以当挂物体的质量为27 kg时,弹簧的长度大约为11.24 cm.
【类题演练2】如果美国10家工业公司提供了以下数据:
公司
销售总额x1/百万美元
利润x2/百万美元
通用汽车
126 974
4 224
福特
96 933
3 835
埃克森
86 656
3 510
IBM
63 438
3 758
通用电气
55 264
3 939
美孚
50 976
1 809
菲利普·莫利斯
39 069
2 946
克莱斯勒
36 156
359
杜邦
35 209
2 480
德士古
32 416
2 413
(1)作销售总额和利润的散点图,根据该图猜想它们之间的关系应是什么形式;
解析:散点图如图所示
由图可猜想它们之间是线性相关关系.
(2)建立销售总额的解释变量,利润的预报变量的回归模型,并计算残差;
解析:通过计算可得:
=62 309.1
=2 927.3
=0.02
=1 681.1
∴回归模型为
=0.02x+1 681.1
由公式=yi-xi-得其残差为
x
126 974
96 933
86 656
63 438
55 264
y
4 224
3 835
3 510
3 758
3 939
3.42
215.24
95.78
808.14
1 152.62
x
50 976
39 069
36 156
35 209
32 416
y
1 809
2 946
359
2 480
2 413
-891.62
483.52
-2045.22
94.72
83.58
(3)计算相关指数,你认为这个模型能较好地刻画销售总额和利润之间的关系吗?请说明理由.
解析:R2=1-
=1-=0.404
∴这个模型不能较好地刻画销售总额和利润之间的关系.
【类题演练3】某农场对单位面积化肥用量x(kg)和水稻相应产量Y(kg)的关系作了统计,得到数据如下:
x: 15 20 25 30 35 40 45
Y: 330 345 365 405 445 450 455
如果x和Y之间具有线性相关关系,求出回归直线方程,并预测当单位面积化肥用量为32 kg时水稻的产量大约是多少(精确到0.01 kg).
解析:用列表的方法计算a与回归系数b.
序号
x
y
x2
x
1
2
3
4
5
6
7
15
20
25
30
35
40
45
330
245
365
405
445
450
455
225
400
625
900
1225
1600
2025
4 950
6900
9125
12150
15575
18000
20475
∑
210
2 795
7 000
87 175
=×210=30
=×2 795≈399.3
=≈4.746
=399.3-4.746×30=256.92
Y对x的回归直线方程为
=+x=256.92+4.746x
当x=32时,=256.92+4.746×32≈408.79
答:回归直线方程为=256.92+4.746x,当单位面积化肥为32 kg时,水稻的产量大约为408.79 kg.
【变式提升3】随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司做了一次抽样调查,并统计得出某款车的使用年限x与所支出的总费用y(万元)有如下的数据资料:
使用年限x
2
3
4
5
6
总费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y对x呈线性相关关系.试求:
(1)线性回归方程=bx+a的回归系数a、b;
(2)估计使用年限为10年时,车的使用总费用是多少?
解:(1)制表
i
1
2
3
4
合计
xi
2
3
4
5
20
yi
2.2
3.8
5.5
6.5
25
xiyi
4.4
11.4
22.0
32.5
112.3
xi2
4
9
16
25
90
=4,=5
于是b==1.23,
=5-1.23×4=0.08.
(2)线性回归直线方程是=1.23x+0.08,
当x=10(年)时,y=1.23×10+0.08=12.38(万元),即估计使用10年时,支出总费用是12.38万元.
3.1 回归分析的基本思想及其初步应用
课堂探究
探究一 求线性回归直线方程
(1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
【典型例题1】某商场经营一批进价是30元/件的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系
x
35
40
45
50
y
56
41
28
11
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程.(方程的斜率保留一个有效数字)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
设回归直线为=x+,由题知=42.5,=34,
则求得
=
=≈-3.
=- =34-(-3)×42.5=161.5.
∴=-3x+161.5.
(2)依题意有
P=(-3x+161.5)(x-30)
=-3x2+251.5x-4 845
=-32+-4 845.
∴当x=≈42时,P有最大值,约为426.
即预测当销售单价为42元时,才能获得最大日销售利润.
规律总结 先根据所给数据画出散点图,判断y与x是否具有线性相关关系,在此基础上利用回归方程系数的有关公式,求出相应的系数,然后结合函数知识求出日销售利润最大时的销售单价.
探究二 线性回归分析
解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
【典型例题2】在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y对x的回归直线方程,并说明拟合效果的好坏.
解:=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
∴====-1.15.
∴=7.4+1.15×18=28.1,
∴回归直线方程为=-1.15x+28.1.
列出残差表为
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
∴(yi-)2=0.3,(yi-)2=53.2,
R2=1-≈0.994.
故R2≈0.994,说明拟合效果较好.
规律总结 “相关指数R2、残差图”在回归分析中的作用:
(1)相关指数R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高, 回归方程预报精度越高.
探究三 求非线性回归方程
非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图.把它与必修模块数学1中学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.
【典型例题3】假设关于某设备的使用年限x和支出的维修费用y(万元),有如下表的统计资料:
使用年限x
2
3
4
5
6
维修费用y
2.2
3.8
5.5
6.5
7.0
若由资料知y与x具有线性相关关系,试求:
(1)线性回归方程=x+.
(2)估计使用年限为10年时,维修费用是多少?
(3)计算总偏差平方和、残差平方和及回归平方和.
(4)求R2并说明模型的拟合效果.
解:(1)将已知条件制成下表
i
1
2
3
4
5
合计
xi
2
3
4
5
6
20
yi
2.2
3.8
5.5
6.5
7.0
25
xiyi
4.4
11.4
22.0
32.5
42.0
112.3
x
4
9
16
25
36
90
=4;=5;=90;iyi=112.3
设回归方程为=x+,
于是有===1.23,=- =5-1.23×4=0.08,
所以线性回归方程是=1.23x+0.08.
(2)当x=10时,=1.23×10+0.08=12.38,
即估计使用10年时维修费用是12.38万元.
(3)总偏差平方和:(yi-)2=15.78,
残差平方和:=2.46+0.08=2.54,=3.77,=5,=6.23,=7.46,(yi-)2=0.651,
回归平方和:15.78-0.651=15.129.
(4)R2=1-=1-≈0.958 7,
模型的拟合效果较好,使用年限解释了95.87%的维修费用支出.
规律总结 把非线性回归问题转化为线性回归问题,拓展了解题思路.
探究四 易错辨析
易错点 残差平方和与相关指数的理解不清致误
【典型例题4】对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的回归方程=x+必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.936 2,则变量y和x之间具有线性相关关系
错解:B
错因分析:对残差平方和和相关指数R2理解错误.
正解:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.
答案:C
3.1 回归分析的基本思想及其初步应用
问题导学
一、求线性回归方程
活动与探究1
某工厂1~8月份某种产品的产量与成本的统计数据见下表:
月份
1
2
3
4
5
6
7
8
产量(吨)
5.6
6.0
6.1
6.4
7.0
7.5
8.0
8.2
成本(万元)
130
136
143
149
157
172
183
188
以产量为x,成本为y.
(1)画出散点图;
(2)y与x是否具有线性相关关系?若有,求出其回归方程.
迁移与应用
1.(2013海南海口模拟)在一次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的回归直线方程为( )
A.=x+1 B.=x+2
C.=2x+1 D.=x-1
2.某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:
x
35
40
45
50
y
56
41
28
11
(1)y与x是否具有线性相关关系?如果具有线性相关关系,求出回归直线方程.(方程的斜率精确到个位)
(2)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
(1)散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.
(2)求回归直线方程,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
二、线性回归分析
活动与探究2
某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出线性回归方程;
(3)作出残差图,并说明模型的拟合效果;
(4)计算R2,并说明其含义.
迁移与应用
1.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
2.在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:
x(元)
14
16
18
20
22
y(件)
12
10
7
5
3
且知x与y具有线性相关关系,求出y对x的回归直线方程,并说明拟合效果的好坏.
“相关指数R2、残差图”在回归分析中的作用:
(1)相关指数R2是用来刻画回归效果的,由R2=1-可知R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
(2)残差图也是用来刻画回归效果的,判断依据是:残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高, 回归方程预报精度越高.
三、非线性回归分析
活动与探究3
下表为收集到的一组数据:
x
21
23
25
27
29
32
35
y
7
11
21
24
66
115
325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
迁移与应用
1.在彩色显影中,由经验知形成染料光学密度y与析出银的光学密度x由公式y=(b<0)表示,现测得试验数据如下:
xi
0.05
0.06
0.25
0.31
0.07
0.10
0.38
0.43
0.14
0.20
0.47
yi
0.10
0.14
1.00
1.12
0.23
0.37
1.19
1.25
0.59
0.79
1.29
则y对x的回归方程是__________.
2.在一次抽样调查中测得样本的5个样本点,数值如下表:
x
0.25
0.5
1
2
4
y
16
12
5
2
1
试建立y与x之间的回归方程.
非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量置换,把问题化为线性回归分析问题,使之得到解决.
答案:
课前·预习导学
【预习导引】
1.(1)确定性 非确定性 (2)相关 (3)= - 样本点的中心 (4)随机误差 解释变量 预报变量
预习交流1 D
2.yi-bxi-a yi-i yi-xi-
3.1- 解释变量 预报变量 1
预习交流2 提示:散点图可以说明变量间有无线性相关关系,只能粗略地说明两个变量之间关系的密切程度,而相关指数R2能精确地描述两个变量之间的密切程度.
预习交流3 提示:(1)回归方程只适用于所研究的样本的总体.
(2)所建立的回归方程一般都有时间性.
(3)样本的取值范围会影响回归方程的适用范围.
(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.
课堂·合作探究
【问题导学】
活动与探究1 思路分析:画出散点图,观察图形的形状得x与y是否具有线性相关关系.把数值代入回归系数公式求回归方程.
解:(1)由表画出散点图,如图所示.
(2)从上图可看出,这些点基本上散布在一条直线附近,可以认为x和y线性相关关系显著,下面求其回归方程,首先列出下表.
序号
xi
yi
xi2
yi2
xiyi
1
5.6
130
31.36
16 900
728.0
2
6.0
136
36.00
18 496
816.0
3
6.1
143
37.21
20 449
872.3
4
6.4
149
40.96
22 201
953.6
5
7.0
157
49.00
24 649
1 099.0
6
7.5
172
56.25
29 584
1 290.0
7
8.0
183
64.00
33 489
1 464.0
8
8.2
188
67.24
35 344
1 541.6
∑
54.8
1 258
382.02
201 112
8 764.5
=6.85,=157.25.
∴=
=
≈22.17,
=-=157.25-22.17×6.85≈5.39,
故线性回归方程为=22.17x+5.39.
迁移与应用 1.A 解析:方法一:==,==.故=
==1,
=-=-=1.因此,=x+1,故选A.
方法二:也可由回归直线方程一定过点(,),即,代入验证可排除B,C,D.故应选A.
2.解:(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
设回归直线为=x+,由题知=42.5,=34,
则求得
=
=≈-3.
=-=34-(-3)×42.5=161.5.
∴=-3x+161.5.
(2)依题意有
P=(-3x+161.5)(x-30)
=-3x2+251.5x-4 845
=-32+-4 845.
∴当x=≈42时,P有最大值,约为426.
即预测销售单价为42元时,能获得最大日销售利润.
活动与探究2 思路分析:先画出散点图,确定是否具有线性相关关系,求出回归方程,再求出残差,确定模型的拟合的效果和R2的含义.
解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875,=12 656,
=13 731,
iyi=13 180,
∴==≈1.041 5,
=-=-0.003 875,
∴线性回归方程为
=1.041 5x-0.003 875.
(3)作残差图如图所示,
由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2≈0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
迁移与应用 1.B 解析:∵=-=-9.4×=9.1,
∴回归方程为=9.4x+9.1.
令x=6,得=9.4×6+9.1=65.5(万元).
2.解:=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=122+102+72+52+32=327,
iyi=14×12+16×10+18×7+20×5+22×3=620,
∴===
=-1.15.
∴=7.4+1.15×18=28.1,
∴回归直线方程为=-1.15x+28.1.
列出残差表为:
yi-i
0
0.3
-0.4
-0.1
0.2
yi-
4.6
2.6
-0.4
-2.4
-4.4
∴(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994.
故R2≈0.994说明拟合效果较好.
活动与探究3 思路分析:先由数值表作出散点图,然后根据散点的形状模拟出近似函数,进而转化为线性函数,由数值表求出回归函数.
解:(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a,a=ln c1,b=c2的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为:
x
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
求得回归直线方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差
yi
7
11
21
24
66
115
325
i
6.443
11.101
19.125
32.950
56.770
128.381
290.325
i
0.557
-0.101
1.875
-8.950
9.23
-13.381
34.675
(3)当x=40时,y=e0.272x-3.849≈1 131.
迁移与应用 1. 解析:由题给的经验公式y=,两边取自然对数,便得ln y=ln A+.与线性回归直线方程相对照,只要取u=,v=ln y,a=ln A,就有v=a+bu,这是v对u的线性回归方程.对此我们已经掌握了一套相关性检验,求a与回归系数b的方法.题目所给数据经变量置换u=,v=ln y变成如下表所示的数据:
ui
20.000
16.667
4.000
3.226
14.286
10.000
vi
-2.303
-1.966
0
0.113
-1.470
-0.994
ui
2.632
2.326
7.143
5.000
2.128
vi
0.174
0.223
-0.528
-0.236
0.255
|r|≈0.998>0.75,
故v与u之间具有很强的线性相关关系,求回归直线方程是有意义的.
由表中数据可得≈-0.15,≈0.55,
即=0.55-0.15u.
把u与v换回原来的变量x与y,
即u=,v=ln y,
故ln =0.55-,
即==e0.55≈.
这就是y对x的回归曲线方程.
2.解:画出散点图如图所示.
根据散点图可知y与x近似地呈反比例函数关系,
设y=,令t=,
则y=kt,原数据变为:
t
4
2
1
0.5
0.25
y
16
12
5
2
1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系.列表如下:
序号
ti
yi
tiyi
t
y
1
4
16
64
16
256
2
2
12
24
4
144
3
1
5
5
1
25
4
0.5
2
1
0.25
4
5
0.25
1
0.25
0.0625
1
∑
7.75
36
94.25
21.312 5
430
所以=1.55,=7.2.
所以=≈4.134 4,=-≈0.8.
所以=4.134 4t+0.8.
所以y与x的回归方程是=+0.8.
当堂检测
1.(2012湖南高考,理4)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案:D 解析:D选项中,若该大学某女生身高为170 cm,则可断定其体重约为0.85×170-85.71=58.79(kg).
故D不正确.
2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高
x(cm)
174
176
176
176
178
儿子身高
y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=88+ D.y=176
答案:C 解析:法一:由线性回归直线方程过样本中心(176,176),排除A,B答案,结合选项可得C为正确答案.
法二:将表中的五组数值分别代入选项验证,可知y=88+最适合.
3.在两个变量y与x的回归模型中,分别选择了4个不同的模型.通过计算得R2的值如下,其中拟合效果最好的模型是( )
A.模型1的R2为0.98
B.模型2的R2为0.80
C.模型3的R2为0.50
D.模型4的R2为0.25
答案:A 解析:R2越接近于1,则该模型的拟合效果就越好,精度越高.
4.若对于变量y与x的10组统计数据的回归模型中,R2=0.95,又知残差平方和为120.53,那么(yi-)2的值为______.
答案:2 410.6 解析:依题意有0.95=1-,所以=2 410.6.
5.假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据.
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
若由此资料可知y对x呈线性相关关系,试求:
(1)回归直线方程;
答案:
解:由题表中数据列成下表:
i
1
2
3
4
5
xi
2
3
4
5
6
yi
2.2
3.8
5.5
6.5
7.0
xiyi
4.4
11.4
22.0
32.5
42.0
xi2
4
9
16
25
36
=4,=5,=90,=112.3
于是,
=-=5-1.23×4=0.08,
所以回归直线方程为=+=1.23x+0.08.
(2)估计使用年限为10年时,维修费用为多少?
答案:当x=10时,=1.23×10+0.08=12.38(万元),
估计使用10年时的维修费用为12.38万元.
提示:用最精练的语言把你当堂掌握的核心知识的精华部分和基本技能的要领部分写下来并进行识记.
3.1 回归分析的基本思想及其初步应用
预习导航
课程目标
学习脉络
1.能知道用回归分析处理两个变量之间的不确定关系的统计方法.
2.会利用散点图分析两个变量是否存在相关关系.会用残差及R2来刻画线性回归模型的拟合效果.
3.能记住建立回归模型的方法和步骤;能知道如何利用线性回归模型求非线性回归模型.
1.回归分析
(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系.
(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为==, =- ,其中,(,)称为样本点的中心.
思考1 如果记录了x,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),则y关于x的线性回归直线必过点( )
A.(2,2) B.(1.5,2) C.(1,2) D.(1.5,4)
提示:∵==1.5,==4,
∴样本点的中心为(1.5,4),而回归直线过样本点的中心.
2.随机误差
(1)随机误差的均值E(e)=0,方差D(e)=σ2>0.
(2)线性回归模型的完整表达式为在线性回归模型中,随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高.
(3)对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为=yi-=yi-xi- ,i=1,2,…,n, i称为相应于点(xi,yi)的残差.
(4)以样本编号为横坐标,残差为纵坐标作出的图形称为残差图.
(5)我们可以用相关指数R2来刻画回归的效果,其计算公式是R2=1-.
(6)R2越大,意味着残差平方和 (yi-)2越小,也就是说,模型拟合的效果越好.
思考2 如何刻画回归模型拟合效果?
提示:
类别
残差图法
残差平方和法
R2法
特点
残差点比较均匀地落在水平的带状区域内,说明选用的模型比较适合,这样的带状区域的宽度越窄,说明模型拟合精度越高
残差平方和(yi-)2越小,模型的拟合效果越好
R2=1-表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好
3.建立回归模型的基本步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程y= x+ ).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
思考3 用回归方程求预报值应注意哪些问题?
提示:(1)回归方程只适用于所研究的样本的总体.
(2)所建立的回归方程一般都有时间性.
(3)样本的取值范围会影响回归方程的适用范围.
(4)不能期望回归方程得到的预报值就是预报变量的精确值.事实上,它是预报变量的可能取值的平均值.