课件60张PPT。第一章 统计案例1.1 回归分析的基本思想及其初步应用点击右图进入…Thank you for watching !
1.1 回归分析的基本思想及其初步应用
学 习 目 标
核 心 素 养
1.了解随机误差、残差、残差图的概念.(重点)
2.会通过分析残差判断线性回归模型的拟合效果.(重点)
3.了解常见的非线性回归模型转化为线性回归模型的方法.(难点)
1.通过回归分析的学习,培养了学生数据分析的素养.
2.借助回归模型的建立,培养学生数学建模、数据分析及数学运算的素养.
1.回归分析的相关概念
(1)回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i,(,)称为样本点的中心.
(3)线性回归模型
线性回归模型为y=bx+a+e,其中a和b为模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量.
思考:在线性回归模型y=bx+a+e中,e产生的原因主要有哪几种?
[提示] 随机误差产生的原因主要有以下几种:
(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
2.残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
3.刻画回归效果的方式
残差图
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图
残差
图法
残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高
残差平方和
残差平方和为(yi-i)2,残差平方和越小,模型的拟合效果越好
相关指数R2
R2=1-,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示模型的拟合效果越好
1.在如图所示的四个散点图中,适合用线性回归模型拟合其中两个变量的是( )
A.①② B.①③
C.②③ D.③④
B [结合散点图可知①③中的散点大体分布在一条直线的左右两侧,故选B.]
2.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
A [R2越大拟合效果越好,故选A.]
3.已知回归直线方程为=2x+1,而试验得到的一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )
A.0.01 B.0.02
C.0.03 D.0.04
C [当x=2时,=5;当x=3时,=7;当x=4时,=9,
∴1=4.9-5=-0.1,2=7.1-7=0.1,3=9.1-9=0.1.
∴ =(-0.1)2+(0.1)2+(0.1)2=0.03,故选C.]
求线性回归方程
【例1】 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x
6
8
10
12
y
2
3
5
6
(1)请画出上表数据的散点图(要求:点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
[解] (1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,
==9,==4,
=62+82+102+122=344,
===0.7,
=- =4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
求线性回归方程的基本步骤
?1?列出散点图,从直观上分析数据间是否存在线性相关关系.
?2?计算:
?3?代入公式求出
?4?写出线性回归方程并对实际问题作出估计.
提醒:只有在散点图大致呈线性分布时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
1.某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:
x/百万元
2
4
5
6
8
y/百万元
30
40
60
50
70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
[解] (1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i
1
2
3
4
5
合计
xi
2
4
5
6
8
25
yi
30
40
60
50
70
250
xiyi
60
160
300
300
560
1 380
x
4
16
25
36
64
145
所以,==5,==50,=145,
iyi=1 380.
于是可得===6.5,
=- =50-6.5×5=17.5.
所以所求的线性回归方程为=6.5x+17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,
=6.5×10+17.5=82.5(百万元),
即广告费用支出为10百万元时,销售额大约为82.5百万元.
线性回归分析
【例2】 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x
15.0
25.8
30.0
36.6
44.4
y
39.4
42.9
42.9
43.1
49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明残差变量对有效穗的影响占百分之几?(参考数据:x=5 101.56,y=9 511.43,xiyi=6 746.76)
[解] (1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+.
=30.36,=43.5,
x=5 101.56,y=9 511.43.
=1 320.66,2=921.729 6,
xiyi=6 746.76.
则=≈0.29,=-≈34.70.
故所求的回归直线方程为=0.29x+34.70.
当x=56.7时,=0.29×56.7+34.70=51.143.
估计成熟期有效穗为51.143.
(3)由于i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和: ≈8.43.
(4) (yi-)2=50.18,
故R2=1-≈0.832.
所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.
“相关指数R2、残差图”在回归分析中的作用
?1?相关指数R2是用来刻画回归效果的,由可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
?2?残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.
2.关于x与y有如下数据:
x
2
4
5
6
8
y
30
40
60
50
70
有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
[解] 由(1)可得yi-i与yi-的关系如下表:
yi-i
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i
-1
-5
8
-9
-3
yi-
-20
-10
10
0
20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.82,
由于R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.
非线性回归分析
[探究问题]
1 已知x和y之间的一组数据,则下列四个函数中,模拟效果最好的为哪一个?
x
1
2
3
y
3
5.99
12.01
①y=3×2x-1; ②y=log2x;
③y=4x; ④y=x2.
提示:观察散点图中样本点的分布规律,可判断样本点分布在曲线y=3×2x-1附近,
所以模拟效果最好的为①.
2.如何将探究1函数变换为线性函数?
提示:将y=3×2x-1两边取自然对数得ln y=ln 3+(x-1)ln 2.
令
则原方程变为y′=ln 3+x′ln 2-ln 2=ln +x′ln 2.
这样y′与x′成线性函数关系.
【例3】 为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图,根据散点图判断:y=a+bx与y=c1ec2x哪一个作为繁殖的个数y关于时间x变化的回归方程类型为最佳?(给出判断即可,不必说明理由)
(xi-)2
(xi-)·(yi-)
(xi-)·(zi-)
3.5
62.83
3.53
17.5
596.505
12.09
其中zi=ln yi;=i;
(2)根据(1)的最佳判断结果及表中的数据,建立y关于x的回归方程.
参考公式:=,=-.
思路探究:(1)根据收集数据,可得数据的散点图;
(2)由散点图看出样本点分布在一条指数型曲线y=cebx(c>0)的周围,则ln y=bx+ln c.变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合,即可求出y对x的回归方程.
[解] (1)作出散点图,如图①所示.
① ②
由散点图看出样本点分布在一条指数函数y=c1ec2x的周围,于是选择y=c1ec2x.
(2)令z=ln y,
则z=bx+a.
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
相应的散点图如图②.
从图②可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程来拟合.
由=≈0.69,
=-=1.115,
得z=0.69x+1.115;
则有=e0.69x+1.115.
1.(变结论)在本例条件不变的情况下,试估计第7天细菌繁殖个数.
[解] ∵=e0.69x+1.115,
∴当x=7时,≈382(个).
即第7天细菌繁殖个数约为382个.
2.(变结论)计算相关指数.
[解] 残差计算如下表:
天数
1
2
3
4
5
6
残差
0.08
0.12
-0.83
-0.82
1.06
1.52
则=(yi-i)2=4.816 1,(yi-)2=24 642.8,∴R2=1-≈0.999 8,
即解释变量“天数”对预报变量“细菌繁殖个数”解释了99.98%.
解决非线性回归问题的方法及步骤
(1)确定变量:确定解释变量为x,预报变量为y;
(2)画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;
(3)变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
(4)分析拟合效果:通过计算相关指数等来判断拟合效果;
(5)写出非线性回归方程.
1.对具有相关关系的两个变量进行回归分析时,首先要进行相关关系的判断(可作散点图),在确定具有相关关系后,再求回归直线方程.
2.对于非线性的回归分析问题可以转化为线性回归分析去解决.
3.用相关指数R2来刻画回归的效果,R2的值越大,说明残差平方和越小,其模型拟合的效果越好.
1.判断正误
(1)相关指数R2越小,线性回归方程的拟合效果越好.( )
(2)在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个可观测的量.( )
(3)线性回归方程=x+必过样本点的中心(,).( )
[答案] (1)× (2)× (3)√
2.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A.y=a·xb
B.y=a+bln x
C.y=a·ebx
D.y=a·e
B [由散点图可知,此曲线类似对数函数型曲线,因此可用函数y=a+bln x模型进行拟合.]
3.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.
1 [∵ei恒为0,∴样本点(x1,y1),(x2,y2),…,(xn,yn)均落在直线y=bx+a上,
∴变量x,y成函数关系,
即R2=1.]
4.某个服装店经营某种服装,在某周内获纯利y(单位:元),与该周每天销售这种服装件数x之间的一组数据关系见表:
x
3
4
5
6
7
8
9
y
66
69
73
81
89
90
91
已知x=280,y=45 309,xiyi=3 487.
(1)求,;
(2)已知纯利y与每天销售件数x之间线性相关,求出y关于x的回归直线方程;
(3)求残差平方和、相关指数.
[解] (1)==6,
=≈79.86.
(2)由于y与x有线性相关关系,可设回归直线方程为=x+,
则=≈4.75,=79.86-6×4.75=51.36,
所以y关于x的回归直线方程为=4.75x+51.36.
(3)列出残差表如下:
i
1
2
3
4
5
6
7
yi
66
69
73
81
89
90
91
i
65.61
70.36
75.11
79.86
84.61
89.36
94.11
i
0.39
-1.36
-2.11
1.14
4.39
0.64
-3.11
所以残差的平方和为0.392+(-1.36)2+(-2.11)2+1.142+4.392+0.642+(-3.11)2=37.107 2.
相关指数R2=1-=1-≈0.944 6.
课时分层作业(一) 回归分析的基本思想及其初步应用
(建议用时:60分钟)
[基础达标练]
一、选择题
1.如图所示的是四张残差图,其中回归模型的拟合效果最好的是( )
B [四张残差图中,只有选项A,B中的残差图是水平带状区域分布,且选项B中的残差点分布集中在更狭窄的范围内,所以选项B中回归模型的拟合效果最好.]
2.在回归分析中,相关指数R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
B [∵R2=1-,
∴当R2越大时,
(yi-i)2越小,即残差平方和越小,故选B.]
3.某同学在研究性学习中,收集到某制药厂今年前5个月甲胶囊生产产量(单位:万盒)的数据如下表所示:
x(月份)
1
2
3
4
5
y(万盒)
5
5
6
6
8
若x,y线性相关,线性回归方程为=0.7x+,估计该制药厂6月份生产甲胶囊产量为( )
A.8.0万盒 B.8.1万盒
C.8.9万盒 D.8.6万盒
B [回归直线一定过样本点的中心.由已知数据可得=3,=6,代入线性回归方程,可得=-0.7=3.9,即线性回归方程为=0.7x+3.9.把x=6代入,可得=8.1,故选B.]
4.某化工厂为预测某产品的回收率y,而要研究它和原料有效成分含量之间的相关关系,现取了8对观测值,计算得i=52,i=228,=478,iyi=1 849,则y与x的线性回归方程是( )
A.=11.47+2.62x
B.=-11.47+2.62x
C.=2.62+11.47x
D.=11.47-2.62x
A [由题中数据得=6.5,=28.5,
∴===≈2.62,
=-≈28.5-2.62×6.5=11.47,
∴y与x的线性回归方程是=2.62x+11.47,故选A.]
5.若某地财政收入x与支出y满足回归方程=x++ei(单位:亿元)(i=1,2,…),其中=0.8,=2,|ei|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元
C.10.5亿元 D.9.5亿元
C [=0.8×10+2+ei=10+ei,
∵|ei|<0.5,
∴9.5<<10.5.]
二、填空题
6.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________.
1 [根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.]
7.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
=-10+6.5x [由题意知=2,=3,=6.5,
所以=-=3-6.5×2=-10,
即回归直线的方程为=-10+6.5x.]
8.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
-0.29 [把x=160代入=0.85x-82.71,
得=0.85×160-82.71=53.29,
所以残差=y-=53-53.29=-0.29.]
三、解答题
9.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少时间?
(注:=,=-)
[解] (1)散点图如图.
(2)由表中数据得iyi=52.5,
=3.5,=3.5,=54,
所以==0.7,
所以=-=1.05.
所以=0.7x+1.05.
回归直线如图中所示.
(3)将x=10代入线性回归方程,得=0.7×10+1.05=8.05,所以预测加工10个零件需要8.05小时.
10.已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x
14
16
18
20
22
y
12
10
7
5
3
(1)画出y关于x的散点图;
(2)求出回归直线方程;
(3)计算R2的值,并说明回归模型拟合程度的好坏(参考数据:=18,=7.4,=1 660,=327,iyi=620,(yi-i)2=0.3,(yi-)2=53.2).
[解] (1)散点图如图所示:
(2)因为=18,=7.4,=1 660,=327,iyi=620,
所以==-1.15,
=-=28.1.
即所求回归直线方程为:=-1.15x+28.1.
(3)(yi-i)2=0.3,(yi-)2=53.2,
R2=1-≈0.994.
故回归模型的拟合效果较好.
[能力提升练]
1.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和 (yi-i)2如下表:
甲
乙
丙
丁
散点图
残差平方和
115
106
124
103
哪位同学的试验结果体现拟合A,B两变量关系的模型效果更好( )
A.甲 B.乙
C.丙 D.丁
D [根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中 (yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.故选D.]
2.为研究女大学生体重和身高的关系,从某大学随机选取8名女大学生,其身高和体重数据如下表:
身高x/cm
165
165
157
170
175
165
155
170
体重y/kg
48
57
50
54
64
61
43
59
利用最小二乘法求得身高预报体重的回归方程为=0.849x-85.712,据此可求得R2≈0.64.下列说法正确的是( )
A.两组变量的相关系数为0.64
B.R2越趋近于1,表示两组变量的相关关系越强
C.女大学生的身高解释了64%的体重变化
D.女大学生的身高差异有64%是由体重引起的
C [用最小二乘法求得身高预报体重的回归方程为=0.849x-85.712,据此可求得R2≈0.64,即女大学生的身高解释了64%的体重变化,而随机误差贡献了剩余的36%,故选C.]
3.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围,令=ln y,求得回归直线方程为=0.25x-2.58,则该模型的回归方程为________.
y=e0.25x-2.58 [因为=0.25x-2.58,=ln y,所以y=e0.25x-2.58.]
4.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量x(单位:千箱)与单位成本y(单位:元)的资料进行线性回归分析,结果如下:=,=71,=79,iyi=1 481.则销量每增加1 000箱,单位成本下降________元.
1.818 2 [由题意知=≈-1.818 2,
=71-(-1.818 2)×≈77.36,=-1.818 2x+77.36,销量每增加1千箱,则单位成本下降1.818 2元.]
5.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=-;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
[解] (1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80.
所以=-=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-202+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.