§8.2 一元线性回归模型及其应用
学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
知识点一 一元线性回归模型
称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
知识点二 最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中=,=-.
思考1 经验回归方程一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
答案 不一定.
思考2 点(,)在经验回归直线上吗?
答案 在.
知识点三 残差与残差分析
1.残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点四 对模型刻画数据效果的分析
1.残差图法
在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
2.残差平方和法
残差平方和(yi-i)2越小,模型的拟合效果越好.
3.R2法
可以用R2=1-来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.
思考 利用经验回归方程求得的函数值一定是真实值吗?
答案 不一定,他只是真实值的一个预测估计值.
1.求经验回归方程前可以不进行相关性检验.( × )
2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ )
3.利用经验回归方程求出的值是准确值.( × )
4.残差平方和越小,线性回归模型的拟合效果越好.( √ )
5.R2越小,线性回归模型的拟合效果越好.( × )
一、求经验回归方程
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的经验回归方程=x+;
(3)试根据求出的经验回归方程,预测记忆力为9的同学的判断力.
解 (1)散点图如图所示:
(2)==9,
==4,
=62+82+102+122=344,
iyi=6×2+8×3+10×5+12×6=158,
===0.7,
=-=4-0.7×9=-2.3,
故经验回归方程为=0.7x-2.3.
(3)由(2)中经验回归方程可知,当x=9时,=0.7×9-2.3=4,即预测记忆力为9的同学的判断力为4.
反思感悟 求经验回归方程可分如下四步来完成
(1)列:列表表示xi,yi,x,xiyi.
(2)算:计算,,,iyi.
(3)代:代入公式计算,的值.
(4)写:写出经验回归方程.
跟踪训练1 随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份 2015 2016 2017 2018 2019
时间代号t 1 2 3 4 5
储蓄存款y (千亿元) 5 6 7 8 10
(1)求y关于t的经验回归方程=t+;
(2)用所求经验回归方程预测该地区2021年(t=7)的人民币储蓄存款.
解 (1)由题意可知,n=5,=i==3,
=i==7.2.
又=55,
iyi=120,
计算得,=1.2,=-=7.2-1.2×3=3.6.
故所求经验回归方程为=1.2t+3.6.
(2)将t=7代入=1.2t+3.6,可得=1.2×7+3.6=12(千亿元),
所以预测该地区2021年的人民币储蓄存款为12千亿元.
二、线性回归分析
例2 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并借助残差平方和和R2说明回归模型拟合效果的好坏.
解 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
列出残差表:
yi-i 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以(yi-i)2=0.3,
(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
反思感悟 刻画回归效果的三种方法
(1)残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)R2法:R2=1-越接近1,表明模型的拟合效果越好.
跟踪训练2 为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求经验回归方程;
(2)求出R2;
(3)进行残差分析.
解 (1)散点图如图 .
=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
=2 275,=554.659 4,iyi=1 076.2,
计算得,≈0.183,≈6.285,
所求经验回归方程为=0.183x+6.285.
(2)残差表如下:
yi-i 0.05 0.005 -0.08 -0.045 0.04 0.025
yi- -2.237 -1.367 -0.537 0.413 1.413 2.313
所以(yi-i)2≈0.013 18,(yi-)2≈14.678 3.
所以R2≈1-≈0.999 1,
所以回归模型的拟合效果很好.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有,则需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系.
三、非线性回归
例3 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预测x=40时y的值.
解 (1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y=c1的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用经验回归模型来建立y与x之间的非线性经验回归方程了,数据可以转化为
x 21 23 25 27 29 32 35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
求得经验回归方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差表如下:
yi 7 11 21 24 66 115 325
i 6.443 11.101 19.125 32.950 56.770 128.381 290.325
i 0.557 -0.101 1.875 -8.950 9.23 -13.381 34.675
(3)当x=40时,=e0.272×40-3.849≈1 131.
反思感悟 非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示;
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示;
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
跟踪训练3 为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6
繁殖个数y 6 12 25 49 95 190
求y关于x的非线性经验回归方程.
解 作出散点图如图(1)所示.
由散点图看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.
由表中数据得到经验回归方程为=0.69x+1.115.因此细菌的繁殖个数y关于天数x的非线性经验回归方程为=e0.69x+1.115.
1.(多选)以下四个散点图中,两个变量的关系适合用线性回归模型刻画的是( )
答案 AC
解析 AC中的点分布在一条直线附近,适合线性回归模型.
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好( )
A.甲 B.乙 C.丙 D.丁
答案 A
解析 决定系数R2越大,表示回归模型的拟合效果越好.
3.已知人的年龄x与人体脂肪含量的百分数y的经验回归方程为y=0.577x-0.448,如果某人36岁,那么这个人的脂肪含量( )
A.一定是20.3%
B.在20.3%附近的可能性比较大
C.无任何参考数据
D.以上解释都无道理
答案 B
解析 将x=36代入经验回归方程得y=0.577×36-0.448≈20.3,故这个人的脂肪含量在20.3%附近的可能性较大,故选B.
4.由变量x与y相对应的一组成对样本数据(1,y1),(5,y2),(7,y3),(13,y4),(19,y5)得到的经验回归方程为=2x+45,则=________.
答案 63
解析 ∵=(1+5+7+13+19)=9,=2+45,
∴=2×9+45=63.
5.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln y,求得经验回归方程为=0.25x-2.58,则该模型的非线性经验回归方程为________.
答案 =e0.25x-2.58
解析 因为=0.25x-2.58,=ln y,
所以=e0.25x-2.58.
1.知识清单:
(1)一元线性回归模型.
(2)最小二乘法、经验回归方程的求法.
(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R2法.
2.方法归纳:数形结合、转化化归.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.
1.如果两个变量之间的线性相关程度很高,则其R2的值应接近于( )
A.0.5 B.2 C.0 D.1
答案 D
解析 R2越接近于1,相关程度越高,故选D.
2.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
答案 A
解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
3.工人工资y(元)与劳动生产率x(千元)的相关关系的经验回归方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元
答案 B
解析 因为经验回归方程的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.
4.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是( )
A.y=a·xb B.y=a+bln x
C.y=a·ebx D.y=a·
答案 B
解析 由散点图可知,此曲线类似对数函数型曲线,因此可用函数y=a+bln x模型进行拟合.
5.(多选)对于经验回归方程=x+ (>0),下列说法正确的是( )
A.当x增加一个单位时,的值平均增加个单位
B.点(,)一定在=x+所表示的直线上
C.当x=t时,一定有y=t+
D.当x=t时,y的值近似为t+
答案 ABD
解析 经验回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在经验回归直线上.
6.某地区近10年居民的年收入x与年支出y之间的关系大致符合=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元.
答案 12.1
解析 将x=15代入=0.8x+0.1,得=12.1.
7.若经验回归直线方程中的回归系数=0,则样本相关系数r=________.
答案 0
解析 样本相关系数r=与=的分子相同,故r=0.
8.某品牌服装专卖店为了解保暖衬衣的销售量y(件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:
时间 二月 上旬 二月 中旬 二月 下旬 三月 上旬
旬平均气温x(℃) 3 8 12 17
旬销售量y(件) 55 m 33 24
由表中数据算出经验回归方程=x+中的=-2,样本点的中心为(10,38).
(1)表中数据m=________;
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为________件.
答案 (1)40 (2)14
解析 (1)由=38,得m=40.
(2)由=-得=58,故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
9.已知变量x,y有如下对应数据:
x 1 2 3 4
y 1 3 4 5
(1)作出散点图;
(2)用最小二乘法求关于x,y的经验回归方程.
解 (1)散点图如图所示.
(2)==,==,
iyi=1+6+12+20=39,=1+4+9+16=30,
==,
=-×=0,
所以=x即为所求的经验回归方程.
10.由某种设备的使用年限xi(年)与所支出的维修费yi(万元)的数据资料算得如下结果,=90,iyi=112,i=20,i=25.
(1)求所支出的维修费y关于使用年限x的经验回归方程=x+;
(2)①判断变量x与y之间是正相关还是负相关;
②当使用年限为8年时,试估计支出的维修费是多少?
解 (1)∵i=20,i=25,
∴=i=4,=i=5,
∴===1.2,
=-=5-1.2×4=0.2.
∴所求经验回归方程为=1.2x+0.2.
(2)①由(1)知=1.2>0,∴变量x与y之间是正相关.
②由(1)知,当x=8时,=1.2×8+0.2=9.8,
即使用年限为8年时,支出的维修费约是9.8万元.
11.设两个变量x和Y之间具有线性相关关系,它们的样本相关系数是r,Y关于x的经验回归方程的回归系数为,回归截距是,那么必有( )
A.与r的符号相同 B.与r的符号相同
C.与r的符号相反 D.与r的符号相反
答案 A
解析 与r的符号相同.
12.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,n(n≥10)个城市职工购买食品的人均支出y(千元)与人均月消费支出x(千元)具有线性相关关系,且经验回归方程为=0.4x+1.2,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为( )
A.60% B.64% C.58% D.55%
答案 B
解析 把x=5代入经验回归方程=0.4x+1.2中,得=0.4×5+1.2=3.2,则该城市职工的月恩格尔系数约为=0.64=64%,故选B.
13.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中正确的是( )
A.y与x具有正的线性相关关系
B.经验回归方程过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可判定其体重必为58.79 kg
答案 ABC
解析 A,B,C均正确,是经验回归方程的性质,D项是错误的,经验回归方程只能预测学生的体重,应为大约58.79 kg.
14.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm,170 cm,182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.
答案 185
解析 因为儿子的身高与父亲的身高有关,所以设儿子的身高为Y(单位:cm),父亲身高为X(单位:cm),根据数据列表:
X 173 170 176
Y 170 176 182
由表中数据,求得回归系数=1,=3.
于是儿子身高与父亲身高的关系式为Y=X+3,
当X=182时,Y=185.
故预测该老师的孙子的身高为185 cm.
15.已知变量y关于x的非线性经验回归方程为=ex-0.5,其一组数据如下表所示:
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为( )
A.e5 B. C.e7 D.
答案 D
解析 将式子两边取对数,得到ln =x-0.5,
令z=ln ,得到z=x-0.5,
列出x,z的取值对应的表格如下:
x 1 2 3 4
z 1 3 4 6
则==2.5,==3.5,
∵(,)满足z=x-0.5,
∴3.5=×2.5-0.5,解得=1.6,
∴z=1.6x-0.5,∴=e1.6x-0.5,
当x=5时,=e1.6×5-0.5=.
16.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1)求经验回归方程=x+,其中=-20;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解 (1)由于=×(8+8.2+8.4+8.6+8.8+9)=8.5,
=×(90+84+83+80+75+68)=80.
所以=-=80+20×8.5=250,
从而经验回归方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.
故当单价定为8.25元时,工厂可获得最大利润.