8.2 一元线性回归模型及其应用
【学习目标】
学习目标 素养要求
1.了解随机误差、残差、残差图的概念. 2.会通过分析残差判断线性回归模型的拟合效果. 3.了解常见的非线性回归模型转化为线性回归模型的方法. 数学运算 数学建模
【自主学习】
一、回归分析的相关概念
1.回归分析
回归分析是对具有 的两个变量进行统计分析的一种常用方法.
2.回归直线方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,其最小二乘估计分别为:
其中=i,=i, 称为样本点的中心.
3.线性回归模型
线性回归模型为 ,其中 为模型的未知参数, 称为随机误差,自变量x称为 变量,因变量y称为 变量.
二、残差的概念
对于样本点(x1,y1),(x2,y2),…,(xn,yn)而言,它们的随机误差为ei= ,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的 .
三、刻画回归效果的方式
残差图 作图时纵坐标为 ,横坐标可以选为 ,或 ,或 等,这样作出的图形称为残差图
残差 图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度 ,说明模型拟合精度越高,回归方程的预报精度越高
残差 平方和 残差平方和为 ,残差平方和 ,模型的拟合效果越好
相关 指数R2 R2= ,R2表示解释变量对于预报变量变化的贡献率,R2越接近于 ,表示模型的拟合效果越好
【小试牛刀】
1、思维辨析(对的打“√”,错的打“×”)
(1)经验回归方程适用于一切样本和总体.( )
(2)经验回归方程一般都有局限性.( )
(3)样本取值的范围会影响经验回归方程的适用范围.( )
(4)经验回归方程得到的预测值是预测变量的精确值.( )
2.如果记录了x,y的几组数据分别为(0,1),(1,3),(2,5),(3,7),那么y关于x的经验回归直线必过点( )
A.(2,2) B.(1.5,2) C.(1,2) D.(1.5,4)
【经典例题】
题型一 求线性回归方程
点拨:求线性回归方程的基本步骤
1.列出散点图,从直观上分析数据间是否存在线性相关关系;只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.
2.计算:,,,,iyi.
3.代入公式求出=x+中参数,的值.
4.写出线性回归方程并对实际问题作出估计.
例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
(1)请画出上表数据的散点图(要求:点要描粗);
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.
【跟踪训练】1 为了探究车流量与PM2.5的浓度是否相关,现采集到北方某城市2016年12月份某星期星期一到星期日某一时间段车流量与PM2.5的数据如下表:
时间 星期一 星期二 星期三 星期四 星期五 星期六 星期日
车流量x/万辆 1 2 3 4 5 6 7
PM2.5的浓度y(微克/立方米) 28 30 35 41 49 56 62
(1)由散点图知y与x具有线性相关关系,求y关于x的线性回归方程;
(2)①利用(1)所求的回归方程,预测该市车流量为8万辆时PM2.5的浓度;
②规定:当一天内PM2.5的浓度平均值在(0,50]内,空气质量等级为优;当一天内PM2.5的浓度平均值在(50,100]内,空气质量等级为良.为使该市某日空气质量为优或良,则应控制当天车流量在多少万辆以内?(结果以万辆为单位,保留整数.)
参考公式:回归直线的方程是=x+,其中=,=-.
题型二 线性回归分析
点拨:“相关指数R2、残差图”在回归分析中的作用
1.相关指数R2是用来刻画回归效果的,由R2=1-可知,R2越大,意味着残差平方和越小,也就是说模型的拟合效果就越好.
2.残差图也是用来刻画回归效果的,判断依据是残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合精度越高,回归方程预报的精度也越高.
例2 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明残差变量对有效穗的影响占百分之几?
(参考数据:=5 101.56,=9 511.43,iyi=6 746.76)
【跟踪训练】2已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
题型三 非线性回归分析
点拨:解决非线性回归问题的方法及步骤
1.确定变量:确定解释变量为x,预报变量为y;
2.画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;
3.变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
例如:①反比例函数y=a+可作变换t=,得y=a+bt.
②幂函数型y=axb(a>0)可作变换Y=lny,m=lna,t=lnx,则有Y=m+bt.
③指数型函数y=kabx(a>0且a≠1,k>0)可作变换Y=lny,m=lnk,则有:Y=m+(blna)x
4.分析拟合效果:通过计算相关指数等来判断拟合效果;
5.写出非线性回归方程.
例3 为了研究某种细菌随时间x的变化繁殖个数y的变化,收集数据如下:
时间x/天 1 2 3 4 5 6
繁殖个数y 6 12 25 49 95 190
(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2)描述解释变量与预报变量之间的关系;
(3)计算残差、相关指数R2.
【跟踪训练】3 电容器充电后,电压达到100 V,然后开始放电.由经验知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示.现测得时间t(s)时的电压U(V)如下所示:
t 0 1 2 3 4 5 6 7 8 9 10
U 100 75 55 40 30 20 15 10 10 5 5
试求电压U对时间t的回归方程.
【当堂达标】
1.已知变量x与变量y之间具有相关关系,并测得如下一组数据:
x 6 5 10 12
y 6 5 3 2
则变量x与y之间的线性回归直线方程可能为( )
A.=0.7x-2.3 B.=-0.7x+10.3
C.=-10.3x+0.7 D.=10.3x-0.7
2.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+blnx
3.已知变量x,y线性相关,由观测数据算得样本的平均数=4,=5,经验回归方程=x+中的系数,满足+=4,则经验回归方程为________.
4.某种产品的广告费用支出x与销售额y(单元:百万元)之间有如下的对应数据:
x/百万元 2 4 5 6 8
y/百万元 30 40 60 50 70
(1)画出散点图;
(2)求线性回归方程;
(3)试预测广告费用支出为10百万元时的销售额.
5.关于x与y有如下数据:
x 2 4 5 6 8
y 30 40 60 50 70
有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.
【参考答案】
【自主学习】
一、1. 相关关系 2. (,) 3.y=bx+a+e a和b e 解释 预报
二、yi-bxi-a 残差
三、残差 样本编号 身高数据 体重的估计值 越窄 (yi-i)2 越小
1- 1
【小试牛刀】
1.(1)× (2)√ (3)√ (4)×
2.D解析:因为==1.5,==4,所以样本点的中心为(1.5,4),而经验直线过样本点的中心.故选D.
【经典例题】
例1 解:(1)如图:
(2)iyi=6×2+8×3+10×5+12×6=158,==9,
==4,=62+82+102+122=344,
===0.7,=- =4-0.7×9=-2.3,
故线性回归方程为=0.7x-2.3.
(3)由(2)中线性回归方程当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.
【跟踪训练】1 (1)由数据可得=(1+2+3+4+5+6+7)=4,
=(28+30+35+41+49+56+62)=43,iyi=1372,=140,===6,=-=43-6×4=19,故y关于x的线性回归方程为=6x+19.
(2)①当车流量为8万辆,即x=8时,=6×8+19=67.故当车流量为8万辆时,PM2.5的浓度约为67微克/立方米.
②根据题意得6x+19≤100,即x≤13.5,故要使该市某日空气质量为优或良,应控制当天车流量在13万辆以内.
例2 解:(1)散点图如下.
(2)由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为=x+.=30.36,=43.5,
=5 101.56,=9 511.43.
=1 320.66,2=921.729 6,
iyi=6 746.76.则=≈0.29,=-≈34.70.
故所求的回归直线方程为=0.29x+34.70.当x=56.7时,=0.29×56.7+34.70=51.143.
估计成熟期有效穗为51.143.
(3)由于i=xi+,可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,残差平方和:≈8.43.
(4)(yi-)2=50.18,故R2=1-≈0.832.所以解释变量小麦基本苗数对总效应约贡献了83.2%,残差变量贡献了约1-83.2%=16.8%.
【跟踪训练】2 解:计算可得=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,=142+162+182+202+222=1 660,
iyi=14×12+16×10+18×7+20×5+22×3=620,
所以==-1.15,=-=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
列出残差表:
y 12 10 7 5 3
12 9.7 7.4 5.1 2.8
y- 0 0.3 -0.4 -0.1 0.2
所以(yi-i)2=0.3,又(yi-)2=53.2,所以R2=1-≈0.994.
故回归模型的拟合效果很好.
例3 (1)由表中数据作散点图如下图所示.
(2)由散点图看出样本点分布在一条指数函数y=c1ec2x的图象的周围,其中c1和c2是待定系数.于是令z=ln y,则z=bx+a(a=ln c1,b=c2),因此变换后的样本点应该分布在直线z=bx+a的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
由表中数据得到线性回归方程=0.69x+1.115.
因此细菌繁殖个数关于时间的回归方程为=e0.69x+1.115.
(3)列出残差表:
编号i 1 2 3 4 5 6
i 6.08 12.12 24.17 48.18 96.06 191.52
yi 6 12 25 49 95 190
i -0.08 -0.12 0.83 0.82 -1.06 -1.52
=(yi-i)2=4.8161,(yi-)2=24630.1,R2=1-≈0.9998.
故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好.
【跟踪训练】3解:对U=Aebt两边取自然对数得ln U=ln A+bt
令y=ln U,a=ln A,即=+t,
t 0 1 2 3 4 5
y 4.6 4.3 4.0 3.7 3.4 3.0
t 6 7 8 9 10
y 2.7 2.3 2.3 1.6 1.6
即ln U=-0.3t+4.6,所以U^=e-0.3t+4.6.
【当堂达标】
1.B 解析:根据表中数据,得=(6+5+10+12)=,=(6+5+3+2)=4,且变量y随变量x的增大而减小,是负相关,所以,验证=时,=-0.7×+10.3≈4,即回归直线=-0.7x+10.3过样本中心点(,).故选B.
2.D 解析:由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是y=a+blnx.故选D.
3. =x+ 解析:经验回归方程=x+过样本中心点(4,5),所以4+=5;
又+=4,解方程组得=,=,所以经验回归方程为:=x+.
4.(1)散点图如图所示:
(2)列出下表,并用科学计算器进行有关计算:
i 1 2 3 4 5 合计
xi 2 4 5 6 8 25
yi 30 40 60 50 70 250
xiyi 60 160 300 300 560 1 380
x 4 16 25 36 64 145
所以,==5,==50,=145,iyi=1 380.于是可得===6.5,=- =50-6.5×5=17.5.所以所求的线性回归方程为=6.5x+17.5.
(3)根据(2)中求得的线性回归方程,当广告费用支出为10百万元时,=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.
5.解:由(1)可得yi-i与yi-的关系如下表:
yi-i -0.5 -3.5 10 -6.5 0.5
yi- -20 -10 10 0 20
∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.845.
由(2)可得yi-i与yi-的关系如下表:
yi-i -1 -5 8 -9 -3
yi- -20 -10 10 0 20
∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,
(yi-)2=(-20)2+(-10)2+102+02+202=1 000.
∴R=1-=1-=0.82,
由于R=0.845,R=0.82,0.845>0.82,
∴R>R.
∴(1)的拟合效果好于(2)的拟合效果.