中小学教育资源及组卷应用平台
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
学习指导 核心素养
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握求一元线性回归模型参数的最小二乘估计,会使用相关的统计软件,针对实际问题,会用一元线性回归模型进行预测. 1.数学抽象:一元线性回归模型.2.数学建模、数学运算:一元线性回归模型参数的最小二乘估计.
1.一元线性回归模型
我们称此关系式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
2.一元线性回归模型参数的最小二乘估计
(1)经验回归方程与最小二乘估计
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
(2)观测值、预测值、残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(3)用决定系数R2来比较两个模型的拟合效果,R2的计算公式为R2=1- .R2越小,残差平方和越大,模型的拟合效果越差;R2越大,残差平方和越小,模型的拟合效果越好.
1.在一元线性回归模型y=bx+a+e中,随机误差e产生的原因有哪些?
提示:(1)所用的确定性函数不恰当引起的误差;
(2)忽略了某些因素的影响;
(3)存在观测误差.
2.经验回归直线一定过成对样本数据(x1,y1),(x2,y2),…,(xn,yn)中的某一点吗?
提示:不一定.经验回归直线过(,),不一定过样本数据中的某一点.
1.判断正误(正确的打“√”,错误的打“×”)
(1)对于方程=x+,x增加一个单位时,y平均增加个单位.( )
(2)残差是随机误差的估计结果.( )
(3)利用经验回归方程求出的值是准确值.( )
答案:(1)√ (2)√ (3)×
2.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm) 具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中正确的是( )
A.y与x具有正的线性相关关系
B.经验回归直线过点(,)
C.若该大学某女生身高增加1 cm,则其体重约增加 0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:选ABC.由经验回归方程为=0.85x-85.71,知y随x的增大而增大,所以y与x具有正的线性相关关系,故A正确;由最小二乘法建立经验回归方程的过程知=x+=x+- (=-),所以经验回归直线过点(,),故B正确;利用经验回归方程可以估计因变量,但是个预测值,故C正确,D不正确.
3.为研究两个变量之间的关系,选择了4个不同的模型进行拟合,计算得它们的决定系数R2,其中拟合效果最好的模型是( )
A.决定系数R2为0.96
B.决定系数R2为0.75
C.决定系数R2为0.52
D.决定系数R2为0.34
解析:选A.决定系数R2越大、越趋近于1,拟合效果越好.
4.如图是一组数据(x,y)的散点图,经最小二乘法计算,y关于x的经验回归方程为=x+1,则=________.
解析:==2,
==2.6,
将(2,2.6)代入=x+1,解得=0.8.
答案:0.8
探究点1 经验回归方程
[问题探究]
利用经验回归方程进行预测所得值精确吗?
探究感悟:(1)所得的值只是一个估计值,不是精确值;
(2)变量x与y成线性相关关系时,经验回归方程才有意义,否则即使求出经验回归方程,也是毫无意义的,用其估计和预测的量也是不可信、无价值的.
例 在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y(μm)与腐蚀时间x(s)之间的一组观察值如表.
x(s) 5 10 15 20 30 40 50 60 70 90 120
y(μm) 6 10 10 13 16 17 19 23 25 29 46
(1)画出散点图;
(2)求y关于x的经验回归方程;
(3)利用经验回归方程预测时间为100 s时腐蚀深度为多少.
【解】 (1)散点图如图所示,
(2)从散点图中,我们可以看出样本点分布在一条直线附近,因而求经验回归方程有意义.
=(5+10+15+…+120)=,
=(6+10+10+…+46)=,
=5×6+10×10+15×10+…+120×46=13 910,
=52+102+152+…+1202=36 750,
所以=
=-=-0.304×=5.36.
故腐蚀深度y关于腐蚀时间x的经验回归方程为=0.304x+5.36.
(3)根据(2)求得的经验回归方程,当腐蚀时间为100 s时,=5.36+0.304×100=35.76(μm),即腐蚀时间为100 s 时腐蚀深度为约35.76 μm.
求经验回归方程的步骤
(1)计算平均数,.
(2)计算xi与yi的积,求
(3)计算
(4)将结果代入公式=求.
(5)用=-,求.
(6)写出经验回归方程.
(2021·成都七中期中)某地随着经济的发展,居民收入逐年增长,该地一银行连续五年年底的储蓄存款情况如下表所示.
年份x 2016 2017 2018 2019 2020
储蓄存款额y/千亿元 5 6 7 8 10
为了计算方便,工作人员将上表的数据进行了处理,令t=x-2 015, z=y-5,得到下表.
t 1 2 3 4 5
z 0 1 2 3 5
(1)求z关于t的经验回归方程;
(2)通过(1)中的方程,求出y关于x的经验回归方程;
(3)用所求经验回归方程预测到2022年年底,该地此银行储蓄存款额可达到多少?
解:(1) =3,=2.2,tizi=45,t=55,则==1.2,
=-=2.2 -1.2×3=-1.4.
所以z关于t的经验回归方程为=1.2t-1.4.
(2)=1.2t-1.4,代入t=x-2 015,z=y-5,
得-5=1.2(x-2 015)-1.4,即=1.2x-2 414.4.
故y关于x的经验回归方程为=1.2 x-2 414.4.
(3)将x=2 022代入=1.2 x-2 414.4中得,=1.2×2 022-2 414.4=12,
所以预测到2022年年底,该地此银行储蓄存款额可达到12千亿元.
探究点2 线性回归分析
[问题探究]
对一个问题的回归模型,怎样刻画回归的效果?
探究感悟:有三种方式刻画回归效果:(1)残差图法;(2)残差平方和法;(3)决定系数R2.
例 为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图,并求经验回归方程;
(2)求出R2;
(3)进行残差分析.
【解】 (1)散点图如图所示,
因为=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
计算得≈0.183,≈6.285,
所以所求经验回归方程为=6.285+0.183x.
(2)列表如下:,
yi-i 0.05 0.005 -0.08 -0.045 0.04 0.025
yi- -2.24 -1.37 -0.54 0.41 1.41 2.31
所以R2=1-≈0.999 1.
(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的回归模型的精度较高,由以上分析可知,弹簧长度与质量成线性关系.
对回归模型进行回归分析的方法
(1)残差平方和越小,模型的拟合效果越好.
(2)决定系数R2越大,说明模型的拟合效果越好.
需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.
已知某种商品的单价x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
解:计算可得=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=14×12+16×10+18×7+20×5+22×3=620,
所以=,
=-=7.4+1.15×18=28.1,
所以所求经验回归方程是 =-1.15x+28.1.
列出残差表:
y 12 10 7 5 3
12 9.7 7.4 5.1 2.8
y- 0 0.3 -0.4 -0.1 0.2
故回归模型的拟合效果很好.
探究点3 非线性回归分析
[问题探究]
有些成对变量的散点图并不具有线性回归的特征,应怎样处理?
探究感悟:可通过散点图选择适当类型的拟合函数,通过对变量的变换转化成线性回归模型解决.常见的拟合函数有(1)指数型函数:y=ebx+a类;(2)对数型函数:y=bln x+a类;(3)幂函数型:y=bxα+a类.
例 (2021·江西上饶中学高二期中)某企业为确定下一年投入某种产品的研发费用,需了解年研发费用x(单位:千万元)对年销售量y(单位:千万件)的影响,统计了近10年投入的年研发费用xi与年销售量yi (i=1,2,…,10)的数据,得到散点图如图所示.
(1)利用散点图判断y=a+bx和y=c·xd(其中c,d均为大于0的常数)哪一个更适合作为年销售量y和年研发费用x的回归方程类型(只要给出判断即可,不必说明理由);
(2)对数据作出如下处理,令ui=ln xi,vi=ln yi,得到相关统计量的值如下表.根据第(1)问的判断结果及表中数据,求y关于x的回归方程.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
【解】 (1)由散点图可知,选择回归类型y=c·xd更合适.
(2)对y=c·xd两边取对数,得ln y=ln c+dln x,
令ln c=,
则=+u.
由表中数据求得====,
===.
则=-u=-×=,即c=e.
所以年销售量y与年研发费用x的非线性经验回归方程为y=e.
解决非线性回归问题的步骤
某地今年上半年患某种传染病的人数y(人)与月份x(月)之间满足函数关系,模型为y=aebx,确定这个函数解析式.
月份x/月 1 2 3 4 5 6
人数y/人 52 61 68 74 78 83
解:设u=ln y,c=ln a,
得=+x,
则u与x的数据关系如下表:
x 1 2 3 4 5 6
u=ln y 3.951 2 4.110 9 4.219 5 4.304 1 4.356 7 4.418 8
当堂自测
1.(多选)下列说法中正确的是( )
A.样本相关系数r用来衡量两个变量之间线性相关程度的强弱,|r|越接近于1,相关程度越弱
B.经验回归直线=x+一定经过样本点的中心(,)
C.随机误差e满足E(e)=0,其方差D(e)的大小用来衡量预测的精确度
D.决定系数R2用来刻画回归模型的拟合效果,R2越小,说明模型的拟合效果越好
解析:选BC.样本相关系数r是衡量两个变量之间线性相关程度的量,|r|越接近于1,这两个变量线性相关程度越强,|r|越接近于0,线性相关程度越弱,A错误;经验回归直线=x+一定通过样本点的中心(,),B正确;随机误差e是衡量预测精确度的一个量,它满足E(e)=0,C正确;D决定系数R2用来刻画回归模型的拟合效果,R2越大,说明模型的拟合效果越好,D不正确.故选BC.
2.(2021·山西怀仁一中高二期中)已知变量x,y之间具有线性相关关系,其经验回归方程为=-3+x,若xi=20,yi=30,则的值为( )
A.1 B.3
C.-3 D.-1
解析:选B.因为i=20,所以==2,因为i=30,所以==3,又因为样本点中心()在回归直线=-3+x上,所以=-3+,即3=-3+2,解得=3,故选B.
3.(2021·重庆高二期末)若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单元:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元
解析:选D.因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,
其中b=0.7,a=3,所以得到y=0.7 x+3+e,
当x=10时,得y=0.7×10+3+e=10+e,
而|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.故选D.
4.(2021·山东省日照实验高级中学高二月考)在研究两个变量的线性相关关系时,观察散点图发现样本点集中于某一条曲线y=ebx+a的周围,令z=ln y,求得经验回归方程为=0.25x-2.58,则该模型的经验回归方程为________.
解析:由=0.25x-2.58得ln =0.25 x-2.58,
所以=e0.25x-2.58
答案:=e0.25x-2.58
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
HYPERLINK "http://www.21cnjy.com/" 21世纪教育网(www.21cnjy.com)