第2课时 非线性回归模型及回归分析
1.一组数据(xi,yi)经过分析,提出了四种回归模型①②③④,四种模型的残差平方和的值分别是1.23,0.80,0.12,1.36.则拟合效果最好的是( )
A.模型① B.模型② C.模型③ D.模型④
2.已知变量y关于变量x的经验回归方程为=bln x+0.24,其一组数据如表所示:
x e e3 e4 e6 e7
y 1 2 3 4 5
若x=e10,则y的值大约为( )
A.4.94 B.5.74 C.6.81 D.8.04
3.如图是一组实验数据的散点图,拟合方程为y=+c(x>0),令t=,则y关于t的经验回归直线过点(2,5),(12,25),则当y∈(1.01,1.02)时,x的取值范围是( )
A.(0.01,0.02) B.(50,100)
C.(0.02,0.04) D.(100,200)
4.(多选)某研究小组采集了5组数据,作出如图所示的散点图.若去掉D(3,10)后,下列说法正确的是( )
A.相关系数r变小
B.决定系数R2变大
C.残差平方和变大
D.解释变量x与预报变量y的相关性变强
5.(多选)某种商品的价格x(单位:元/kg)与日需求量y(单位:kg)之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得经验回归方程=x+14.4,则以下说法正确的是( )
A.样本相关系数r>0
B.=-0.32
C.若该商品的价格为35元/kg,则日需求量大约为3.2 kg
D.第四个样本点对应的残差为-0.4
6.某种产品的广告费支出x(单位:万元)与销售额y(单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y与x的经验回归方程为=6.5x+17.5,则当广告支出5万元时,残差为 .
7.在研究气温和热茶销售杯数的关系时,若求得决定系数R2≈0.85,则表明气温解释了 的热茶销售杯数变化,而随机误差贡献了剩余的 ,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
8.共享汽车进驻城市,绿色出行引领时尚,某市有统计数据显示,某站点5天的使用汽车用户的数据如下,用两种模型①y=bx+a;②y=b+a分别进行拟合,进行残差分析得到如表所示的残差值及一些统计量的值:
日期x(天) 1 2 3 4 5
用户y(人) 13 22 45 55 68
模型①的残差值 -1.1 -2.8 -1.2 -1.9 0.4
模型②的残差值 0.3 -5.4 -3.2 -1.6 3.8
(1)残差值的绝对值之和越小说明模型拟合效果越好,根据残差,比较模型①,②的拟合效果,应选择哪一个模型?并说明理由;
(2)求出(1)中所选模型的经验回归方程.
(参考数据:=55,xiyi=752)
9.已知指数曲线y=aebx进行线性变换后得到的经验回归方程为u=1-x,则二次函数y=x2+bx+a的单调递增区间为( )
A.(0,+∞) B.(,+∞)
C.(,+∞) D.(1,+∞)
10.(多选)某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如下表所示.
广告支出费用x 2.2 2.6 4.0 5.3 5.9
销售量y 3.8 5.4 7.0 11.6 12.2
根据表中的数据可得经验回归方程为=2.27x+,R2≈0.96,以下说法正确的是( )
A.第三个样本点对应的残差=-1
B.在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C.该模型拟合效果较好
D.用该经验回归方程可以很准确地预测广告费用为20万元时的销售量
11.随着互联网的发展,“美团单车”“哈啰出行”等共享单车服务在我国各城市迅猛发展.为掌握共享单车在某地区的发展情况,某调查机构从该地区抽取了4个城市,分别收集和分析了共享单车的A,B两项指标数xi,yi(i=1,2,3,4),数据如表所示.由表可得y关于x的经验回归方程为=4x2+a,则此经验回归模型中A指标数x=2的残差为( )
A指标数x 1 2 3 4
B指标数y 6 12 35 63
A.0 B.-1 C.-2 D.-3
12.某果园种植“糖心苹果”已有十余年,为了提高利润,该果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图是2014年到2023年,该果园每年的投资金额x(单位:万元)与年利润增量y(单位:万元)的散点图.
该果园为了预测2024年投资金额为20万元时的年利润增量,建立了y关于x的两个经验回归模型.
模型①:由最小二乘法可求得y关于x的经验回归方程为=2.50x-2.50;
模型②:由图中样本点的分布,可以认为样本点集中在曲线y=bln x+a的附近,令t=ln x,则y=b·t+a,且有ti=22.00,yi=230,tiyi=569.00,=50.92.
(1)根据所给的统计量,求模型②中y关于x的经验回归方程;
(2)根据下列表格中的数据,比较两种模型的决定系数R2,并选择拟合精度更高、更可靠的模型,预测投资金额为20万元时的年利润增量(结果保留两位小数).
回归模型 模型① 模型②
经验回归方程 =2.50x-2.50 =ln x+
(yi-)2 102.28 36.19
附:==,=-,
R2=1-.
参考数据:ln 2≈0.693 1,ln 5≈1.609 4.
第2课时 非线性回归模型及回归分析
1.C 残差平方和越小则拟合效果越好,而模型③的残差平方和最小,所以C正确.故选C.
2.C 令t=ln x,则=bt+0.24.由题意得,=4.2,=3,由经验回归直线过样本的中心点,有b=,所以=ln x+0.24,将x=e10代入得≈6.81.故选C.
3.D 根据题意可得y=bt+c(t>0),由y关于t的经验回归直线过点(2,5),(12,25)可得:所以所以y=2t+1,由y∈(1.01,1.02)可得1.01<2t+1<1.02,所以0.005<t<0.01,所以0.005<<0.01,所以100<x<200,故选D.
4.BD 根据散点图可知,去掉点D(3,10)后,y与x的线性相关性加强,且为正相关,相关系数r变大,则A错,D对;去掉点D(3,10)后,残差平方和变小,则R2变大,B对,C错.故选B、D.
5.BCD 对于A、B,由题表中的数据,得==20,==8,将,代入=x+14.4得=-0.32,所以A选项说法错误,B选项说法正确;对于C,将x=35代入=-0.32x+14.4,得=3.2,所以日需求量大约为3.2 kg,所以C选项说法正确;对于D,第四个样本点对应的残差为y4-=6-(-0.32×25+14.4)=-0.4,所以D选项说法正确.故选B、C、D.
6.10 解析:当x=5时,=6.5×5+17.5=50,表格中对应y=60,于是残差为60-50=10.
7.85% 15% 解析:由决定系数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.
8.解:(1)应该选择模型①.
模型①的残差值的绝对值之和为1.1+2.8+1.2+1.9+0.4=7.4,
模型②的残差值的绝对值之和为0.3+5.4+3.2+1.6+3.8=14.3,
∵7.4<14.3,∴模型①的拟合效果较好,应该选模型①.
(2)由题可知:==3,==40.6,
xiyi=752,=55.
∴====14.3,
=-=40.6-14.3×3=-2.3.
∴y关于x的经验回归方程为=14.3x-2.3.
9.C ∵y=aebx,∴两边取对数,作线性变化得ln y=ln(aebx)=ln a+ln ebx=ln a+bx,由于指数曲线y=aebx进行线性变换后得到的经验回归方程为u=1-x,则u=ln y ,ln a=1,b=-1,即a=e,所以二次函数y=x2+bx+a即y=x2-x+e,抛物线开口向上,对称轴为x= ,则函数y=x2+bx+a的单调递增区间为(,+∞),故选C.
10.AC 对于A项:由题意得==4,==8,代入=2.27x+,得=-1.08,故=2.27x-1.08,所以=7-(2.27×4.0-1.08)=-1,故A项正确;对于B、C项:由于R2≈0.96,所以该回归模型拟合的效果比较好,故C项正确;故对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,故B项错误;对于D项:由于样本的取值范围会影响回归方程的使用范围,而广告费用20万元远大于表格中广告费用值,故用该经验回归方程预测广告费用为20万元时的销售量不一定准确,故D项错误.故选A、C.
11.D 因为=4x2+a是非线性的,所以当将其看作y关于x2的函数时,即为线性方程,则=7.5,=29,所以29=4×7.5+a,得a=-1,所以=4x2-1.将x=2代入方程可得=15,则12-15=-3,所以残差为-3.故选D.
12.解:(1)由ti=22.00,yi=230,
得=2.2,=23,
所以=
==25,
=-=23-25×2.2=-32.
所以模型②中,y关于x的经验回归方程为=25ln x-32.
(2)由表中的数据,有102.28>36.19,
则1-<1-,
所以模型①的R2小于模型②的R2,说明回归模型②刻画的拟合效果更好;
当x=20时,模型②的年利润增量的预测值为=25ln 20-32=25(2ln 2+ln 5)-32≈25(2×0.693 1+1.609 4)-32=42.89(万元).
2 / 3第2课时 非线性回归模型及回归分析
设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如下表所示:
第x天 1 4 9 16 25 36 49
高度y/cm 0 4 7 9 11 12 13
作出这组数据的散点图近似描述y与x的关系,很显然,这些散点不在一条直线附近.
【问题】 你能求出这个函数模型吗?
知识点一 非线性回归方程
1.非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
2.非线性经验回归方程
当回归方程不是形如=x+(,∈R)时,称之为非线性经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间的非线性经验回归方程.
知识点二 残差分析
1.残差及残差图
(1)对于响应变量Y,通过观测得到的数据称为 ,通过经验回归方程得到的称为 , 减去 所得的差称为残差;
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观测值等,这样作出的图形称为残差图.
2.残差分析
是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为 .
知识点三 对模型刻画数据效果的分析
1.残差图法:在残差图中,如果残差点比较均匀地集中在以 ,则说明经验回归方程较好地刻画了两个变量的关系,这样的带状区域的宽度越窄,说明模型拟合精度 .
2.残差平方和法:残差平方和 越小,模型的拟合效果越好.
3.决定系数R2法:可以用R2=1-来比较两个模型的拟合效果,R2越 ,模型的拟合效果越好,R2越 ,模型的拟合效果越差.
【想一想】
利用经验回归方程求得的函数值一定是真实值吗?
1.判断正误.(正确的画“√”,错误的画“×”)
(1)残差平方和越接近0, 线性回归模型的拟合效果越好.( )
(2)R2越小, 线性回归模型的拟合效果越好.( )
(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
则回归模型拟合效果最好的是( )
A.甲 B.乙
C.丙 D.丁
3.某校数学学习兴趣小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,由试验数据得到如图所示的散点图.由此散点图,可以得出最适宜作为发芽率y和温度x的回归模型的是( )
A.y=a+bx B.y=a+bln x
C.y=a+bex D.y=a+bx2
题型一 求非线性经验回归方程
【例1】 某地区不同身高x(单位:cm)的未成年男性的体重平均值y(单位:kg)如下表:
身高x(cm) 60 70 80 90 100
体重y(kg) 6.13 7.90 9.99 12.15 15.02
身高x(cm) 110 120 130 140
体重y(kg) 17.50 20.92 26.86 31.11
已知ln y与x之间存在很强的线性相关性.
(1)据此建立y关于x的经验回归方程;(系数保留两位小数)
(2)若体重超过相同身高的男性的体重平均值的1.2倍为偏胖,低于0.8倍为偏瘦,则这个地区一名身高为150 cm,体重为47 kg的男性的体重是否正常?
参考数据:(xiln yi)≈2 522,ln yi≈24.02,e3.67≈39.25.
通性通法
非线性经验回归方程的求法
【跟踪训练】
1.若一函数模型为y=ax2+bx+c(a≠0),将y转化为t的经验回归方程,则需做变换t=( )
A.x2 B.(x+a)2
C.(x+)2 D.以上都不对
2.已知变量y关于x的非线性经验回归方程为y=ebx-0.5,若对y=ebx-0.5两边取自然对数,可以发现ln y与x线性相关,现有一组数据如下表所示,x=5时,预测y值为 .
x 1 2 3 4
y e e3 e4 e6
题型二 残差与残差分析
【例2】 (1)对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为=2x+,若样本点(r,1)与(1,s)的残差相同,则有( )
A.r=s B.s=2r
C.s=-2r+3 D.s=2r+1
通性通法
1.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
2.残差是随机误差的估计值,=yi-.
【跟踪训练】
已知某成对样本数据的残差图如图,则样本点数据中可能不准确的是从左到右第 个.
题型三 残差平方和与决定系数R2
【例3】 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)求y关于x的经验回归方程;
(2)借助残差平方和与R2说明回归模型拟合效果的好坏.
(参考公式及数据:=,=-,=1 660,xiyi=620,(yi-)2=53.2)
通性通法
刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好;
(3)决定系数法:R2=1-越接近1,表明模型的拟合效果越好.
【跟踪训练】
假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
若由最小二乘法计算得经验回归方程=0.29x+34.7.
(1)计算各组残差,并计算残差平方和;
(2)求R2,并说明回归模型拟合效果的好坏.
1.某种产品的广告支出费用x(单位:万元)与销售额y(单位:万元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y关于x的经验回归方程为=6.5x+17.5,则当广告支出费用为5万元时,残差为( )
A.10万元 B.14万元 C.23万元 D.24万元
2.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令z=ln y,求得经验回归方程为=0.25x-2.58,则该模型的非线性经验回归方程为 .
3.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:℃)关于时间x(单位:min)的回归方程模型,通过实验收集在25 ℃室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据及相应散点图,并对数据做初步处理,如下表:
(xi-)(yi-) (xi-)(wi-)
73.5 3.85 -95 -2.24
表中:wi=ln(yi-25),=wi.
假如该茶水温度y关于时间x的经验回归方程为=·cx+25,请求出此经验回归方程.
附:(1)对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=+x的斜率和截距的最小二乘估计分别为=,=-;
(2)参考数据:e-0.08≈0.92,e4.09≈60,ln 7≈1.9,ln 3≈1.1,ln 2≈0.7.
第2课时 非线性回归模型及回归分析
【基础知识·重落实】
知识点二
1.(1)观测值 预测值 观测值 预测值
2.残差 残差分析
知识点三
1.横轴为对称轴的水平带状区域内 越高
2.()2 3.大 小
想一想
提示:不一定.只是真实值的一个预测值.
自我诊断
1.(1)√ (2)× (3)√
2.A 决定系数R2越大,表示回归模型的拟合效果越好.
3.B 由散点图可知,数据分布成递增趋势,但是呈现上凸效果,即增加越来越缓慢.A中,y=a+bx是直线型,均匀增长,不符合要求;B中,y=a+bln x是对数型,增长越来越缓慢,符合要求;C中,y=a+bex是指数型,爆炸式增长,增长越来越快,不符合要求;D中,y=a+bx2是二次函数型,图象既有上升,又有下降,不符合要求.
【典型例题·精研析】
【例1】 解:(1)由已知可得=100,
=100×(62+72+…+142)=96 000,
∴-9=96 000-90 000=6 000.
又(xiln yi)≈2 522,=≈2.67,
∴≈≈0.02,
=2.67-0.02×100=0.67,
∴ln =0.02x+0.67,
∴经验回归方程为=e0.02x+0.67.
(2)当x=150时,=e3.67≈39.25,而39.25×1.2=47.1>47,
∴该名男性的体重是正常的.
跟踪训练
1.C y=ax2+bx+c=a(x+)2+(a≠0),可令t=(x+)2,则y=at+为y关于t的经验回归方程.
2.e7.5 解析:对y=ebx-0.5两边取对数,得ln y=bx-0.5,令z=ln y则z=bx-0.5,列表如下:
x 1 2 3 4
y e e3 e4 e6
z 1 3 4 6
==2.5,==3.5 ,代入=b-0.5得3.5=b·2.5-0.5,故b=1.6,故z=1.6x-0.5,y=e1.6x-0.5,当x=5时,y=e1.6×5-0.5=e7.5.
【例2】 (1)A (2)C 解析:(1)用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
(2)样本点(r,1)的残差为1-2r-,样本点(1,s)的残差为s--2,依题意得1-2r-=s--2,故s=-2r+3.
跟踪训练
6 解析:原始数据中的可疑数据往往是残差绝对值过大的那个数据,即偏离平衡位置过大.
【例3】 解:(1)=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
(2)列出残差表为
yi- 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以(yi-)2=0.3,且(yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
跟踪训练
解:(1)由=xi+,
可以算得=yi-.
分别为=0.35,=0.718,=-0.5,=-2.214,=1.624,
所以残差平方和为()2≈8.43.
(2)(yi-)2=50.18,
故R2=1-≈1-≈0.832.
所以回归模型的拟合效果较好.
随堂检测
1.A 当x=5时,销售额的预测值为=5×6.5+17.5=50,残差为60-50=10万元.故选A.
2.=e0.25x-2.58 解析:因为=0.25x-2.58,z=ln y,所以=e0.25x-2.58.
3.解:由y=d·cx+25,得y-25=d·cx,两边取自然对数,得ln(y-25)=ln d+xln c,
令w=ln(y-25),则w=ln d+xln c,
=xi==3,=(-3)2+(-2)2+(-1)2+12+22+32=28,
结合表中数据,
得ln c===-0.08,
结合参考数据可得c=e-0.08≈0.92,由ln d=-ln c=3.85-3×(-0.08)=4.09,得d=e4.09≈60,
所以茶水温度y关于时间x的经验回归方程为=60×0.92x+25.
4 / 5(共69张PPT)
第2课时
非线性回归模型及回归分析
目录
基础知识·重落实
01
典型例题·精研析
02
知能演练·扣课标
03
基础知识·重落实
01
课前预习 必备知识梳理
设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据
如下表所示:
第x天 1 4 9 16 25 36 49
高度
y/cm 0 4 7 9 11 12 13
作出这组数据的散点图近似描述y与x的关系,很显然,这
些散点不在一条直线附近.
【问题】 你能求出这个函数模型吗?
知识点一 非线性回归方程
1. 非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如
果样本点没有分布在某个带状区域内,就称这两个变量之间不具有
线性相关关系,此时不能直接利用经验回归方程来建立两个变量之
间的关系.
2. 非线性经验回归方程
当回归方程不是形如 = x+ ( , ∈R)时,称之为非线性
经验回归方程.当两个变量不呈线性相关关系时,依据样本点的分
布选择合适的曲线方程来拟合数据,可通过变量代换,利用线性回
归模型建立两个变量间的非线性经验回归方程.
知识点二 残差分析
1. 残差及残差图
(1)对于响应变量Y,通过观测得到的数据称为 ,通
过经验回归方程得到的 称为 , 减
去 所得的差称为残差;
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变
量的观测值等,这样作出的图形称为残差图.
观测值
预测值
观测值
预测值
2. 残差分析
是随机误差的估计结果,通过对残差的分析可以判断模型
刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方
面工作称为 .
残差
残差分析
知识点三 对模型刻画数据效果的分析
1. 残差图法:在残差图中,如果残差点比较均匀地集中在以
,则说明经验回归方程较好地刻画了两
个变量的关系,这样的带状区域的宽度越窄,说明模型拟合精
度 .
2. 残差平方和法:残差平方和 越小,模型的拟合效果
越好.
横轴为
对称轴的水平带状区域内
越高
( )2
3. 决定系数R2法:可以用R2=1- 来比较两个模型的拟
合效果,R2越 ,模型的拟合效果越好,R2越 ,模型
的拟合效果越差.
大
小
【想一想】
利用经验回归方程求得的函数值一定是真实值吗?
提示:不一定.只是真实值的一个预测值.
1. 判断正误.(正确的画“√”,错误的画“×”)
(1)残差平方和越接近0, 线性回归模型的拟合效果越好.
( √ )
(2)R2越小, 线性回归模型的拟合效果越好. ( × )
(3)在残差图中,纵坐标为残差,横坐标可以选为样本编号.
( √ )
√
×
√
2. 甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选
择了4种不同模型,计算可得它们的决定系数R2如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
则回归模型拟合效果最好的是( )
A. 甲 B. 乙
C. 丙 D. 丁
解析: 决定系数R2越大,表示回归模型的拟合效果越好.
3. 某校数学学习兴趣小组为研究某作物种子的发芽率y和温度x(单
位:℃)的关系,由试验数据得到如图所示的散点图.由此散点
图,可以得出最适宜作为发芽率y和温度x的回归模型的是( )
A. y=a+bx B. y=a+bln x
C. y=a+bex D. y=a+bx2
解析: 由散点图可知,数据分布成递增趋势,但是呈现上凸效
果,即增加越来越缓慢.A中,y=a+bx是直线型,均匀增长,不
符合要求;B中,y=a+bln x是对数型,增长越来越缓慢,符合
要求;C中,y=a+bex是指数型,爆炸式增长,增长越来越快,
不符合要求;D中,y=a+bx2是二次函数型,图象既有上升,又
有下降,不符合要求.
典型例题·精研析
02
课堂互动 关键能力提升
题型一 求非线性经验回归方程
【例1】 某地区不同身高x(单位:cm)的未成年男性的体重平均
值y(单位:kg)如下表:
身高x(cm) 60 70 80 90 100
体重y(kg) 6.13 7.90 9.99 12.15 15.02
身高x(cm) 110 120 130 140
体重y(kg) 17.50 20.92 26.86 31.11
已知ln y与x之间存在很强的线性相关性.
(1)据此建立y关于x的经验回归方程;(系数保留两位小数)
解: 由已知可得 =100,
=100×(62+72+…+142)=96 000,
∴ -9 =96 000-90 000=6 000.
又 (xiln yi)≈2 522, = ≈2.67,
∴ ≈ ≈0.02,
=2.67-0.02×100=0.67,∴ln =0.02x+0.67,
∴经验回归方程为 =e0.02x+0.67.
(2)若体重超过相同身高的男性的体重平均值的1.2倍为偏胖,低于
0.8倍为偏瘦,则这个地区一名身高为150 cm,体重为47 kg的男
性的体重是否正常?
参考数据: (xiln yi)≈2 522, ln yi≈24.02,e3.67≈39.25.
解: 当x=150时, =e3.67≈39.25,而39.25×1.2=47.1
>47,
∴该名男性的体重是正常的.
通性通法
非线性经验回归方程的求法
【跟踪训练】
1. 若一函数模型为y=ax2+bx+c(a≠0),将y转化为t的经验回
归方程,则需做变换t=( )
A. x2 B. (x+a)2
C. (x+ )2 D. 以上都不对
解析: y=ax2+bx+c=a(x+ )2+ (a≠0),可
令t=(x+ )2,则y=at+ 为y关于t的经验回归方程.
2. 已知变量y关于x的非线性经验回归方程为y=ebx-0.5,若对y=ebx
-0.5两边取自然对数,可以发现ln y与x线性相关,现有一组数据如
下表所示,x=5时,预测y值为 .
x 1 2 3 4
y e e3 e4 e6
e7.5
解析:对y=ebx-0.5两边取对数,得ln y=bx-0.5,令z=ln y则z
=bx-0.5,列表如下:
x 1 2 3 4
y e e3 ey4 e6
z 1 3 4 6
= =2.5, = =3.5 ,代入 =b -0.5得3.5=
b·2.5-0.5,故b=1.6,故z=1.6x-0.5,y=e1.6x-0.5,当x=5
时,y=e1.6×5-0.5=e7.5.
题型二 残差与残差分析
【例2】 (1)对变量x,y进行回归分析时,依据得到的4个不同的
回归模型画出残差图,则下列模型拟合精度最高的是( A )
A
解析: 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回
归方程为 =2x+ ,若样本点(r,1)与(1,s)的残差相
同,则有( C )
A. r=s B. s=2r
C. s=-2r+3 D. s=2r+1
解析:样本点(r,1)的残差为1-2r- ,样本点(1,s)的
残差为s- -2,依题意得1-2r- =s- -2,故s=-2r
+3.
C
通性通法
1. 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合
适.这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回
归方程的预报精度越高.
2. 残差是随机误差的估计值, =yi- .
【跟踪训练】
已知某成对样本数据的残差图如图,则样本点数据中可能不准确的
是从左到右第 个.
解析:原始数据中的可疑数据往往是残差绝对值过大的那个数据,即
偏离平衡位置过大.
6
题型三 残差平方和与决定系数R2
【例3】 已知某种商品的价格x(单位:元)与需求量y(单位:
件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)求y关于x的经验回归方程;
解: = ×(14+16+18+20+22)=18,
= ×(12+10+7+5+3)=7.4,
所以 = = =-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是 =-1.15x+28.1.
(2)借助残差平方和与R2说明回归模型拟合效果的好坏.
(参考公式及数据: = , = - , =1
660, xiyi=620, (yi- )2=53.2)
解: 列出残差表为
yi- 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以 (yi- )2=0.3,且 (yi- )2=53.2,
R2=1- ≈0.994,所以回归模型的拟合效果很好.
通性通法
刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用
的模型比较合适;
(2)残差平方和法:残差平方和 (yi- )2越小,模型的拟合效
果越好;
(3)决定系数法:R2=1- 越接近1,表明模型的拟合效
果越好.
【跟踪训练】
假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5
组数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
若由最小二乘法计算得经验回归方程 =0.29x+34.7.
(1)计算各组残差,并计算残差平方和;
解: 由 = xi+ ,
可以算得 =yi- .
分别为 =0.35, =0.718, =-0.5, =-2.214,
=1.624,
所以残差平方和为 ( )2≈8.43.
(2)求R2,并说明回归模型拟合效果的好坏.
解: (yi- )2=50.18,
故R2=1- ≈1- ≈0.832.
所以回归模型的拟合效果较好.
1. 某种产品的广告支出费用x(单位:万元)与销售额y(单位:万
元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y关于x的经验回归方程为 =6.5x+17.5,则当广告支出费
用为5万元时,残差为( )
A. 10万元 B. 14万元
C. 23万元 D. 24万元
解析: 当x=5时,销售额的预测值为 =5×6.5+17.5=50,
残差为60-50=10万元.故选A.
2. 在研究两个变量的相关关系时,观察散点图发现样本点集中于某一
条指数曲线y=ebx+a的周围.令z=ln y,求得经验回归方程为 =
0.25x-2.58,则该模型的非线性经验回归方程为
.
解析:因为 =0.25x-2.58,z=ln y,所以 =e0.25x-2.58.
=e0.25x-
2.58
3. 中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型
和水的温度有关,某数学建模小组为了获得茶水温度y(单位:
℃)关于时间x(单位:min)的回归方程模型,通过实验收集在
25 ℃室温,用同一温度的水冲泡的条件下,茶水温度随时间变化
的7组数据及相应散点图,并对数据做初步处理,如下表:
(xi- )(yi- ) (xi- )
(wi- )
73.5 3.85 -95 -2.24
表中:wi=ln(yi-25), = wi.
假如该茶水温度y关于时间x的经验回归方程为 = ·cx+25,请
求出此经验回归方程.
附:(1)对于一组数据(x1,y1),(x2,y2),…,(xn,
yn),其经验回归直线 = + x的斜率和截距的最小二乘估计分
别为 = , = - ;
(2)参考数据:e-0.08≈0.92,e4.09≈60,ln 7≈1.9,ln 3≈1.1,ln
2≈0.7.
解:由y=d·cx+25,得y-25=d·cx,两边取自然对数,得
ln(y-25)=ln d+xln c,
令w=ln(y-25),则w=ln d+xln c,
= xi= =3, =(-3)2
+(-2)2+(-1)2+12+22+32=28,
结合表中数据,得ln c= = =-0.08,
结合参考数据可得c=e-0.08≈0.92,由ln d= - ln c=3.85
-3×(-0.08)=4.09,得d=e4.09≈60,
所以茶水温度y关于时间x的经验回归方程为 =60×0.92x
+25.
知能演练·扣课标
03
课后巩固 核心素养落地
1
2
3
4
5
6
7
8
9
10
11
12
1. 一组数据(xi,yi)经过分析,提出了四种回归模型①②③④,四
种模型的残差平方和 的值分别是1.23,0.80,
0.12,1.36.则拟合效果最好的是( )
A. 模型① B. 模型②
C. 模型③ D. 模型④
解析:C 残差平方和越小则拟合效果越好,而模型③的残差平方
和最小,所以C正确.故选C.
2. 已知变量y关于变量x的经验回归方程为 =bln x+0.24,其一组
数据如表所示:
x e e3 e4 e6 e7
y 1 2 3 4 5
若x=e10,则y的值大约为( )
A. 4.94 B. 5.74
C. 6.81 D. 8.04
解析: 令t=ln x,则 =bt+0.24.由题意得, =4.2, =
3,由经验回归直线过样本的中心点,有b= ,所以 = ln x+
0.24,将x=e10代入得 ≈6.81.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
3. 如图是一组实验数据的散点图,拟合方程为y= +c(x>0),
令t= ,则y关于t的经验回归直线过点(2,5),(12,25),
则当y∈(1.01,1.02)时,x的取值范围
是( )
A. (0.01,0.02) B. (50,100)
C. (0.02,0.04) D. (100,200)
1
2
3
4
5
6
7
8
9
10
11
12
解析: 根据题意可得y=bt+c(t>0),由y关于t的经验回
归直线过点(2,5),(12,25)可得:所以
所以y=2t+1,由y∈(1.01,1.02)可得1.01<2t+1
<1.02,所以0.005<t<0.01,所以0.005< <0.01,所以100<
x<200,故选D.
1
2
3
4
5
6
7
8
9
10
11
12
4. (多选)某研究小组采集了5组数据,作出如图所示的散点图.若去
掉D(3,10)后,下列说法正确的是( )
A. 相关系数r变小
B. 决定系数R2变大
C. 残差平方和变大
D. 解释变量x与预报变量y的相关性变强
解析: 根据散点图可知,去掉点D(3,10)后,y与x的线
性相关性加强,且为正相关,相关系数r变大,则A错,D对;去
掉点D(3,10)后,残差平方和变小,则R2变大,B对,C错.故
选B、D.
1
2
3
4
5
6
7
8
9
10
11
12
5. (多选)某种商品的价格x(单位:元/kg)与日需求量y(单位:
kg)之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得经验回归方程 = x+14.4,则以下说法正
确的是( )
A. 样本相关系数r>0
B. =-0.32
C. 若该商品的价格为35元/kg,则日需求量大约为3.2 kg
D. 第四个样本点对应的残差为-0.4
1
2
3
4
5
6
7
8
9
10
11
12
解析: 对于A、B,由题表中的数据,得 =
=20, = =8,将 , 代入 = x+14.4得 =-
0.32,所以A选项说法错误,B选项说法正确;对于C,将x=35代
入 =-0.32x+14.4,得 =3.2,所以日需求量大约为3.2 kg,
所以C选项说法正确;对于D,第四个样本点对应的残差为y4-
=6-(-0.32×25+14.4)=-0.4,所以D选项说法正确.故选
B、C、D.
1
2
3
4
5
6
7
8
9
10
11
12
6. 某种产品的广告费支出x(单位:万元)与销售额y(单位:万
元)的数据如下表:
x 2 4 5 6 8
y 30 40 60 50 70
已知y与x的经验回归方程为 =6.5x+17.5,则当广告支出5万元
时,残差为 .
解析:当x=5时, =6.5×5+17.5=50,表格中对应y=60,于
是残差为60-50=10.
10
1
2
3
4
5
6
7
8
9
10
11
12
7. 在研究气温和热茶销售杯数的关系时,若求得决定系数R2≈0.85,
则表明气温解释了 的热茶销售杯数变化,而随机误差贡献
了剩余的 ,所以气温对热茶销售杯数的效应比随机误差的
效应大得多.
解析:由决定系数R2的意义可知,R2≈0.85表明气温解释了85%,
而随机误差贡献了剩余的15%.
85%
15%
1
2
3
4
5
6
7
8
9
10
11
12
8. 共享汽车进驻城市,绿色出行引领时尚,某市有统计数据显示,某
站点5天的使用汽车用户的数据如下,用两种模型①y=bx+a;
②y=b +a分别进行拟合,进行残差分析得到如表所示的残差
值及一些统计量的值:
日期x(天) 1 2 3 4 5
用户y(人) 13 22 45 55 68
模型①的残差值 -1.1 -2.8 -1.2 -1.9 0.4
模型②的残差值 0.3 -5.4 -3.2 -1.6 3.8
1
2
3
4
5
6
7
8
9
10
11
12
(1)残差值的绝对值之和越小说明模型拟合效果越好,根据残
差,比较模型①,②的拟合效果,应选择哪一个模型?并说
明理由;
解: 应该选择模型①.
模型①的残差值的绝对值之和为1.1+2.8+1.2+1.9+0.4=
7.4,
模型②的残差值的绝对值之和为0.3+5.4+3.2+1.6+3.8=
14.3,
∵7.4<14.3,∴模型①的拟合效果较好,应该选模型①.
1
2
3
4
5
6
7
8
9
10
11
12
(2)求出(1)中所选模型的经验回归方程.
(参考数据: =55, xiyi=752)
解: 由题可知: = =3, =
=40.6, xiyi=752, =55.
∴ = = = =14.3,
= - =40.6-14.3×3=-2.3.
∴y关于x的经验回归方程为 =14.3x-2.3.
1
2
3
4
5
6
7
8
9
10
11
12
9. 已知指数曲线y=aebx进行线性变换后得到的经验回归方程为u=1
-x,则二次函数y=x2+bx+a的单调递增区间为( )
A. (0,+∞) B. ( ,+∞)
C. ( ,+∞) D. (1,+∞)
1
2
3
4
5
6
7
8
9
10
11
12
解析: ∵y=aebx,∴两边取对数,作线性变化得ln y=ln
(aebx)=ln a+ln ebx=ln a+bx,由于指数曲线y=aebx进行线
性变换后得到的经验回归方程为u=1-x,则u=ln y ,ln a=1,b
=-1,即a=e,所以二次函数y=x2+bx+a即y=x2-x+e,抛
物线开口向上,对称轴为x= ,则函数y=x2+bx+a的单调递增
区间为( ,+∞),故选C.
1
2
3
4
5
6
7
8
9
10
11
12
10. (多选)某种产品的广告支出费用x(单位:万元)与销售量y
(单位:万件)之间的对应数据如下表所示.
广告支出费用x 2.2 2.6 4.0 5.3 5.9
销售量y 3.8 5.4 7.0 11.6 12.2
根据表中的数据可得经验回归方程为 =2.27x+ ,R2≈0.96,
以下说法正确的是( )
1
2
3
4
5
6
7
8
9
10
11
12
A. 第三个样本点对应的残差 =-1
B. 在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的
带状区域中
C. 该模型拟合效果较好
D. 用该经验回归方程可以很准确地预测广告费用为20万元时的销售
量
1
2
3
4
5
6
7
8
9
10
11
12
解析: 对于A项:由题意得 = =4, =
=8,代入 =2.27x+ ,得 =-1.08,故
=2.27x-1.08,所以 =7-(2.27×4.0-1.08)=-1,故
A项正确;对于B、C项:由于R2≈0.96,所以该回归模型拟合的
效果比较好,故C项正确;故对应的残差图中残差点应该比较均
匀地分布在水平的带状区域中,故B项错误;对于D项:由于样本
的取值范围会影响回归方程的使用范围,而广告费用20万元远大
于表格中广告费用值,故用该经验回归方程预测广告费用为20万
元时的销售量不一定准确,故D项错误.故选A、C.
1
2
3
4
5
6
7
8
9
10
11
12
11. 随着互联网的发展,“美团单车”“哈啰出行”等共享单车服务
在我国各城市迅猛发展.为掌握共享单车在某地区的发展情况,某
调查机构从该地区抽取了4个城市,分别收集和分析了共享单车
的A,B两项指标数xi,yi(i=1,2,3,4),数据如表所示.由
表可得y关于x的经验回归方程为 =4x2+a,则此经验回归模型
中A指标数x=2的残差为( )
A指标数x 1 2 3 4
B指标数y 6 12 35 63
A. 0 B. -1 C. -2 D. -3
1
2
3
4
5
6
7
8
9
10
11
12
解析: 因为 =4x2+a是非线性的,所以当将其看作y关于x2
的函数时,即为线性方程,则 =7.5, =29,所以29=
4×7.5+a,得a=-1,所以 =4x2-1.将x=2代入方程可得
=15,则12-15=-3,所以残差为-3.故选D.
1
2
3
4
5
6
7
8
9
10
11
12
12. 某果园种植“糖心苹果”已有十余年,为了提高利润,该果园每
年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.
如图是2014年到2023年,该果园每年的投资金额x(单位:万
元)与年利润增量y(单位:万元)的散点图.
该果园为了预测2024年投资金额为20万元时的年利润增量,建立
了y关于x的两个经验回归模型.
1
2
3
4
5
6
7
8
9
10
11
12
模型①:由最小二乘法可求得y关于x的经验回归方程为 =
2.50x-2.50;
模型②:由图中样本点的分布,可以认为样本点集中在曲线y=
bln x+a的附近,令t=ln x,则y=b·t+a,且有 ti=22.00,
yi=230, tiyi=569.00, =50.92.
1
2
3
4
5
6
7
8
9
10
11
12
(1)根据所给的统计量,求模型②中y关于x的经验回归方程;
解: 由 ti=22.00, yi=230,
得 =2.2, =23,
所以 = = =25,
= - =23-25×2.2=-32.
所以模型②中,y关于x的经验回归方程为 =25ln x-32.
1
2
3
4
5
6
7
8
9
10
11
12
(2)根据下列表格中的数据,比较两种模型的决定系数R2,并
选择拟合精度更高、更可靠的模型,预测投资金额为20万元
时的年利润增量(结果保留两位小数).
回归模型 模型① 模型②
经验回归方程 =2.50x-2.50 = ln x+
(yi- )2 102.28 36.19
1
2
3
4
5
6
7
8
9
10
11
12
附: = = , = - ,
R2=1- .
参考数据:ln 2≈0.693 1,ln 5≈1.609 4.
1
2
3
4
5
6
7
8
9
10
11
12
解: 由表中的数据,有102.28>36.19,
则1- <1- ,
所以模型①的R2小于模型②的R2,说明回归模型②刻画的
拟合效果更好;
当x=20时,模型②的年利润增量的预测值为 =25ln 20-
32=25(2ln 2+ln 5)-32≈25(2×0.693 1+1.609 4)-
32=42.89(万元).
1
2
3
4
5
6
7
8
9
10
11
12
谢 谢 观 看!