(共41张PPT)
46.2-非线性回归模型与回归效果分
视角1 指数型经验回归方程
非线性经验回归方程
举 题 说 法
云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.从中国信息通信研究院发布的《云计算白皮书(2022年)》可知,我国2017年至2021年云计算市场规模数据统计表如下:
1-1
年份 2017年 2018年 2019年 2020年 2021年
年份代码x 1 2 3 4 5
云计算市场规模y/亿元 692 962 1 334 2 091 3 229
【解答】
视角2 对数型经验回归方程
某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次xi和农产品销售量yi(i=1,2,3,…,10)的数据,得到如图所示的散点图.
1-2
【解答】
某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了10名网红直播的观看人次xi和农产品销售量yi(i=1,2,3,…,10)的数据,得到如图所示的散点图.
1-2
(2) 对数据作出如下处理,得到相关统计量的值如右表:
【解答】
视角1 残差分析
回归效果分析
【解答】
散点图如图所示.
假定产品产量x(单位:千件)与单位成本y(单位:元/件)之间存在相关关系.数据如右:
2-1
x 2 3 4 3 4 5
y 73 72 71 73 69 68
(1) 以x为解释变量,y为预报变量,作出散点图;
假定产品产量x(单位:千件)与单位成本y(单位:元/件)之间存在相关关系.数据如下:
2-1
x 2 3 4 3 4 5
y 73 72 71 73 69 68
(2) 求y与x之间的经验回归方程,当单位成本为70元/件时,预报产量为多少;
【解答】
【解答】
假定产品产量x(单位:千件)与单位成本y(单位:元/件)之间存在相关关系.数据如下:
2-1
x 2 3 4 3 4 5
y 73 72 71 73 69 68
(3) 计算各组残差,并计算残差平方和.
注:保留两位有效数字.
视角2 决定系数
如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图.
2-2
注:年份代码1~7分别对应年份2016~2022.
(1) 由折线图看出,可用线性回归模型拟合y和t的关系,请建立y关于t的回归方程,并预测2025年该企业的污水净化量;
【解答】
如图是某企业2016年至2022年的污水净化量(单位:吨)的折线图.
2-2
注:年份代码1~7分别对应年份2016~2022.
(2) 请用决定系数说明回归方程预报的效果.
随 堂练习
1.下列四幅残差分析与一元线性回归模型拟合精度最高的是 ( )
D
【解析】
由图知D中残差均匀分布在横轴附近,故D中图象与一元线性回归模型拟合精度最高.
A
B
C
D
【解答】
2.经验表明,树高y与胸径x具有线性关系,为了解回归方程的拟合效果,利用右面数据计算残差,用来绘制残差图.
【解析】
由表可得,各组数据的残差为18.9-18.6=0.3,19.4-19.3=0.1,20.8-21.5=-0.7,22.8-23=-0.2,24.8-24.4=0.4,故残差最大值为0.4,最小值为-0.7.
则残差的最大值和最小值分别是 ( )
A.0.4,-1.8 B.1.8,-0.4
C.0.4,-0.7 D.0.7,-0.4
C
3.某部门统计了某地区今年前7个月在线外卖的规模如下表:
月份代号x 1 2 3 4 5 6 7
在线外卖规模y/百万元 11 13 18 ★ 28 ★ 35
【解析】
【答案】B
4.某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是 ( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+b ln x
【解析】
【答案】D
由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.对于A,y=a+bx是直线型,均匀增长,不符合要求;
对于B,y=a+bx2是二次函数型,函数y=a+bx2(b≠0)的对称轴为y轴,当b>0时,图象呈现下凸,增长也较快,不符合要求,当b<0时,图象呈现上凸,呈递减趋势,不符合要求;
对于C,y=a+bex是指数型,爆炸式增长,增长快,不符合要求;
对于D,y=a+b ln x是对数型,增长缓慢,符合要求.
配套精练
A组 夯基精练
一、 单项选择题
1.两个变量y与x的回归模型中,分别选择了4个不同的模型,其中拟合效果最好的是 ( )
A.模型1的决定系数R2=0.05 B.模型2的决定系数R2=0.49
C.模型3的决定系数R2=0.89 D.模型4的决定系数R2=0.98
D
【解析】
决定系数R2越大(接近1),模型的拟合效果越好;决定系数R2越小,模型的拟合效果越差. 模型4的决定系数最大、最接近1,其拟合效果最好.
2.研究变量x,y得到一组样本数据,进行回归分析,以下说法错误的是( )
A.若变量x和y之间的相关系数为r=-0.992,则变量x和y之间的负相关很强
B.用决定系数R2来比较两个模型拟合效果,R2越大,表示残差平方和越小,即模型的拟合效果越好
D
【解析】
3.以模型y=cekx(c>0)去拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到经验回归方程z=2x-1,则k,c的值分别是 ( )
B
【解析】
4.某兴趣小组研究光照时长x(单位:h)和向日葵种子发芽数量y(单位:颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉D(10,2)后,则下列说法正确的是 ( )
A.样本相关系数r变小
B.决定系数R2变小
C.残差平方和变大
D.解释变量x与预报变量y的相关性变强
【解析】
【答案】D
从图中可以看出D(10,2)较其他点偏离直线远,故去掉D(10,2)后,回归效果更好.
对于A,y与x正相关,r>0,样本相关系数r越接近于1,模型的拟合效果越好,去掉D(10,2)后,样本相关系数r变大,故A错误;
对于B,决定系数R2越接近于1,模型的拟合效果越好,去掉D(10,2)后,决定系数R2变大,故B错误;
对于C,残差平方和越小,模型的拟合效果越好,去掉D(10,2)后,残差平方和变小,故C错误;
对于D,去掉D(10,2)后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.
【解析】
【答案】BCD
对于C,在残差图中,残差分布的水平带状区域的宽度越窄,说明拟合精度越高,即拟合效果越好,故C正确;
对于D,由决定系数R2的意义可知,R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
A.由散点图可知,大气压强与海拔高度负相关
B.由方程y1=-4.0x+68.5可知,海拔每升高1千米,大气压强必定降低4.0kPa
C.由方程y1=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程y2=132.9e-0.163x的预报效果更好
【解析】
【答案】ACD
对于A,由图象知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A正确;
对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误;
对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程y2=132.9e-0.163x的预报效果更好,故D正确.
三、 填空题
7.若一个样本的观测值与均值的差的平方和为80,残差平方和为60,则决定系数R2=________.
0.25
【解析】
【解析】
-0.1
9.为研究某池塘中水生植物的覆盖水塘面积x(单位:dm2)与水生植物的株数y(单位:株)之间的相关关系,收集了4组数据,用模型y=cekx(c>0)去拟合x与y的关系,设z=ln y,x与z的数据如右表所示.
【解析】
x 3 4 6 7
z 2.5 3 4 5.9
e0.35
四、 解答题
10.已知x与y之间的数据如下表:
【解答】
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
(1) 求y关于x的经验回归方程;
四、 解答题
10.已知x与y之间的数据如右表:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
(2) 完成下面的残差表,并判断(1)中经验回归方程的回归效果是否良好(若R2>0.9,则认为回归效果良好).
参考公式及数据:
【解答】
【答案】
11.某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度x(mol/L)与灭死率y的数据,如下表:
【解答】
浓度x(mol/L) 10-12 10-10 10-8 10-6 10-4
灭死率y 0.1 0.24 0.46 0.76 0.94
11.某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度x(mol/L)与灭死率y的数据,如下表:
浓度x(mol/L) 10-12 10-10 10-8 10-6 10-4
灭死率y 0.1 0.24 0.46 0.76 0.94
(2) ①根据(1)的选择结果及表中数据,求出所选经验回归方程;
②依据①中所求经验回归方程,要使灭死率不低于0.8,估计该灭草剂的浓度至少要达到多少mol/L
【解答】
u -12 -10 -8 -6 -4
y 0.1 0.24 0.46 0.76 0.94
谢谢观赏2025高考数学一轮复习-46.2-非线性回归模型与回归效果分析-专项训练
基 础 巩固练
1.(2023无锡质检)有下列数据:
x 1 2 3
y 3 5.99 12.01
下列四个函数中,拟合效果最好的为( )
A.y=3×2x-1 B.y=log2x
C.y=3x D.y=x2
2.如图这是某地区在60天内流感的累计病例人数y(万人)与时间x(天)的散点图.下列最适宜作为此模型的回归方程的类型是( )
A.y=a+bx B.y=a+b
C.y=a+bex D.y=a+bln x
3.用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到的经验回归方程为z=0.5x+2,则c=( )
A.0.5 B.e0.5 C.2 D.e2
4.已知变量y关于x的非线性经验回归方程为,其一组数据如下表所示:
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为( )
A.e5 B. C.e7 D.
5.(多选题)指数曲线y=aebx进行线性变换后得到的回归方程为u=1-0.6x,则函数y=x2+bx+a在下列区间上单调递增的是( )
A.(1,+∞) B.
C. D.(3,+∞)
6.(多选题)如图,这是一组试验数据的散点图,拟合方程为y=+c(x>0),令t=,则y关于t的回归直线过点(2,5),(12,25),则当y∈(1.01,1.02)时,x的取值可以是( )
A.0.01 B.50 C.120 D.150
7.(2023镇江月考)已知变量x,y的关系可以用模型y=c·ekx拟合,设z=ln y,其变换后得到一组数据如下表:
x 4 6 8 10
z 2 3 5 6
由上表可得经验回归方程=0.7x+a,则c= .
8.(2023南通质检)已知一种植物一年生长的高度y与发芽期的平均温度x的关系可以用模型y=c1(其中e为自然对数的底数)拟合,设z=ln y,其变换后得到一组数据:
x 20 23 25 27 30
z 2 2.4 3 3 4.6
由上表可得经验回归方程=0.2x+a,则当x=35时,估计该植物一年生长的高度y的值为 .
9.中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关,经验表明,某种绿茶用85 ℃的水泡制,再等到茶水温度降至60 ℃时饮用,可以产生最佳口感.某研究人员每隔1分钟测量一次茶水温度,得到下表所示数据.
时间t/min 0 1 2 3 4
水温y/℃ 85 79 75 71 68
(1)从表中所给的5个水温数据中任选2个,求其中恰有1个水温数据低于72 ℃的概率.
(2)在25 ℃室温下,设茶水温度从85 ℃开始,经过x min后的温度为y ℃,根据这些数据的散点图,可用回归方程=60ax+25(k∈R,0
(ⅰ)根据表中数据求温度y(℃)关于时间x的回归方程;(结果精确到0.01)
(ⅱ)根据表中数据求刚泡过的茶水大约需要放置多长时间才能达到最佳饮用口感.(结果保留整数)
参考数据:log0.927≈-23.3,log0.9212≈-29.8.
综 合 提升练
10.若一函数模型为y=ax2+bx+c(a≠0),则将y转化为t的经验回归方程,需做变换t=( )
A.x2 B.(x+a)2
C. D.以上都不对
11.(2023苏州月考)某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶克数x与食客的满意率y的关系,调查研究发现,可选择函数模型y=ebx+c来拟合y与x的关系,现有以下统计数据:
茶叶克数x 1 2 3 4 5
ln(100y) 4.34 4.36 4.44 4.45 4.51
则可求得y关于x的非线性经验回归方程为( )
A.y=e0.043x+4.291
B.y=e0.043x-4.291
C.y=e-0.043x-4.291
D.y=e-0.043x+4.291
12.(多选题)某中学有学生近600人,要求学生在每天上午7:30之前进校,现有一个调查小组调查某天7:00~7:30进校人数的情况,得到如图和表(其中纵坐标y表示第x-1分钟至第x分钟的到校人数,1≤x≤30,x∈N*,如当x=9时,纵坐标y=4表示在7:08~7:09这一分钟内进校的人数为4).根据调查所得数据,甲同学得到的回归方程是y=3.6x-27(图中的实线表示),乙同学得到的回归方程是y=0.82e0.16x(图中的虚线表示),则下列结论正确的是( )
x 1 5 9 15 19 21 24 27 28 29 30
y 1 3 4 4 11 21 36 66 94 101 106
A.7:00~7:30内,每分钟的进校人数y与相应时间x呈正相关
B.乙同学的回归方程拟合效果更好
C.根据甲同学得到的回归方程可知该校当天7:09~7:10这一分钟内的进校人数是9
D.该校超过半数的学生都选择在规定到校时间的前5分钟内进校
13.用模型y=aekx拟合一组数据(xi,yi)(i=1,2,…,10),若x1+x2+…+x10=10,y1y2·…·y10=e70,设z=ln y,得变换后的经验回归方程为=bx+4,则ak= .
14.某品牌手机销售商今年1,2,3月份的销售量分别是1万部、1.2万部、1.3万部,为估计以后每个月的销售量,现以这三个月的销售为依据,用一个函数模拟该品牌手机的销售量y(单位:万部)与月份x之间的关系,并从二次函数y=ax2+bx+c(a≠0)或函数y=abx+c(b>0,b≠1)中选用一个效果好的函数进行模拟,若4月份的销售量为1.37万件,则5月份的销售量为 万件.
15.(2023南京质检)某公司拟对某种材料进行应用改造,产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x 1 2 3 4 5 6 7 8
y 112 61 44.5 35 30.5 28 25 24
对历史数据对比分析,考虑用函数模型①y=a+,②y=cedx分别对两个变量的关系进行拟合,令模型①中u=,模型②中w=ln y,对数据作了初步处理,已计算得到如下数据:
0.34 45 0.115 22 385.5 1.53
uiyi e-2
183.4 ≈61.4 0.135
设u和y的样本相关系数为r1,x和w的样本相关系数为r2,经计算得出r2=-0.94,请从样本相关系数(精确到0.01)的角度判断哪个模型拟合效果更好.
(2)根据(1)的选择及表中数据,建立y关于x的非线性经验回归方程,并用其估计当每件产品的非原料成本为21元时,产量约为多少千件
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线u的斜率和截距的最小二乘估计分别为,相关系数r=.
创 新 应用练
16.为了提高智慧城市水平,某市公交公司近期推出扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示:
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制了散点图.
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型 (给出判断即可,不必说明理由).
(2)根据(1)的判断结果及表中的数据,建立y与x的回归方程,并预测活动推出第8天使用扫码支付的人次.
(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表:
支付方式 现金 乘车卡 扫码
比例 10% 60% 30%
该车队为缓解周边居民出行压力,以90万元的单价购进了一批新车,根据以往的经验可知,每辆车每个月的运营成本约为0.66万元.已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠.根据统计结果得知,使用扫码支付的乘客有的概率享受7折优惠,有的概率享受8折优惠,有的概率享受9折优惠.预计该车队每辆车每个月有2万人次乘车,根据所给数据以事件发生的频率作为相应事件发生的概率,在不考虑其他因素的条件下,按照上述收费标准,请你估计这批车辆需要几年(结果取整数年)才能盈利.
参考数据:
xiyi xivi 100.54
62.14 1.54 2 535 50.12 3.47
其中vi=lg yi,vi,
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线u的斜率和截距的最小二乘估计分别为.
参考答案
1.A 2.C 3.D 4.D 5.ABD 6.CD
7.e-0.9 8.e5
9.解 (1)由题意可知,低于72 ℃的数据有2个,故所求概率P=
(2)(ⅰ)计算每分钟(yi-25)的值与上一分钟(yi-1-25)的值的比值,列出下表:
xi 0 1 2 3 4
yi-25 60 54 50 46 43
0.90 0.93 0.92 0.93
所以(0.90+0.93+0.92+0.93)≈0.92,
故回归方程
为=60×0.92x+25.
(ⅱ)将y=60代入=60×0.92x+25,得60×0.92x+25=60,所以0.92x=,两边取对数,得x=log0.92=log0.927-log0.9212,
由参考数据知log0.927≈-23.3,
log0.9212≈-29.8,
所以x≈6.5 min,所以刚泡过的茶水大约需要放置7 min才能达到最佳饮用口感.
10.C 11.A 12.ABD 13.3e4 14.1.375
15.解 (1)由题知u=,则y=a+可转化为y=a+bu,
y与u的相关系数为
r1==
0.99.
因为|r1|>|r2|,所以函数模型①拟合效果更好.
(2)因为=100,
则=45-100×0.34=11,
所以y关于x的回归方程为=11+
当=21时,=11+=21,
解得x=10,所以当每件产品的非原料成本为21元时,预计产量为10千件.
16.解 (1)由散点图的形状可得y=c·dx(c,d均为大于零的常数)适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)因为y=c·dx,所以两边同时取常用对数可得,lg y=lg c+xlg d,
设lg y=v,则v=lg c+xlg d.
因为=4,=1.54,xi=140,
所以lg d=
==0.25,
把样本点的中心(4,1.54)代入v=lg c+xlg d,所以lg c=0.54,
故v=0.54+0.25x,
即lg y=0.54+0.25x,
所以y与x的回归方程为=100.54+0.25x.
当x=8时,=100.54+0.25×8=102.54=347,所以活动推出第8天,使用扫码支付的人次为3 470.
(3)记一名乘客一次乘车支付的费用为Z元,则Z的可能取值为2,1.8,1.6,1.4,
所以P(Z=2)=0.1,P(Z=1.8)=0.3=0.15,P(Z=1.6)=0.6+0.3=0.7,P(Z=1.4)=0.3=0.05,
所以一名乘客一次乘车的平均费用为2×0.1+1.8×0.15+1.6×0.7+1.4×0.05=1.66(元),
由题意可知,1.66×2×12n-0.66×12n-90>0,解得n>,
又n∈N*,所以n取3,估计这批车辆需要3年才能盈利.