8.2第二课时 非线性回归模型及回归分析 课件(共69张PPT)

文档属性

名称 8.2第二课时 非线性回归模型及回归分析 课件(共69张PPT)
格式 pptx
文件大小 3.8MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2026-03-12 00:00:00

图片预览

文档简介

(共69张PPT)
第二课时 非线性回归模型及回归分析
1. 进一步掌握一元线性回归模型参数的统计意义(数学抽象).
2. 了解非线性回归模型(数学抽象).
3. 会通过分析残差和利用R2判断回归模型的拟合效果(数学运算、数据分析).
课标要求
情境导入
设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如下表
所示,
第x天 1 4 9 16 25 36 49
高度y/cm 0 4 7 9 11 12 13
  作出这组数据的散点图近似描述y与x的关系,很显然,这些散点不在
一条直线附近.你能求出这个函数模型吗?
知识点一 非线性回归方程
01
知识点二 残差与残差分析
02
知识点三 残差平方和与决定系数R2
03
课时作业
04
目录
知识点一 非线性回归方程
01
PART
【知识梳理】
1. 非线性回归分析的思想
研究两个变量的关系时,依据样本点画出散点图,从整体上看,如果样本
点没有分布在某个带状区域内,就称这两个变量之间不具有线性相关关
系,此时不能直接利用经验回归方程来建立两个变量之间的关系.
2. 非线性经验回归方程
当回归方程不是形如 = x+ ( , ∈R)时,称之为非线性经验回归
方程.当两个变量不呈线性相关关系时,依据样本点的分布选择合适的曲
线方程来拟合数据,可通过变量代换,利用线性回归模型建立两个变量间
的非线性经验回归方程.
【例1】 为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:
天数x/天 1 2 3 4 5 6
繁殖个数y/个 6 12 25 49 95 190
(1)用天数作解释变量,繁殖个数作响应变量,作出这些数据的散点
图,根据散点图判断y=a+bx与y=c1 哪一个作为繁殖的个数y关于
时间x变化的回归方程类型最佳;(给出判断即可,不必说明理由)
解: 作出散点图,如图1所示.
由散点图看出样本点分布在一条指数函数y=c1 的周围,于是选择y=c1 .
(2)根据(1)中判断的最佳回归方程及表中的数据,建立y关于x的回归
方程;
(xi- )2 (xi- )· (yi- ) (xi- )·
(zi- )
3.5 62.83 3.53 17.5 596.505 12.04
其中zi=ln yi, = zi.
参考公式: = , = - .
解: 令z=ln y,则 = x+ .
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
相应的散点图如图2所示.
从图2可以看出,变换后的样本点分布在一条直线附
近,因此可以用经验回归方程来拟合.
由 = =0.688,
则 = - =1.122,
因此 =0.688x+1.122,从而 =e0.688x+1.122.
(3)试估计第7天细菌繁殖的个数.(参考数据e5.938≈379)
解: ∵ =e0.688x+1.122,∴当x=7时, ≈379,
故第7天细菌繁殖的个数约为379.
【规律方法】
非线性经验回归方程的求法
训练1 “绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以下表格和散点图反映了近几年我国某新能源汽车的年销售量情况.
年份 2021 2022 2023 2024 2025
年份代码x 1 2 3 4 5
某新能源汽车年销售量y/万辆 1.5 5.9 17.7 32.9 55.6
(1)请根据散点图判断,y=bx+a与y=cx2+d中哪一个更适宜作为年
销售量y关于年份代码x的回归方程类型;(给出判断即可,不必说明
理由)
解: 根据散点图可知,y=cx2+d更适宜
作为年销售量y关于年份代码x的回归方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测
2026年我国该新能源汽车的年销售量.(精确到0.1)
参考数据: =22.72, (wi- )2=374, (wi- )(yi- )
=851.2(其中wi= ).
解: 令w=x2,则 = w+ .
易知 =11, = =≈2.28,
= - ≈22.72-2.28×11=-2.36,
所以 =2.28w-2.36,
所以y关于x的回归方程为 =2.28x2-2.36.
令x=6,得 =79.72≈79.7.
故预测2026年我国该新能源汽车的年销售量为79.7万辆.
知识点二 残差与残差分析
02
PART
问题 阅读教材P110~P112,思考下面问题.
已知具有相关关系的两个变量的经验回归方程为 = x+ .
(1) 与响应变量Y相等吗?
提示:不一定.
(2) 与响应变量Y之间误差大了好还是小了好?
提示:越小越好.
【知识梳理】
1. 残差及残差图
(1)对于响应变量Y,通过观测得到的数据称为 ,通过经验回
归方程得到的 称为 , 减去 所得的差称
为残差;
(2)作图时纵坐标为残差,横坐标可以选为样本编号,或解释变量的观
测值等,这样作出的图形称为残差图.
观测值 
预测值 
观测值 
预测值 
2. 残差分析
是随机误差的估计结果,通过对残差的分析可以判断模型刻画数
据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称
为 .
残差 
残差分析 
【例2】 (1)对变量x,y进行回归分析时,依据得到的4个不同的回归
模型画出残差图,则下列模型拟合精度最高的是( A )
A
解析: 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方
程为 =2x+ ,若样本点(r,1)与(1,s)的残差相同,则有
( C )
A. r=s B. s=2r
C. s=-2r+3 D. s=2r+1
解析: 样本点(r,1)的残差为1-2r- ,样本点(1,s)的残差
为s- -2,依题意得1-2r- =s- -2,故s=-2r+3.
C
【规律方法】
1. 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.
这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预
报精度越高.
2. 残差是随机误差的估计值, =yi- .
训练2 (1)某种产品的广告支出x(单位:万元)与销售额y(单位:万
元)之间有如表关系,y与x的经验回归方程为 =6.5x+17.5,当广告
支出为5万元时,随机误差的残差为( A )
x 2 4 5 6 8
y 30 40 60 50 70
A. 10万元 B. 20万元
C. 30万元 D. 40万元
A
解析: 因为y与x的经验回归方程为 =6.5x+17.5,所以当x=5
时, =6.5×5+17.5=50.由表格知当广告支出5万元时,销售额为60万
元,所以随机误差的残差为60-50=10(万元).
(2)已知某成对样本数据的残差图如图,则样本点数据中可能不准确的
是从左到右第 个.
6
解析: 原始数据中的可疑数据往往是残差绝对值过大的那个数据,
即偏离平衡位置过大的数据.
知识点三|残差平方和与决定系数R2
03
PART
【知识梳理】
1. 残差平方和法:残差平方和 ( )2越小,模型的拟合效果越好.
2. 决定系数R2法:可以用R2=1- 来比较两个模型的拟合效
果,R2越大,模型的拟合效果越好;R2越小,模型的拟合效果越差.
【例3】 已知某种商品的价格x(单位:元)与需求量y(单位:件)之
间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
(1)求y关于x的经验回归方程;
解: 由题可得 = ×(14+16+18+20+22)=18,
= ×(12+10+7+5+3)=7.4,
所以 = = =-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程为 =-1.15x+28.1.
(2)借助残差平方和与R2说明回归模型拟合效果的好坏.
(参考公式及数据: = , = - , =1 660, xiyi
=620, (yi- )2=53.2)
解: 列出残差表为
yi- 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以 (yi- )2=0.3,且 (yi- )2=53.2,
R2=1- ≈0.994,
所以回归模型的拟合效果很好.
【规律方法】
刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模
型比较合适;
(2)残差平方和法:残差平方和 (yi- )2越小,模型的拟合效
果越好;
(3)决定系数法:R2=1- 越接近1,表明模型的拟合效
果越好.
训练3 某市春节期间7家超市的广告费支出xi(单位:万元)和销售额yi
(单位:万元)的数据如下:
超市 A B C D E F G
广告费支出xi 1 2 4 6 11 13 19
销售额yi 19 32 40 44 52 53 54
(1)若用线性回归模型拟合y与x的关系,求y关于x的经验回归方程;
解: 由统计数据及公式,
得 = = =1.7,
= - =28.4,
故y关于x的经验回归方程为 =1.7x+28.4.
(2)若用对数回归模型拟合y与x的关系,可得经验回归方程 =12ln x+
22,经计算得出线性回归模型和对数回归模型的R2分别约为0.75和0.97,
请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出
为8万元时的销售额.
参考数据及公式: =8, =42, xiyi=2 794, =708, =
, = - ,ln 2≈0.7.
解: 因为0.75<0.97,
所以对数回归模型更合适.
把x=8代入回归方程 =12ln x+22,
得 =12×ln 8+22=36ln 2+22≈47.2.
所以当x=8万元时,预测A超市的销售额为47.2万元.
1. 甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4
种不同模型,计算可得它们的决定系数R2如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
则回归模型拟合效果最好的是(  )
A. 甲 B. 乙
C. 丙 D. 丁
解析:  决定系数R2越大,表示回归模型的拟合效果越好.

2. 某校数学学习兴趣小组为研究某作物种子的发芽
率y和温度x(单位:℃)的关系,由试验数据得到
如图所示的散点图.由此散点图,可以得出最适宜作
为发芽率y和温度x的回归模型的是(  )
A. y=a+bx B. y=a+bln x
C. y=a+bex D. y=a+bx2

解析:  由散点图可知,数据分布成递增趋势,且呈现上凸效果,即增
加越来越缓慢.A中,y=a+bx是直线型,均匀增长,不符合要求;B
中,y=a+bln x是对数型,增长越来越缓慢,符合要求;C中,y=a+
bex是指数型,爆炸式增长,增长越来越快,不符合要求;D中,y=a+
bx2是二次函数型,图象既有上升,又有下降,不符合要求.
3. 下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:℃)
的对比表,已知由表中数据计算得到y关于x的经验回归方程为 = x+
27,则相应于点(10,20)的残差为 .
气温x/℃ 5 10 15 20 25
杯数y 26 20 16 14 14
解析: = =15, = =18,代入经验回归
方程 = x+27得18=15 +27,解得 =-0.6,则经验回归方程为 =
-0.6x+27.所以相应于点(10,20)的残差为20-(-0.6×10+27)=
-1.
-1
4. 已知变量y关于x的非线性经验回归方程为y=ebx-0.5,若对y=ebx-0.5
两边取自然对数,可以发现ln y与x线性相关,现有一组数据如下表所示,
x=5时,预测y值为 .
x 1 2 3 4
y e e3 e4 e6
e7.5
解析:对y=ebx-0.5两边取对数,得ln y=bx-0.5,令z=ln y则z=bx-
0.5,列表如下:
x 1 2 3 4
y e e3 e4 e6
z 1 3 4 6
= =2.5, = =3.5 ,代入 =b -0.5得3.5=b·2.5
-0.5,故b=1.6,故z=1.6x-0.5,y=e1.6x-0.5,当x=5时,y=
e1.6×5-0.5=e7.5.
课堂小结
1. 理清单
(1)非线性回归方程;
(2)残差与残差分析;
(3)残差平方和与决定系数R2.
2. 应体会
将非线性回归问题转化为线性回归问题体现了转化与化归思想.
3. 避易错
(1)非线性经验回归方程转化为线性经验回归方程时的转化方法;
(2)混淆残差图法、残差平方和法和R2法的概念,导致刻画回归效果
出错.
课时作业
04
PART
1. 一组数据(xi,yi)经过分析,提出了四种回归模型①②③④,四种模
型的残差平方和 (yi- )2的值分别是1.23,0.80,0.12,1.36.则拟
合效果最好的是(  )
A. 模型① B. 模型②
C. 模型③ D. 模型④
解析:  残差平方和越小则拟合效果越好,而模型③的残差平方和最
小,所以C正确.
1
2
3
4
5
6
7
8
9
10
11
12

2. 若一函数模型为y=ax2+bx+c(a≠0),将y转化为t的经验回归方
程,则需做变换t=(  )
A. x2 B. (x+a)2
C. (x+ )2 D. 以上都不对
解析:  y=ax2+bx+c=a(x+ )2+ (a≠0),可令t=
(x+ )2,则y=at+ 为y关于t的经验回归方程.

1
2
3
4
5
6
7
8
9
10
11
12
3. 已知变量y关于变量x的经验回归方程为 =bln x+0.24,其一组数据
如表所示:
x e e3 e4 e6 e7
y 1 2 3 4 5
若x=e10,则y的值大约为(  )
A. 4.94 B. 5.74 C. 6.81 D. 8.04
解析:  令t=ln x,则 =bt+0.24.由题意得, =4.2, =3,由经
验回归直线过样本的中心点,有b= ,所以 = ln x+0.24,将x=e10
代入得 ≈6.81.故选C.

1
2
3
4
5
6
7
8
9
10
11
12
4. 〔多选〕某研究小组采集了5组数据,作出如图所示的散点图.若去掉D
(3,10)后,下列说法正确的是(  )
A. 样本相关系数r变小
B. 决定系数R2变大
C. 残差平方和变大
D. 解释变量x与预报变量y的相关性变强
解析:  根据散点图可知,去掉点D(3,10)后,y与x的线性相关性
加强,且为正相关,样本相关系数r变大,则A错,D对;去掉点D(3,
10)后,残差平方和变小,则R2变大,B对,C错.故选B、D.


1
2
3
4
5
6
7
8
9
10
11
12
5. 〔多选〕某种商品的价格x(单位:元/kg)与日需求量y(单位:kg)
之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得经验回归方程为 = x+14.4,则以下说法正确的是
(  )
A. 样本相关系数r>0
B. =-0.32
C. 若该商品的价格为35元/kg,则日需求量大约为3.2 kg
D. 第四个样本点对应的残差为-0.4



1
2
3
4
5
6
7
8
9
10
11
12
解析:  对于A、B,由题表中的数据,得 = =
20, = =8,将 , 代入 = x+14.4,得 =-
0.32,所以A错误,B正确;对于C,将x=35代入 =-0.32x+
14.4,得 =3.2,所以日需求量大约为3.2 kg,所以C正确;对于D,
第四个样本点对应的残差为y4- =6-(-0.32×25+14.4)=-
0.4,所以D正确.故选B、C、D.
1
2
3
4
5
6
7
8
9
10
11
12
6. 在研究气温和热茶销售杯数的关系时,若求得决定系数R2≈0.85,则表
明气温解释了 的热茶销售杯数变化,而随机误差贡献了剩余
的 ,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
解析:由决定系数R2的意义可知,R2≈0.85表明气温解释了85%,而随机
误差贡献了剩余的15%.
85%
15%
1
2
3
4
5
6
7
8
9
10
11
12
7. 很多人喜欢将自己身边的事情拍成短视频发布到网上,某人将发布短视
频后1~8天的点击量的数据进行了初步处理,得到下面的残差图及一些统
计量的值.
(xi- )2 (ti- )2
4.5 5 25.5 42 3 570
(xi- )(yi- ) (ti- )(yi- )
72.8 686.8
其中ti= .
1
2
3
4
5
6
7
8
9
10
11
12
某位同学分别用两种模型:① =bx2+a,② =dx+c进行拟合.
(1)根据残差图,比较模型①、②的拟合效果,应该选择哪个模型?
解: 由残差图可知,模型①的拟合效果更好.
1
2
3
4
5
6
7
8
9
10
11
12
(2)根据(1)的判断结果及表中数据建立y关于x的经验回归方程;(在
计算回归系数时精确到0.01)
解: ∵ti= ,∴ = t+ .
∵ = = ≈0.19,
∴ = - =5-0.19×25.5≈0.16,∴ =0.19x2+0.16.
1
2
3
4
5
6
7
8
9
10
11
12
(3)预测该短视频发布后第10天的点击量是多少?
解: 由(2)知,令x=10,则 =0.19×100+0.16=19.16.
1
2
3
4
5
6
7
8
9
10
11
12
8. 如图是一组实验数据的散点图,拟合方程为y= +c(x>0),令t=
,则y关于t的经验回归直线过点(2,5),(12,25),则当y∈
(1.01,1.02)时,x的取值范围是(  )
A. (0.01,0.02) B. (50,100)
C. (0.02,0.04) D. (100,200)

1
2
3
4
5
6
7
8
9
10
11
12
解析:  根据题意可得y=bt+c(t>0),由y关于t的经验回归直线
过点(2,5),(12,25)可得: 所以 所以y=
2t+1,由y∈(1.01,1.02)可得1.01<2t+1<1.02,所以0.005<t<
0.01,所以0.005< <0.01,所以100<x<200,故选D.
1
2
3
4
5
6
7
8
9
10
11
12
9. 随着互联网的发展,“美团单车”“哈啰出行”等共享单车服务在我国
各城市迅猛发展.为掌握共享单车在某地区的发展情况,某调查机构从该
地区抽取了4个城市,分别收集和分析了共享单车的A,B两项指标数xi,
yi(i=1,2,3,4),数据如表所示.由表可得y关于x的经验回归方程为
=4x2+a,则此经验回归模型中A指标数x=2时的残差为(  )
A指标数x 1 2 3 4
B指标数y 6 12 35 63
A. 0 B. -1 C. -2 D. -3

1
2
3
4
5
6
7
8
9
10
11
12
解析:  因为 =4x2+a是非线性的,所以当将其看作y关于x2的函数
时,即为线性方程,则 =7.5, =29,所以29=4×7.5+a,得a=-
1,所以 =4x2-1.将x=2代入方程可得 =15,则12-15=-3,所以残
差为-3.故选D.
1
2
3
4
5
6
7
8
9
10
11
12
10. 〔多选〕某种产品的广告支出费用x(单位:万元)与销售量y(单
位:万件)之间的对应数据如下表所示.
广告支出费用x 2.2 2.6 4.0 5.3 5.9
销售量y 3.8 5.4 7.0 11.6 12.2
根据表中的数据可得经验回归方程为 =2.27x+ ,R2≈0.96,以下说法
正确的是(  )
A. 第三个样本点对应的残差 =-1
B. 在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区
域中
C. 该模型拟合效果较好
D. 用该经验回归方程可以很准确地预测广告费用为20万元时的销售量


1
2
3
4
5
6
7
8
9
10
11
12
解析: 对于A项:由题意得 = =4, =
=8,代入 =2.27x+ ,得 =-1.08,故 =2.27x
-1.08,所以 =7-(2.27×4.0-1.08)=-1,故A项正确;对于B、
C项:由于R2≈0.96,所以该回归模型拟合的效果比较好,故C项正确;故
对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,故B项
错误;对于D项:由于样本的取值范围会影响回归方程的使用范围,而广
告费用20万元远大于表格中广告费用值,故用该经验回归方程预测广告费
用为20万元时的销售量不一定准确,故D项错误.故选A、C.
1
2
3
4
5
6
7
8
9
10
11
12
11. 已知指数曲线y=aebx进行线性变换后得到的经验回归方程为u=1-
x,则二次函数y=x2+bx+a的单调递增区间为 .
解析:∵y=aebx,∴两边取对数,作线性变换得ln y=ln(aebx)=ln a
+ln ebx=ln a+bx,由于指数曲线y=aebx进行线性变换后得到的经验回
归方程为u=1-x,则u=ln y ,ln a=1,b=-1,即a=e,∴二次函数
y=x2+bx+a即y=x2-x+e,抛物线开口向上,对称轴为直线x= ,
则函数y=x2+bx+a的单调递增区间为( ,+∞).
( ,+∞)
1
2
3
4
5
6
7
8
9
10
11
12
12. 某高科技公司对其产品研发年投资额x(单位:百万元)与其年销售
量y(单位:千件)的数据进行统计,整理后得到如下统计表和散点图.
x 1 2 3 4 5 6
y 0.5 1 1.5 3 6 12
z=ln y -0.7 0 0.4 1.1 1.8 2.5
(1)该公司科研团队通过分析散点图的特征,计划分别用①y=bx+a和
②y=edx+c两种模型作为年销售量y关于年投资额x的回归模型,请根据
统计表的数据,确定方案①和②的经验回归方程(注:系数b,a,d,c
按四舍五入保留一位小数);
1
2
3
4
5
6
7
8
9
10
11
12
解: 由题可得 = ×(1+2+3+4+5
+6)=3.5,
= ×(0.5+1+1.5+3+6+12)=4,
xiyi=1×0.5+2×1+3×1.5+4×3+5×6
+6×12=121, =1+4+9+16+25+36=91,
所以 = = ≈ ≈2.1,
1
2
3
4
5
6
7
8
9
10
11
12
= - =4- ×3.5=-3.4,
方案①的经验回归方程为 =2.1x-3.4.
对 = 两边取对数得ln = x+ ,
令 =ln ,则 = x+ .
= ×(-0.7+0+0.4+1.1+1.8+2.5)=0.85,
= ≈ = ≈0.6, = - ≈0.85- ×3.5
=-1.36≈-1.4,
方案②的非线性经验回归方程为 =e0.6x-1.4.
1
2
3
4
5
6
7
8
9
10
11
12
(2)根据下表中数据,用决定系数R2(不必计算,只比较大小)比较两
种模型的拟合效果哪个更好,并选择拟合精度更高、更可靠的模型,预测
当研发年投资额为8百万元时,产品的年销售量是多少?
经验回归方程 = x+ =
(yi- )2 18.29 10.06
参考公式及数据: = = , = - ,
R2=1- =1- , xizi≈28.9,e3.4≈30.
1
2
3
4
5
6
7
8
9
10
11
12
解: 方案①的决定系数 =1- ;
方案②的决定系数 =1- ,
则 < ,
故模型②的拟合效果更好,精度更高.
预测当研发年投资额为8百万元时,产品的年
销售量为 =e4.8-1.4=e3.4≈30(千件).
1
2
3
4
5
6
7
8
9
10
11
12
THANKS
演示完毕 感谢观看