(共58张PPT)
4.3 统计模型
4.3.1 一元线性回归模型
第2课时 相关系数与非线性回归
探究点一 相关系数及其应用
探究点二 非线性回归问题
◆课前预习
◆课中探究
◆课堂评价
◆备课素材
【学习目标】
1.了解样本相关系数的统计含义,能利用公式求相关系数;
2.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.
知识点一 相关系数
1.定义:统计学里一般用
来衡量与 的_______________,
这里的 称为线性相关系数(简称为相关系数).
线性相关性强弱
2.性质:
(1),且与正相关的充要条件是,与 负相关的充要条件是
______.
(2) 越____,说明两个变量之间的线性相关性越____,也就是得出的回归
直线方程越没有价值,即方程越不能反映真实的情况; 越____,说明两个变
量之间的线性相关性越____,也就是得出的回归直线方程越有价值.
小
弱
大
强
(3) ___的充要条件是成对数据构成的点都在回归直线上.
1
【诊断分析】
判断正误.(请在括号中打“√”或“×”)
(1)若相关系数为0,则说明两变量之间没有任何关系.( )
×
(2)两个变量相关系数越大,说明它们的相关性越强.( )
×
(3)当时,表明变量与 之间不存在线性相关关系.( )
×
[解析] 当 时,表明两个变量之间的线性相关性很弱,但并不表明它们之间
不存在线性相关关系.
知识点二 非线性回归
如果具有相关关系的两个变量, 不是线性相关关系,那么称为非线性相关关
系,所得到的方程称为非线性回归方程(也简称为回归方程).
【诊断分析】
如何猜测非线性回归方程的类型?
解:可以通过作出散点图,结合已学的函数模型进行猜测.
探究点一 相关系数及其应用
方向一 相关系数的性质
例1(1) 对四组数据进行统计,获得如图所示的散点图,关于其相关系数的
比较正确的是( )
A
A. B.
C. D.
[解析] 由给出的四组数据的散点图可以看出,图①和图③是正相关,相关系数
大于0,图②和图④是负相关,相关系数小于0,图①和图②的点相对更加集中,
所以相关性更强,所以接近于1,接近于,由此可得 .
故选A.
(2)为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、
乙、丙三组数据的线性相关系数,其数值分别为,, ,则 ( )
D
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最弱
D.丙组数据的线性相关性最强,乙组数据的线性相关性最弱
[解析] 因为线性相关系数的绝对值越接近1,说明两个变量之间的线性相关性越
强,所以线性相关系数的绝对值最大的丙组数据的线性相关性最强,线性相关
系数的绝对值最小的乙组数据的线性相关性最弱.故选D.
变式 (多选题) 如图所示,有5组数据,去掉数据
后,下列说法错误的是( )
BC
A.相关系数变大 B.相关系数 变小
C.残差平方和变大 D.与 的线性相关性变强
[解析] 由散点图知,去掉离群点D后,与 的线性相关性变强,且为正相关,
所以相关系数 的值变大,故A中说法正确,B中说法错误;
残差平方和变小,故C中说法错误;
与的线性相关性变强,故D中说法正确.故选 .
[素养小结]
相关系数的性质:
(1)当 的绝对值越接近0时,线性相关性越弱;
(2)当 的绝对值越接近1时,线性相关性越强.
方向二 相关系数的应用
例2 [2023·贵州黔东南凯里一中月考] 某企业新研发了一种产品,产品的成本
由原料成本和非原料成本组成,每件产品的非原料成本 (元)与生产的产品数
量 (千件)有关,经统计得到如下数据:
2 5 8 9 11
12 10 8 8 7
(1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型
拟合与的关系 并指出与 是正相关还是负相关.
解:由题可知, ,
,
, ,
所以相关系数 .
因为很接近1,所以与 的线性相关性很强,
所以可以用线性回归模型拟合与 的关系.
因为,所以与 负相关.
(2)求关于 的回归直线方程,并预测当生产该产品13千件时,每件产品的非
原料成本为多少元
参考公式:相关系数,在 中,
, .
参考数据: .
解:由(1)知, ,
所以 ,
则关于的回归直线方程是 .
令,得 ,所以预测当生产该产品13千件时,
每件产品的非原料成本为5.64元.
变式 某公司对其产品研发的年投资额(单位:百万元)与年销售量
(单位:千件)的数据进行统计,整理后得到如下统计表:
1 2 3 4 5
1.5 2 3.5 8 15
(1)求与的相关系数(精确到),并推断与 的线性相关程度;
(若,则线性相关程度很强;若 ,则线性相关程度一般;
若 ,则线性相关程度很弱)
解:由题知, ,
,
,
,
所以 ,
因为,所以与 的线性相关程度很强.
(2)求年销售量关于年投资额 的回归直线方程;
解:,,所以年销售量 关于年
投资额的回归直线方程为 .
(3)预测当公司对其产品研发的年投资额为6百万元时该产品的年销售量.
参考数据: .
解:当时, ,所以预测当公司对其产品研发的年投
资额为6百万元时该产品的年销售量为15.9千件.
[素养小结]
此类以实际生活为背景的相关系数的考题,意在考查数学建模、直观想象和数学
运算的核心素养.解题的关键是根据相关公式计算出相关系数的值,结合 越接
近于1,线性相关性越强, 越接近于0,线性相关性越弱进行判断.
探究点二 非线性回归问题
例3 [2023·湖北襄阳五中高二月考] 某研发团队为了解年研发资金 (单位:亿
元)对年销售额(单位:亿元)的影响,结合近12年的年研发资金 和年销售
额的数据,建立了两个函数模型:;,其中 ,
, , 均为常数, 为自然对数的底数.经对历史数据的初步处理,得到如图所
示的散点图,
20 66 770 200 14
460 4.20 3 125 000 0.308 21 500
令, ,计算得如下数据:
(1)设与的相关系数为,与的相关系数为 ,请从相关系数的角度选择一
个拟合效果更好的模型.
解:由题得 ,
,
因为,所以模型 的拟合效果更好.
(2)(ⅰ)根据(1)中的选择及表中数据,建立关于 的回归方程(系数精确
到 );
解: 由,得,即 ,
因为 ,
,
所以关于的线性回归方程为 ,
所以,所以 .
(ⅱ)若下一年销售额 需达到80亿元,预测下一年的研发资金.
附:①相关系数,在中, ,
;
②参考数据:, .
解: 当时, ,
因为,所以,解得 ,
所以预测下一年的研发资金约为27.1亿元.
变式1 中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验
表明,某种绿茶用的水泡制,再等到茶水温度降至 时饮用,可以产生
最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是 ).
0 1 2 3 4
85 79 74 71 65
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考
虑到茶水温度降到室温(即 )就不能再降的事实,决定选择函数模型
来刻画.
①令,求出关于 的回归直线方程;
解:由已知得出与 的关系如下表所示.
0 1 2 3 4
4.2 4.1 4.0 3.9 3.8
设回归直线方程为,由题意得, ,
则
, ,所以
,
所以 ,
故关于的回归直线方程为 .
②利用①的结论,求出中的与 的估计值.
解:由,得 ,两边取对数得,
,利用①的结论得, ,所以
, .
(2)你认为该品种绿茶用 的水大约泡制多久后饮用可以产生最佳口感?
参考数据:,,,, ,
,, .
解: 由(1)得, ,
令,得 ,
故估计该品种绿茶用的水大约泡制 后饮用可以产生最佳口感.
变式2 某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5
年的年广告费(单位:百万元)和年销售量 (单位:百万辆) 的散点图如
图所示,令 ,初步处理的数据如下表所示.
44 4.8 10 40.3
1.612 19.5 8.06 现有和两种模型作为年销售量关于年广告费 的
回归分析模型,其中,,, 均为常数.
(1)请从相关系数的角度,分析哪一个模型更合适
解:设模型①和②的相关系数分别为, .
由题意可得 ,
.
因为 ,所以模型②更合适.
(2)根据(1)中的分析选取更合适的回归分析模型,求出关于 的回归方程,
并预测当年广告费为6百万元时产品的年销售量是多少
参考公式:相关系数,在 中,
, .
参考数据:,
解:因为, ,
,
,
所以,即 .
当时, ,
故预测当年广告费为6百万元时产品的年销售量约为13百万辆.
[素养小结]
非线性回归问题常以实际生活为背景,意在考查数学建模、逻辑推理和数学运算
的核心素养.破解关键:一是会转化,即会把非线性回归问题转化为线性回归问题;
二是会求回归直线方程,即利用公式,求出回归直线方程中的参数.
1.如果两个变量之间的线性相关性很强,则其相关系数 的绝对值应接近于 ( )
D
A.0.5 B.2 C.0 D.1
[解析] 相关系数 的绝对值越接近于1,线性相关性越强.故选D.
2.两个变量的散点图如图所示,可考虑用如下函数模型
进行拟合,其中比较合理的是( )
B
A. B.
C. D.
[解析] 由散点图可知,样本点近似分布在一条对数函数型曲线附近,且最低点
的纵坐标小于0,因此可用函数模型 进行拟合.
3.[2024·呼和浩特高二期末]用模型拟合一组数据 ,
其中,设 ,得到变换后的线性回归方程为
,则 ( )
B
A. B. C.35 D.21
[解析] 由题意得,所以 ,所以
,即 ,所以
.故选B.
4.某学校开展研究性学习活动,一组同学获得了如下表所示的试验数据.
1.99 3 4 5.1 8
0.99 1.58 2.01 2.35 3.00
现有如下5个函数模型:
;;; ;
.
请从中选择一个函数模型,使它最能近似地反映这些数据的规律,应选____.
(填序号)
④
[解析] 画出散点图如图所示.由散点图可知,函数模型 最能近似地反
映这些数据的规律,故填④.
1.利用线性回归分析方法解决实际问题的基本步骤:
(1)利用数据表格或散点图等不同的方法,直观判断两个变量与 之间是否具
有相关关系;
(2)判断两个变量与 之间可能具有相关关系后,通过计算相关系数,衡量两
个变量与 之间线性相关关系的强弱;
(3)根据公式求出关于 的回归直线方程;
(4)依据回归直线方程做出统计推断或结果解释.
2.非线性回归问题转化为线性回归问题的基本步骤:
(1)根据收集的数据作散点图,判断两个变量不是线性相关关系;
(2)根据散点图确定回归模型;
(3)进行变量置换,使非线性回归模型转化为线性回归模型;
(4)做相关性检验:利用相关系数做相关性检验,若线性相关,则根据数据求解回
归直线方程;
(5)对变量置换,写出非线性回归方程.
1.判断变量的相关性通常有两种方式:一是散点图,二是相关系数 .前者只能粗
略的说明变量间具有相关性,而后者从定量的角度分析变量相关性的强弱.
2.只有当两变量间具有线性相关关系时,才可以求回归系数,得到回归直线方
程 ;若两变量间的关系不是线性相关关系,则应观察分析其散点图,
找出拟合函数,通过变量代换把非线性回归问题转化为线性回归问题.
例1 噪声污染已经成为影响人们身体
健康和生活质量的严重问题,为了了解
声音强度(单位:分贝)与声音能量
(单位: )之间的关系,将测
量得到的声音强度 和声音能量
的数据作了初步处理,
得到如图所示的散点图及一些统计量的
值.
45.7 0.51
5.1 表中, .
(1)根据表中数据,求声音强度关于声音能量的回归方程 .
解:令 ,
先建立关于 的回归直线方程,
则 ,
,
关于的回归直线方程为 ,
关于的回归方程为 .
(2)当声音强度大于60分贝时属于噪音,会产生噪声污染,城市中某点 共受
到两个声源的影响,这两个声源的声音能量分别是和,且 .已
知点的声音能量等于声音能量与 之和,请根据(1)中的回归方程,判断
点 是否受到噪声污染的干扰,并说明理由.
附:在回归直线方程中,, .
解:点的声音能量, ,
.
根据(1)中的回归方程,将 代入,得
,
点 会受到噪声污染的干扰.
例2 [2023·陕西咸阳实验中学高二期中] 如图是某机构统计的某地区2016年至2
022年生活垃圾无害化处理量 (单位:万吨)的折线图.
注:年份代码分别对应年份 .
(1)由折线图看出,可用一次函数模型拟合与时间代码 的关系,请用相关系
数加以说明;
解:,, ,
,
又, 相关系数, ,
与有较强的线性相关关系,可以用一次函数模型拟合与 的关系.
(2)建立关于的回归直线方程(系数精确到 ),并预测2024年该地区生
活垃圾无害化处理量.
参考数据:,, ,
, .
参考公式:相关系数,当 时认为两个变量有较
强的线性相关关系.
在中,, .
解:由(1)得 ,
又, ,
关于的回归直线方程为 .
2024对应时间代码,将 代入回归直线方程得
,
故预测2024年该地区生活垃圾无害化处理量约为1.82万吨.第2课时 相关系数与非线性回归
【课前预习】
知识点一
1.线性相关性强弱
2.(1)r<0 (2)小 弱 大 强 (3)1
诊断分析
(1)× (2)× (3)× [解析] (3)当r=0.01时,表明两个变量之间的线性相关性很弱,但并不表明它们之间不存在线性相关关系.
知识点二
诊断分析
解:可以通过作出散点图,结合已学的函数模型进行猜测.
【课中探究】
探究点一
例1 (1)A (2)D [解析] (1)由给出的四组数据的散点图可以看出,图①和图③是正相关,相关系数大于0,图②和图④是负相关,相关系数小于0,图①和图②的点相对更加集中,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2(2)因为线性相关系数的绝对值越接近1,说明两个变量之间的线性相关性越强,所以线性相关系数的绝对值最大的丙组数据的线性相关性最强,线性相关系数的绝对值最小的乙组数据的线性相关性最弱.故选D.
变式 BC [解析] 由散点图知,去掉离群点D后,x与y的线性相关性变强,且为正相关,所以相关系数r的值变大,故A中说法正确,B中说法错误;残差平方和变小,故C中说法错误;x与y的线性相关性变强,故D中说法正确.故选BC.
例2 解:(1)由题可知=xi==7,=yi==9,(xi-)(yi-)=xiyi-5 =2×12+5×10+8×8+9×8+11×7-5×7×9=-28,
(xi-)2=50,(yi-)2=16,
所以相关系数r===≈-0.99.
因为|r|≈0.99很接近1,所以y与x的线性相关性很强,
所以可以用线性回归模型拟合y与x的关系.
因为r<0,所以y与x负相关.
(2)由(1)知,===-0.56,
所以=-=9-(-0.56)×7=12.92,
则y关于x的回归直线方程是=-0.56x+12.92.
令x=13,得=-0.56×13+12.92=5.64,所以预测当生产该产品13千件时,每件产品的非原料成本为5.64元.
变式 解:(1)由题知==3,==6,(xi-)(yi-)=(-2)×(-4.5)+(-1)×(-4)+0×(-2.5)+1×2+2×9=33,
(xi-)2=(-2)2+(-1)2+02+12+22=10,
(yi-)2=(-4.5)2+(-4)2+(-2.5)2+22+92=127.5,所以r===≈0.92,
因为|r|≥0.75,所以y与x的线性相关程度很强.
(2)===3.3,=6-3.3×3=-3.9,所以年销售量y关于年投资额x的回归直线方程为=3.3x-3.9.
(3)当x=6时,=3.3×6-3.9=15.9,所以预测当公司对其产品研发的年投资额为6百万元时该产品的年销售量为15.9千件.
探究点二
例3 解:(1)由题得r1=====0.86,
r2====≈0.91,
因为|r1|<|r2|,所以模型y=eλx+t的拟合效果更好.
(2)(i)由y=eλx+t,得ln y=t+λx,即v=t+λx,
因为==≈0.02,=-=4.20-×20≈3.84,
所以v关于x的线性回归方程为=0.02x+3.84,
所以ln =0.02x+3.84,所以=e0.02x+3.84.
(ii)当y=80时,80=e0.02x+3.84,
因为e4.382≈80,所以0.02x+3.84≈4.382,解得x≈27.1,
所以预测下一年的研发资金约为27.1亿元.
变式1 解:(1)①由已知得出x与z的关系如下表所示.
泡制时间x/min 0 1 2 3 4
z 4.2 4.1 4.0 3.9 3.8
设回归直线方程为=x+,由题意得=2,=4,
则(xi-)(zi-)=(-2)×0.2+(-1)×0.1+1×(-0.1)+2×(-0.2)=-1,(xi-)2=(-2)2+(-1)2+12+22=10,所以===-0.1,所以=-=4+0.1×2=4.2,
故z关于x的回归直线方程为=-0.1x+4.2.
②由y=kcx+20(x≥0),得y-20=kcx(x≥0),两边取对数得,ln(y-20)=ln k+xln c,利用①的结论得ln c=-0.1,ln k=4.2,所以c=e-0.1≈0.9,k=e4.2≈66.7.
(2)由(1)得,=66.7×0.9x+20(x≥0),
令=60,得x=log0.9≈4.9,
故估计该品种绿茶用85 ℃的水大约泡制4.9 min后饮用可以产生最佳口感.
变式2 解:(1)设模型①和②的相关系数分别为r1,r2.
由题意可得r1==≈≈0.97,r2====1.
因为|r1|<|r2|,所以模型②更合适.
(2)因为=vi=0.96,=yi=8.8,
===5,
=-5=8.8-0.96×5=4,
所以=5v+4,即=5ln x+4.
当x=6时,=5ln 6+4≈13,
故预测当年广告费为6百万元时产品的年销售量约为13百万辆.
【课堂评价】
1.D [解析] 相关系数r的绝对值越接近于1,线性相关性越强.故选D.
2.B [解析] 由散点图可知,样本点近似分布在一条对数函数型曲线附近,且最低点的纵坐标小于0,因此可用函数模型y=a+bln x进行拟合.
3.B [解析] 由题意得==2,所以=+1=3,所以ln y1+ln y2+…+ln y7=3×7=21,即ln (y1y2…y7)=21,所以y1y2…y7=e21.故选B.
4.④ [解析] 画出散点图如图所示.由散点图可知,函数模型y=log2x最能近似地反映这些数据的规律,故填④.第2课时 相关系数与非线性回归
【学习目标】
1.了解样本相关系数的统计含义,能利用公式求相关系数;
2.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.
◆ 知识点一 相关系数
1.定义:统计学里一般用
r==
来衡量y与x的 ,这里的r称为线性相关系数(简称为相关系数).
2.性质:
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是 .
(2)|r|越 ,说明两个变量之间的线性相关性越 ,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越 ,说明两个变量之间的线性相关性越 ,也就是得出的回归直线方程越有价值.
(3)|r|= 的充要条件是成对数据构成的点都在回归直线上.
【诊断分析】 判断正误.(请在括号中打“√”或“×”)
(1)若相关系数为0,则说明两变量之间没有任何关系. ( )
(2)两个变量相关系数越大,说明它们的相关性越强. ( )
(3)当r=0.01时,表明变量x与y之间不存在线性相关关系. ( )
◆ 知识点二 非线性回归
如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).
【诊断分析】 如何猜测非线性回归方程的类型
◆ 探究点一 相关系数及其应用
方向一 相关系数的性质
例1 (1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较正确的是 ( )
A.r2B.r4C.r4D.r2(2)为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的线性相关系数,其数值分别为0.939,0.937,-0.948,则 ( )
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最弱
D.丙组数据的线性相关性最强,乙组数据的线性相关性最弱
变式 (多选题) 如图所示,有5组数据,去掉数据D(3,10)后,下列说法错误的是 ( )
A.相关系数r变大
B.相关系数r变小
C.残差平方和变大
D.x与y的线性相关性变强
[素养小结]
相关系数的性质:
(1)当r的绝对值越接近0时,线性相关性越弱;
(2)当r的绝对值越接近1时,线性相关性越强.
方向二 相关系数的应用
例2 [2023·贵州黔东南凯里一中月考] 某企业新研发了一种产品,产品的成本由原料成本和非原料成本组成,每件产品的非原料成本y(元)与生产的产品数量x(千件)有关,经统计得到如下数据:
x 2 5 8 9 11
y 12 10 8 8 7
(1)根据表中的数据,运用相关系数进行分析说明,是否可以用线性回归模型拟合y与x的关系 并指出y与x是正相关还是负相关.
(2)求y关于x的回归直线方程,并预测当生产该产品13千件时,每件产品的非原料成本为多少元
参考公式:相关系数r=,在=x+中,=,=-.
参考数据:≈1.414.
变式 某公司对其产品研发的年投资额x(单位:百万元)与年销售量y(单位:千件)的数据进行统计,整理后得到如下统计表:
x 1 2 3 4 5
y 1.5 2 3.5 8 15
(1)求y与x的相关系数r(精确到0.01),并推断y与x的线性相关程度;(若|r|≥0.75,则线性相关程度很强;若0.25<|r|<0.75,则线性相关程度一般;若|r|≤0.25,则线性相关程度很弱)
(2)求年销售量y关于年投资额x的回归直线方程;
(3)预测当公司对其产品研发的年投资额为6百万元时该产品的年销售量.
参考数据:≈7.14.
[素养小结]
此类以实际生活为背景的相关系数的考题,意在考查数学建模、直观想象和数学运算的核心素养.解题的关键是根据相关公式计算出相关系数r的值,结合|r|越接近于1,线性相关性越强,|r|越接近于0,线性相关性越弱进行判断.
◆ 探究点二 非线性回归问题
例3 [2023·湖北襄阳五中高二月考] 某研发团队为了解年研发资金x(单位:亿元)对年销售额y(单位:亿元)的影响,结合近12年的年研发资金x和年销售额y的数据,建立了两个函数模型:①y=α+βx2;②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.经对历史数据的初步处理,得到如图所示的散点图,令ui=,vi=ln yi(i=1,2,…,12),计算得如下数据:
(xi-)2 (yi-)2 (xi- )(vi-)
20 66 770 200 14
(ui-)2 (vi-)2 (ui- )(yi-)
460 4.20 3 125 000 0.308 21 500
(1)设u与y的相关系数为r1,x与v的相关系数为r2,请从相关系数的角度选择一个拟合效果更好的模型.
(2)(i)根据(1)中的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
(ii)若下一年销售额y需达到80亿元,预测下一年的研发资金.
附:①相关系数r=,在=+x中,=,=-;
②参考数据:308=77×4,e4.382≈80.
变式1 中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用85 ℃的水泡制,再等到茶水温度降至60 ℃时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是20 ℃).
泡制时间x/min 0 1 2 3 4
水温y/℃ 85 79 74 71 65
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即20 ℃)就不能再降的事实,决定选择函数模型y=kcx+20(x≥0)来刻画.
①令z=ln(y-20),求出z关于x的回归直线方程;
②利用①的结论,求出y=kcx+20(x≥0,c>0)中的k与c的估计值.
(2)你认为该品种绿茶用85 ℃的水大约泡制多久后饮用可以产生最佳口感
参考数据:ln 65≈4.2,ln 59≈4.1,ln 54≈4.0,ln 51≈3.9,ln 45≈3.8,e-0.1≈0.9,e4.2≈66.7,log0.9≈4.9.
变式2 某电动车公司为了抢占更多的市场份额,计划加大广告投入.该公司近5年的年广告费xi(单位:百万元)和年销售量yi(单位:百万辆) 的散点图如图所示,令vi=ln xi(i=1,2,…,5),初步处理的数据如下表所示.
yi vi (yi-)2
44 4.8 10 40.3
(vi-)2 (xi-)· (yi-) (yi-)· (vi-)
1.612 19.5 8.06
现有①y=bx+a和②y=nln x+m两种模型作为年销售量y关于年广告费x的回归分析模型,其中a,b,m,n均为常数.
(1)请从相关系数的角度,分析哪一个模型更合适
(2)根据(1)中的分析选取更合适的回归分析模型,求出y关于x的回归方程,并预测当年广告费为6百万元时产品的年销售量是多少
参考公式:相关系数r=,
在=+x中,=,
=-.
参考数据:=8.06,≈20.1,ln 5≈1.6,ln 6≈1.8.
[素养小结]
非线性回归问题常以实际生活为背景,意在考查数学建模、逻辑推理和数学运算的核心素养.破解关键:一是会转化,即会把非线性回归问题转化为线性回归问题;二是会求回归直线方程,即利用公式,求出回归直线方程中的参数.
1.如果两个变量之间的线性相关性很强,则其相关系数r的绝对值应接近于 ( )
A.0.5 B.2 C.0 D.1
2.两个变量的散点图如图所示,可考虑用如下函数模型进行拟合,其中比较合理的是( )
A.y=a·xb B.y=a+bln x
C.y=a·ebx D.y=a·
3.[2024·呼和浩特高二期末] 用模型y=aekx拟合一组数据(xi,yi)(i=1,2,3,…,7),其中x1+x2+…+x7=14,设z=ln y,得到变换后的线性回归方程为=x+1,则y1y2…y7= ( )
A.e35 B.e21
C.35 D.21
4.某学校开展研究性学习活动,一组同学获得了如下表所示的试验数据.
x 1.99 3 4 5.1 8
y 0.99 1.58 2.01 2.35 3.00
现有如下5个函数模型:
①y=0.58x-0.16;②y=2x-3.02;③y=x2-5.5x+8;④y=log2x;⑤y=+1.74.
请从中选择一个函数模型,使它最能近似地反映这些数据的规律,应选 .(填序号) 第2课时 相关系数与非线性回归
1.A [解析] 由相关系数与回归直线的斜率之间的关系可知,相关系数r的取值范围是(0,1].故选A.
2.B [解析] 因为散点图中的点集中在一条曲线附近,且曲线的形状与函数y=的图象相似,所以选B.
3.C [解析] 由题得模型3的相关系数为0.945,其绝对值最接近于1,拟合效果最好.故选C.
4.A [解析] 由zi=ln yi,得z与x的回归直线方程为=x+ln .由散点图可知,z与x正相关,所以>0.由散点图可知,直线=x+ln 的纵截距大于0,即ln >0,所以>1.故选A.
5.D [解析] y=e1+at的两边取自然对数得ln y=1+at,令u=ln y,则u=1+at.=(ln y1+ln y2+ln y3)×=2,=(t1+t2+t3)×=2,∴2=2+1,解得=,∴=1+,则=.当t=7时,=e4.5.故选D.
6.D [解析] 由题图可知D(10,2)距离其他点较远,且其他点大致分布在一条直线附近,所以去掉点D(10,2)后,x与y的线性相关性变强.|r|越接近于1,线性相关性越强,所以去掉点D(10,2)后,相关系数r的绝对值变大,故A错误,B错误;去掉点D(10,2)后,x与y的线性相关程度变强,所以残差平方和变小,x与y的相关性变强,故C错误,D正确.故选D.
7.A [解析] 由y=ekx+c,得100y=ekx+c,两边同时取对数,得ln(100y)=kx+c.由表中数据可知==3,ln(100y)的平均数为=4.42.对于A,由y=e0.043x+4.291,得ln(100y)=0.043x+4.291,将=3代入,可得ln(100y)=0.043×3+4.291=4.42,与题中数据吻合,故A正确;对于B,由y=e0.043x-4.291,得ln(100y)=0.043x-4.291,将=3代入,可得ln(100y)=0.043×3-4.291=-4.162≠4.42,故B错误;对于C,由y=e0.043x+4.291,得ln y=0.043x+4.291,而表中所给数据为ln(100y)的相关量,故C错误;对于D,由y=e0.043x-4.291,得ln y=0.043x-4.291,而表中所给数据为ln(100y)的相关量,故D错误.故选A.
8.CD [解析] 对于A,回归直线方程=x+对应的回归直线有可能不经过其样本点数据中的任意一个点,故A不正确;对于B,回归直线方程为=1.1x-5,则当x增大1个单位时,增大1.1个单位,故B不正确;对于C,设两个变量x,y之间的线性相关系数为r,则|r|=1的充要条件是成对数据构成的点都在回归直线上,故C正确;对于D,在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好,故D正确.故选CD.
9.AB [解析] 因为==4,==5,所以直线=1.3x+过点(4,5),可得=5-1.3×4=-0.2,由=ln y,y=cekx,得=ln(cekx)=kx+ln c,所以k=1.3,ln c=-0.2,即c=e-0.2.故选AB.
10.0 [解析] 相关系数r=,与=的分子相同,故r=0.
11.正 0.99 [解析] 由表中数据得y随x的增大而增大,所以该人每次最多答对题数y与次数x之间是正相关,r===≈≈0.99.
12.e10 [解析] 令z=ln y,由题得=x-.==,==,所以=-,解得=-2,所以=x+2.将x=8代入上式,得=10,所以=e10,所以预估第8个月预制菜市场规模为e10万元.
13.解:(1)由条形统计图得=×(1+2+3+4+5)=3,
=×(204+220+298+396+482)=320,
所以(xi-)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,(xi-)(yi-)=(-2)×(-116)+(-1)×(-100)+0×(-22)+1×76+2×162=732,所以r==
=≈≈0.98.
因为|r|接近1,所以y与x具有很强的线性相关关系.
(2)因为===73.2,
所以=-=320-73.2×3=100.4,
所以=73.2x+100.4.
由题意知,2025年对应的年份代码为7,
当x=7时,=73.2×7+100.4=612.8,
故预测2025年该公司的研发人数约为613.
14.解:(1)由=·,得ln =ln +xln ,令=ln ,则=ln +xln ,由题意可得其相关系数r1===0.95.
由=+x2,u=x2,得=+u,由题意可得其相关系数r2==≈0.96.因为0.96>0.95,所以y与u的线性相关性较强,
所以回归方程=+x2更合适.
(2)由(1)可知=+x2更适合作为这个地区未成年男性体重y与身高x的回归方程,则===0.002,=-=35.7-0.002×18 750=-1.8,所以=0.002x2-1.8.
(3)当x=170时,=0.002×1702-1.8=56.
因为56×0.8=44.856×1.2=67.2,所以该未成年男性的体重应控制在[44.8,67.2]内.
15.C [解析] 由已知可得,==5,==4,所以4=1.2×5+,解得=-2,所以=1.2x-2.由z=ln y,得ln =1.2x-2,所以=e1.2x-2=e-2·e1.2x,则=e-2.故选C.
16.e-3 [解析] 对y=c1两边同时取对数可得ln y=ln(c1)=ln c1+ln =c2x+ln c1,即=x+ln =0.3x+,可得=0.3,ln =.由xi=600,ln yi=120,可得=30,==6,代入=0.3x+,可得=-3,则ln ==-3,所以=e-3.第2课时 相关系数与非线性回归
一、选择题
1.若回归直线的斜率∈(0,+∞),则相关系数r的取值范围是 ( )
A.(0,1] B.[-1,0)
C.(0,+∞) D.无法确定
2.在一项调查中有两个变量x和y,图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归模型的是 ( )
A.y=a+bx B.y=c+d
C.y=m+nx2 D.y=p+qcx(q>0)
3.在建立两个变量y与x的回归模型时,分别选取了4个不同的模型,模型1的相关系数为0.88,模型2的相关系数为0.66,模型3的相关系数为0.945,模型4的相关系数为0.01,其中拟合效果最好的模型是 ( )
A.模型1 B.模型2
C.模型3 D.模型4
4.[2023·辽宁东北育才学校高二期末] 某科技公司为加强研发能力,研发费用逐年增加,最近6年的研发费用y(单位:亿元)与年份编号x的样本数据为(xi,yi)(i=1,2,3,4,5,6),令zi=ln yi,并将(xi,zi)绘制成如图所示的散点图.若y关于x的回归方程为=,则 ( )
A.>1,>0 B.>1,<0
C.0<<1,>0 D.0<<1,<0
5.[2023·四川宜宾南溪一中高二期末] 下表为某外来物种入侵某河流生态后前3个月的繁殖数量y(单位:百只)的数据,通过相关理论进行分析,可用模型y=e1+at(a∈R)对y与t的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为 ( )
第t个月 1 2 3
繁殖数量y(单位:百只) e1.4 e2.2 e2.4
A.e3百只 B.e3.5百只
C.e4百只 D.e4.5百只
6.[2023·湖北随州高二期末] 某兴趣小组研究光照时长x(单位:h)和向日葵种子发芽数量y(单位:颗)之间的关系,采集到5组数据,作出如图所示的散点图.若去掉点D(10,2)后,下列说法正确的是 ( )
A.相关系数r的绝对值变小
B.相关系数r的值不变
C.残差平方和变大
D.x与y的线性相关性变强
7.[2023·四川仁寿文宫中学高二月考] 某企业推出了一款新食品,为了解该食品中某种营养成分的含量x(单位:克)与顾客的满意率y的关系,通过调查研究发现可选择函数模型y=ekx+c来拟合y与x的关系,根据以下数据可求得y关于x的回归方程为 ( )
营养成分含量x/克 1 2 3 4 5
ln(100y) 4.34 4.36 4.44 4.45 4.51
A.y=e0.043x+4.291 B.y=e0.043x-4.291
C.y=e0.043x+4.291 D.y=e0.043x-4.291
8.(多选题)[2023·山东潍坊高二期末] 下列说法正确的是 ( )
A.回归直线方程=x+对应的回归直线至少经过其样本点数据中的一个点
B.若回归直线方程为=1.1x-5,则当x增大1个单位时,y增大1.1个单位
C.设两个变量x,y之间的线性相关系数为r,则|r|=1的充要条件是成对数据构成的点都在回归直线上
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
9.(多选题)为了研究某种病毒在特定环境下随时间变化的繁殖情况,得到了一些数据,绘制成散点图,发现用模型y=cekx拟合比较合适.令=ln y,得到=1.3x+,经计算发现x,z满足下表,则 ( )
x 2 3 4 5 6
z 1.5 4.5 5.5 6.5 7
A.c=e-0.2 B.k=1.3
C.c=e0.2 D.k=-1.3
二、填空题
10.若回归直线方程中的回归系数=0,则相关系数r= .
11.为宣传环保知识,加强垃圾分类的意识,某单位举行了环保知识问答竞赛,某人很喜欢“挑战答题”模块,他记录了自己连续七次每次最多答对的题数如下表:
第x次 1 2 3 4 5 6 7
每次最多答对题数y 12 15 16 18 21 24 27
参考数据:=4,=19,=140,=2695,xiyi=600,≈2.45,
相关系数r==.
由表中数据可知该人每次最多答对题数y与次数x之间是 相关(填“正”或“负”),其相关系数r≈ .(保留两位小数)
12.[2023·江西萍乡高二期末] 近几年预制菜市场快速增长.某城市调查近4个月的预制菜市场规模y(万元)得到如表所示的数据,根据数据得到y关于时间代码x的非线性回归方程为=.
x 1 2 3 4
y e3 e4 e5 e6
按照这样的速度,预估第8个月的预制菜市场规模为 万元.(结果用e表示)
三、解答题
13.某公司为适应市场并增强市场竞争力,逐年增加研发人员,使得整体研发创新能力持续提升,现对该公司2019~2023年的研发人数作了相关统计,如图.
2019~2023年公司的研发人数情况(年份代码1~5分别对应2019~2023年)
(1)根据条形统计图中数据,计算该公司研发人数y与年份代码x的相关系数r,并由此判断其相关性的强弱;
(2)试求出y关于x的线性回归方程,并预测2025年该公司的研发人数.(结果取整数)
参考数据:(yi-)2=55 960,≈37.4.
参考公式:相关系数r=.回归直线方程的斜率=,截距=-.
附:
|r| [0,0.25] (0.25,0.75) [0.75,1]
相关性 弱 一般 强
14.某机构调查了本地区不同身高(单位:厘米)的未成年男性,得到他们的体重(单位:千克)的平均值,并对数据做了初步处理,得到下面的散点图(如图)及一些统计量的值.
135 35.7 3.4 18 750
4000 1.6 3×108 1296
(xi-)(yi-) (xi-)(ωi-) (ui-)(yi-)
2375 76 6×105
(其中ω=ln y,u=x2)
(1)根据散点图判断回归方程①=·,②=+x2都可以作为这个地区未成年男性体重y与身高x的回归方程.请结合相关系数判断哪一个回归方程更合适 并说明理由.
(2)根据(1)的判断结果及表中的数据写出体重y与身高x的回归方程.
(3)若体重超过相同身高男性体重的平均值的1.2倍为偏胖,低于平均值的0.8为偏瘦,现该地区有一名身高170厘米的未成年男性,根据(2)中的结果请你给出一个合理建议,指出他的体重应该控制在多少千克的范围内
15.[2024·山东青岛高二期末] 为研究某池塘中水生植物的覆盖面积x(单位:dm2)与水生植物的株数y(单位:株)之间的相关关系,收集了4组数据,用模型y=cekx(c>0)去拟合x与y的关系.设z=ln y,x与z的数据如下表所示,得到x与z的回归直线方程为=1.2x+,则=( )
x 3 4 6 7
z 2 2.5 4.5 7
A.-2 B.-1
C.e-2 D.e-1
16.害虫防控对于提高农作物产量具有重要意义.已知某种害虫产卵数y(单位:个)与温度x(单位:℃)有关,测得一组数据(xi,yi)(i=1,2,…,20),可用模型y=c1进行拟合,利用z=ln y变换得到的回归直线方程为=0.3x+.若xi=600,ln yi=120,则的值为 .