人教A版高中数学选择性必修三
8.2第2课时-一元线性回归模型的综合问题-导学案
学习目标 1.了解残差的推导过程,理解残差的概念.2.会通过分析残差和利用R2判断回归模型的拟合效果.
一、残差及残差分析
问题1 上节课中我们知道儿子身高Y关于父亲身高x的经验回归方程为=0.839x+28.957,那么当x=172时,=0.839×172+28.957=173.265(cm),如果一位父亲的身高为172 cm,他儿子长大成人后的身高一定是173 cm吗?为什么?
问题2 对于课本105页表8.2-1中的第6个观测,我们发现当父亲身高为172 cm时,儿子的身高实际为176 cm,实际身高与预测的身高相差了多少?
知识梳理
1.残差:对于响应变量Y,通过观测得到的数据称为________,通过经验回归方程得到的称为________,________减去__________称为残差.
2.残差分析:________是随机误差的估计结果,通过对________的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为________.
例1 (1)对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )
(2)已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为=2x+a,若样本点(r,1)与(1,s)的残差相同,则有( )
A.r=s B.s=2r
C.s=-2r+3 D.s=2r+1
反思感悟 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
跟踪训练1 (1)已知某成对样本数据的残差图如图,则样本点数据中可能不准确的是从左到右第________个.
(2)某种产品的广告支出x与销售额y(单位:万元)之间有如表关系,y与x的经验回归方程为=6.5x+17.5,当广告支出为5万元时,随机误差的残差为( )
x 2 4 5 6 8
y 30 40 60 50 70
A.10 B.20 C.30 D.40
二、对数函数模型y=c1+c2ln x
例2 噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D(单位:dB)与声音能量I(单位:W/cm2)之间的关系,将测量得到的声音强度Di和声音能量Ii(i=1,2,…,10)数据作了初步处理,得到下面的散点图及一些统计量的值.
(Ii-)2 (Wi -)2 (Ii-)· (Di-) (Wi-)· (Di-)
1.04×10-11 45.7 -11.5 1.56×10-21 0.51 6.88×10-11 5.1
表中Wi=lg Ii,=Wi .
(1)根据表中数据,求声音强度D关于声音能量I的经验回归方程=+·lg I;
(2)当声音强度大于60 dB时属于噪音,会产生噪声污染,城市中某点P共受到两个声源的影响,这两个声源的声音能量分别是I1和I2,且+=1010.已知点P的声音能量等于声音能量I1与I2之和,请根据(1)中的经验回归方程,判断P点是否受到噪声污染的干扰,并说明理由.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=-·.
反思感悟 对数函数模型y=c1+c2ln x的求法
(1)确定变量,作出散点图.
(2)根据散点图,做出y=c1+c2ln x的函数选择.
(3)变量置换,令z=ln x,通过变量置换把问题转化为=1+2z的经验回归问题,并求出经验回归方程=1+2z.
(4)根据相应的变换,写出=1+2ln x的经验回归方程.
跟踪训练2 生物学家认为,睡眠中的恒温动物依然会消耗体内能量,主要是为了保持体温.脉搏率f是单位时间心跳的次数,医学研究发现,动物的体重W(单位:g)与脉搏f存在着一定的关系.如表给出一些动物体重与脉搏率对应的数据,图1画出了体重W与脉搏率f的散点图,图2画出了lg W与lg f的散点图.
动物名 鼠 大鼠 豚鼠 兔 小狗 大狗 羊
体重 25 200 300 2 000 5 000 30 000 50 000
脉搏率 670 420 300 200 120 85 70
图1
图2
为了较好地描述体重和脉搏率的关系,现有以下两种模型供选择:
①f=kW+b;②lg f=klg W+b.
(1)选出你认为最符合实际的函数模型,并说明理由;
(2)不妨取表中豚鼠和兔的体重脉搏率数据代入所选函数模型,求出f关于W的函数解析式.
参考数据:lg 2≈0.3,lg 3≈0.5.
三、残差平方和与决定系数R2
问题3 例2中给出了两个模型,那么如何比较这两个模型的拟合效果?
知识梳理
1.残差平方和法
残差平方和(yi-i)2越______,模型的拟合效果越______.
2.决定系数R2
可以用R2=1-来比较两个模型的拟合效果,R2越______,模型的拟合效果越______,R2越______,模型的拟合效果越______.
例3 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下表:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
并由最小二乘法计算得经验回归方程为=0.29x+34.7.
(1)计算各组残差,并计算残差平方和;
(2)求R2.
参考数据:(yi-)2=50.18.
反思感悟 刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好.
(3)决定系数R2法:R2=1-越接近1,表明模型的拟合效果越好.
跟踪训练3 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并借助残差平方和及R2说明回归模型拟合效果的好坏.
参考公式及数据:=,=-,=1 660,iyi=620.
1.知识清单:
(1)残差的概念.
(2)对模型刻画数据效果的分析:残差图法、残差平方和法和R2法.
2.方法归纳:数形结合、转化化归.
3.常见误区: 混淆残差图法、残差平方和法和R2法的概念,导致刻画回归效果出错.
1.在回归分析中,决定系数R2 的值越小,说明残差平方和( )
A.越小 B.越大
C.可能大也可能小 D.以上都不对
2.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得R2与残差平方和m如下表:
甲 乙 丙 丁
R2 0.82 0.78 0.69 0.85
m 106 115 124 103
则试验结果体现A,B两变量有更强的线性相关性的同学是( )
A.甲 B.乙 C.丙 D.丁
3.(多选)关于残差图的描述正确的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或响应变量
C.残差点分布的带状区域的宽度越窄,R2越小
D.残差点分布的带状区域的宽度越窄,残差平方和越小
4.下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:°C)的对比表,已知表中数据计算得到y关于x的经验回归方程为=x+27,则相应于点(10,20)的残差为________.
气温x/°C 5 10 15 20 25
杯数y 26 20 16 14 14
参考答案与详细解析
问题1 不一定,因为还有其他影响他儿子身高的因素,父亲的身高不能完全决定儿子身高.
问题2 176-173.265=2.735(cm).
知识梳理
1.观测值 预测值 观测值 预测值
2.残差 残差 残差分析
例1 (1)A [用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.]
(2)C [样本点(r,1)的残差为1-2r-a,样本点(1,s)的残差为s-a-2,依题意得1-2r-a=s-a-2,故s=-2r+3.]
跟踪训练1 (1)6
解析 原始数据中的可疑数据往往是残差绝对值过大的那个数据,即偏离平衡位置过大.
(2)A [因为y与x的经验回归方程为=6.5x+17.5,所以当x=5时,=6.5×5+17.5=50.由表格知当广告支出5万元时,销售额为60万元,所以随机误差的残差为60-50=10.]
例2 解 (1)由Wi=lg Ii,先建立D关于W的经验回归方程,由于===10,
∴=-=45.7-×10=160.7,
∴D关于W的经验回归方程是=10W+160.7,
即D关于I的经验回归方程是=10·lg I+160.7.
(2)点P的声音能量I=I1+I2,∵+=1010,
∴I=I1+I2=10-10·(I1+I2)=10-10·≥9×10-10(当且仅当=,即I2=2I1时等号成立),
根据(1)中的经验回归方程,点P的声音强度D的最小预测值为=10·lg(9×10-10)+160.7=10·lg 9+60.7>60,
∴点P会受到噪声污染的干扰.
跟踪训练2 解 (1)模型②lg f=klg W+b最符合实际.
根据散点图的特征,图2基本上呈直线形式,所以可选择一次函数来刻画lg W和lg f的关系.
(2)lg 200=2+lg 2≈2.3,lg 2 000=3+lg 2≈3.3,lg 300=2+lg 3≈2.5.
由题意知
解得
所以lg f=-lg W+,
所以f关于W的函数解析式为f=.
问题3 残差平方和、决定系数.
知识梳理
1.小 好
2.大 好 小 差
例3 解 (1)由i=xi+,
可以算得i=yi-i分别为1=0.35,2=0.718,3=-0.5,4=-2.214,5=1.624,
残差平方和为≈8.43.
(2)(yi-)2=50.18,故R2≈1-≈0.832.
跟踪训练3 解 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
列出残差表为
yi-i 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以(yi-i)2=0.3,(yi-)2=53.2,R2=1-≈0.994,
所以回归模型的拟合效果很好.
随堂演练
1.B [用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,而用残差平方和判断模型的拟合效果时,残差平方和越小,模型的拟合效果越好,由此可知决定系数R2的值越小,说明残差平方和越大.]
2.D [在验证两个变量之间的线性相关关系中,决定系数R2越大,相关性越强.
在四个选项中只有丁的决定系数最大.
残差平方和越小,相关性越强.只有丁的残差平方和最小.
综上可知丁的试验结果体现A,B两变量有更强的线性相关性.]
3.ABD [残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,R2的值越大,故描述错误的是C.]
4.-1
解析 ==15,
==18,
代入经验回归方程=x+27得18=15+27,
解得=-0.6,
则经验回归方程为=-0.6x+27.
所以相应于点(10,20)的残差为20-(-0.6×10+27)=-1.人教A版高中数学选择性必修三-8.2第1课时
一元线性回归模型及参数的最小二乘估计-学案
学习目标 1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
一、一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高具有正相关的关系,为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示:
编号 1 2 3 4 5 6 7
父亲身高/cm 174 170 173 169 182 172 180
儿子身高/cm 176 176 170 170 185 176 178
编号 8 9 10 11 12 13 14
父亲身高/cm 172 168 166 182 173 164 180
儿子身高/cm 174 170 168 178 172 165 182
我们画出散点图(课本105页图8.2-1)并通过计算得到样本相关系数r≈0.886.
问题1 由样本相关系数可以得到什么结论?
问题2 这两个变量之间的关系可以用函数模型来刻画吗?
知识梳理
一元线性回归模型:我们称为Y关于x的___________模型,其中,Y称为_______或________,x称为______或______;a和b为模型的未知参数,a称为_____参数,b称为________参数;e是Y与bx+a之间的随机________.
例1 判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平米月租金;
(3)航空公司的顾客投诉次数和航班正点率;
(4)某地区的人均消费水平和人均国内生产总值(GDP);
(5)学生期末考试成绩和考前用于复习的时间;
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长.
反思感悟 在函数关系中,变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,通常运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生活实践.
跟踪训练1 若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元
二、最小二乘法和经验回归方程
问题3 在一元线性回归模型中,表达式Y=bx+a+e刻画了变量Y与x之间的线性相关关系,其中参数a和b未知,确定参数a和b的原则是什么?
问题4 下列确定直线的四种方法中最具有可行性的是哪一个?
方法(1):先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离和最小的位置,测量出此时的斜率和截距,就得到一条直线.
方法(2):可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.
方法(3):在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.
方法(4):我们可以考虑使各组数据的随机误差e的和最小来确定直线的斜率和截距.
知识梳理
最小二乘法:我们将=x+称为Y关于x的________________,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做________________,求得的,叫做b,a的________________,其中==,=-.
例2 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
求经验回归方程.
参考公式:=,=-.
反思感悟 求经验回归方程的步骤
(1)算:计算,,,iyi.
(2)代:代入公式计算,的值.
(3)写:写出经验回归方程.
跟踪训练2 某班5名学生的数学和物理成绩如表:
学生 学科 A B C D E
数学成绩(x) 88 76 73 66 63
物理成绩(y) 78 65 71 64 61
求物理成绩y对数学成绩x的经验回归方程.
三、利用经验回归方程进行预测
例3 偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同学的某科考试成绩与该科平均分的差叫某科偏差(实际成绩-平均分=偏差).在某次考试成绩统计中,某老师为了对学生数学偏差x(单位:分)与物理偏差y(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:
学生序号 1 2 3 4 5 6 7 8
数学偏差x 20 15 13 3 2 -5 -10 -18
物理偏差y 6.5 3.5 3.5 1.5 0.5 -0.5 -2.5 -3.5
(1)若x与y之间具有线性相关关系,求y关于x的经验回归方程;
(2)若该次考试数学平均分为120分,物理平均分为91.5分,试由(1)的结论预测数学成绩为128分的同学的物理成绩.
参考数据和参考公式:
iyi=324,=1 256,
经验回归方程为=x+,
其中
反思感悟 (1)判断两个变量是否线性相关:可以利用经验,也可以画散点图.
(2)求经验回归方程,注意运算的正确性.
(3)根据经验回归方程进行预测估计:估计值不是实际值,两者会有一定的误差.
跟踪训练3 恩格尔系数法是国际上常用的一种测定贫困线的方法,是指居民家庭年人均食物支出占年人均消费总支出的比重,它随家庭收入的增加而下降,即恩格尔系数越大,生活越贫困.某调研小组通过调查得到了某地年人均消费总支出x(万元)与恩格尔系数y的五组数据如下表:
x 1 1.5 2 2.5 3
y 0.9 0.7 0.5 0.3 0.2
(1)请根据上表数据,用最小二乘法求出y关于x的经验回归方程;
(2)若该地某居民家庭年人均消费总支出为2.6万元,估计该居民家庭的恩格尔系数.
参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.
1.知识清单:
(1)一元线性回归模型.
(2)最小二乘法、经验回归方程的求法.
(3)利用经验回归方程进行预测.
2.方法归纳:数形结合、转化化归.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.
1.工人工资y(元)与劳动生产率x(千元)的相关关系的经验回归方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元
2.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据成对样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.经验回归直线过点(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可判定其体重必为58.79 kg
3.(多选)为研究需要,统计了两个变量x,y的数据情况如表:
x x1 x2 x3 … xn
y y1 y2 y3 … yn
其中数据x1,x2,x3,…,xn和数据y1,y2,y3,…,yn的均值分别为和,并且计算样本相关系数r=-0.8,经验回归方程为=x+,以下结论正确的为(若|r|>0.75,则线性相关性较强)( )
A.将以上数据的每个数据都加一个相同的常数后,方差不变
B.变量x,y的相关性较强
C.当x=x1时,则必有=y1
D.<0
4.某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据列(个数x,加工时间y)为:(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其经验回归方程为=0.67x+54.9,则a的值为________.
参考答案与详细解析
问题1 由散点图的分布趋势表明儿子的身高与父亲的身高线性相关,通过样本相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.
问题2 不能.因为这两个变量之间不是函数关系,也就不能用函数模型刻画.
知识梳理
一元线性回归 因变量 响应变量 自变量 解释变量 截距 斜率 误差
例1 解 (1)(2)(3)(4)(5)回归模型,(6)(7)函数模型.
跟踪训练1 D [因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,
所以y=0.7x+3+e.
当x=10时,得y=0.7×10+3+e=10+e,
又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.]
问题3 使表示成对样本数据的各散点在整体上与一条适当的直线尽可能地接近.
问题4 方法(1),(2),(3)虽然有一定道理,但是比较难操作,方法(4)可以利用点到直线的距离来刻画散点与该直线的接近程度,然后利用所有距离之和刻画所有样本观测数据与该直线的接近程度(具体推导过程参考课本108~109页).
知识梳理
经验回归方程 最小二乘法 最小二乘估计
例2 解 ==5,
==50,
iyi=2×30+4×40+5×60+6×50+8×70=1 380,
5=5×5×50=1 250,
=22+42+52+62+82=145,
52=5×52=125,
==6.5,
=-=50-6.5×5=17.5,
所以所求经验回归方程为=6.5x+17.5.
跟踪训练2 解 =×(88+76+73+66+63)=73.2,
=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61=25 054.
=882+762+732+662+632=27 174.
所以==≈0.625,
=-≈67.8-0.625×73.2=22.05.
所以所求经验回归方程是=0.625x+22.05.
例3 解 (1)由题意可得,
=[20+15+13+3+2+(-5)+(-10)+(-18)]×=,
=[6.5+3.5+3.5+1.5+0.5+++]×=,
===,
所以=-=-×=,故经验回归方程为=x+.
(2)由题意,设该同学的物理成绩为ω,则物理偏差为ω-91.5.
而数学偏差为128-120=8,
所以ω-91.5=×8+,解得ω=94,
所以,可以预测这位同学的物理成绩为94分.
跟踪训练3 解 (1)由题意可得=×(1+1.5+2+2.5+3)=2,
=×(0.9+0.7+0.5+0.3+0.2)=0.52.
(xi-)(yi-)=-1×0.38-0.5×0.18+0.5×(-0.22)+1×(-0.32)=-0.9,
(xi-)2=1+0.25+0.25+1=2.5,
则=-=-0.36,
=-=1.24,故=-0.36x+1.24.
(2)当x=2.6时,=-0.36×2.6+1.24=0.304,
故估计该居民家庭的恩格尔系数为0.304.
随堂演练
1.B [因为经验回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.]
2.D [当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79 kg.]
3.ABD [对于A,因为方差是表示数据波动大小的量,将一组数据的每个数都加一个相同的常数后,方差不变,所以A正确;
对于B,样本相关系数r=-0.8,|r|=0.8,变量x,y的相关性较强,所以B正确;
对于C,当x=x1时,不一定有=y1,所以C错误;
对于D,因为r=-0.8<0,是负相关,所以<0,所以D正确.]
4.68
解析 根据题意,可得,
=×=30,
=×=61.4+.
又经验回归直线经过点(,),
故可得61.4+=0.67×30+54.9,解得a=68.人教A版高中数学选择性必修三
8.2第3课时-指数函数模型与幂函数模型-导学案
学习目标 1.进一步掌握一元线性回归模型参数的统计意义.2.了解非线性回归模型,掌握指数型函数模型和幂函数模型的求解过程.
一、指数函数模型y=αeβx(α>0)
例1 某景区的各景点从2010年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从2011年至2020年,该景点的旅游人数y(万人)与年份x的数据:
第x年 1 2 3 4 5
旅游人数y(万人) 300 283 321 345 372
第x年 6 7 8 9 10
旅游人数y(万人) 435 486 527 622 800
该景点为了预测2023年的旅游人数,建立了y与x的两个回归模型:
模型①:由最小二乘法求得y与x的经验回归方程=50.8x+169.7;
模型②:由散点图的样本点分布,可以认为样本点集中在曲线y=aebx的附近.
(1)根据表中数据,求模型②的经验回归方程=aebx(a精确到个位,b精确到0.01);
(2)根据下列表中的数据,比较两种模型的决定系数R2,并选择拟合精度更高、更可靠的模型,预测2023年该景区的旅游人数(单位:万人,精确到个位).
经验回归方程 ①=50.8x+169.7 ②=aebx
(yi-)2 30 407 14 607
参考公式、参考数据及说明:
①对于一组数据(v1,w1),(v2,w2),…,(vn,wn),其经验回归直线=+v的斜率和截距的最小二乘估计分别为=,=-.
②刻画回归效果的决定系数R2=1-.
③参考数据:e5.46≈235,e1.43≈4.2.
(xi-)2 (xi-)·(yi-) (xi-)·(ui-)
5.5 449 6.05 83 4 195 9.00
表中ui=ln yi,=i.
反思感悟 指数函数型y=ebx+a回归问题的处理方法
(1)函数y=ebx+a的图象,如图所示.
(2)处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
跟踪训练1 已知某种细菌的适宜生长温度为10 ℃~25 ℃,为了研究该种细菌的繁殖数量y(单位:个)随温度x(单位:℃)变化的规律,收集数据如表:
温度x/℃ 12 14 16 18 20 22 24
繁殖数量y/个 20 25 33 27 51 112 194
对数据进行初步处理后,得到了一些统计量的值,如表所示:
(xi-)2 (ki-)2 (xi-)· (yi-) (xi-)· (ki-)
18 66 3.8 112 4.3 1 428 20.5
其中ki=ln yi,=i.
(1)请绘出y关于x的散点图,并根据散点图判断y=bx+a与y=cedx哪一个更适合作为该种细菌的繁殖数量y关于x的经验回归方程模型(只做出判断,不必说明理由);
(2)根据(1)的判断结果及表格数据,建立y关于x的经验回归方程(结果精确到0.1);
(3)当温度为25 ℃时,该种细菌的繁殖数量的预测值为多少?
参考公式:对于一组数据(ui,vi)(i=1,2,3,…,n),其经验回归直线=u+的斜率和截距的最小二乘估计分别为=,=-.参考数据:e5.5≈245.
二、幂函数模型y=αxβ(α>0)
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 (wi-)2
46.6 563 6.8 289.8 1.6
(xi-)·(yi-) (wi-)·(yi-)
1 469 108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的经验回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果计算年宣传费x为何值时,年利润的预测值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
反思感悟 y=bxn+a型处理方法
设x′=xn,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
跟踪训练2 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如表数据:
x 1 2 3 4 5 6 7 8
y 112 61 44.5 35 30.5 28 25 24
根据以上数据,绘制了散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y=a+和指数函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的经验回归方程为=96.54e-0.2x,ln y与x的样本相关系数r1=-0.94.
(1)用反比例函数模型求y关于x的非线性经验回归方程;
(2)用样本相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其预测产量为10千件时每件产品的非原料成本.
参考数据:
iyi 2
183.4 0.34 0.115 1.53
i e-2
360 22 385.5 61.4 0.135
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计分别为=,=-,
样本相关系数r=.
1.知识清单:
(1)指数函数模型.
(2)幂函数模型.
2.方法归纳:转化思想.
3.常见误区:非线性经验回归方程转化为线性经验回归方程时的转化方法.
1.给出下列说法:①以模型y=cekx去拟合一组数据时,为了求出非线性经验回归方程,设z=ln y,经计算得到经验回归方程=0.3x+4,则c,k的值分别是e4和0.3;②根据具有线性相关关系的两个变量的统计数据,得到经验回归方程=+x,若=2,=1,=3,则=1;③若变量x和y满足关系y=-0.1x+1,且变量y与z正相关,则x与z也正相关.其中正确说法的个数是( )
A.0 B.1 C.2 D.3
2.某校数学学习兴趣小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,由试验数据得到如图所示的散点图. 由此散点图,可以得出最适宜作为发芽率y和温度x的经验回归方程模型的是( )
A.y=a+bx B.y=a+bln x
C.y=a+bex D.y=a+bx2
3.若一函数模型为y=ax2+bx+c(a≠0),将y转化为t的经验回归方程,需做变换t等于( )
A.x2 B.(x+a)2
C.2 D.以上都不对
4.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln y,求得经验回归方程为=0.25x-2.58,则该模型的非线性经验回归方程为____________________.
参考答案与详细解析
例1 解 (1)对y=aebx取对数,得ln y=bx+ln a,设u=ln y,c=ln a,先建立u关于x的经验回归方程为=x+.
==≈0.108,
=-≈6.05-0.108×5.5=5.456≈5.46,
=≈e5.46≈235,
∴模型②的经验回归方程为=235e0.11x.
(2)由表格中的数据,有30 407>14 607,即>,
即1-<1-,R说明回归模型②的拟合效果更好.
2023年时,x=13,
预测旅游人数为=235e0.11×13=235e1.43≈235×4.2=987(万人).
跟踪训练1 解 (1)由题意,y关于x的散点图,如图所示.
y=cedx更适合作为y关于x的经验回归方程.
(2)由(1)知y=cedx,则ln y=x+ln c,
令k=ln y,则=x+ln c,
∴==≈0.183,
ln c=-=3.8-0.183×18≈0.5,即c≈e0.5.
∴y关于x的经验回归方程为=e0.2x+0.5.
(3)由(2)中的经验回归方程,令x=25,求得=e5.5≈245,
∴当温度为25 ℃时,该种细菌的繁殖数量的预测值为245个.
例2 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的经验回归方程模型.
(2)令w=,=+w.先建立y关于w的经验回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的经验回归方程为=100.6+68w,
因此y关于x的非线性经验回归方程为=100.6+68.
(3)根据(2)的结果知,年利润z的预测值=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预测值最大.
跟踪训练2 解 (1)令u=,
则y=a+可转化为y=a+bu,
先建立y关于u的经验回归方程,因为==45,
所以====100,
则=-=45-100×0.34=11,
所以=11+100u,
所以y关于x的非线性经验回归方程为=11+.
(2)y与的样本相关系数为r2==≈0.99.
因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,
当x=10时,y=+11=21,所以当产量为10千件时,预测每件产品的非原料成本为21元.
随堂演练
1.C [由非线性经验回归方程的求解过程可知①正确;易知②正确;根据y与z正相关,y与x负相关,可知x与z负相关,③错误.]
2.B [由散点图可知,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.
A中,y=a+bx是直线型,均匀增长,不符合要求;
B中,y=a+bln x是对数型,增长缓慢,符合要求;
C中,y=a+bex是指数型,爆炸式增长,增长快,不符合要求;
D中,y=a+bx2是二次函数型,图象呈现下凸,增长也较快,不符合要求.
故对数型最适宜该经验回归方程模型.]
3.C [y=ax2+bx+c=a2+(a≠0),
可令t=2,
则y=at+为关于t的经验回归方程.]
4.=e0.25x-2.58
解析 因为=0.25x-2.58,=ln y,所以=e0.25x-2.58.