8.2.2 一元线性回归模型参数的最小二乘估计(1)
1. 结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义.
2. 了解最小二乘法的原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
3. 针对实际问题,会用一元线性回归模型进行预测.
活动一 复习引入
1. 对相关关系的理解
相关关系——两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度(非确定性关系).
函数关系——函数关系指的是自变量和因变量之间的关系是相互唯一确定的.
2. 相关关系与函数关系的异同点
相同点:均是指两个变量的关系.
不同点:函数关系是一种确定的关系,因果关系;而相关关系是一种非确定性关系,也可能是伴随关系.
3. 散点图
(1) 定义:将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,以表示具有相关关系的两个变量的一组数据的图形叫做散点图.
(2) 分类:线性相关和非线性相关
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们称为正相关.
②负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少趋势,我们称为负相关.
③一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4. 两个变量之间相关关系的确定
(1) 经验作出推断;
(2) 通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断.
样本相关系数r
r==
① 当r>0时,称成对样本数据正相关;当r <0时,称成对样本数据负相关.
② r的取值范围为[一1,1]. .
③ 当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.获得总体中所有的成对数据往往是不容易的,因此,我们还是要用样本估计总体的思想来解决问题,也就是说,我们先要通过抽样获取两个变量的一-些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性,一-般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
活动二 一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
得到的数据如下表所示.
问题1:根据表中的数据绘制散点图,推断儿子身高和父亲身高之间是否存在相关关系
问题2:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗
问题3:从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近 ,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系.我们可以这样理解,由于有其他因素的存在,使儿子身高和父亲身高有关系但不是函数关系,那么影响儿子身高的其他因素是什么
问题4:由问题3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性,各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗
用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值2,则它们之间的关系可以表示为
我们称①式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
追问:为什么要假设E(e)=0,而不假设其为某个不为0的常数
你能结合父亲与儿子身高的实例,说明回归模型①的意义吗
问题5:你能结合具体实例解释产生模型①中随机误差项的原因吗
活动三 最小二乘法
问题6:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型表达式
刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,我们能否通过样本数据估计参数a和b
追问:我们怎样寻找一.条“最好”的直线,使得表示,成对样本数据的这些散点在整体上与这条直线最“接近”
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计.
问题7:利用最小二乘法估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程.
追问1:当x=176时,j≈177,如果一位父亲身高为176 cm,他儿子长大后身高一定能长到177 cm吗 为什么
追问2:根据经验回归方程y=0. 839x +28.957中斜率的具体含义,高个子的父亲一定生高个子的儿子吗 同样,矮个子的父亲一定生矮个子的儿子吗
追问3:根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲身高一样
活动四 残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
根据父亲的身高,得到儿子的身高的残差,如下表:
编号 父亲的身高/cm 儿子身高观测值/cm 儿子身高预测值/cm 残差/cm
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 166.533 -1.553
14 180 182 179.977 2.023
残差图:作图时纵坐标为残差,横坐标可以选为样本编号或身高数据等,这样作出的图形称为残差图.
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如下图所示.
问题8:根据儿子身高与父亲身高的关系,试检验运用残差分析所得的一元线性回归模型的有效性.
活动五 简单应用
例 经验表明,一般树的胸径(树的主干在地面以上1. 3 m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据,如下表,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3
树高/m 18.8 19.2 21.0 21.0 22.1 22.1
编号 7 8 9 10 11 12
胸径/cm 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 22.4 22.6 23.0 24.3 23.9 24.7
求经验回归方程的基本步骤:
(1)画出散点图,从直观上分析数据间是否存在线性相关关系;
(2)代人公式求出=x+中参数 ,的值;
(3)写出经验回归方程并对实际问题作出估计.
2. 需特别注意的是,只有在散点图大致呈线性相关时,求出的经验回归方程才有实际意义,否则求出的经验回归方程毫无意义.
为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表所示:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
作出散点图并求经验回归方程;
进行残差分析.
已知具有线性相关关系的变量x,y满足的一组数据如下表所示.若y关于x的经验回归方程为=3x-1.5,则实数m的值为( )
x 0 1 2 3
y -1 1 m 8
A. 4 B. C. 5 D. 6
2. (2024佛山期末)若将文盲定义为0,半文盲定义为1,小学定义为2,初中定义为3,职中定义为4,高中定义为5,大专定义为6,大学本科定义为7,硕士及以上学历定义为8,根据调查,某发达地区教育级别与月均纯收入(单位:万元)的关系如下表:
学历 初中 职中 高中 大专 本科
教育级别 3 4 5 6 7
月均纯收入 0.40 0.55 0.70 1.15 1.20
由回归分析,经验回归直线的斜率=0.22,可预测该地区具有硕士及以上学历的月平均纯收入为( )
A. 1.40万元 B. 1.42万元 C. 1.44万元 D. 1.46万元
3. (多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中正确的是( )
A. y与x具有正的线性相关关系
B. 若该大学女生的平均身高为168 cm,则平均体重约为57.09 kg
C. 若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D. 若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
4. (2024菏泽模拟)已知变量x与y的10组观测数据为(x1,y1),(x2,y2),…,(x10,y10),且=91,=180,若y关于x的经验回归方程为=1.5x+3,则变量x的平均值 =________;x10=________.
5. 某班5名学生的数学和物理成绩如下表:
A B C D E
数学成绩(x) 88 76 73 66 63
物理成绩(y) 78 65 71 64 61
(1) 画出散点图;
(2) 求物理成绩y关于数学成绩x的经验回归方程;
(3) 若一名学生的数学成绩是96,试预测他的物理成绩(保留整数).
8.2.2 一元线性回归模型参数的最小二乘估计(2)
1. 了解非线性回归分析及非线性回归方程的求法.
2. 了解用残差的平方和或决定系数来比较回归方程的拟合效果.
活动一 复习引入
1. 经验回归方程求解步骤.
2. 最小二乘法求经验回归方程的原理.
3. 残差分析.
活动二 非线性回归分析
问题:人们常将男子短跑100 m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100 m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100 m世界纪录关于纪录产生年份的经验回归方程.
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图.
在上图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
用Y表示男子短跑100 m的世界纪录,t表示纪录产生的年份,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为y∧ 1=-0.020 337 43t+49.769 130 31.
将经验回归直线叠加到散点图,得到下图.
思考1
从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗?
思考2
你能对模型进行修改,以使其更好地反映散点的分布特征吗?
思考3
如何求这个非线性经验回归函数?
思考4
对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
思考5
在上述问题情境中,男子短跑100 m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗?
活动三 简单应用
例1 已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并说明回归模型拟合效果的好坏.
例2 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(1) 作出x与y的散点图,并猜测x与y之间的关系;
(2) 建立x与y的关系,预报回归模型;
(3) 利用所得模型,预报当x=40时,y的值.
解决非线性回归问题的方法及步骤:
(1) 确定变量:确定解释变量为x,预报变量为y;
(2) 画散点图:通过观察散点图并与学过的函数(幂、指数、对数函数、二次函数)作比较,选取拟合效果好的函数模型;
(3) 变量置换:通过变量置换把非线性回归问题转化为线性回归问题;
(4) 分析拟合效果:通过计算相关指数等来判断拟合效果;
(5) 写出非线性回归方程.
为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
天数x/天 1 2 3 4 5 6
繁殖个数y/个 6 12 25 49 95 190
(1) 用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2) 描述解释变量x与预报变量y之间的关系;
(3) 计算决定系数R2(保留4位小数).
1. 甲、乙、丙、丁四位同学各自对A,B两变量做回归分析,分别得到散点图与残差平方和(yi-i)2如下表:
甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
根据上表体现拟合A,B两变量关系的模型,则拟合精度最高的是同学( )
A. 甲 B. 乙 C. 丙 D. 丁
2. (2024河南百师联盟联考)已知变量x,y的5个样本点为A1(1,1),A2(2,3),A3(2.5,3.5),A4(3,4),A5(4,6),由最小二乘法得到的经验回归方程为y=1.6x+a,过点A2,A3的直线方程为y=mx+n,则下列结论中正确的是( )
A. a>n
B. 样本点A2(2,3)的残差为-0.3
C. (yi-1.6xi-a)2≥(yi-mxi-n)2
D. (yi-1.6xi-a)2≤(yi-mxi-n)2
3. (多选)下列命题中,是假命题的有( )
A. 回归方程=x+至少经过点
(x1,y1)(x2,y2),...,(xn,yn)中的一个
B. 若变量y和x之间的相关系数r=-0.936 2,则变量y和x之间的负相关性很强
C. 在回归分析中,决定系数R2为0.80的模型比决定系数R2为0. 98的模型拟合的效果要好
D. 在回归方程y=0. 5x-8中,当变量x=2时,变量y的值一定是一7
4.(2023衡阳月考)已知变量x和y的统计数据如下表,若由表中数据得到的经验回归方程为=0. 8x+,则x=10时的残差为_________.
x 6 7 8 9 10
y 3.5 4 5 6 6.5
某市春节期间7家超市的广告费支出xi(单位:万元)和销售额yi(单位:万元)的数据如下:
超市 A B C D E F G
广告费支出x 1 2 4 6 11 13 19
销售额y 19 32 40 44 52 53 54
若用线性回归模型拟合y与x的关系,求y关于x的经验回归方程;
若用对数回归模型拟合y与x的关系,可得经验回归方程:=12ln x+22,经计算得出线性回归模型和对数回归模型的R2分别约为0.75和0.97,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出为8万元时的销售额.
参考数据及公式:=8,=42,=2 794,=708,=,=-,ln 2≈0.69.
8.2.2 一元线性回归模型参数的最小二乘估计(1)
【活动方案】
问题1:
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
问题2:表中的数据,存在父亲身高相同,而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172 cm,而对应的儿子的身高分别为176 cm和174 cm;同样在第3,4两个观测中,儿子的身高都是170 cm,而父亲的身高分别为173 cm,169 cm.可见儿子身高和父亲身高之间不是函数关系,所以不能用函数模型来刻画.
问题3:影响儿子身高的因素除父亲本身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素.儿子身高不是父亲身高的函数关系的原因是存在这些随机的因素.
问题4:如果用x表示父亲身高,Y表示儿子身高,e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a+e.
追问:因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
思考:可以解释为父亲身高为xi的所有男大学生的身高组成一个子总体,该子总体的均值为bxi+a,即该子总体的均值与父亲身高是线性函数关系. 而对于父亲身高为xi的某一名男大学生,他的身高yi并不一定为bxi+a,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项ei=yi-(bxi+a).
问题5:①除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
②在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
③实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.
问题6:通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
追问:目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
方法:利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.可以用|yi-(bxi+a)|来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和Q= (yi-bxi-a)2来刻画“整体接近程度”.
当a,b的取值为==,=-(其中(,)称为样本点的中心)时,Q达到最小,所以与直线=x+最“接近”.
问题7:通过信息技术,计算求得=0.839x+28.957.
追问1:儿子的身高不一定会是177 cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响.父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176 cm时,儿子身高一般在177 cm左右.实际上,如果把这所学校父亲身高为176 cm的所有儿子身高作为一个子总体,那么177 cm是这个子总体的均值的估计值.
追问2:这里的经验回归方程=0.839x+28.957, 其斜率可以解释为父亲身高每增加1 cm,其儿子身高平均增加0.839 cm. 分析模型还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm), 则=184.172(cm);矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则=171.587(cm).
追问3:通过经验回归方程=0.839x+28.957,令=x,则x≈179.857,即当父亲身高为179.857 cm时,儿子的平均身高与父亲的身高一样.
问题8:观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
例 以胸径为横坐标、树高为纵坐标作散点图,得到下图.
在上图中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,h表示树高,根据最小二乘法,计算可得经验回归方程为=0.249 3d+14.84,
相应的经验回归直线如下图所示.
跟踪训练 (1) 散点图如图.
=×(5+10+15+20+25+30)=17.5,
=×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
≈80.1,=437.5.
计算,得≈0.183,=-≈6.285,
故所求经验回归方程为=0.183x+6.285.
(2) 由表中的数值可以得出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与所挂物体的质量呈线性关系.
【检测反馈】
1. A 由题意可知,样本点的中心(,)一定在经验回归直线上,所以代入方程可得m=4.
2. D 由题意可设经验回归方程为=0.22x+,因为=(3+4+5+6+7)=5,=(0.4+0.55+0.7+1.15+1.20)=0.8,所以0.8=0.22×5+,解得=-0.3,故=0.22x-0.3,所以当x=8时,=0.22×8-0.3=1.46,即预测该地区具有硕士及以上学历的月平均纯收入为1.46万元.
3. ABC 根据y与x的经验回归方程为=0.85x-85.71,其中0.85>0,说明y与x具有正的线性相关关系,故A正确;回归直线过样本点的中心(,),则=0.85×168-85.71=57.09,故B正确;由回归方程知,若该大学某女生身高增加1 cm,则其体重约增加0.85 kg,故C正确;若该大学某女生身高为170 cm,则可预测其体重约为58.79 kg,不可断定其体重必为58.79 kg,故D错误.故选ABC.
4. 10 9 由题意,得==18.又=1.5+3,则18=1.5+3,解得 =10.由=91,得x10=10-=9.
5. (1) 散点图如图.
(2) =×(88+76+73+66+63)=73.2,=×(78+65+71+64+61)=67.8,
=239.2,=382.8,
所以==≈0.625,
=-≈67.8-0.625×73.2=22.05,
所以y关于x的经验回归方程是=0.625x+22.05.
(3) 当x=96时,=0.625×96+22.05≈82,
即预测他的物理成绩是82.
8.2.2 一元线性回归模型参数的最小二乘估计(2)
【活动方案】
1~3:略
思考1:第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.这说明散点并不是随机分布在经验回归直线的周围, 而是围绕着经验回归直线有一定的变化规律, 即成对样本数据呈现出明显的非线性相关的特征.
思考2:可以发现散点更趋向于落在中间下凸且递减的某条曲线附近. 可以发现函数y=-ln x的图象具有类似的形状特征.注意到100 m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2·ln (t-1 895)的周围,其中c1,c2为未知的参数,且c2<0.
思考3:令x=ln (t-1 895),则 Y=c2x+c1,对数据进行变化可得下表:
编号 1 2 3 4 5 6 7 8
年份/t 1896 1912 1921 1930 1936 1956 1960 1968
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29
记录Y/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
得到散点图如下:
由表中的成对数据得到经验回归方程2=-0.426 439 8x+11.801 265 3.
将经验回归直线叠加到散点图,得到下图:
上图表明,经验回归方程对于表中成对数据具有非常好的拟合精度.
将x=ln (t-1 895)代入2=-0.426 439 8x+11.801 265 3,
得 2=-0.426 439 8ln (t-1 895)+11.801 265 3.
思考4:①直接观察法.在同一直角坐标系中画出成对数据散点图、非线性经验回归方程 2=-0.426 439 8·ln (t-1 895)+11.801 265 3的图象以及经验回归方程 1=-0.020 337 43t+49.769 130 31的图象,如图所示:
我们发现,散点图中各散点都非常靠近2的图象, 表明非线性经验回归方程2对于原始数据的拟合效果远远好于经验回归方程1.
②残差分析:残差平方和越小,模型拟合效果越好.
Q1=≈0.669,Q2=≈0.004,
Q2明显小于Q1,说明非线性回归模型的拟合效果要优于一元线性回归的拟合效果.
③利用决定系数R2刻画回归效果.
R2=1-=1-.
R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型拟合效果越差.
1和2的R2分别为0.732 5和0.998 3,说明经验回归方程2的拟合效果要优于经验回归方程1.
思考5:不能,样本相关系数是刻画成对数据的线性相关程度的强弱,不能刻画非线性关系的强弱.
例1 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
=-46,=40,
所以===-1.15,
=7.4+1.15×18=28.1,
故所求的经验回归方程是=-1.15x+28.1.
列出残差表:
yi-i 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以=0.3,=53.2,R2=1-≈0.994,所以回归模型的拟合效果很好.
例2 (1) 作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=c1ec2x的周围,其中c1,c2为待定的参数.
(2) 对两边取对数把指数关系变为线性关系,令z=ln y,则变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
x 21 23 25 27 29 32 35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
所以=≈0.272,=-≈-3.849,
故所求经验回归方程为=0.272x-3.849,
所以=e0.272x-3.849.
(3) 当x=40时,y=e0.272x-3.849≈1 131.
跟踪训练 (1) 作散点图如图所示.
(2) 由散点图看出样本点分布在一条指数函数曲线y=c1ec2x的周围,于是令z=ln y,则变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
由计算器得=0.69x+1.115,则有=e0.69x+1.115.
(3)
i 6.08 12.12 24.17 48.18 96.06 191.52
yi 6 12 25 49 95 190
=,=4.816 1,
≈24 642.8,
R2=1-≈0.999 8.
【检测反馈】
1. D 残差平方和越小,模型拟合效果越好.
2. D 对于A,由已知可得==2.5,==3.5,根据经验回归方程,可知3.5=1.6×2.5+a,解得a=-0.5.因为kA2A3==1,则直线A2A3的方程为y-3=x-2,即y=x+1,所以n=1>a,故A错误;对于B,由A知,经验回归方程为y=1.6x-0.5,则样本点A2(2,3)的预测值为1.6×2-0.5=2.7,所以样本点A2(2,3)的残差为3-2.7=0.3,故B错误;对于C,D,根据最小二乘法的意义,可知(yi-1.6xi-a)2≤(yi-mxi-n)2,故C错误,D正确.
3. ACD 对于A,回归方程=x+是由最小二乘法计算出来的,它不一定经过其样本数据点,一定经过点(,),故A是假命题;对于B,由相关系数的意义,当|r|越接近1时,表示变量y与x之间的线性相关程度越强,变量y和x之间的相关系数r=-0.936 2,则变量y和x之间具有很强的负线性相关关系,故B是真命题;对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,故C是假命题;对于D,在回归方程=0.5x-8中,当变量x=2时,变量y的预测值是-7,但实际观测值可能不是-7,故D是假命题.故选ACD.
4. -0.1 由题意可得==8,==5,则5=0.8×8+,解得=-1.4,所以=0.8x-1.4.当x=10时,=0.8×10-1.4=6.6,所以x=10时的残差为6.5-6.6=-0.1.
5. (1) ===1.7,
=-=42-1.7×8=28.4,
所以y关于x的经验回归方程是=1.7x+28.4.
(2) 因为0.75<0.97,
所以对数回归模型更合适.
令x=8,则=12ln 8+22≈12×3×0.69+22=46.84,
所以当x=8万元时,预测A超市销售额为46.84万元.