(共60张PPT)
第八章 成对数据的统计分析 8.2
一元线性回归模型及其应用
人教版高中数学 选择性必修三 A版
01
新课导入
03
课堂小结
02
新课讲解
04
课后作业
目录
新课导入
第一部分
PART 01
your content is entered here, or by copying your text, select paste in this box and choose to retain only text. your content is typed here
探究1:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高。
父亲身高/cm
180
175
170
165
160
160
165
170
175
180
185
190
·
·
·
·
·
·
·
儿子身高/cm
·
·
·
·
·
·
·
185
探究2. 根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
表中的数据,存在父亲身高相同而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176cm和174cm;同样在第3,4个观测中,儿子的身高都是170cm,而父亲的身高分别为173cm,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.
探究3:从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近表明儿子身高和父亲身高有较强的线性关系.我们可以这样理解,由于有其他因素的存在,使儿子身高和父亲身高有关系但不是函数关系.那么影响儿子身高的其他因素是什么?
影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.
探究4:由探究3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?
如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a.
新课讲解
第二部分
PART 02
your content is entered here, or by copying your text, select paste in this box and choose to retain only text. your content is typed here
一元线性回归模型
用X表示父亲身高,Y表示儿子身高,e表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为, (1)
我们称(1)式为Y关于x的一元线性回归模型(simple linear regression model).
其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
问题1. 你能结合父亲与儿子身高的实例,说明回归模型①的意义?
①
可以解释为父亲身高为的所有男大学生身高组成一个子总体,该子总体的均值为b+a,即该子总体的均值与父亲的身高是线性函数关系.
而对于父亲身高为的某一名男大学生,他的身高yi并不一定为b+a,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi -(+a).
问题2.你能结合具体实例解释产生模型①中随机误差项的原因吗?
产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.
问题3:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型达式
刻画的是变量Y与变量x之间的线性相关关系,
其中参数a和b未知,我们能否通过样本数据估计参数a和b
与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数。参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
问题4.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?
目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
方法:利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|=|ei|.
显然|ei|越小,表示点(xi,yi)与点(xi,bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小。特别地,当ei=0时,表示点(xi,yi)在这条直线上.
因此,可以用 来刻画各样本观测数据与直线y=bx+a的整体接近程度.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”.
残差平方和:
求a,b的值,使Q(a,b)最小
在上式中,xi,yi(i=1,2,3,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数,因为Q还可以表示为 即它是随机误差的平方和,这个和当然越小越好,所以我们取使Q达到最小的a和b的值,作为截距和斜率的估计值。下面利用成对样本数据求使Q取最小值的a,b.
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法.
注意:
1、经验回归必过.
2、都是估计值.
3 、与r符号相同.
问题5:利用下表的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程。
通过信息技术,计算求得
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
残差分析
问题6:当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么?
儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.一般地,因为E(Y)=bx+a,是bx+a的估计值,所以是E(Y)的估计值.
利用决定系数R2刻画回归效果.
R2越大,表示残差平方和越小,即模型的拟合效果越好
R2越小,表示残差平方和越大,即模型拟合效果越差.
我们称yi为响应变量Y的观测值,通过经验回归方程得到的为预测值.为了研究回归模型的有效性,定义残差为=yi-,残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析.
例如,对于表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y==176(cm),预测值为96=0.839×172+28.957=173.265(cm),残差为176-173.265=2.735(cm).类似地,可以得到其他的残差,如表所示.
问题7:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗?
残差图:作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.
观察表可以看到,残差有正有负,残差的绝对值最大是4.413.观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.可见,通过观察残差图可以直观判新模型是否满足一元线性回归模型的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析,借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策。
(1)
(2)
(3)
(4)
问题8:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为的随机变量的观测值.
图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;
图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图(3)说明残差的方差不是一个常数,随观测时间变大而变大;
图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
所以,只有图(4)满足一元线性回归模型对随机误差的假设。
例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3
树高/m 18.8 19.2 21.0 21.0 22.1 22.1
编号 7 8 9 10 11 12
胸径/cm 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 22.4 22.6 23.0 24.3 23.9 24.7
解: 以胸径为横坐标,树高为纵坐标作散点图如下:
散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为
编号 胸径/cm 树高观测值/m 树高预测值/m 残差/m
1 18.1 18.8 19.4 -0.6
2 20.1 19.2 19.9 -0.7
3 22.2 21.0 20.4 0.6
4 24.4 21.0 20.9 0.1
5 26.0 22.1 21.3 0.8
6 28.3 22.1 21.9 0.2
7 29.6 22.4 22.2 0.2
8 32.4 22.6 22.9 -0.3
9 33.7 23.0 23.2 -0.2
10 35.7 24.3 23.7 0.6
11 38.3 23.9 24.4 -0.5
12 40.2 24.7 24.9 -0.2
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示.
以胸径为横坐标,残差为纵坐标,作残差图,得到下图.
观察残差表和残差图,可以看到残差的绝对值最大是 0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.
(2)画出解释变量与响应变量的散点图,观察它们的关系 (如是否存在线性关系等).
(3)由经验确定回归方程的类型.
(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.
(5)得出结果后需进行线性回归分析.
①残差平方和越小,模型的拟合效果越好.
②决定系数R2取值越大,说明模型的拟合效果越好.
需要注意:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验.
建立线性回归模型的基本步骤:
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
例2.人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程。
解:以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为:
将经验回归直线叠加到散点图,得到下图:
第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围, 而是围绕着经验回归直线有一定的变化规律, 即成对样本数据呈现出明显的非线性相关的特征.
仔细观察:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗
思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?
仔细观察,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征
注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0.
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1,c2是待定参数,现在问题转化为如何利用成对数据估计参数c1和c2
令x=ln(t-1895),则 Y=c2x+c1对数据进行变化可得下表:
编号 1 2 3 4 5 6 7 8
年份/t 1896 1912 1921 1930 1936 1956 1960 1968
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29
记录Y/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
得到散点图,由表中的数据得到经验回归方程为:
上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将x=ln(t-1895)代入:
将经验回归直线叠加到散点图,得到下图:
对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗?
①
②
我们发现,散点图中各散点都非常靠近②的图象, 表明非线性经验回归方程②,对于原始数据的拟合效果远远好于经验回归方程①.
(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
①
②
(2).残差分析:残差平方和越小,模型拟合效果越好.
Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程.
(3).利用决定系数R2刻画回归效果.
R2越大,表示残差平方和越小,即模型的拟合效果越好
R2越小,表示残差平方和越大,即模型拟合效果越差.
①和②的R2分别为0.7325和0.9983说明非线性回归方程的拟合效果要优于线性回归方程。
(4)用新的观测数据来检验模型的拟合效果,事实上,我们还有1968年之后的男子短跑100m世界纪录数据,如表所示
在散点图中,绘制表中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到右图.显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.
在使用经验回归方程进行预测时,需要注意下列问题:
(1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干早地区的树高与胸径之间的关系。
(2)经验回归方程一般都有时效性,例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系。
(3)解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差,
(4)不能期望经验回归方程得到的预报值就是响应变量的精确值,事实上,它是响应变量的可能取值的平均值。
建立非线性经验回归模型的基本步骤:
1.确定研究对象,明确哪个是解释变量,哪个是响应变量;
2.由经验确定非线性经验回归方程的模型;
3.通过变换,将非线性经验回归模型转化为线性经验回归模型;
4.按照公式计算经验回归方程中的参数,得到经验回归方程;
5.消去新元,得到非线性经验回归方程;
6.得出结果后分析残差图是否有异常 .
跟踪训练1.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了6组观测数据列于表中:
线性回归残差的平方和:
其中 分别为观测数据中的温度和产卵数,i=1,2,3,4,5,6.
(1)若用线性回归模型拟合,求y关于x的回归方程 (精确到0.1);
解:
所以y关于x的经验回归方程为
跟踪训练1.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了6组观测数据列于表中:
线性回归残差的平方和:
其中 分别为观测数据中的温度和产卵数,i=1,2,3,4,5,6.
(2)若用非线性回归模型拟合,求得y关于x回归方程为 且相关指数R2=0.9522.
①试与(1)中的线性回归模型相比较,用R2说明哪种模型的拟合效果更好
②用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数.(结果取整数).
附:相关系数
∵0.9398<0.9522
∴非线性回归模型的回归方程 比线性回归方程为:y=6.6x-139.4拟合的拟合效果更好
=0.06e0.2303x= =0.06e0.2303×35=0.06×e8.0605≈3167×0.06≈190(个)
预测温度为35℃时该种药用昆虫的产卵数为190个.
②
课堂小结
第三部分
PART 03
your content is entered here, or by copying your text, select paste in this box and choose to retain only text. your content is typed here
课后作业
第四部分
PART 04
your content is entered here, or by copying your text, select paste in this box and choose to retain only text. your content is typed here
第八章 成对数据的统计分析 8.2
一元线性回归模型及其应用
人教版高中数学 选择性必修三 A版人教A版高二数学选择性必修三
8.2《一元线性回归模型及其应用》
教学设计
课题 一元线性回归模型及其应用
教学目标 知识目标 能通过具体实例说明一元线性回归模型修改的依据与方法. 能力目标 通过对具体问题的进一步分析,能将某些非线性回归问题转化为线性回归问题并加以解决,提高数学运算能力;能通过实例说明决定系数R2的意义和作用,提高数据分析能力. 3. 情感目标 通过学习,增强逻辑,提升对数学学习的兴趣,增强自主学习、自主探究的意识.
教学重点 决定系数R2的意义和作用
教学难点 某些非线性回归问题转化为线性回归问题
教学准备 教师准备:多媒体课件、教材习题 学生准备:教材习题、错题本
教学过程 问题导学 通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等. 如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测. 探究新知 探究1:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示. 编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高 探究2. 根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗? 编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182
表中的数据,存在父亲身高相同而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176cm和174cm;同样在第3,4个观测中,儿子的身高都是170cm,而父亲的身高分别为173cm,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画. 探究3:从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近表明儿子身高和父亲身高有较强的线性关系.我们可以这样理解,由于有其他因素的存在,使儿子身高和父亲身高有关系但不是函数关系.那么影响儿子身高的其他因素是什么? 影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素. 探究3:由探究3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗? 如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a. 一元线性回归模型 用X表示父亲身高,Y表示儿子身高,e表示随机误差,假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为, (1) 我们称(1)式为Y关于x的一元线性回归模型(simple linear regression model). 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述. 问题1. 你能结合父亲与儿子身高的实例,说明回归模型①的意义? 可以解释为父亲身高为的所有男大学生身高组成一个子总体,该子总体的均值为b+a,即该子总体的均值与父亲的身高是线性函数关系. 而对于父亲身高为的某一名男大学生,他的身高yi并不一定为b+a,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi -(+a). 问题2.你能结合具体实例解释产生模型①中随机误差项的原因吗? 产生随机误差e的原因有: (1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等. (2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差. (3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因. 与函数模型不同,回归模型的参数一般是无法精确求出的,只能通过成对样本数据估计这两个参数。参数a和b刻画了变量Y与变量x的线性关系,因此通过样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近. 问题3:为了研究两个变量之间的相关关系,我们建立了一元线性回归模型达式 刻画的是变量Y与变量x之间的线性相关关 系,其中参数a和b未知,我们能否通过样本数据估计参数a和b 问题4.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”? 目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近” 方法:利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度. 我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn),由yi=bxi+a+ei(i=1,2,…,n),得|yi-(bxi+a)|=|ei|.显然|ei|越小,表示点(xi,yi)与点(xi,bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小。特别地,当ei=0时,表示点(xi,yi)在这条直线上. 因此,可以用 来刻画各样本观测数据与直线y=bx+a的整体接近程度。 在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和 来刻画“整体接近程度” 残差平方和: 求a,b的值,使Q(a,b)最小 在上式中,xi,yi(i=1,2,3,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数,因为Q还可以表示为即它是随机误差的平方和,这个和当然越小越好,所以我们取使Q达到最小的a和b的值,作为截距和斜率的估计值。下面利用成对样本数据求使Q取最小值的 上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为 我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法. 注意: 1、经验回归必过. 2、都是估计值. 3 、与r符号相同. 问题5:利用下表的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程。 通过信息技术,计算求得 编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182
问题6:当x=176时, ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗?为什么? 儿子的身高不一定会是177cm,这是因为还有其他影响儿子身高的因素,回归模型中的随机误差清楚地表达了这种影响,父亲的身高不能完全决定儿子的身高,不过,我们可以作出推测,当父亲的身高为176cm时,儿子身高一般在177cm左右. 如果把父亲身高为176cm的所有儿子身高作为一个子总体,那么177cm是这个子总体均值的估计值.一般地, 因为E(Y)=bx+a,是bx+a的估计值,所以是E(Y)的估计值. 我们称yi为响应变量Y的观测值,通过经验回归方程得到的为预测值.为了研究回归模型的有效性,定义残差为=yi-,残差是随机误差的估计值,通过对残差的分析可判断回归模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面的工作称为残差分析. 例如,对于右表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y==176(cm),预测值为96=0.839×172+28.957=173.265(cm),残差为176-173.265=2.735(cm).类似地,可以得到其他的残差,如右表所示. 问题7:儿子身高与父亲身高的关系,运用残差分析所得的一元线性回归模型的有效性吗? 残差图:作图时纵坐标 为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图. 观察表可以看到,残差有正有负,残差的绝对值最大是4.413.观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.可见,通过观察残差图可以直观判新模型是否满足一元线性回归模型的假设. 一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析,借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策。 概 (2) (3) (4) 问题8:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定? 根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为的随机变量的观测值. 图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型; 图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分; 图(3)说明残差的方差不是一个常数,随观测时间变大而变大; 图(4)的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.所以,只有图(4)满足一元线性回归模型对随机误差的假设。 典例解析 例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程. 编号123456胸径/cm18.120.122.224.426.028.3树高/m18.819.221.021.022.122.1
编号789101112胸径/cm29.632.433.735.738.340.2树高/m22.422.623.024.323.924.7
解: 以胸径为横坐标,树高为纵坐标作散点图如下: 散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系. 用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为 编号胸径/cm树高观测值/m树高预测值/m残差/m118.1 18.8 19.4 -0.6 220.1 19.2 19.9 -0.7 322.2 21.0 20.4 0.6 424.4 21.0 20.9 0.1 526.0 22.1 21.3 0.8 628.3 22.1 21.9 0.2 729.6 22.4 22.2 0.2 832.4 22.6 22.9 -0.3 933.7 23.0 23.2 -0.2 1035.7 24.3 23.7 0.6 1138.3 23.9 24.4 -0.5 1240.2 24.7 24.9 -0.2
根据经验回归方程,由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如下表所示. 以胸径为横坐标,残差为纵坐标,作残差图,得到下图. 观察残差表和残差图,可以看到残差的绝对值最大是 0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高. 建立线性回归模型的基本步骤: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量. (2)画出解释变量与响应变量的散点图,观察它们之间的关系 (如是否存在线性关系等). (3)由经验确定回归方程的类型. (4)按一定规则(如最小二乘法)估计经验回归方程中的参数. (5)得出结果后需进行线性回归分析. ①残差平方和越小,模型的拟合效果越好. ②决定系数R2取值越大,说明模型的拟合效果越好. 需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可. 例2.人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程。 编号12345678年份18961912192119301936195619601968记录/s11.8010.6010.4010.3010.2010.1010.009.95
解:以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程. 用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为: 将经验回归直线叠加到散点图,得到下图: 仔细观察:从图中可以看到,经验回归方程较好地刻画了散点的变化趋势,请再仔细观察图形,你能看出其中存在的问题吗 第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方. 这说明散点并不是随机分布在经验回归直线的周围, 而是围绕着经验回归直线有一定的变化规律, 即成对样本数据呈现出明显的非线性相关的特征. 思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗? 仔细观察,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数y=-lnx的图象具有类似的形状特征 注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围,其中c1、c2为未知参数,且c2<0. 用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1,c2是待定参数,现在问题转化为如何利用成对数据估计参数c1和c2;令x=ln(t-1895),则 Y=c2x+c1对数据进行变化可得下表: 编号12345678年份/t18961912192119301936195619601968x0.002.833.263.563.714.114.174.29记录Y/s11.8010.6010.4010.3010.2010.1010.009.95
得到散点图,由表中的数据得到经验回归方程为: 上图表明,经验回归方程对于成对数据具有非常好的拟合精度.将x=ln(t-1895)代入:将经验回归直线叠加到散点图,得到下图: 对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个回归方程,你能判断哪个回归方程拟合的精度更好吗? ② 我们发现,散点图中各散点都非常靠近②的图象, 表明非线性经验回归方程② 对于原始数据的拟合效果远远好于经验回归方程①. (1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色). (2).残差分析:残差平方和越小,模型拟合效果越好. Q2明显小于Q1,说明非线性回归方程的拟合效果要优于线性回归方程. (3).利用决定系数R2刻画回归效果. R2越大,表示残差平方和越小,即模型的拟合效果越好 R2越小,表示残差平方和越大,即模型拟合效果越差. ①和②的R2分别为0.7325和0.9983说明非线性回归方程的拟合效果要优于线性回归方程。 (4)用新的观测数据来检验模型的拟合效果,事实上,我们还有1968年之后的男子短跑100m世界纪录数据,如表所示 在散点图中,绘制表中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到右图.显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①. 思考:在上述问题情境中,男子短跑100m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗 在使用经验回归方程进行预测时,需要注意下列问题: (1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干早地区的树高与胸径之间的关系。 (2)经验回归方程一般都有时效性,例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系。 (3)解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差, (4)不能期望经验回归方程得到的预报值就是响应变量的精确值,事实上,它是响应变量的可能取值的平均值。 建立非线性经验回归模型的基本步骤: 1.确定研究对象,明确哪个是解释变量,哪个是响应变量; 2.由经验确定非线性经验回归方程的模型; 3.通过变换,将非线性经验回归模型转化为线性经验回归模型; 4.按照公式计算经验回归方程中的参数,得到经验回归方程; 5.消去新元,得到非线性经验回归方程; 6.得出结果后分析残差图是否有异常 . 跟踪训练1.一只药用昆虫的产卵数y与一定范围内的温度x有关,现收集了6组观测数据列于表中: 经计算得: 线性回归残差的平方和: 其中 分别为观测数据中的温度和产卵数,i=1,2,3,4,5,6. (1)若用线性回归模型拟合,求y关于x的回归方程 (精确到0.1); (2)若用非线性回归模型拟合,求得y关于x回归方程为且相关指数R2=0.9522. ①试与(1)中的线性回归模型相比较,用R2说明哪种模型的拟合效果更好 ②用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数.(结果取整数). 附:相关系数 解: 所以y关于x的经验回归方程为 ∵0.9398<0.9522 ②=0.06e0.2303x= =0.06e0.2303×35=0.06×e8.0605≈3167×0.06≈190(个) 预测温度为35℃时该种药用昆虫的产卵数为190个.
课后作业 三、达标检测 1.在两个变量y与x的回归模型中,分别选择了四个不同的模型,且它们的R2的值的大小关系为RA.y=2+x B.y=2ex C.y=e D.y=2+ln x D 解析:分别将x的值代入解析式判断知满足y=2+ln x. 3.已知经验回归方程=2x-1,则该方程在样本(3,4)处的残差为________. -1 解析:因为当x=3时,=2×3-1=5,所以方程在样本(3,4)处的残差是4-5=-1. 4.已知x与y之间的数据如下: x23456y2.23.85.56.57.0
(1)求y关于x的经验回归方程; (2)完成下面的残差表并判断(1)中经验回归方程的回归效果是否良好(若R2>0.9,则认为回归效果良好). x23456yi-i
附:==,=-, R2=1-. 解:(1)由已知图表可知=4,=5,=90, iyi=112.3,则==1.23,=-=0.08, 故=1.23x+0.08. (2)因为i=yi-i,所以1=-0.34,2=0.03,3=0.5,4=0.27, 5=-0.46,则残差表为 x23456yi-i-0.340.030.50.27-0.46
因为(yi-)2=(2.2-5)2+(3.8-5)2+(5.5-5)2+(6.5-5)2+(7-5)2=15.78,(yi-i)2=0.651.所以R2=1-≈0.96>0.9, 所以该经验回归方程的回归效果良好.
板书设计 1.比较两个模型拟合效果的方法:(1)残差法,残差越大,拟合效果越差;残差越小,拟合效果越小.(2)R2法,R2越接近1,拟合效果越好,R2越接近0,拟合效果越差. 2.对于线性回归模型与非线性回归模型,当数据的散点图分布在直线带状区域内,则选用线性回归模型刻画;当数据的散点分布在曲线带状区域内,要先对数据进行适当变换,再利用线性回归模型进行拟合.
教学反思 课后通过对教学过程的反思与研究, 才能不断完善教学设计中的不足, 才能提升教材分析的能力和课堂教学实效. 1. 多元展示, 多方评价. 在教学过程中我借问题牵引,保证了课堂教学的顺利实施;而在整个过程中,我对学生所作练习、疑问及时解析评价;学生之间、小组之间的互相评价补充,使学生共享成果分享喜悦,坚定了学好数学的信念,实现了预期目标. 2. 创造性的使用教材. 有别于教材,我在教学中,让学生考察了分别考察了两类题型之后再引导学生进行归纳, 这样更贴近学生的认知水平, 学生课后反馈,效果较为理想.高中数学选择性必修三
8.2《一元线性回归模型及其应用》同步练习
A基础练
一、选择题
1.某同学为了解气温对热饮销售的影响,经过统计分析,得到了一个卖出的热饮杯数与当天气温的回归方程.下列选项正确的是( )
A.与线性正相关 B.与线性负相关
C.随增大而增大 D.随减小而减小
2.下列描述中正确命题的个数为( )
(1)最小二乘法的原理是使得最小
(2)样本相关系数越大,相关程度越大
(3)设有一个回归方程,变量增加一个单位时,减少个单位
A. B. C. D.
3.根据如下样本数据,得到回归直线方程,则( )
3 4 5 6 7 8
-3.0 -2.0 0.5 -0.5 2.5 4.0
A., B.,
C., D.,
4.2020年春季.新冠肺炎疫情在全球范围内相维爆发.因为政治制度、文化背景等因素的不同.各个国家疫情防控的效果具有明显差异.右图是西方某国在天内感染新冠肺炎的累计病例人数(万人)与时间(天)的散点图.则下列最适宜作为此模型的回归方程的类型是( )
A. B.
C. D.
5.(多选题)19世纪中期,英国著名的统计学家弗朗西斯·高尔顿搜集了1078对夫妇及其儿子的身高数据,发现这些数据的散点图大致呈直线状态,即儿子的身高(单位:)与父母平均身高(单位:)具有线性相关关系,通过样本数据,求得回归直线方程,则下列结论中正确的是( )
A.回归直线方程至少过,中的一个点
B.若,,则回归直线过点
C.若父母平均身高增加,则儿子身高估计增加
D.若样本数据所构成的点都在回归直线上,则线性相关系数
6.(多选题)在用最小二乘法进行线性回归分析时,下列说法中正确的是( )
A.由样本数据得到的线性回归方程必过样本点的中心;
B.由样本点,,…,得到回归直线,则这些样本点都在回归直线上;
C.利用来刻画回归的效果,比的模型回归效果好;
D.残差图中的残差点比较均匀地落在水平的带状区域中,宽度越窄,则说明模型拟合精度越低;
二、填空题
7.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为________.
8.在一组样本数据的散点图中,若所有样本点 都在曲线附近波动.经计算,则实数的值为________.
9.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天 1 2 3 4 5
使用人数() 15 173 457 842 1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为________.
10.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩 60 65 70 75 80 85 90 95
物理成绩 72 77 80 84 88 90 93 95
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
三、解答题
11.为保护农民种粮收益,促进粮食生产,确保国家粮食安全,调动广大农民生产粮食的积极性,从2014年开始,国家实施了对种粮农民直接补贴的政策通过对2014~2018年的数据进行调查,发现某地区发放粮食补贴额x(单位:亿元)与该地区粮食产量y(单位:万亿吨)之间存在着线性相关关系,统计数据如下表:
年份 2014 2015 2016 2017 2018
补贴额x/亿元 9 10 12 11 8
粮食产量y/万亿 25 26 31 37 21
(1)请根据上表所给的数据,求出y关于x的线性回归直线方程;
(2)通过对该地区粮食产量的分析研究,计划2019年在该地区发放粮食补贴7亿元,请根据(1)中所得到的线性回归直线方程,预测2019年该地区的粮食产量.
参考公式:,.
12.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化 减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,.
(1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合;
(2)求关于的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?
参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,.
B提高练
一、选择题
1.某种碘是一种放射性物质,该碘最初一段时间衰减的时间(单位:分钟)与剩余量(单位:克)存在着较强的线性相关关系.如表是某校化学社团师生观测该碘在5天内衰减情况得出的一组数据,则对的线性回归方程可以是( )
(单位:分钟) 10 20 30 40 50
(单位:克) 22.5 19 17.5 15 11
A. B. C. D.
2.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数的图象附近,设,将其变换后得到线性方程,则( )
A. B. C. D.
3.对于数据组,如果由线性回归方程得到的对应于自变量的估计值是,那么将称为相应于点的残差.某工厂为研究某种产品产量(吨)与所需某种原材料吨)的相关性,在生产过程中收集4组对应数据如下表所示:
3 4 5 6
2.5 3 4
根据表中数据,得出关于的线性回归方程为,据此计算出样本处的残差为-0.15,则表中的值为( )
A.3.3 B.4.5 C.5 D.5.5
4.某网店经销某商品,为了解该商品的月销量(单位:千件)与售价(单位:元/件)之间的关系,收集组数据进行了初步处理,得到如下数表:
根据表中的数据可得回归直线方程,以下说法正确的是( )
A.,具有负相关关系,相关系数
B.每增加一个单位,平均减少个单位
C.第二个样本点对应的残差
D.第三个样本点对应的残差
5.(多选题)某种产品的价格x(单位:元/)与需求量y(单位:)之间的对应数据如下表所示:
x 10 15 20 25 30
y 11 10 8 6 5
根据表中的数据可得回归直线方程,则以下正确的是( )
A.相关系数
B.
C.若该产品价格为35元,则日需求量大约为
D.第四个样本点对应的残差为
6.(多选题)年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )
A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点
D.模型回归曲线的拟合效果比模型的好
二、填空题
7.下面是两个变量的一组数据:
1 2 3 4 5 6 7 8
1 9 16 25 36 49 64
这两个变量之间的线性回归方程为,变量中缺失的数据是___________.
8.已知一组数据点,,,…,,用最小二乘法得到其线性回归方程为,若数据,,,…的均值为,则可以估计数据,,,…的均值为______.
9.某单位为了落实“绿水青山就是金山银山”理念,制订节能减排的目标,调查了用电量(单位:千瓦·时)与气温(单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了以下对照表:
(单位:℃) 17 14 10
(单位:千瓦·时) 24 34 38 64
由表中数据得回归直线方程为,则由此估计当某天气温为2℃时,当天用电量为________千瓦·时
10.已知具有相关关系的两个随机变量的一组数据的散点图如图所示,可以用来拟合,设,将其变换后得到线性回归方程,若,则__________.
三、解答题
11.随着互联网行业、传统行业和实体经济的融合不断加深,互联网对社会经济发展的推动效果日益显著,某大型超市计划在不同的线上销售平台开设网店,为确定开设网店的数量,该超市在对网络上相关店铺做了充分的调查后,得到下列信息,如图所示(其中表示开设网店数量,表示这个分店的年销售额总和),现已知,求解下列问题;
(1)经判断,可利用线性回归模型拟合与的关系,求解关于的回归方程;
(2)按照经验,超市每年在网上销售获得的总利润(单位:万元)满足,请根据(1)中的线性回归方程,估算该超市在网上开设多少分店时,才能使得总利润最大.
参考公式;线性回归方程,其中
12.中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用的水泡制,再等到茶水温度降至时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是).
泡制时间 0 1 2 3 4
水温 85 79 74 71 65
4.2 4.1 4.0 3.9 3.8
(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即)就不能再降的事实,决定选择函数模型来刻画.
①令,求出关于的线性回归方程;
②利用①的结论,求出中的与.
(2)你认为该品种绿茶用的水大约泡制多久后饮用,可以产生最佳口感?
参考数据:.参考公式:.
同步练习答案
A基础练
一、选择题
1.【答案】B
【详解】由回归方程,可得:与线性负相关,且随增大而减小.
2.【答案】B
【详解】对于(1),最小二乘法是使得样本数据点到回归直线的距离的评分和最小的方法,即使得最小,故正确;对于(2),相关系数为负数时,样本相关系数越大,相关程度越小,故错误;对于(3),变量增加一个单位时,平均减少个单位,故错误;
所以正确的命题个数为1个.故选:B
3.【答案】C
【详解】
从整体上看这些点大致分布在一条直线的周围,且该回归直线的斜率为正,在轴上的截距为负则,,故选:C
4.【答案】C
【详解】根据散点图,可以看出,三点大致分布在一条“指数”函数曲线附近,
选项A对应的“直线型”的拟合函数;选项B对应的“幂函数型”的拟合函数;选项D对应的“对数型”的拟合函数;故选:C
5.【答案】BCD
【详解】对于A选项,回归直线方程,不一定经过,中的一个点,故A选项正确.对于B选项,回归直线方程过样本中心点,故B选项正确.对于C选项,由于,所以若父母平均身高增加,则儿子身高估计增加,故C选项正确.
对于C选项,若样本数据所构成的点都在回归直线上,则线性相关系数,正确.故选:BCD
6.【答案】AC
【详解】线性回归直线必过样本点的中心,而样本点未必在回归直线上,即A正确,B错误;
相关指数越大,拟合效果越好,C正确;残差图中的残差点比较均匀地落在水平的带状区域中,宽度越窄,说明模型拟合精度越高,D错误.
二、填空题
7.【答案】40
【详解】由表中数据,计算可得,,
因为回归直线方程过样本中心点,所以有,解得.
8.【答案】
【详解】令,则曲线的回归方程变为线性的回归方程,即,
此时,代入,可得,解得.
9.【答案】
【详解】令,则,
1 4 9 16 25
使用人数() 15 173 457 842 1333
,,
所以,所以,
当时,,所以残差为.
10.【答案】1
【详解】由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;
若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
三、解答题
11.【详解】
解:(1)由表中所给数据可得,
,
,
代入公式,解得,
所以.
故所求的y关于x的线性回归直线方程为.
(2)由题意,将代入回归方程,可得,.
所以预测2019年该地区的粮食产量大约为19.4万亿吨.
12.【详解】
(1)由题意知,相关系数.
因为与的相关系数接近1,
所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合.
(2)由题意可得,,
,
所以.
当时,,
所以该市10万人口的县城年垃圾产生总量约为252.5吨.
B提高练
一、选择题
1.【答案】B
【详解】根据题意数据分析得到:该碘最初一段时间衰减的时间与剩余量存在着较强的负线性相关关系,假设回归方程为,由选项得到,又,,所以,故对的线性回归方程为:.
2.【答案】B
【详解】因,则,于是有 ,所以.故选:B
3.【答案】B
【详解】由题意可知,在样本(4,3)处的残差-0.15,则,即,
解得,即,又,且线性方程过样本中心点(,),
则,则,解得.故答案为:B
4.【答案】D
【详解】对于A选项:由相关系数绝对值的不超过1,A不正确;对于B选项:由回归直线方程知,每增加一个单位,平均减少个单位,B不正确;对于C选项:第二个样本点对应的残差,C不正确;对于D选项:第三个样本点对应的残差,D正确.故选:D
5.【答案】BCD
【详解】解: 对A、B:由表中的数据,,,
将,代入得,所以A选项错误,B选项正确;
对C:由题意代入得,所以日需求量大约为,
所以C选项正确;对D:第四个样本点对应的残差为,所以D选项正确;故选:BCD.
6.【答案】BD
【详解】对于A,散点从左下到右上分布,所以当月在售二手房均价y与月份代码x呈正相关关系,故A不正确;对于B,令,由,
所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B正确;
对于C,非线性回归曲线不一定经过 ,故C错误;
对于D,越大,拟合效果越好,由,故D正确.故选:BD
二、填空题
7.【答案】4;
【详解】设变量中缺失的数据为,则,
,因为这两个变量之间的线性回归方程为,所以,解得.
8.【答案】2
【详解】因为回归方程为,且数据,,,…,的均值为,即,
把,代入回归直线方程,可得,所以可以估计数据,,,…,的均值为.
9.【答案】
【详解】由题意,根据表格中的数据,可得,
将点代入回归直线方程,求得,
所以回归直线方程为,当时,代入求得.
10.【答案】
【详解】,因为变换后得到线性回归方程,所以有,又,所以,因此,
故答案为:
三、解答题
11.【详解】
(1)由题意得,
所以.
(2)由(1)知,,
所以当或时能获得总利润最大.
12.【答案】(1)①;②,;(2)泡制后饮用,口感最佳.
【解】(1)①由已知得出与的关系,如下表:
泡制时间 0 1 2 3 4
4.2 4.1 4.0 3.9 3.8
设线性回归方程,
由题意,得,
,
,
,
则,,
则关于的线性回归方程为;
②由,得,
两边取对数得,,
利用①的结论得:,
,;
(3)由(1)得,,
令,得.
∴该品种绿茶用的水泡制后饮用,口感最佳.