(共39张PPT)
数学-RJ·A-选择性必修第三册
8.2 一元线性回归模型及其应用
第八章 成对数据的统计分析
学习目标
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
2.针对实际问题,会用一元线性回归模型进行预测.
重点:一元线性回归模型参数的统计意义及求解方法,求一元线性回归模型,用一元线性回归模型进行预测.
难点:最小二乘法,一元线性回归模型参数的求解,回归思想的建立.
知识梳理
一、一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表8.2-1所示.
表8.2-1
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表8.2-1中的成对样本数据表示为散点图,如图8.2-1所示.可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
图8.2-1
思考:根据表8.2-1中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
在表8.2-1的数据中,存在父亲身高相同,而儿子身高不同的情况.例如,第6个和第8个观测的父亲身高均为172 cm,而对应的儿子身高分别为176 cm和174 cm;同样,第3,4两个观测中,儿子身高都是170 cm,而父亲身高分别为173 cm和169 cm.可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画.
图8.2-1中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型[2].其中,随机误差是一个随机变量.
用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
(1)
我们称(1)式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
二、一元线性回归模型随机误差的产生原因
在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
三、经验回归方程
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.
理解经验回归方程应注意以下六点
(1)经验回归方程=x+中,,均为估计值,其中,是通过成对样本数据求得的值,由统计思想可用其估计a,b的值,故称,为b,a的最小二乘估计,有时也称,为回归系数.为“最贴近”直线对应的函数值,用其可估计Y值,注意与Y的区别.
(2)经验回归直线必过点(,).
(3)求经验回归方程的关键在于求得,的值,可通过
求得,求时注意公式的选择.
(4)通过的求解公式发现其与相关系数r的求解公式的分子相同,分母均为正值,故通过公式亦可发现与r符号相同.
(5)经验回归方程=x+中,是斜率,为截距,故的含义是x每增加一个单位,y平均增加的单位数,的含义是不受x影响的部分.
(6)利用经验回归方程可以对总体进行估计,如在x=x0处的估计值=x0+,估计值并不是精确值,允许有误差存在.
四、残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可
以判断模型刻画数据的效果,以及判断原始数据中是否存在
可疑数据等,这方面工作称为残差分析.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
五、用R2比较模型的拟合效果
可以用决定系数R2来比较两个模型的拟合效果,R2的计算公式为
在R2表达式中, 与经验回归方程无关,残差平方和
与经验回归方程有关.因此R2越大,表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
对R2的理解要注意以下三点
(1)在一元线性回归模型中,R2=r2,因此0≤R2≤1,且在一元线性模型中,R2和r都能刻画用线性回归模型拟合数据的效果,|r|越大,即R2越大,用线性回归模型拟合数据的效果就越好,即相关程度越强.
(2)当两个变量x,y非线性相关时,用拟合系数R2判断拟合效果,R2越大,拟合效果越好.
(3)R2可以作为衡量任何模型拟合效果的一个指标,它越大,拟合效果越好.
常考题型
一、随机误差
例1 [2020·重庆高二期末]若某地财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入10亿元,年支出预计不会超过 ( )
A.9亿元 B.9.5亿元 C.10亿元 D.10.5亿元
【解析】因为财政收入x与支出y满足线性回归方程y=bx+a+e,
其中b=0.7,a=3,所以得到y=0.7x+3+e,
当x=10时,得y=0.7×10+3+e=10+e,
而|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.故选D.
【答案】D
◆产生随机误差的原因
1.所用的确定性函数不恰当引起的误差;
2.忽略了某些因素的影响;
3.存在观测误差.
训练题 在研究气温和热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了 的热茶销售杯数变化,而随机误差贡献了剩余的 ,所以气温对热茶销售杯数的效应比随机误差的效应大得多.
85%
15%
二、一元线性回归模型
B
D
A
右下
三、残差分析
◆残差分析
1.残差分析即通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果.
2.其步骤为
(1)计算残差;
(2)画残差图;
(3)在残差图中分析残差特征.
3.残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.
D
C
A
0.06
四、非线性回归模型
◆解决非线性回归问题的步骤
1.确定变量:确定解释变量为x,预报变量为y.
2.画散点图:通过观察散点图,与学过的函数(幂函数、指数函数、对数函数、二次函数等)的图象比较,选取拟合效果好的函数模型.
3.变量置换:通过变量置换把非线性问题转化为线性回归问题.
4.分析拟合效果:
(1)可以通过原始数据及y和x之间的非线性回归方程列出残差对比分析表,一般通过残差平方和比较两种模型的拟合效果,显然残差平方和较小的拟合效果较好;
(2)还可以用相关指数R2来比较两种模型的拟合效果,R2越大(越接近于1),拟合效果越好.
5.写出非线性回归方程.
训练题
1.[2020·河北邢台八中高二月考]已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=3e2x+1的图象附近,则可通过转换得到的经验回归方程为 .
u=1+ln3+2x
知易行难,重在行动
千里之行,始于足下
谢谢
21世纪教育网(www.21cnjy.com) 中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php