(共51张PPT)
8.2 一元线性回归模型及其应用(2)
高二
选择性必修三
本节目标
1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.
2.了解非线性回归模型.
3.会通过分析残差和利用R2判断回归模型的拟合效果.
预习课本110~119,思考并完成以下问题
(1) 什么是残差?什么是残差分析
(2) 什么是决定系数?
(3) 刻画回归效果的方式有哪些?
课前预习
1. 判断
(1)残差平方和越接近0, 线性回归模型的拟合效果越好. ( )
(2)在画两个变量的散点图时, 响应变量在x轴上,解释变量在y轴上.( )
(3)R2越小, 线性回归模型的拟合效果越好. ( )
×
√
×
课前小测
R2越大, 线性回归模型的拟合效果越好.
在画两个变量的散点图时, 响应变量在y轴上,解释变量在x轴上.
2. 在残差分析中, 残差图的纵坐标为__________.
残差
3. 甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好?
R2越大,表示回归模型的拟合效果越好,
故甲同学建立的回归模型拟合效果最好.
新知探究
1.残差的概念
对于响应变量Y,通过观测得到的数据称为________,通过经验回归方程得到的称为________,观测值减去预测值称为_______.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为___________.
观测值
预测值
残差
残差分析
作图时________为残差,________可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
纵坐标
横坐标
2.刻画回归效果的方式
(1) 残差图法
(2)残差平方和法
残差平方和 ,残差平方和______,模型拟合效果越好,残差平方和______,模型拟合效果越差.
越小
越大
(3)利用R2刻画回归效果
R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量刻画预报变量的能力.
R2越____,即拟合效果越好,R2越_____,模型拟合效果越差.
R2= ,
大
小
题型突破
典例深度剖析 重点多维探究
[例1] 已知某种商品的价格x(单位:元/件)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
题型一 线性回归分析
求y对x的回归直线方程,并说明回归模型拟合效果的好坏.
= (14+16+18+20+22)=18,
= (12+10+7+5+3)=7.4,
=142+162+182+202+222=1 660,
=14×12+16×10+18×7+20×5+22×3=620,
所以 = =-1.15,
=7.4+1.15×18=28.1,
所以所求回归直线方程是=-1.15x+28.1.
x 14 16 18 20 22
y 12 10 7 5 3
列出残差表:
yi- 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以 =0.3,
=53.2,
R2=1- ≈0.994,
所以回归模型的拟合效果较好.
解答线性回归问题,应通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.
总结提升
总结提升
①残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.
刻画回归效果的三种方法
②残差平方和法:残差平方和 越小,模型的拟合效果越好.
③决定系数法:R2=1- 越接近1,表明回归的效果越好.
1. 某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份 2011 2012 2013 2014 2015 2016 2017
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
跟踪训练
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为
1. 某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份 2011 2012 2013 2014 2015 2016 2017
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
由所给数据计算得
= × (1+2+3+4+5+6+7)=4,
= ×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
=9+4+1+0+1+4+9=28,
=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
1. 某地区2011年到2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份 2011 2012 2013 2014 2015 2016 2017
年份代号t 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
= = 0.5
所以所求回归方程为=0.5t+2.3.
(2)利用(1)中的回归方程,分析2011年到2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.
由(1)知=0.5>0,
故2011年到2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2020年的年份代号t=10代入(1)中的回归方程,得
=0.5×10+2.3=7.3.
故预测该地区2020年农村居民家庭人均纯收入为7.3千元.
[例2] 假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(1)以x为解释变量,y为预报变量,作出散点图;
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
(3)计算各组残差,并计算残差平方和;
(4)求R2,并说明(2)中求出的回归模型的拟合程度.
题型二 残差分析与相关指数的应用
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(1)以x为解释变量,y为预报变量,作出散点图;
散点图如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;
由(1)中散点图看出,样本点大致分布在一条直线的附近,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.
设回归方程为,又=30.36, =43.5,
=5101.56,
=1320.66, =921.7296,
=6746.76.
则 ≈0.29, ≈34.70.
故所求的回归直线方程为=0.29x+34.70.
当x=56.7时, =0.29×56.7+34.70=51.143.
故估计成熟期有效穗为51.143.
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(3)计算各组残差,并计算残差平方和;
由,可以算得分别为
=0.35, =0.718, =-0.5,
=-2.214, =1.624,
残差平方和: ≈8.43.
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
(4)求R2,并说明(2)中求出的回归模型的拟合程度.
=50.18,
所以(2)中求出的回归模型的效果较好.
故R2≈1- ≈0.832.
总结提升
(1)利用残差分析研究两个变量间的关系时,首先要根据散点图来判断它们是否线性相关,是否可以用线性回归模型来拟合数据,然后通过残差,,…,来判断模型拟合的效果.
(2)若残差点比较均匀地分布在水平带状区域中,带状区域越窄,说明模型拟合度越高,回归方程预报精确度越高.
2. 为研究质量x(单位:g)对弹簧长度y(单位:cm)的影响,对不同质量的6个物体进行测量,数据如下表:
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求回归直线方程;
(2)求出R2并说明回归模型拟合的程度;
(3)进行残差分析.
跟踪训练
散点图如图所示.
样本点分布在一条直线附近,y与x具有线性相关关系.
由表中数据,得= ×(5+10+15+20+25+30)=17.5,
= 2275, =1076.2.
故所求回归直线方程为=6.285+0.183x.
计算得≈0.183, ≈6.285.
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(1)作出散点图并求回归直线方程;
= ×(7.25+8.12+8.95+9.90+10.9+11.8)≈9.487,
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(2)求出R2并说明回归模型拟合的程度;
列表如下:
0.05 0.005 -0.08 -0.045 0.04 0.025
-2.237 -1.367 -0.537 0.413 1.413 2.313
所以R2=1- ≈0.9991,回归模型的拟合效果较好.
可得 ≈0.01318, ≈14.6783.
x 5 10 15 20 25 30
y 7.25 8.12 8.95 9.90 10.9 11.8
(3)进行残差分析.
由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正错误,重新建立回归模型;
由表中数据可以看出残差点比较均匀地落在宽度不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,
由以上分析可知,弹簧长度与所挂物体的质量成线性关系.
[例3] 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
题型三 非线性回归分析
46.6 563 6.8 289.8 1.6 1469 108.8
表中wi= , .
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线的斜率和截距的最小二乘估计分别为
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
令w=,先建立y关于w的线性回归方程.
由于 = =68,
46.6 563 6.8 289.8 1.6 1469 108.8
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当= =6.8,
即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6(t),
年利润z的预报值=576.6×0.2-49=66.32(千元).
(1)确定变量,作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程.
(4)分析拟合效果:通过计算决定系数或画残差图来判断拟合效果.
(5)根据相应的变换,写出非线性回归方程.
总结提升
求非线性回归方程的步骤
3. 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
跟踪训练
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预报x=40时y的值.
3. 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(1)作出x与y的散点图,并猜测x与y之间的关系;
作出散点图如下图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数曲线y=的周围,其中c1,c2为待定的参数.
3. 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(2)建立x与y的关系,预报回归模型并计算残差;
对y=两边取对数,得lny=lnc1+c2x,令z=lny,则有变换后的样本点应分布在直线z=bx+a(a=lnc1,b=c2)的周围,这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了,数据可以转化为
x 21 23 25 27 29 32 35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
求得回归直线方程为=0.272x-3.849,
∴ =e0.272x-3.849.
3. 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(2)建立x与y的关系,预报回归模型并计算残差;
残差
yi 7 11 21 24 66 115 325
6.443 11.101 19.125 32.950 56.770 128.381 290.325
0.557 -0.101 1.875 -8.950 9.23 -13.381 34.675
3. 下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(3)利用所得模型,预报x=40时y的值.
当x=40时, =e0.272×40-3.849≈1131.
随堂检测
1.下列两个变量之间的关系不是函数关系的是( )
A.角度和它的余弦值 B.正方形的边长和面积
C.正n边形的边数和内角度数和 D.人的年龄和身高
函数关系就是变量之间的一种确定性关系.
A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=(n-2)π.
D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高.
D
2.(多选题)关于残差图的描述正确的是( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,R2的值越大,故C错误.
ABD
3.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示:
x 16 17 18 19
y 50 34 41 31
由上表可得回归直线方程中的=-5,据此模型预测当零售价为14.5元时,每天的销售量为( )
A.51个 B.50个
C.54个 D.48个
由题意知=17.5, =39,
代入回归直线方程得=126.5,126.5-14.5×5=54.
C
4.在研究硝酸钠的溶解度时,观察它在不同温度(x)的水中溶解度(y)的结果如下表:
温度x 0 10 20 50 70
溶解度y 66.7 76.0 85.0 112.3 128.0
由此得到回归直线的斜率是__________.
= (0+10+20+50+70)=30,
= (66.7+76.0+85.0+112.3+128.0)=93.6,
由公式 可得≈0.8809.
0.8809
5.在一次抽样调查中测得样本的5个样本点,数值如下表:
x 0.25 0.5 1 2 4
y 16 12 5 2 1
试建立y与x之间的回归方程.
由数值表可作散点图如图,
根据散点图可知y与x近似地呈反比例函数关系,
设= ,令t= ,则=kt,原数据变为:
t 4 2 1 0.5 0.25
y 16 12 5 2 1
由置换后的数值表作散点图如下:
由散点图可以看出y与t呈近似的线性相关关系,列表如下:
i ti yi tiyi t
1 4 16 64 16
2 2 12 24 4
3 1 5 5 1
4 0.5 2 1 0.25
5 0.25 1 0.25 0.062 5
∑ 7.75 36 94.25 21.312 5
≈0.8.
所以=4.1344t+0.8.
所以y与x之间的回归方程是
+0.8.
所以=1.55, =7.2.
所以 ≈4.1344,
本课小结
1.通过本节课的学习,进一步提升数学运算及数据分析素养.
2.当根据给定的样本数据得到的散点图并不是分布在一条直线附近时,就不能直接求其回归直线方程了,这时可根据得到的散点图,选择一种拟合得最好的函数,常见的函数有幂函数、指数函数、对数函数等,然后进行变量置换,将问题转化为线性回归分析问题.
通过本节课,你学会了什么?