第三章 3.1
【基础练习】
1.对两个变量y与x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法不正确的是( )
A.若求得相关系数r=-0.89,则y与x具备很强的线性相关关系且为负相关
B.同学甲根据这组数据得到的回归模型1的残差平方和E1=1.8,同学乙根据这组数据得到的回归模型2的残差平方和E2=2.4,则模型1的拟合效果更好
C.用相关指数R2来刻画回归效果,模型1的相关指数R=0.48,模型2的相关指数R=0.91,则模型1的拟合效果更好
D.该回归分析只对被调查样本的总体适用
【答案】C
2.设有一个线性回归方程=2-3.5x,则变量x增加1个单位时( )
A.y平均增加3.5个单位
B.y平均增加2个单位
C.y平均减少3.5个单位
D.y平均减少2个单位
【答案】C
3.在对两个变量y与x进行回归分析时,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1,相关指数R2为0.98
B.模型2,相关指数R2为0.80
C.模型3,相关指数R2为0.50
D.模型4,相关指数R2为0.25
【答案】A
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
【答案】D
5.已知x与y之间的一组数据如下,则y与x的线性回归方程为=bx+a必过点________.
x
0
1
3
4
y
1
3
5
7
【答案】(2,4)
6.某次测量发现一组数据(xi,yi)具有较强的相关性,并计算得=x+1,其中数据(1,y0)因书写不清,只记得y0是[0,3]上任意一个值,则该数据对应的残差的绝对值不大于1的概率为________.(残差=真实值-预测值)
【答案】
【解析】由题意,其预测值为1+1=2,该数据对应的残差的绝对值不大于1时,1≤y0≤3,其概率可由几何概型求得,即该数据对应的残差的绝对值不大于1的概率p==.
7.(2017年烟台期中)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请根据上表提供的数据求出y关于x的线性回归方程;
(2)已知该厂技术改造前100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤.
参考公式:=,=-.
【解析】(1)=×(3+4+5+6)=4.5,
=×(2.5+3+4+4.5)=3.5,
iyi=3×2.5+4×3+5×4+6×4.5=66.5,
=32+42+52+62=86,
===0.7,
=-=3.5-0.7×4.5=0.35,
所以所求的回归方程为y=0.7x+0.35.
(2)x=100时,y=100×0.7+0.35=70.35,
预测生产100吨甲产品的生产能耗比技改前降低了90-70.35=19.65(吨标准煤).
8.某运动员训练次数与成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2.
【解析】(1)作出该运动员训练次数(x)与成绩(y)之间的散点图如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875,=12
656,
=13
731,iyi=13
180,
∴=≈1.041
5.
∴=-≈-0.003
02.
∴回归方程为=1.041
5x-0.003
02.
(3)作残差图如图所示,
由图,可知残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2=0.985
5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
【能力提升】
9.(2019年天津期末)某研究机构在对具有线性相关的两个变量x,y进行统计分析时,得到如下数据,由表中数据求得y关于x的回归方程为=0.7x+a,则在这些样本点中任取一点,该点落在回归直线下方的概率为(
)
x
3
5
7
9
y
1
2
4
5
A.
B.
C.
D.0
【答案】B
【解析】由题意得=6,=3,所以3=0.7×6+a,解得a=-1.2,则=0.7x-1.2.四个样本点中,(3,1),(7,4)落在直线的下方,故所求概率为=.故选B.
10.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( )
A.>b′,>a′
B.>b′,
C.a′
D.【答案】C
【解析】计算得=3.5,=,画出散点图,并根据各个点和回归中心画出回归直线的大致图形如图所示,由图易知a′.故选C.
11.(2018年珠海阶段性测试)从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,计算得i=80,i=20,iyi=184,=720.已知家庭的月储蓄y关于月收入x的线性回归方程为=x+,则变量y与x________(填“正相关”或“负相关”);若该居民区某家庭月收入为8千元,预测该家庭的月储蓄是________千元.
【答案】正相关 2
【解析】由题意知=i=8,=i=2,∴==0.3,=2-0.3×8=-0.4,∴=0.3x-0.4.∵0.3>0,∴变量y与x正相关.当x=8时,=0.3×8-0.4=2(千元).
12.(2016年唐山二模)二手车经销商小王对其所经营的某一型号二手汽车的使用年数x(0<x≤10)与销售价格y(单位:万元/辆)进行整理,得到如表的对应数据:
使用年数
2
4
6
8
10
售 价
16
13
9.5
7
4.5
(1)试求y关于x的回归直线方程;
(2)已知每辆该型号汽车的收购价格为w=0.05x2-1.75x+17.2万元,根据(1)中所求的回归方程,预测x为何值时,小王销售一辆该型号汽车所获得的利润z最大.
【解析】(1)由表中数据得,=×(2+4+6+8+10)=6,=×(16+13+9.5+7+4.5)=10,
所以==-1.45,
=10-(-1.45)×6=18.7.
所以y关于x的回归直线方程为y=-1.45x+18.7.
(2)z=y-w=(-1.45x+18.7)-(0.05x2-1.75x+17.2)=-0.05x2+0.3x+1.5,
当x=-=3时,二次函数z取得最大值,
即预测x=3时,小王销售一辆该型号汽车所获得的利润z最大.(共55张PPT)
3.1 回归分析的基本思想及其初步应用
目标定位
重点难点
1.了解随机误差、残差、残差图的概念.
2.会通过分析残差判断线性回归模型的拟合效果.
3.掌握建立回归模型的步骤.
4.了解回归分析的基本思想方法和初步应用.
重点:了解回归模型与函数模型的区别及模型拟合效果的分析工具.
难点:残差变量的分析及指标的理解.
随机误差
0
越小
解释变量
预报变量
(xi,yi)
越小
越好
1.下列变量是相关关系的是( )
A.人的身高与视力
B.角的大小与所对的圆弧长
C.小麦亩产量与总产量
D.人的年龄与身高
【答案】D
【例1】
某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x(x取整数)元与日销售量y台之间有如下关系:
线性回归分析
x
35
40
45
50
y
56
41
28
11
(1)画出散点图,并判断y与x是否具有线性相关关系;
(2)求日销售量y对销售单价x的线性回归方程;
(3)设经营此商品的日销售利润为P元,根据(1)写出P关于x的函数关系式,并预测当销售单价x为多少元时,才能获得最大日销售利润.
【解题探究】作出散点图,根据散点图观察是否具有线性相关关系.
【解析】(1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.
8
求线性回归方程的最大难点是系数计算较为烦琐,计算时要仔细认真,随时做好检查,防止错误数据给后续步骤带来连锁反应.为避免出错,以及出错后便于检查,可将公式分解分别求出.
1.随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:
(1)判断家庭平均收入与月平均生活支出是否相关;
(2)若二者线性相关,求回归直线方程.
家庭编号
1
2
3
4
5
6
7
8
9
10
xi(收入)/千元
0.8
1.1
1.3
1.5
1.5
1.8
2.0
2.2
2.4
2.8
yi(支出)/千元
0.7
1.0
1.2
1.0
1.3
1.5
1.3
1.7
2.0
2.5
【解析】(1)作出散点图.
观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系.
【例2】
一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
(1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算残差;
(2)你认为这个模型能较好地刻画零件数和加工时间的关系吗?
拟合效果分析
编 号
1
2
3
4
5
6
7
8
9
10
零件数x
/个
10
20
30
40
50
60
70
80
90
100
加工时间y
/分
62
68
75
81
89
95
102
108
115
122
【解题探究】利用公式分别计算即可.
【解析】(1)根据表中数据作出散点图(图略),从而可以判断出用线性回归模型来拟合数据.
计算得加工时间对零件数的线性回归方程为=0.668x+54.96.
残差数据如下表,
(2)以零件数为横坐标,残差为纵坐标作出残差图如上图所示.
由图可知残差点分布较均匀,即用上述回归模型拟合数据效果很好.但需注意,由残差图也可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.
8
(1)残差平方和越小,预报精确度越高.(2)相关指数R2越大,说明模型的拟合效果越好.
2.在一段时间内,某种商品的价格x(元)和需求量y(件)之间的一组数据为:
求出y对x的回归直线方程,并说明拟合效果的好坏.
价格x
14
16
18
20
22
需求量y
12
10
7
5
3
【例3】
在一化学反应过程中,化学物质的反应速度y(g/min)与一种催化剂的量x(g)有关,现收集了8组观测数据列于表中:
试建立y与x之间的回归方程.
非线性回归分析
催化剂的量x
15
18
21
24
27
30
33
36
化学物质的
反应速度y
6
8
30
27
70
205
65
350
【解题探究】作出散点图可看出此题是非线性回归分析问题,样本点分布在一条指数函数曲线y=c1ec2x的周围.不妨设变量z=ln
y,然后对x与z作相关性检验,如果它们具有线性相关关系,就可以进一步求z对x的回归直线方程,这时再回代z=ln
y,就得到了y对x的回归方程.
【解析】根据收集的数据,作散点图(如图),根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=c1ec2x
的周围,其中c1和c2是待定的参数,令z=ln
y,则z=ln
y=c2x+ln
c1,即变换后的样本点应该分布在直线z=bx+a(a=ln
c1,b=c2)的周围.
由y与x的数据表可得到变换后的z与x的数据表,
作出z与x的散点图(如图).
x
15
18
21
24
27
30
33
36
z
1.792
2.079
3.401
3.296
4.248
5.323
4.174
5.858
8
非线性回归问题有时并不给出经验公式,此时可以由已知的数据画出散点图,再把散点图与已经学习过的函数(如幂函数、二次函数、指数函数、对数函数等)做比较,挑选出这些散点图拟合最好的函数模型,然后采用变量置换,把问题转化为线性回归分析问题,使问题得以解决.
3.某种书每册的成本费y(元)与印刷册数x(千册)有关,经统计得到数据如下:
x
1
2
3
5
10
20
30
50
100
200
y
10.15
5.52
4.08
2.85
2.11
1.62
1.41
1.30
1.21
1.15
【示例】
关于x与y有如下数据:
对相关指数R2利用不当致错
x
2
4
5
6
8
y
30
40
60
50
70
错因分析:用相关指数R2来比较模型的拟合效果,R2越大,模型的拟合效果越好,并不是R2越小拟合效果越好.
5.若两个变量不呈线性关系,就不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型.例如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系.令z=ln
y,则变换后样本点应该分布在直线z=bx+a(a=ln
c1,b=c2)的周围.
2.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93.若用此模型预测这个孩子10岁时的身高,则正确的叙述是( )
A.身高一定是145.83
cm
B.身高在145.83
cm以上
C.身高在145.83
cm以下
D.身高在145.83
cm左右
【答案】D