第三章 统计案例
3.1 回归分析的基本思想及其初步应用
第2课时 线性回归分析
A级 基础巩固
一、选择题
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:
分类
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A、B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.
答案:D
2.已知回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是( )
A.0.01 B.0.02 C.0.03 D.0.04
解析:因为残差i=yi-i,所以残差的平方和为(4.9-5)2+(7.1-7)2+(9.1-9)2=0.03.
答案:C
3.若某地财政收入x与支出y满足线性回归模型y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )
A.10亿元 B.9亿元 C.10.5亿元 D.9.5亿元
解析:x=10时,=0.8×10+2=10.
因为|e|<0.5,所以年支出预计不会超过10.5亿元.
答案:C
4.下列说法中正确的是( )
①相关系数r用来衡量两个变量之间线性关系的强弱,|r|越接近于1,相关性越弱;
②回归直线=x+一定经过样本点的中心(x,y);
③随机误差e满足E(e)=0,其方差D(e)的大小用来衡量预报的精确度;
④相关指数R2用来刻画回归的效果,R2越小,说明模型的拟合效果越好.
A.①② B.③④ C.①④ D.②③
解析:①线性相关关系r是衡量两个变量之间线性关系强弱的量,|r|越接近于1,这两个变量线性相关关系越强,|r|越接近于0,线性相关关系越弱,①错误;②回归直线=x+一定通过样本点的中心(x,y),②正确;③随机误差e是衡量预报精确度的一个量,它满足E(e)=0,③正确;④用相关指数R2用来刻画回归的效果,R2越大,说明模型的拟合效果越好,④错误.
答案:D
5.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )
A.相关系数r变大
B.残差平方和变大
C.相关指数R2变大
D.解释变量x与预报变量y的相关性变强
解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.
答案:B
二、填空题
6.若一组观测值(x1,y1),(x2,y2),…,(xn,yn)之间满足yi=bxi+a+ei(i=1,2,…,n),且ei恒为0,则R2为________.
解析:由ei恒为0,知yi=i,即yi-i=0,
答案:1
7.根据如下样本数据得到的回归方程为=x+,若=5.4,则x每增加1个单位,估计y________个单位.
x
3
4
5
6
7
y
4
2.5
-0.5
0.5
-2
解析:由题意可得,x=5,y=(4+2.5-0.5+0.5-2)=0.9,因为回归方程为=x+,若=5.4,且回归直线过点(5,0.9),所以0.9=5+5.4,解得=-0.9,所以x每增加一个单位,估计y减少0.9个单位.
答案:减少0.9
8.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是________.
解析:将x=160代入=0.85x-82.71,得=0.85×160-82.71=53.29,所以残差=y-=53-53.29=-0.29.
答案:-0.29
三、解答题
9.(2018·全国卷Ⅱ)下图是某地区2000年到2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
方法一 从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
方法二 从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
10.关于x与y有以下数据:
x
2
4
5
6
8
y
30
40
60
50
70
已知x与y线性相关,由最小二乘法得=6.5.
(1)求y与x的线性回归方程;
(2)现有第二个线性模型:=7x+17,且R2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.
解:(1)依题意设y与x的线性回归方程为=6.5x+.
==5,==50,因为=6.5x+经过(,),所以y与x的线性回归方程为=6.5x+17.5 .所以50=6.5×5+.所以=17.5.
(2)由(1)的线性模型得yi-yi与yi-的关系如下表所示:
yi-yi
-0.5
-3.5
10
-6.5
0.5
yi-
-20
-10
10
0
20
由于R=0.845,R2=0.82知R>R2,所以(1)的线性模型拟合效果比较好.
B级 能力提升
1.根据如下样本数据:
x
3
4
5
6
7
y
4.0
2.5
-0.5
0.5
-2.0
得到的回归方程为=bx+a,若a=7.9,则x每增加 1个单位,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加1.2个单位 D.减少1.2个单位
解析:易知=×(3+4+5+6+7)=5,
=×(4+2.5-0.5+0.5-2)=0.9,
所以样本点中心为(5,0.9),
所以0.9=5b+7.9,所以b=-1.4,
所以x每增加1个单位,y就减少1.4个单位.故选B.
答案:B
2.若某函数型相对一组数据的残差平方和为89,其相关指数为0.95,则总偏差平方和为________,回归平方和为________.
解析:因为R2=1-,
0.95=1-,所以总偏差平方和为1 780;回归平方和=总偏差平方和-残差平方和=1 780-89=1 691.
答案:1 780 1 691
3.某运动员训练次数与成绩之间的数据关系如下:
次数x
30
33
35
37
39
44
46
50
成绩y
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归方程;
(3)作出残差图;
(4)计算相关指数R2;
(5)试预测该运动员训练47次及55次的成绩.
解:(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.
(2)=39.25,=40.875, =13 180,
=-=-0.003 88.
所以回归方程为=1.0415x-0.003 88.
(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.
(4)计算得相关指数R2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.
(5)由上述分析可知,我们可用回归方程=1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y≈49和y≈57.
故预测该运动员训练47次和55次的成绩分别为49和57.
课件37张PPT。第三章 统计案例