3.2 回归分析
课时目标1.理解建立回归模型的步骤.2.会利用相关系数判断两个变量线性相关的程度.3.利用回归模型可以对变量的值进行估计.
1.线性回归模型
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),我们知道其回归直线=x+的斜率和截距的最小二乘估计分别为
==,=________________,其中=____________,=____________,____________称为样本点的中心.
2.相关性检验
相关系数r具有以下性质:
|r|____1,并且|r|越接近于1,线性相关程度______;|r|越接近于0,线性相关程度________.
3.临界值
|r|>________,表明有95%的把握认为两个变量之间具有线性相关关系.
一、选择题
1.下列说法正确的是( )
A.y=2x2+1中的x、y是具有相关关系的两个变量
B.正四面体的体积与其棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染甲型H1N1流感的医务人员数与医院收治的甲型流感人数是具有相关关系的两个变量
2.两个变量成负相关关系时,散点图的特征是( )
A.点散布特征为从左下角到右上角区域
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点散布特征为从左上角到右下角区域内
3.已知x与y之间的一组数据如下表:
x
0
1
2
3
y
1
3
5
7
则y关于x的回归直线方程必过( )
A.(2,2)点 B.(1.5,0)点
C.(1,2)点 D.(1.5,4)点
4.工人月工资(元)依劳动生产率(千元)变化的回归方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1000元时,工资为130元
B.劳动生产率提高1000元,则平均工资提高80元
C.劳动生产率提高1000元,则平均工资提高130元
D.当某人的月工资为210元时,其劳动生产率为2000元
5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体内脂肪含量都为20.90%
B.年龄为37岁的人体内脂肪含量为21.01%
C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%
D.年龄为37岁的人群中的大部分人的体内脂肪含量为31.5%
二、填空题
6.已知两个变量x和y之间具有线性相关关系,5次试验的观测数据如下:
x
100
120
140
160
180
y
45
54
62
75
92
那么变量y关于x的回归直线方程是__________.
7.如图所示,有5组数据:A(1,3),B(2,4),C(4,5),D(3,10),E(10,12),去掉________组数据后剩下的4组数据的线性相关系数最大.
8.已知回归直线方程为=0.50x-0.81,则x=25时,y的估计值为________.
三、解答题
9.某企业上半年产品产量与单位成本资料如下:
月份
产量(千件)
单位成本(元)
1
2
73
2
3
72
3
4
71
4
3
73
5
4
69
6
5
68
(1)求出回归直线方程;
(2)指出产量每增加1000件时,单位成本平均变动多少?
(3)假定产量为6000件时,单位成本为多少元?
10.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:
尿汞含量x
(毫克/升)
2
4
6
8
10
消光系数y
64
138
205
285
360
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求回归直线方程.
能力提升
11.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v,有观测数据(ui,vi)(i=1,2,…,10),得散点图(2),由这两个散点图可以判断( )
(1) (2)
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
12.某工业部门进行了一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机提选了10个企业作样本,有如下资料:
产量
(千件)x
40
42
48
55
65
79
88
100
120
140
生产费用
(千元)Y
150
140
160
170
150
162
185
165
190
185
完成下列要求:
(1)计算x与Y的相关系数;
(2)对这两个变量之间是否线性相关进行相关性检验;
(3)设回归直线方程为=x+,求,.
1.(1)求回归直线方程的步骤为
①作出散点图;②利用公式计算回归系数及的值;③写出回归直线方程.
(2)一般地,我们可以利用回归直线方程进行预测,这里所得到的值是预测值,但不是精确值.
2.相关性检验
计算r,|r|越大,线性相关程度越强.
3.2 回归分析
答案
知识梳理
1.- xi yi (,)
2.≤ 越强 越弱
3.r0.05
作业设计
1.D [感染的医务人员数不仅受医院收治的病人数的影响,还受防护措施等其他因素的影响.]
2.D [散点图的主要作用是直观判断两个变量之间的相关关系.
一般地说,当散点图中的点是呈“由左下角到右上角”的趋势时,则两个变量之间具有正相关关系;而当散点图中的点是呈“由左上角到右下角”的趋势时,则两个变量之间具有负相关关系.]
3.D [在本题中,样本点的中心为(1.5,4),所以回归直线方程过(1.5,4)点.]
4.B [由回归系数b的意义知,b>0时,自变量和因变量按同向变化;b<0时,自变量和因变量按反向变化.b=80,可知B正确.]
5.C [当x=37时,=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%.]
6.=0.575x-14.9
7.D
解析 各组数据所表示的点越集中靠在同一条直线上,相关系数越大,观察图象可知应去掉D组数据.
8.11.69
解析 y的估计值就是当x=25时的函数值,即0.50×25-0.81=11.69.
9.解 (1)n=6,xi=21,yi=426,=3.5,
=71,x=79,xiyi=1481,
==≈-1.82.
=-=71+1.82×3.5=77.37.
所以回归直线方程为=+x=77.37-1.82x.
(2)因为单位成本平均变动=-1.82<0,且产量x的计量单位是千件,所以根据回归系数的意义有:
产量每增加一个单位即1000件时,单位成本平均减少1.82元.
(3)当产量为6000件时,即x=6,代入回归直线方程:
=77.37-1.82×6=66.45(元)
当产量为6000件时,单位成本为66.45元.
10.解 (1)=(2+4+…+10)=6,=(64+138+…+360)=210.4,x-52=(22+42+…+102)-5×62=40.
xiyi-5=(2×64+4×138+…+10×360)-5×6×210.4=1478,y-52=(642+1382+…+3602)-5×210.42=54649.2,
所以r=≈0.9997,由小概率0.05与n-2=3在附表中查得r0.05=0.878,由|r|>r0.05得,有95%的把握认为y与x之间具有线性相关关系.
(2)回归系数==36.95,=210.4-36.95×6=-11.3,所以所求回归直线方程为=36.95x-11.3.
11.C [图(1)中的数据随着x的增大而y减小,因此变量x与变量y负相关;图(2)中的数据随着u的增大,v也增大,因此u与v正相关.]
12.解 (1)根据题意制表如下:
i
1
2
3
4
5
6
7
8
9
10
合计
xi
40
42
48
55
65
79
88
100
120
140
777
yi
150
140
160
170
150
162
185
165
190
185
1657
x
1600
1764
2304
3025
4225
6241
7744
10000
14400
19600
70903
y
22500
19600
25600
28900
22500
26244
34225
27225
36100
34225
277119
xiyi
6000
5880
7680
9350
9750
12798
16280
16500
22800
25900
132938
=77.7,=165.7;∑x=70903;∑y=277119;∑xiyi=132938
r=
≈0.808,即x与Y的相关系数为0.808.
(2)由小概率0.05与n-2=8在附表中查得r0.05=0.632,因为r>r0.05,所以有95%的把握认为x与Y之间具有线性相关关系.
(3)=≈0.398,
=165.7-0.398×77.7≈134.8.