2.3 变量的相关性
学习目标 1.了解变量间的相关关系,会画散点图.2.根据散点图,能判断两个变量是否具有相关关系.3.了解线性回归思想,会求回归直线的方程.
知识点一 变量间的相关关系
思考1 粮食产量与施肥量间的相关关系是正相关还是负相关?
答案 在施肥不过量的情况下,施肥越多,粮食产量越高,所以是正相关.
思考2 怎样判断一组数据是否具有线性相关关系?
答案 画出散点图,若点大致分布在一条直线附近,就说明这两个变量具有线性相关关系,否则不具有线性相关关系.
梳理
1.相关关系的定义
变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.
2.散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.
3.正相关与负相关
(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
知识点二 两个变量的线性相关
思考 任何一组数据都可以由最小二乘法得出回归直线方程吗?
答案 用最小二乘法求回归直线方程的前提是先判断所给数据是否具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程是无意义的.
梳理 回归直线方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程:回归直线对应的方程叫做回归直线方程.
(3)最小二乘法:
求回归直线方程=x+时,使得样本数据的点到回归直线的离差平方和最小的方法叫做最小二乘法.
其中,是回归直线方程的斜率,是回归直线方程在y轴上的截距.
1.人的身高与年龄之间的关系是相关关系.( × )
2.农作物的产量与施肥量之间的关系是相关关系.( √ )
3.回归直线过样本点中心(,).( √ )
题型一 变量间相关关系的判断
例1 下列两个变量之间是相关关系的是( )
A.圆的面积与半径之间的关系
B.球的体积与半径之间的关系
C.角度与它的正弦值之间的关系
D.降雪量与交通事故的发生率之间的关系
答案 D
解析 由题意知A表示圆的面积与半径之间的关系S=πr2,B表示球的体积与半径之间的关系V=,C表示角度与它的正弦值之间的关系y=sinα,都是确定的函数关系,只有D是相关关系,故选D.
反思与感悟 函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
跟踪训练1 下列两个变量间的关系不是函数关系的是( )
A.正方体的棱长与体积
B.角的度数与它的正切值
C.单产为常数时,土地面积与粮食总产量
D.日照时间与水稻的单位产量
答案 D
解析 函数关系与相关关系都是指两个变量之间的关系,但是这两种关系是不同的,函数关系是指当自变量一定时,函数值是确定的,是一种确定性的关系.因为A项V=a3,B项y=tanα,C项y=ax(a>0,且a为常数),所以这三项均是函数关系.D项是相关关系.
题型二 散点图的应用
例2 5名学生的数学和物理成绩(单位:分)如下:
学生
成绩
A
B
C
D
E
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
判断它们是否具有线性相关关系.
解 以x轴表示数学成绩,y轴表示物理成绩,得相应的散点图如图所示.
由散点图可知,各点分布在一条直线附近,故两者之间具有线性相关关系.
反思与感悟 (1)判断两个变量x和y间具有哪种相关关系,最简便的方法是绘制散点图.变量之间可能是线性的,也可能是非线性的(如二次函数),还可能不相关.
(2)画散点图时应注意合理选择单位长度,避免图形偏大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
跟踪训练2 下列图形中两个变量具有线性相关关系的是( )
答案 C
解析 A是一种函数关系;B也是一种函数关系;C中从散点图中可看出所有点看上去都在某条直线附近波动,具有相关关系,而且是一种线性相关;D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.
题型三 回归直线的求解与应用
例3 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)画出散点图;
(2)如果y对x有线性相关关系,请画出一条直线近似地表示这种线性关系;
(3)在实际生产中,若它们的近似方程为y=x-,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?
解 (1)散点图如图所示:
(2)近似直线如图所示:
(3)由y≤10得x-≤10,解得x≤14.9,所以机器的运转速度应控制在14转/秒内.
引申探究
1.本例中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少?
解 因为y=x-,所以当x增加一个单位时,y大约增加.
2.本例中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速.
解 因为y=x-,所以当y=7时,7=x-,
解得x≈11.
反思与感悟 求回归直线方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,,iyi.
(5)代入公式计算,,公式为
(6)写出回归直线方程=x+.
跟踪训练3 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程.
解 (1)散点图如图所示.
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x
4
16
25
36
64
=5,=50,=145,iyi=1380
于是可得,===6.5,
=-=50-6.5×5=17.5.
于是所求的回归直线方程是=6.5x+17.5.
1.设有一个回归直线方程为=2-1.5x,则变量x增加1个单位时,y平均( )
A.增加1.5个单位 B.增加2个单位
C.减少1.5个单位 D.减少2个单位
答案 C
2.工人工资y(元)与劳动生产率x(千元)的相关关系的回归直线方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1000元时,工人工资为130元
B.劳动生产率提高1000元时,工人工资平均提高80元
C.劳动生产率提高1000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2000元
答案 B
解析 因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1000元时,工人工资平均提高80元.
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归直线方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点中心(,)
C.若该大学某女生身高增加1cm,则其体重约增加0.85kg
D.若该大学某女生身高为170cm,则可断定其体重必为58.79kg
答案 D
解析 当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79kg.
4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则回归直线方程是________.
答案 =1.23x+0.08
解析 回归直线的斜率的估计值为1.23,
即=1.23,
又回归直线过定点(4,5),
∴=5-1.23×4=0.08,
∴=1.23x+0.08.
5.某地区近10年居民的年收入x与年支出y之间的关系大致符合=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元.
答案 12.1
解析 将x=15代入=0.8x+0.1,得=12.1.
1.判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.根据散点图,可以很容易看出两个变量是否具有相关关系,是不是线性相关,是正相关还是负相关.
2.求回归直线方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
(2)用公式计算,的值时,要先计算,然后才能算出.
3.利用回归直线方程,我们可以进行估计和预测.例如,若回归直线方程为=x+,则x=x0处的估计值为0=x0+.
一、选择题
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
答案 A
解析 x的系数为负数,表示负相关,排除B,D,由实际意义可知x>0,y>0,C中,散点图在第四象限无意义,故选A.
2.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,3,…,10),得散点图2,由这两个散点图可以断定( )
A.x与y正相关,u与v正相关
B.x与y正相关,u与v负相关
C.x与y负相关,u与v正相关
D.x与y负相关,u与v负相关
答案 C
解析 由图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关;
由图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关.
3.已知x与y之间的一组数据:
x
0
1
2
3
y
m
3
5.5
7
已求得关于y与x的回归直线方程为=2.2x+0.7,则m的值为( )
A.1B.0.85C.0.7D.0.5
答案 D
解析 ==1.5,=,将其代入=2.2x+0.7,可得m=0.5,故选D.
4.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归直线方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
答案 B
解析 画出散点图,知>0,<0.
5.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的回归直线方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
答案 A
解析 由变量x与y正相关知C,D均错,又回归直线经过样本点的中心(3,3.5),代入验证得A正确,B错误.
故选A.
6.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
若y与x线性相关,则y与x的回归直线=x+必过( )
A.点(2,2) B.点(1.5,0) C.点(1,2) D.点(1.5,4)
答案 D
解析 ∵==1.5,==4,
∴回归直线必过点(1.5,4).故选D.
7.已知x,y的取值如表所示:
x
2
3
4
y
6
4
5
如果y与x线性相关,且回归直线方程为=x+,则等于( )
A.-B.C.-D.
答案 A
解析 ∵==3,==5,
∴回归直线过点(3,5),
∴5=3+,
∴=-,故选A.
8.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:
广告费用x
4
2
3
5
销售额y
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
答案 B
解析 ==3.5,==42.因为回归直线过点(,),所以42=9.4×3.5+,解得=9.1.故回归方程为=9.4x+9.1.所以当x=6时,=6×9.4+9.1=65.5.
二、填空题
9.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的数据,计算得回归直线方程为=0.85x-0.25.由以上信息,可得表中c的值为________.
天数x
3
4
5
6
7
繁殖数量y(千个)
2.5
3
4
4.5
c
答案 6
解析 ==5,
==,
代入回归直线方程中得=0.85×5-0.25,
解得c=6.
10.如图所示的五组数据(x,y)中,去掉________后,剩下的四组数据相关性增强.
答案 (4,10)
解析 去掉点(4,10)后,其余四点大致在一条直线附近,相关性增强.
11.在一次试验中测得(x,y)的四组数据如下:
x
16
17
18
19
y
50
34
41
31
根据上表可得回归直线方程=-5x+,据此模型预报当x=20时,y的值为________.
答案 26.5
解析 ==17.5,==39,
∴回归直线过点(17.5,39),
∴39=-5×17.5+,∴=126.5,
∴当x=20时,y=-5×20+126.5=26.5.
12.某工厂对某产品的产量与成本的资料分析后有如下数据:
产量x(千件)
2
3
5
6
成本y(万元)
7
8
9
12
由表中数据得到的回归直线方程=x+中=1.1,预测当产量为9千件时,成本约为________万元.
答案 14.5
解析 由表中数据得=4,=9,
代入回归直线方程得=4.6,
∴当x=9时,=1.1×9+4.6=14.5.
三、解答题
13.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
第x年
1
2
3
4
5
需求量y(万吨)
3
6
5
7
8
(1)利用所给数据求两变量之间的回归直线方程=x+;
(2)利用(1)中所求出的回归直线方程预测该地第6年的粮食需求量.
解 (1)由所给数据得=3,=5.8,
==1.1,=-=2.5,
∴=1.1x+2.5.故所求的回归直线方程为=1.1x+2.5.
(2)第6年的粮食需求量约为=1.1×6+2.5=9.1(万吨).
14.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭月储蓄y(千元)关于月收入x(千元)的回归直线方程;
(2)若该居民区某家庭的月收入为7千元,预测该家庭的月储蓄.
解 (1)由题意知n=10,=i=×80=8,
=i=×20=2,
又-n2=720-10×82=80,
iyi-n=184-10×8×2=24,
由此得==0.3,=-=2-0.3×8=-0.4,
故所求回归直线方程为=0.3x-0.4.
(2)将x=7代入回归直线方程,可以得到该家庭的月储蓄约为=0.3×7-0.4=1.7(千元).