2.3 变量间的相关关系
2.3.1 变量之间的相关关系
2.3.2 两个变量的线性相关
学 习 目 标
核 心 素 养
1.了解变量间的相关关系,会画散点图,并利用散点图判断两个变量之间是否具有相关关系.(重点)
2.了解线性回归思想,会求回归直线方程.(难点)
1.通过对数据的分析、统计,培养数据分析素养.
2.借助变量间相关关系的研究,提升数学运算素养.
1.变量间的相关关系
(1)相关关系的定义
变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.
(2)散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.
(3)正相关与负相关
①正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.
②负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
2.回归直线方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)线性回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程.
(3)最小二乘法:
求线性回归方程=x+时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
其中,是线性回归方程的斜率,是线性回归方程在y轴上的截距.
1.下列两个变量具有相关关系的是( )
A.角度和它的余弦值
B.圆的半径和该圆的面积
C.正n边形的边数和它的内角和
D.居民的收入与存款
D [A、B、C中两变量是确定的函数关系.]
2.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
B [由散点图知,变量x,y之间负相关,回归直线在y轴上的截距为正数,故只有B选项符合.]
3.5位学生的数学成绩和物理成绩如下表:
学科
A
B
C
D
E
数学
80
75
70
65
60
物理
70
66
68
64
62
则数学成绩与物理成绩之间( )
A.是函数关系
B.是相关关系,但相关性很弱
C.具有较好的相关关系,且是正相关
D.具有较好的相关关系,且是负相关
C [数学成绩x和物理成绩y的散点图如图所示.
从图上可以看出数学成绩和物理成绩具有较好的相关关系,且成正相关.]
4.设有一个回归方程为=2-1.5x,则变量x每增加1个单位时,y平均减少________个单位.
1.5 [因为=2-1.5x,所以变量x每增加1个单位时,y1-y2=[2-1.5(x+1)]-(2-1.5x)=-1.5,所以y平均减少1.5个单位.]
相关关系及判断
【例1】 某个男孩的年龄与身高的统计数据如下表所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
[解] (1)散点图如图所示.
(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.
相关关系的判断方法
(1)两个变量x和y具有相关关系的判断方法
①散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
②表格、关系式法:结合表格或关系式进行判断;
③经验法:借助积累的经验进行分析判断.
(2)判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
1.下列关系中,属于相关关系的是________(填序号).
①正方形的边长与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
②④ [在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.]
求回归方程
[探究问题]
1.任意两个统计数据是否均可以作出散点图?
[提示] 任意两个统计数据均可以作出散点图.
2.任何一组数据都可以由最小二乘法得出回归方程吗?
[提示] 用最小二乘法求回归方程的前提是先判断所给数据具有线性相关关系,否则求回归方程是无意义的.
3.回归系数的含义是什么?
[提示] (1)代表x每增加一个单位,y的平均增加单位数,而不是增加单位数.
(2)当>0时,两个变量呈正相关关系,含义为:x每增加一个单位,y平均增加个单位数;
当<0时,两个变量呈负相关关系,含义为:x每增加一个单位,y平均减少个单位数.
【例2】 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:
零件数x(个)
10
20
30
40
50
60
70
80
90
100
加工时间y(分)
62
68
75
81
89
95
102
108
115
122
(1)y与x是否具有线性相关关系?
(2)如果y与x具有线性相关关系,求y关于x的回归直线方程.
思路点拨:画散点图→确定相关关系→求回归直线系数→写回归直线方程.
[解] (1)画散点图如下:
由上图可知y与x具有线性相关关系.
(2)列表、计算:
i
1
2
3
4
5
6
7
8
9
10
xi
10
20
30
40
50
60
70
80
90
100
yi
62
68
75
81
89
95
102
108
115
122
xiyi
620
1 360
2 250
3 240
4 450
5 700
7 140
8 640
10 350
12 200
=-x=91.7-0.668×55=54.96.
即所求的回归直线方程为:=0.668x+54.96.
求回归直线方程的步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)
(5)代入公式计算,,公式为
(6)写出回归直线方程=x+.
2.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归方程.
[解] (1)散点图如图所示.
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x
4
16
25
36
64
x=5,y=50, x=145,iiyi=1 380
于是可得,===6.5,
=y-x=50-6.5×5=17.5.
于是所求的回归方程是=6.5x+17.5.
回归方程的应用
【例3】 某5名学生的总成绩和数学成绩(单位:分)如表所示:
学生
A
B
C
D
E
总成绩x
428
383
421
364
362
数学成绩y
78
65
71
64
61
(1)画出散点图;
(2)求y对x的线性回归方程(结果保留到小数点后3位数字);
(3)如果一个学生的总成绩为450分,试预测这个学生的数学成绩.
[解] (1)散点图如图所示:
(2)由题中数据计算可得
=391.6,=67.8,x=770 654,xiyi=133 548.代入公式得=≈0.204,
=67.8-0.204×391.6≈-12.086,
所以y对x的线性回归方程为=-12.086+0.204x.
(3)由(2)得当总成绩为450分时,=-12.086+0.204×450≈80,即这个学生的数学成绩大约为80分.
利用线性回归方程解题的常见思路及注意点
(1)利用回归直线过样本点的中心,可以求参数问题,参数可涉及回归方程或样本点数据.
(2)利用回归方程中系数的意义,分析实际问题.
(3)利用回归直线进行预测,此时需关注两点;①所得的值只是一个估计值,不是精确值;②变量x与y成线性相关关系时,线性回归方程才有意义,否则即使求出线性回归方程也是毫无意义的,用其估计和预测的量也是不可信的.
3.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得xi=80,yi=20,xiyi=184,x=720.
(1)求月储蓄y(千元)关于月收入x(千元)的线性回归方程;
(2)若该居民区某家庭的月收入为7千元,预测该家庭的月储蓄.
[解] (1)由题意知n=10,=xi=×80=8,
=y i=×20=2,
又x-n2=720-10×82=80,
x iyi-n=184-10×8×2=24,
由此得==0.3,
=-=2-0.3×8=-0.4,
故所求线性回归方程为=0.3x-0.4.
(2)将x=7代入线性回归方程,可以得到该家庭的月储蓄约为=0.3×7-0.4=1.7(千元).
1.判断变量之间有无相关关系,简便可行的方法就是绘制散点图.根据散点图,可看出两个变量是否具有相关关系,是否线性相关,是正相关还是负相关.
2.求回归直线的方程时应注意的问题
(1)知道x与y呈线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
(2)用公式计算,的值时,要先算出,然后才能算出.
3.利用回归方程,我们可以进行估计和预测.若回归方程为=x+,则x=x0处的估计值为0=x0+.
1.判断下列结论的正误(正确的打“√”,错误的打“×”)
(1)相关关系是两个变量之间的一种确定的关系. ( )
(2)回归直线方程一定过样本中心点. ( )
(3)选取一组数据的部分点得到的回归方程与由整组数据得到的回归方程一定相同. ( )
[答案] (1)× (2)√ (3)×
2.对有线性相关关系的两个变量建立的回归直线方程=+x中,回归系数( )
A.不能小于0 B.不能大于0
C.不能等于0 D.只能小于0
C [当=0时,不具有相关关系,可以大于0,也可以小于0.]
3.若施化肥量x(千克/亩)与水稻产量y(千克/亩)的回归方程为=5x+250,当施化肥量为80千克/亩时,预计水稻产量为亩产________千克左右.
650 [当x=80时,=400+250=650.]
4.2019年元旦前夕,某市统计局统计了该市2018年10户家庭的年收入和年饮食支出的统计资料如下表:
年收入x(万元)
2
4
4
6
6
6
7
7
8
10
年饮食支出y(万元)
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
如果已知y与x是线性相关的,求回归方程.(参考数据: xiyi=117.7, x=406)
[解] 依题意可计算得:
=6,=1.83,2=36,=10.98,
又∵xiyi=117.7,x=406,
∴=≈0.17,
=y- x=0.81,∴=0.17x+0.81.
∴所求的回归方程为=0.17x+0.81.
课件55张PPT。第二章 统计2.3 变量间的相关关系
2.3.1 变量之间的相互关系
2.3.2 两个变量的线性相关随机性函数关系相关关系正相关负相关一条直线线性相关回归直线距离的平方和斜率截距相关关系及判断 求回归方程回归方程的应用 点击右图进入…Thank you for watching !课时分层作业(十四) 变量间的相关关系 两个变量的线性相关
(建议用时:60分钟)
[基础达标练]
一、选择题
1.有几组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③立方体的棱长和体积.其中两个变量成正相关的是( )
A.①③ B.②③
C.② D.③
C [①是负相关;②是正相关;③不是相关关系.]
2.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程为=x+,那么下面说法不正确的是( )
A.直线=x+必经过点(,)
B.直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.直线= x+的斜率为
D.直线=x+是最接近y与x之间真实关系的一条直线
B [回归直线一定经过样本点的中心,故A正确;直线=x+可以不经过样本点中的任何一点,故B错误.由回归方程的系数可知C正确;在直角坐标系中,直线=x+与所有样本点的偏差的平方和最小,故D正确;]
3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493;④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
D [由正负相关的定义知①④一定不正确.]
4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=88+x D.y=176
C [==176,==176.根据回归直线过样本中心点(、)验证知C符合.]
5.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时,销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
B [=(4+2+3+5)=3.5,=(49+26+39+54)=42,所以=- =42-9.4×3.5=9.1.所以回归方程为=9.4x+9.1.令x=6,得=65.5(万元).]
二、填空题
6.某工厂加工零件个数x与花费时间y(h)之间的线性回归方程为=0.01x+0.5,则加工200个零件大约需要________小时.
2.5 [将200代入回归方程得=0.01×200+0.5=2.5.]
7.如图,有5组(x,y)数据,去掉________点对应的数据后,剩下的4组数据的线性相关程度最大.
D [去掉D点对应的数据后,其余四点大致在一条直线附近,相关性最强.]
8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:h)与当天投篮命中率y之间的关系:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6h篮球的投篮命中率为________.
0.5 0.53 [===0.5,
==3.
由公式,得=0.01,
从而=- =0.5-0.01×3=0.47.
所以回归方程为=0.47+0.01x.
所以当x=6时,=0.47+0.01×6=0.53.]
三、解答题
9.两对变量A和B,C和D的取值分别对应如表1和表2,画出散点图,分别判断它们是否具有相关关系;若具有相关关系,说出它们相关关系的区别.
表1
A
26
18
13
10
4
-1
B
20
24
34
38
50
64
表2
C
0
5
10
15
20
25
30
35
D
541.67
602.66
672.09
704.99
806.71
908.59
975.42
1 034.75
[解] 散点图分别如图(1)和图(2).
从图中可以看出两图中的点各自分布在一条曲线附近,因此两对变量都具有相关关系.
图(1)中,当A的值由小变大时,B的值却是由大变小,故A和B成负相关;
图(2)中,当C的值由小变大时,D的值也是由小变大,故C和D成正相关.
10.下表提供了某厂节能降耗技术改进后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的回归直线.
[解] (1)散点图如图:
(2)==4.5,
==3.5,
xiyi=3×2.5+4×3+5×4+6×4.5=66.5,
x=32+42+52+62=86,
==0.7,
=-=3.5-0.7×4.5=0.35.
所以所求的线性回归方程为=0.7x+0.35.
[能力提升练]
1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
C.r2<0C [由数据知变量X与Y成正相关,U与V成负相关即r1>0,r2<0.∴r2<02.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,C.a′ D.C [由(1,0),(2,2)求b′,a′.
b′==2,
a′=0-2×1=-2.
求,时,
iyi=0+4+3+12+15+24=58,
=3.5,=,
=1+4+9+16+25+36=91,
∴==,
=-×3.5=-=-,
∴a′.]
3.对某台机器购置后的运行年限x(x=1,2,3,…)与当年利润y的统计分析知x,y具备线性相关关系,回归方程为=10.47-1.3x,估计该台机器最为划算的使用年限为________年.
8 [当年利润小于或等于零时应该报废该机器,当y=0时,令10.47-1.3x=0,解得x≈8,故估计该台机器最为划算的使用年限为8年.]
4.期中考试后,某校高三(9)班对全班65名学生的成绩进行分析,得到数学成绩y对总成绩x的回归方程为=6+0.4x.由此可以估计:若两个同学的总成绩相差50分,则他们的数学成绩大约相差________分.
20 [令两人的总成绩分别为x1,x2.则对应的数学成绩估计为1=6+0.4x1,2=6+0.4x2,所以|1-2|=|0.4(x1-x2)|=0.4×50=20.]
5.如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量.
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,回归方程
=+t中斜率和截距的最小二乘估计公式分别为
=,=-.
[解] (1)由折线图中的数据和附注中的参考数据得
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2020年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2020年我国生活垃圾无害化处理量约为1.82亿吨.