2.3.1 & 2.3.2 变量间的相关关系 两个变量的线性相关
习课本P73~78,思考并完成以下问题预
(1)相关关系是函数关系吗?
(2)什么是正相关、负相关?与散点图有什么关系?
(3)回归直线方程是什么?如何求回归系数?
(4)如何判断两个变量之间是否具备相关关系?
1.两个变量的关系
分类
函数关系
相关关系
特征
两变量关系确定
两变量关系带有随机性
2.散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形.
3.正相关与负相关
(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
4.最小二乘法
设x,Y的一组观察值为(xi,yi),i=1,2,…,n,且回归直线方程为=a+bx,当x取值xi(i=1,2,…,n)时,Y的观察值为yi,差yi-i(i=1,2,…,n)刻画了实际观察值yi与回归直线上相应点纵坐标之间的偏离程度,通常是用离差的平方和,即Q=(yi-a-bxi)2作为总离差,并使之达到最小.这样,回归直线就是所有直线中Q取最小值的那一条.由于平方又叫二乘方,所以这种使“离差平方和最小”的方法,叫做最小二乘法.
5.回归直线方程的系数计算公式
回归直线方程
回归系数
系数的
计算公式
方程或
公式
=+x
=
=-
上方加
记号“^ ”
的意义
区分y的估计值与实际值y
a,b上方加“^ ”表示由观察值按最小二乘法求得的估计值
1.下列命题正确的是( )
①任何两个变量都具有相关关系;
②圆的周长与该圆的半径具有相关关系;
③某商品的需求量与该商品的价格是一种非确定性关系;
④根据散点图求得的回归直线方程可能是没有意义的;
⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.
A.①③④ B.②③④
C.③④⑤ D.②④⑤
解析:选C ①显然不对,②是函数关系,③④⑤正确.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
3.若施肥量x(kg)与水稻产量y(kg)的线性回归方程为=5x+250,当施肥量为80 kg时,预计水稻产量约为________kg.
解析:把x=80代入回归方程可得其预测值=5×80+250=650(kg).
答案:650
4.对具有线性相关关系的变量x和y,测得一组数据如下表所示.
x
2
4
5
6
8
y
30
40
60
50
70
若已求得它们的回归直线的斜率为6.5,这条回归直线的方程为______________________.
解析:由题意可知==5,
==50.
即样本中心为(5,50).
设回归直线方程为=6.5x+,
∵回归直线过样本中心(,),
∴50=6.5×5+,即=17.5,
∴回归直线方程为=6.5x+17.5
答案:=6.5x+17.5
相关关系的判断
[典例] (1)下列关系中,属于相关关系的是________(填序号).
①正方形的边长与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③人的身高与年龄之间的关系;
④降雪量与交通事故的发生率之间的关系.
(2)某个男孩的年龄与身高的统计数据如下表所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
①画出散点图;
②判断y与x是否具有线性相关关系.
[解析] (1)在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;在③中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在④中,降雪量与交通事故的发生率之间具有相关关系.
答案:②④
(2)解:①散点图如图所示.
②由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.
[活学活用]
如图所示的两个变量不具有相关关系的是________(填序号).
解析:①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x,y不具有相关关系.
答案:①④
求回归方程
[典例] (1)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
(2)一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
①画出散点图;
②如果y对x有线性相关关系,请画出一条直线近似地表示这种线性关系;
③在实际生产中,若它们的近似方程为y=x-,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?
[解析] (1)依题意知,相应的回归直线的斜率应为正,排除C、D.且直线必过点(3,3.5),代入A、B得A正确.
答案:A
(2)解:①散点图如图所示:
②近似直线如图所示:
③由y≤10得x-≤10,解得x≤14.9,所以机器的运转速度应控制在14转/秒内.
求回归直线方程的步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,,iyi.
(5)代入公式计算,,公式为
(6)写出回归直线方程=x+.
[活学活用]
已知变量x,y有如下对应数据:
x
1
2
3
4
y
1
3
4
5
(1)作出散点图;
(2)用最小二乘法求关于x,y的回归直线方程.
解:(1)散点图如图所示.
(2)==,
==,
iyi=1+6+12+20=39.
=1+4+9+16=30,
==,
=-×=0,
所以=x为所求的回归直线方程.
利用线性回归方程对总体进行估计
[典例] 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,求出y关于x的回归直线方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的回归直线方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?
[解] (1)散点图如图:
(2)==4.5,==3.5,
iyi=3×2.5+4×3+5×4+6×4.5=66.5,
=32+42+52+62=86,
所以=
==0.7,
=- =3.5-0.7×4.5=0.35.
所以所求的线性回归方程为=0.7x+0.35.
(3)当x=100时,=0.7×100+0.35=70.35(吨标准煤),
90-70.35=19.65(吨标准煤).即生产100吨甲产品的生产能耗比技改前降低了19.65吨标准煤.
只有当两个变量之间存在线性相关关系时,才能用回归直线方程对总体进行估计和预测.否则,如果两个变量之间不存在线性相关关系,即使由样本数据求出回归直线方程,用其估计和预测结果也是不可信的.
[活学活用]
(重庆高考)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份
2010
2011
2012
2013
2014
时间代号t
1
2
3
4
5
储蓄存款y(千亿元)
5
6
7
8
10
(1)求y关于t的回归方程=t+;
(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
解:(1)列表计算如下:
i
ti
yi
t
tiyi
1
1
5
1
5
2
2
6
4
12
3
3
7
9
21
4
4
8
16
32
5
5
10
25
50
∑
15
36
55
120
这里n=5,=i==3,=i==7.2.
又-n2=55-5×32=10,
iyi-n=120-5×3×7.2=12,
从而==1.2,=-=7.2-1.2×3=3.6,
故所求回归方程为=1.2t+3.6.
(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.2×6+3.6=10.8(千亿元).
[层级一 学业水平达标]
1.下列变量具有相关关系的是( )
A.人的体重与视力
B.圆心角的大小与所对的圆弧长
C.收入水平与购买能力
D.人的年龄与体重
解析:选C B为确定性关系;A,D不具有相关关系,故选C.
2.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为
A.=1.5x+2
B.=-1.5x+2
C.=1.5x-2
D.=-1.5x-2
解析:选B 设回归方程为=x+,由散点图可知变量x,y之间负相关,回归直线在y轴上的截距为正数,所以<0,>0,因此方程可能为=-1.5x+2.
3.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线如图所示,则以下结论正确的是( )
A.直线l过点(,)
B.回归直线必通过散点图中的多个点
C.直线l的斜率必在(0,1)
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
解析:选A A是正确的;回归直线可以不经过散点图中的任何点,故B错误;回归直线的斜率不确定,故C错误;分布在l两侧的样本点的个数不一定相同,故D错误.
4.一项关于16艘轮船的研究中,船的吨位区间为[192,3 246](单位:吨),船员的人数5~32人,船员人数y关于吨位x的回归方程为=9.5+0.006 2x,
(1)若两艘船的吨位相差1 000,求船员平均相差的人数;
(2)估计吨位最大的船和最小的船的船员人数.
解:(1)设两艘船的吨位分别为x1,x2,则
1-2=9.5+0.006 2x1-(9.5+0.006 2x2)
=0.006 2×1 000≈6,
即船员平均相差6人.
(2)当x=192时,=9.5+0.006 2×192≈11,
当x=3 246时,=9.5+0.006 2×3 246≈30.
即估计吨位最大和最小的船的船员数分别为30人和11人.
[层级二 应试能力达标]
1.一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(大于5个),从中取5次,那么取出红球的次数和口袋中红球的数量是( )
A.确定性关系 B.相关关系
C.函数关系 D.无任何关系
解析:选B 每次从袋中取球取出的球是不是红球,除了和红球的个数有关外,还与球的大小等有关系,所以取出红球的次数和口袋中红球的数量是一种相关关系.
2.农民工月工资y(元)依劳动生产率x(千元)变化的回归直线方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工资为130元
B.劳动生产率提高1 000元时,工资水平提高80元
C.劳动生产率提高1 000元时,工资水平提高130元
D.当月工资为210元时,劳动生产率为2 000元
解析:选B 由回归直线方程=50+80x知,x每增加1,y增加80,但要注意x的单位是千元,y的单位是元.
3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=88+x D.y=176
解析:选C 计算得,==176,==176,根据回归直线经过样本中心(,)检验知,C符合.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,
C.a′ D.解析:选C 由(1,0),(2,2)求b′,a′.
b′==2,a′=0-2×1=-2.
求,时,iyi=0+4+3+12+15+24=58,
=3.5,=,
=1+4+9+16+25+36=91,
∴==,
=-×3.5=-=-,
∴a′.
5.正常情况下,年龄在18岁到38岁的人,体重y(kg)对身高x(cm)的回归方程为=0.72x-58.2,张红同学(20岁)身高为178 cm,她的体重应该在________ kg左右.
解析:用回归方程对身高为178 cm的人的体重进行预测,当x=178时,=0.72×178-58.2=69.96(kg).
答案:69.96
6.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
92
82
80
80
78
68
由表中数据,求得线性回归方程为=-4x+,则=________.
解析:==,
==80,
由回归方程过样本中心点(,)
得80=-4×+.
即=80+4×=106.
答案:106
7.对某台机器购置后的运行年限x(x=1,2,3,…)与当年利润y的统计分析知x,y具备线性相关关系,回归方程为=10.47-1.3x,估计该台机器最为划算的使用年限为________年.
解析:当年利润小于或等于零时应该报废该机器,当y=0时,令10.47-1.3x=0,解得x≈8,故估计该台机器最为划算的使用年限为8年.
答案:8
8.某个体服装店经营某种服装在某周内所获纯利y(元)与该周每天销售这种服装的件数x(件)之间有一组数据如下表:
每天销售服装件数x(件)
3
4
5
6
7
8
9
该周内所获纯利y(元)
66
69
73
81
89
90
91
(1)求,;
(2)若纯利y与每天销售这种服装的件数x之间是线性相关的,求回归直线方程;
(3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件?
(提示:=280,=45 309,iyi=3 487)
解:(1)==6,
=≈79.86.
(2)∵=≈4.75,
=79.86-4.75×6=51.36,
∴纯利与每天销售件数x之间的回归直线方程为=51.36+4.75x.
(3)当=200时,200=4.75x+51.36,所以x≈31.29.
因此若该店每周至少要获纯利200元,则该店每天至少要销售这种服装32件.
9.2016年元旦前夕,某市统计局统计了该市2015年10户家庭的年收入和年饮食支出的统计资料如下表:
年收入
x(万元)
2
4
4
6
6
6
7
7
8
10
年饮食
支出y
(万元)
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
(1)如果已知y与x是线性相关的,求回归方程;
(2)若某家庭年收入为9万元,预测其年饮食支出.
(参考数据:iyi=117.7,=406)
解:依题意可计算得:
=6,=1.83,2=36, =10.98,
又∵iyi=117.7,=406,
∴=≈0.17,
=-=0.81,∴=0.17x+0.81.
∴所求的回归方程为=0.17x+0.81.
(2)当x=9时,=0.17×9+0.81=2.34(万元).
可估计年收入为9万元的家庭每年饮食支出约为2.34万元.
课件39张PPT。
“层级二 应试能力达标”见“课时跟踪检测(十四)”
(单击进入电子文档)
课时跟踪检测(十四) 变量间的相关关系 两个变量的线性相关
1.一个口袋中有大小不等的红、黄、蓝三种颜色的小球若干个(大于5个),从中取5次,那么取出红球的次数和口袋中红球的数量是( )
A.确定性关系 B.相关关系
C.函数关系 D.无任何关系
解析:选B 每次从袋中取球取出的球是不是红球,除了和红球的个数有关外,还与球的大小等有关系,所以取出红球的次数和口袋中红球的数量是一种相关关系.
2.农民工月工资y(元)依劳动生产率x(千元)变化的回归直线方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工资为130元
B.劳动生产率提高1 000元时,工资水平提高80元
C.劳动生产率提高1 000元时,工资水平提高130元
D.当月工资为210元时,劳动生产率为2 000元
解析:选B 由回归直线方程=50+80x知,x每增加1,y增加80,但要注意x的单位是千元,y的单位是元.
3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=88+x D.y=176
解析:选C 计算得,==176,==176,根据回归直线经过样本中心(,)检验知,C符合.
4.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,C.a′ D.解析:选C 由(1,0),(2,2)求b′,a′.
b′==2,a′=0-2×1=-2.
求,时,iyi=0+4+3+12+15+24=58,
=3.5,=,
=1+4+9+16+25+36=91,
∴==,
=-×3.5=-=-,
∴a′.
5.正常情况下,年龄在18岁到38岁的人,体重y(kg)对身高x(cm)的回归方程为=0.72x-58.2,张红同学(20岁)身高为178 cm,她的体重应该在________ kg左右.
解析:用回归方程对身高为178 cm的人的体重进行预测,当x=178时,=0.72×178-58.2=69.96(kg).
答案:69.96
6.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
92
82
80
80
78
68
由表中数据,求得线性回归方程为=-4x+,则=________.
解析:==,
==80,
由回归方程过样本中心点(,)
得80=-4×+.
即=80+4×=106.
答案:106
7.对某台机器购置后的运行年限x(x=1,2,3,…)与当年利润y的统计分析知x,y具备线性相关关系,回归方程为=10.47-1.3x,估计该台机器最为划算的使用年限为________年.
解析:当年利润小于或等于零时应该报废该机器,当y=0时,令10.47-1.3x=0,解得x≈8,故估计该台机器最为划算的使用年限为8年.
答案:8
8.某个体服装店经营某种服装在某周内所获纯利y(元)与该周每天销售这种服装的件数x(件)之间有一组数据如下表:
每天销售服装件数x(件)
3
4
5
6
7
8
9
该周内所获纯利y(元)
66
69
73
81
89
90
91
(1)求,;
(2)若纯利y与每天销售这种服装的件数x之间是线性相关的,求回归直线方程;
(3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件?
(提示:=280,=45 309,iyi=3 487)
解:(1)==6,
=≈79.86.
(2)∵=≈4.75,
=79.86-4.75×6=51.36,
∴纯利与每天销售件数x之间的回归直线方程为=51.36+4.75x.
(3)当=200时,200=4.75x+51.36,所以x≈31.29.
因此若该店每周至少要获纯利200元,则该店每天至少要销售这种服装32件.
9.2016年元旦前夕,某市统计局统计了该市2015年10户家庭的年收入和年饮食支出的统计资料如下表:
年收入
x(万元)
2
4
4
6
6
6
7
7
8
10
年饮食
支出y
(万元)
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
(1)如果已知y与x是线性相关的,求回归方程;
(2)若某家庭年收入为9万元,预测其年饮食支出.
(参考数据:iyi=117.7,=406)
解:依题意可计算得:
=6,=1.83,2=36, =10.98,
又∵iyi=117.7,=406,
∴=≈0.17,
=-=0.81,∴=0.17x+0.81.
∴所求的回归方程为=0.17x+0.81.
(2)当x=9时,=0.17×9+0.81=2.34(万元).
可估计年收入为9万元的家庭每年饮食支出约为2.34万元.