变量间的相关关系
__________________________________________________________________________________
__________________________________________________________________________________
1.通过收集现实问题中两个有关联变量的数据认识变量间的相关关系.
2.明确事物间的相互联系.认识现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并利用散点图直观体会这种相关关系.
3.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.
1.相关关系
(1)定义:如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的________性,那么这两个变量之间的关系,叫做相关关系.
(2)两类特殊的相关关系:如果散点图中点的分布是从________角到________角的区域,那么这两个变量的相关关系称为正相关,如果散点图中点的分布是从________角到________角的区域,那么这两个变量的相关关系称为负相关.
随机 左下 右上 左上 右下
两个变量间的关系分为三类:一类是确定性的函数关系,如正方形的边长与面积的关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,这种关系就是相关关系,例如,某位同学的“物理成绩”与“数学成绩”之间的关系,我们称它们为相关关系;再一类是不相关,即两个变量间没有任何关系.
2.线性相关
(1)定义:如果两个变量散点图中点的分布从整体上看大致在一条________附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做_________.
(2)最小二乘法:求线性回归直线方程=x+时,使得样本数据的点到它的________________最小的方法叫做最小二乘法,其中a,b的值由以下公式给出:
直线 回归直线 距离的平方和
其中,是回归方程的________,是回归方程在y轴上的________.
斜率 截距
线性回归分析涉及大量的计算,形成操作上的一个难点,可以利用计算机非常方便地作散点图、回归直线,并能求出回归直线方程.因此在学习过程中,要重视信息技术的应用.
类型一 变量之间的相关关系的判断
例1:(1)下列变量之间的关系不是相关关系的是( )
A.二次函数y=ax2+bx+c中,a,c是已知常数,取b为自变量,因变量是判别式Δ=b2-4ac
B.光照时间和果树亩产量
C.降雪量和交通事故发生率
D.每亩田施肥量和粮食亩产量
(2)现随机抽取某校10名学生在入学考试中的数学成绩x与入学后的第一次数学成绩y,数据如下:
学号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
请利用散点图判断这10名学生的两次数学考试成绩是否具有相关关系.
[解析] (1)在A中,若b确定,则a,b,c都是常数,Δ=b2-4ac也就唯一确这了,因此,这两者之间是确定性的函数关系;一般来说,光照时间越长,果树亩产量越高;降雪量越大,交通事故发生率越高;施肥量越多,粮食亩产量越高,所以B,C,D是相关关系.故选A.
(2)两次数学考试成绩散点图如图所示,
由散点图可以看出两个变量的对应点集中在一条直线的周围,具有正相关关系.因此,这10名学生的两次数学考试成绩具有相关关系.
练习1:对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
[答案] C
类型二 回归直线方程
例2:随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x与所支出的总费用y(万元)有如下的数据资料:
使用年限x 2 3 4 5 6
总费用y 2.2 3.8 5.5 6.5 7.0
若由资料,知y对x呈线性相关关系.试求:
(1)线性回归方程=x+的回归系数、;
(2)估计使用年限为10年时,车的使用总费用是多少?
[解析] 第一步,列表xi,yi,xiyi;
第二步,计算,,,,iyi;
第三步,代入公式计算b,a的值;
第四步,写出回归直线方程.
(1)利用公式:
来计算回归系数.有时为了方便常列表,对应列出xiyi、x,以利于求和.(2)获得线性回归方程后,取x=10,即得所求.
[答案] (1)列表:
i 1 2 3 4 5
xi 2 3 4 5 6
yi 2.2 3.8 5.5 6.5 7.0
xiyi 4.4 11.4 22.0 32.5 42.0
x 4 9 16 25 36
=4,=5,=90,iyi=112.3
于是===1.23;
=-b=5-1.23×4=0.08.
(2)线性回归直线方程是=1.23x+0.08,当x=10(年)时,=1.23×10+0.08=12.38(万元),即估计使用10年时,支出总费用是12.38万元.
练习1:已知回归直线的斜率的估计值是1.23,样本点中心(即(,))为(4,5),则回归直线的方程是( )
A.=1.23x+4 B.=1.23x+5 C.=1.23x+0.08 D.=0.08x+1.23
[答案] C
练习2:某公司的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
资料显示y对x呈线性相关关系.
根据上表提供的数据得到回归方程=x+中的=6.5,预测销售额为115万元时约需________万元广告费.
[答案] 15
有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童年数量,如下表:
人均GDP/万元 10 8 6 4 3 1
患白血病的儿童数/人 351 312 207 175 132 180
(1)画出散点图,并判定这两个变量是否具有线性相关关系;
(2)通过计算可知这两个变量的回归直线方程为=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
[解析] (1)根据表中数据画散点图,如图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.
(2)上述断言是错误的,将x=12代入=23.25x+102.15得=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况下所作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.
练习1:某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1)求回归直线方程=x+,其中=-20.
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
[答案] (1)由于=(x1+x2+x3+x4+x5+x6)=8.5,
=(y1+y2+y3+y4+y5+y6)=80.
所以=-=80+20×8.5=250,
从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)=-20x2+330x-1000=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得是大值,
故当单价定为8.25元时,工厂可获得最大利润.
1.下列两个变量之间的关系:
①角度和它的余弦值;
②正n边形的边数与内角和;
③家庭的支出与收入;
④某户家庭用电量与电价间的关系.
其中是相关关系的有( )
A.1个 B.2个
C.3个 D.4个
[答案] A
2.下列图形中两个变量具有相关关系的是( )
[答案] C
3.设一个回归方程为=3+1.2x,则变量x增加一个单位时( )
A.y平均增加1.2个单位
B.y平均增加3个单位
C.y平均减少1.2个单位
D.y平均减少3个单位
[答案] A
4.现有5组数据A(1,3)、B(2,4)、C(4,5)、D(3,10)、E(10,12),去掉________组数据后,剩下的4组数据的线性相关性最大.
[答案] D
5.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x 3 4 5 6
y 2.5 3 4 4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
[解析] (1)散点图,如图所示.
(2)由题意,得iyi=3×2.5+4×3+5×4+6×4.5=66.5,
==4.5,==3.5,
=32+42+52+62=86,
∴===0.7,
=-=3.5-0.7×4.5=0.35,
故线性回归方程为=0.7x+0.35.
(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,
故耗能减少了90-70.35=19.65(吨标准煤).
_________________________________________________________________________________
_________________________________________________________________________________
基础巩固
一、选择题
1.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到的回归直线方程=bx+a,那么下面说法不正确的是( )
A.直线=bx+a必经过点(,)
B.直线=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.直线=bx+a的斜率为
D.直线=bx+a和各点(x1,y1),(x2,y2),…,(xn,yn)的偏差yi-(bxi+a)]2是该坐标平面上所有直线与这些点的偏差中最小的直线.
[答案] B
[解析] 由a=-b 知=-b +bx,∴必定过(,)点.
回归直线方程对应的直线是与样本数据距离最小的,但不一定过原始数据点,只须和这些点很接近即可.
2.下列说法正确的是( )
A.对于相关系数r来说,|r|≤1,|r|越接近0,相关程度越大;|r|越接近1,相关程度越小
B.对于相关系数r来说,|r|≥1,|r|越接近1,相关程度越大;|r|越大,相关程度越小
C.对于相关系数r来说,|r|≤1,|r|越接近1,相关程度越大;|r|越接近0,相关程度越小
D.对于相关系数r来说,|r|≥1,|r|越接近1,相关程度越小;|r|越大,相关程度越大
[答案] C
3.两个变量成负相关关系时,散点图的特征是( )
A.点从左下角到右上角区域散布
B.点散布在某带形区域内
C.点散布在某圆形区域内
D.点从左上角到右下角区域散布
[答案] D
4.已知变量x与y正相关,且由观测数据算得样本的平均数=2.5,=3.5,则由观测的数据得线性回归方程可能为( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
[答案] A
[解析] ∵=x+,正相关则b>0,∴排除C,D.∵过中点心(,)=(3,3.5),∴选A.
5.某化工厂为预测某产品的回收率y,需要研究它的原料有效成分含量x之间的相关关素,现取了8对观测值,计算得:i=52,i=228,=478,iyi=1849,则y对x的回归直线的方程是( )
A.=11.47+2.62x B.=-11.47+2.62x
C.=2.62+11.47x D.=11.47-2.62x
[答案] A
[解析] 由已知得=i=×52=,=i=×228=,所以==≈2.62,=-≈-2.62×=11.47,所以=2.62x+11.47.
6.为了考查两个变量x和y之间的线性关系,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1、l2,已知两人所得的试验数据中,变量x和y的数据的平均值都相等,且分别是s和t,那么下列说法中正确的是( )
A.直线l1、l2一定有公共点(s,t)
B.直线l1、l2相交,但交点不一定是(s,t)
C.必有直线l1∥l2
D.l1、l2必定重合
[答案] A
[解析] 线性回归直线方程为=bx+a,而=-,即a=t-bs,t=bs+a,所以(s,t)在回归直线上,直线l1、l2一定有公共点(s,t).
二、填空题
7.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
[答案] 0.254
[解析] 由于=0.254x+0.321知,当x增加1万元时,年饮食支出y增加0.254万元.
8.某单位为了解用电量y(度)与气温x(℃)之间的关系,随机抽查了某4天的用电量与当天气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得线性回归方程=x+中=-2,预测当气温为-4℃时,用电量约为________度.
[答案] 68
[解析] ==10,==40,因为回归方程一定过点(,),
所以=+,则=-=40+2×10=60.
则=-2x+60,当x=-4时,=-2×(-4)+60=68.
三、解答题
9.某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元)
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)从散点图中判断销售金额与广告费支出成什么样的关系?
[解析] (1)以x对应的数据为横坐标,以y对应的数据为纵坐标,所作的散点图如下图所示:
(2)从图中可以发现广告费支出与销售金额之间具有相关关系,并且当广告费支出由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
10.一台机器由于使用时间较长,生产的零件有一些缺损.按不同转速生产出来的零件有缺损的统计数据如下表所示:
转速x(转/秒) 16 14 12 8
每小时生产有缺损零件数y(个) 11 9 8 5
(1)作出散点图;
(2)如果y与x线性相关,求出回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺损的零件最多为10个,那么,机器的运转速度应控制在什么范围内?
[解析] 先作出散点图,再根据散点图判断y与x呈线性相关,从而建立回归直线方程求解.
解:(1)作散点图如图所示.
(2)由散点图可知y与x线性相关.故可设回归直线方程为=bx+a.
依题意,用计算器可算得:
=12.5,=8.25,=660,iyi=438.
∴b=≈0.73,a=-b≈8.25-0.73×12.5=-0.875.
∴所求回归直线方程为=0.73x-0.875.
(3)令=10,得0.73x-0.875=10,解得x≈15.
即机器的运转速度应控制在15转/秒内.
能力提升
一、选择题
1.根据如下样本数据得到的回归方程为=bx+a,则( )
x 3 4 5 6 7 8
y 4.0 2.5 -0.5 0.5 -2.0 -3.0
A.a>0,b<0 B.a>0,b>0
C.a<0,b<0 D.a<0,b>0
[答案] A
[解析] 由于x增大y减小知b<0,又x=3时y>0,∴a>0,故选A.
2.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
[答案] B
[探究] 由线性回归方程的图象过样本点的中心,可求得线性回归方程,然后结合该方程对x=6时的销售额作出估计.
[解析] 样本点的中心是(3.5,42),则=-=42-9.4×3.5=9.1,所以线性回归方程是=9.4x+9.1,把x=6代入得=65.5.
3.已知x与y之间的几组数据如下表:
x 1 2 3 4 5 6
y 0 2 1 3 3 4
假设根据上表数据所得线性回归直线方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
[答案] C
[探究] 先由已知条件分别求出b′,a′的值,再由,的计算公式分别求解,的值,即可作出比较.
[解析] 由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,从而b′=2,a′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得===,=-=-×=-,所以<b′,>a′.
4.某学生课外活动兴趣小组对两个相关变量收集到5组数据如下表:
x 10 20 30 40 50
y 62 ▲ 75 81 89
由最小二乘法求得回归方程为=0.67x+54.9,现发现表中有一个数据模糊不清,请推断该数据的值为( )
A.60 B.62
C.68 D.68.3
[答案] C
[解析] 由题意可得=30,
代入回归方程得=75.
设看不清处的数为a,
则62+a+75+81+89=75×5,∴a=68.
[点评] 表中所给的数据只反映x与y的线性关系,并非函数关系,因而不能直接代入线性方程求预报值,应根据线性回归方程性质,即线性回归方程经过中心点(,)求解.
二、填空题
5.2010年4月初,广东部分地区流行手足口病,党和政府采取果断措施,防治结合,很快使病情得到控制.下表是某同学记载的2010年4月1日到2010年4月12日每天广州手足口病治愈出院者数据,根据这些数据绘制散点图如图.
日期 1 2 3 4 5 6
人数 100 109 115 118 121 134
日期 7 8 9 10 11 12
人数 141 152 168 175 186 203
下列说法:
①根据此散点图,可以判断日期与人数具有线性相关关系;②根据此散点图,可以判断日期与人数且有一次函数关系;③后三天治愈出院的人数占这12天治愈出院人数的30%多;④后三天治愈出院的人数均超过这12天内北京市治愈出院人数的20%.
其中正确的个数是________.
[答案] 2
6.改革开放30年以来,我国高等教育事业迅速发展,对某省1990~2000年考大学升学百分比按城市、县镇、农村进行统计,将1990~2000年依次编号为0~10,回归分析之后得到每年考入大学的百分比y与年份x的关系为:
城市:=2.84x+9.50;
县镇:=2.32x+6.67;
农村:=0.42x+1.80.
根据以上回归直线方程,城市、县镇、农村三个组中,________的大学入学率增长最快.按同样的增长速度,可预测2010年,农村考入大学的百分比为________%.
[答案] 城市 10.2
[探究] 增长速度可根据回归直线的斜率来判断,斜率大的增长速度快,斜率小的增长速度慢.
[解析] 通过题目中所提供的回归方程可判断,城市的大学入学率增长最快;2010年农村考入大学的百分比为0.42×20+1.80=10.2.
三、解答题
7.某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表
年份 2007 2008 2009 2010 2011 2012 2013
年份代号 1 2 3 4 5 6 7
人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入,附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
[解析] (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元,将2015年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收人为6.8千元.
8.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭的月储蓄y对月收入x的线性回归方程=x+;
(2)判断变量x与y之间是正相关还是负相关;
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
附:线性回归方程=x+中,=,=-,其中,为样本平均值.
[探究] (1)根据线性回归方程求相关的量后,代入公式即可求得回归方程;(2)观察线性回归方程的系数 可判断是正相关还是负相关;(3)将x=7代入线性回归方程即可求得预报变量,即该家庭的月储蓄.
[解析] (1)由题意知n=10,=i==8,=i==2,
又-n2=720-10×82=80,iyi-n =184-10×8×2=24,
由此得===0.3,=-=2-0.3×8=-0.4,
故所求回归方程为=0.3x-0.4.
(2)由于变量y的值随x的值增加而增加(=0.3>0),故x与y之间是正相关.
(3)将x=7代入回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元).
13