§8.1 成对数据的统计相关性
学习目标 1.结合实例,了解样本相关系数的统计含义.2.了解样本相关系数与标准化数据向量夹角的关系.3.结合实例,会通过样本相关系数比较多组成对样本数据的相关性.
知识点一 相关关系
1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
思考 相关关系是函数关系吗?
答案 不是.函数关系是唯一确定的关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
知识点二 相关关系的刻画
1.散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
2.样本相关系数
(1)我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=.
(2)样本相关系数r的取值范围为[-1,1].
①若r>0时,成对样本数据正相关;
②若r<0时,成对样本数据负相关;
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
1.函数关系是一种确定关系,而相关关系是一种不确定关系.( √ )
2.样本相关系数r越大,两变量的相关性越强.( × )
3.散点图可以直观地分析出两个变量是否具有相关性.( √ )
4.若变量x,y满足函数关系,则这两个变量线性相关.( × )
一、变量间相关关系的判断
例1 (1)(多选)下列关系中,属于相关关系的是( )
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车费与行驶的里程
D.降雪量与交通事故的发生率之间的关系
答案 BD
解析 A中,正方形的边长与面积之间的关系是函数关系;B中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;C为确定的函数关系;D中,降雪量与交通事故的发生率之间具有相关关系.
(2)某种产品的广告支出费x与销售额y之间有如下对应数据(单位:百万元):
x 2 4 5 6 8
y 30 40 60 50 70
①画出散点图;
②从散点图中判断销售金额与广告支出费成什么样的关系?
解 ①以x对应的数据为横坐标,y对应的数据为纵坐标,所作的散点图如图所示.
②从图中可以发现广告支出费与销售金额之间具有相关关系,并且当广告支出费由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
反思感悟 两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
跟踪训练1 (多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是( )
答案 BC
解析 图A的两个变量具有函数关系;图BC的两个变量具有相关关系;图D的两个变量之间既不是函数关系,也不是相关关系.
二、样本相关系数的性质
例2 (1)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 |r|越接近1,相关性越强,故选D.
(2)在一组成对样本数据为(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若这组成对样本数据的样本相关系数为-1,则所有的样本点(xi,yi)(i=1,2,…,n)满足的方程可以是( )
A.y=-x+1 B.y=x-1
C.y=x+1 D.y=-x2
答案 A
解析 ∵这组成对样本数据的样本相关系数为-1,
∴这一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)线性相关,且是负相关.
∴可排除B,C,D,故选A.
反思感悟 样本相关系数的性质
(1)r的绝对值越接近0,相关性越弱.
(2)r的绝对值越接近1,相关性越强.
跟踪训练2 (1)对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
答案 C
解析 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
(2)(多选)对两个变量的样本相关系数r,下列说法正确的是( )
A.|r|越大,相关程度越大
B.|r|越小,相关程度越大
C.|r|趋近于0时,没有线性相关关系
D.|r|越接近1时,线性相关程度越强
答案 AD
解析 对于A,|r|越大,相关程度越大,A正确;对于B,|r|越小,相关程度越小,B错误;对于C,|r|趋近于0时,线性相关关系越弱,C错误;对于D,|r|越接近1时,线性相关程度越强,D正确.综上,正确的是AD.
三、样本相关系数的计算及应用
例3 某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:
x 2 4 6 8
y 30 40 50 70
(1)画出(x,y)的散点图;
(2)计算x与y之间的样本相关系数,并刻画它们的相关程度.
解 (1)画出(x,y)的散点图如图所示.
(2)=5,=47.5,
=120,=9 900,iyi=1 080,
故样本相关系数r=
=≈0.982 7.
由样本相关系数r≈0.982 7,可以推断生产原料耗费与销售额这两个变量正线性相关,且相关程度很高.
反思感悟 线性相关强弱的判断方法
(1)散点图:散点图只是粗略作出判断,其图象越接近直线,相关性越强.
(2)样本相关系数:样本相关系数能够较准确的判断相关的程度,其绝对值越大,相关性越强.
跟踪训练3 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
计算y与x之间的样本相关系数(精确到0.001,已知=90,≈140.8,iyi=112.3,≈8.9,≈1.4).
解 ∵==4,
==5.
iyi-5=112.3-5×4×5=12.3,
-52=90-5×42=10,
-52=140.8-125=15.8,
∴r====≈≈0.987.
1.(多选)下列命题正确的是( )
A.任意两个变量都具有相关关系
B.圆的周长与该圆的直径具有相关关系
C.某商品的需求量与该商品的价格是一种非确定性关系
D.当两个变量相关且样本相关系数r>0时,表明两个变量正相关
答案 CD
解析 A显然不对,B是函数关系,CD正确.
2.若变量y与x之间的样本相关系数r=-0.983 2,则变量y与x之间( )
A.不具有线性相关关系
B.具有线性相关关系
C.它们的线性相关关系还需要进一步确定
D.不确定
答案 B
解析 变量y与x之间的样本相关系数r=-0.983 2,|r|=0.983 2接近1,样本相关系数的绝对值越大,相关性越强,∴变量y与x之间有较强的线性相关关系,故选B.
3.两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
答案 C
解析 由样本相关系数r1=0.785 9>0知x与y正相关,由样本相关系数r2=-0.956 8<0知u,v负相关,又|r1|<|r2|,∴变量u与v的线性相关性比x与y的线性相关性强.故选C.
4.据两个变量x,y之间的成对样本数据画出散点图如图,这两个变量是否具有线性相关关系________.(填“是”或“否”)
答案 否
解析 图中的点分布杂乱,两个变量不具有线性相关关系.
5.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
固定资产价值 3 3 5 6 6 7 8 9 9 10
工业增加值 15 17 25 28 30 36 37 42 40 45
根据上表资料计算的样本相关系数约为________.
答案 0.991 8
解析 ==6.6,
==31.5.
∴r=≈0.991 8.
1.知识清单:
(1)相关关系.
(2)散点图.
(3)正相关、负相关、线性相关、非线性相关.
(4)样本相关系数.
2.方法归纳:数形结合.
3.常见误区:相关关系与函数关系不分,样本相关系数绝对值的大小与相关程度的关系.
1.若“名师出高徒”成立,则名师与高徒之间存在什么关系( )
A.相关关系 B.函数关系
C.无任何关系 D.不能确定
答案 A
2.(多选)给出下列关系,其中有相关关系的是( )
A.人的年龄与他(她)拥有的财富之间的关系
B.曲线上的点与该点的坐标之间的关系
C.苹果的产量与气候之间的关系
D.森林中的同一种树木,其截面直径与高度之间的关系
答案 ACD
3.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③① C.②①③ D.①③②
答案 D
解析 对于(1),图中的点成带状分布,且从左到右上升,是①正相关关系;对于(2),图中的点没有明显的带状分布,是③不相关;对于(3),图中的点成带状分布,且从左到右是下降的,是②负相关关系.故选D.
4.(多选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( )
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压的相关性都很强
答案 BCD
解析 由左图知气压随海拔高度的增加而减小,由右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B,C,D正确,A错误.
5.变量X与Y相对应的一组成对样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组成对样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则( )
A.r2C.r2<0答案 C
解析 由已知中的数据可知:第一组成对样本数据正相关,则样本相关系数大于零,第二组成对样本数据负相关,则样本相关系数小于零,故选C.
6.如图所示的两个变量不具有相关关系的有________.(填序号)
答案 ①④
解析 ①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x,y不具有相关关系.
7.给出下列x,y值的数据如下:
x 1 2 4 8
y 3 5 9 17
则根据数据可以判断x和y的关系是________.(填“确定关系”“相关关系”或“没有关系”)
答案 确定关系
解析 由表中数据可以得到x,y之间是一种函数关系:y=2x+1,所以x,y是一种确定的关系,即函数关系.
8.对某高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.下面关于这位同学的数学成绩的分析中,正确的序号有________.
①该同学的数学成绩总的趋势是在逐步提高;
②该同学在这连续九次测试中的最高分与最低分的差超过40分;
③该同学的数学成绩与测试序号具有线性相关性,且为正相关.
答案 ①②③
解析 散点图从左向右看呈上升趋势,所以该同学的数学成绩总的趋势是在逐步提高,①正确;该同学在这连续九次测试中的最高分大于130分,最低分小于90分,极差超过40分,②正确;该同学的数学成绩与测试序号具有比较明显的线性相关性,且为正相关,③正确.
9.某个男孩的年龄与身高的统计数据如下表所示:
年龄x(岁) 1 2 3 4 5 6
身高y(cm) 78 87 98 108 115 120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系,如果相关,是正相关还是负相关.
解 (1)散点图如图所示.
(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系,且是正相关关系.
10.关于两个变量x和y的7组数据如下表所示:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
求变量y与x的样本相关系数,并判断变量y与x之间是正相关还是负相关.
解 =(21+23+25+27+29+32+35)≈27.4,
=(7+11+21+24+66+115+325)≈81.3,
=212+232+252+272+292+322+352=5 414,
iyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542,
=72+112+212+242+662+1152+3252=124 393,
∴r=
=
≈≈0.837 5.
∵r>0,∴变量y与x之间是正相关关系.
11.两个变量y与x的模型中,分别选择了4个不同模型,它们的样本相关系数r如下,其中拟合效果最好的模型是( )
模型 模型1 模型2 模型3 模型4
样本相关系数r 0.98 0.80 0.50 0.25
A.模型1 B.模型2 C.模型3 D.模型4
答案 A
12.某统计部门对四组成对样本数据进行统计分析后,获得如图所示的散点图,关于样本相关系数的比较,其中正确的是( )
A.r4C.r2答案 C
解析 根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集中在一条直线附近,说明相关性越强,由题中数据可知:(1)(3)为正相关,(2)(4)为负相关,故r1>0,r3>0,r2<0,r4<0,又(1)与(2)中散点图更接近于一条直线,故r1>r3,r213.如图所示,有5组(x,y)数据,去掉哪一组数据之后,剩下的4组数据成线性相关关系( )
A.E B.D C.B D.A
答案 B
解析 去掉D组数据之后,剩下的4组数据成线性相关关系.
14.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看:
(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;
(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.
答案 (1)乙 (2)数学
解析 (1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是乙;(2)由高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级的排名情况的散点图可知,两个图中,同一个人的总成绩是不会变的.第二个图看,丙是从右往左数第5个点,即丙的总成绩在班里倒数第5.在左边的图中,找到倒数第5个点,它表示的就是丙,发现这个点的位置比右边图中丙的位置高,所以语文名次更“大”,即数学的成绩更靠前.
15.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
答案 C
解析 根据题意,画出利润率与人均销售额的散点图,如图所示.
由散点图可知,利润率与人均销售额成正相关关系.故选C.
16.现随机抽取了我校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如下表:
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
计算这10个学生的两次数学考试成绩的样本相关系数r,并判断两者是否具有线性相关关系.
解 =×(120+108+…+99+108)=107.8,
=×(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116 584,
=842+642+…+572+712=47 384,
iyi=120×84+108×64+…+108×71=73 796,
∴样本相关系数为
r=
≈0.750 6,
∴这10个学生的两次数学考试成绩具有线性相关关系.