成对数据的统计相关性
1 相关关系与确定关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
比如 正方形面积与边长,高一定时圆锥的体积与底圆半径等均为确定关系;体重与身高,子女的身高与父亲的身高,空气污染指数与汽车保有量等均为相关关系.
2 正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;从散点图来看,点从左下角往右上角走.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关;从散点图来看,点从左上角往右下角走.
比如脂肪含量与年龄 , 子女的身高与父亲的身高正相关.
3 线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4 样本相关系数
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,则
我们称为变量和变量的样本相关系数.
① 当时,称成对数据正相关;当时,称成对数据负相关.
② 越接近于,两个变量的线性相关性越强;
接近于时,两个变量之间几乎不存在线性相关关系.
③ 样本相关系数也可以推导得到
【题型一】 相关关系与确定关系
【典题1】下面哪两个变量间是相关关系( )
A.出租车费与行驶的里程 B.房屋面积与房屋价格
C.身高与体重 D.铁块的大小与质量
【解析】根据题意,依次分析选项:
对于,出租车费与行驶的里程之间的关系是确定,是函数关系,不符合题意;
对于,房屋面积与房屋价格之间的关系是确定,是函数关系,不符合题意;
对于,身高与体重之间的关系是不确定,但在一定范围内,身高越高,体重越大,是相关关系,符合题意;
对于,铁块的大小与质量之间的关系是确定,是函数关系,不符合题意;
故选:.
【点拨】是确定关系还是相关关系,看两变量之间关系是否确定的.
【题型二】正相关与负相关
【典题1】有以下五组变量:
①某商品的销售价格与销售量;
②学生的学籍号与学生的数学成绩;
③坚持每天吃早餐的人数与患胃病的人数;
④气温与冷饮销售量;
⑤电瓶车的重量和行驶每千米的耗电量.
其中两个变量成正相关的是( )
A.①③ B.②④ C.②⑤ D.④⑤
【解析】对于①,一般情况下,某商品的销售价格与销售量成负相关关系;
对于②,学生的学籍号与学生的数学成绩没有相关关系;
对于③,一般情况下,坚持每天吃早餐的人数与患胃病的人数成负相关关系;
对于④,一般情况下,气温与冷饮销售量成正相关关系;
对于⑤,一般情况下,电瓶车的重量和行驶每千米的耗电量成正相关关系.
综上所述,其中两个变量成正相关的序号是④⑤.
故选:D.
【点拨】如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关.
【典题2】在各散点图中,两个变量具有正相关关系的是( )
A. B.
C. D.
【解析】根据题意,依次分析选项为:
对于A、是相关关系,但不是正相关关系,不符合题意;
对于B、是相关关系,也是正相关关系,符合题意;
对于C、是相关关系,是负相关关系,不符合题意;
对于D、所示的散点图中,样本点不成带状分布,这两个变量不具有线性相关关系,不符合题意.
故选:B.
【点拨】从散点图来看,点从左下角往右上角走是正相关;从散点图来看,点从左上角往右下角走是负相关.
【题型三】成对数据的统计相关系数
【典题1】对某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【解析】根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;由题中数据可知:(1)(3)为正相关,为负相关;
数据越集中在一条线附近,说明相关性越强,
故;
又(1)与(2)中散点图更接近于一条直线,故,
因此,.
故选:.
【点拨】
① 若散点图中数据集中所在的直线斜率为正,则正相关;斜率为负,则负相关.
② 数据越集中在一条线附近,说明相关性越强;与该直线的斜率大小无关.
【典题2】如图所示,5个数据,去掉后,下列说法正确的是( )
A.相关系数变大 B.残差平方和变大
C.相关指数变小 D.解释变量与预报变量的相关性变强
【解析】由散点图知,去掉离群点后,与的相关性变强,且为正相关,
所以相关系数的值变大,相关指数的值变大,残差平方和变小.
故选:.
【点拨】
① 相关系数判断线性的相关性的强弱;而残差平方和与相关指数判断的是模型的拟合效果,残差平方和越小,相关指数越大,模型拟合效果越好;
② 本题中点属于“歧义点”,偏离回归直线较远,若剔除少数的“歧义点”,解释变量与预报变量的相关性变强.
巩固练习
1(★)下列两个量之间的关系是相关关系的为( )
A.正方体的体积与棱长的关系
B.学生的成绩和体重
C.路上酒后驾驶的人数和交通事故发生的多少
D.水的体积和重量
【答案】C
【解析】A、由正方体的棱长和体积的公式知,V=a3(a>0),故A不对;
B、学生的成绩和体重,没有关系,故B不对;
C、路上酒后驾驶的人数会影响交通事故发生的多少,但不是唯一因素,它们之间有相关性,故C对;
D、水的体积V和重量x的关系为:V=k x,是确定的函数关系,故D不对;
故选:C.
2(★) 下列说法正确的是( )
A.圆的面积与半径之间的关系是相关关系
B.粮食产量与施肥量之间的关系是函数关系
C.一定范围内,学生的成绩与学习时间成正相关关系
D.人的体重与视力成负相关关系
【答案】C
【解析】对于A,圆的面积与半径之间的关系是确定的关系,是函数关系,所以A错误;
对于B,粮食产量与施肥量之间的关系是不是函数关系,是相关关系,所以B错误;
对于C,一定范围内,学生的成绩与学习时间是成正相关关系的,所以C正确;
对于D,人的体重与视力是没有相关关系的,所以D错误.
故选:C.
3(★) 变量有观测数据,得散点图(1);对变量,有观测数据,得散点图(2),由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
【答案】C
【解析】由题图1可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,
由题图2可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.
故选:C.
4(★) 判断如图所示的图形中具有相关关系的是( )
A. B.
C. D.
【答案】C
【解析】由题意,选项A,B中的x与y的对应是确定的,
选项C、D是不确定的,
而在选项C、D中,C具有相关关系,
故选:C.
5(★) 对两个变量的几组观测数据统计如表,则这两个相关变量的关系是( )
10 9 8 7 6 5
2 3 3.5 4 4.8 5
A.负相关 B.正相关
C.先正后负相关 D.先负后正相关
【答案】A
【解析】根据两个变量x,y的几组观测数据统计表知,
y随x的增大而减小,所以这两个相关变量负相关.
故选:A.
6(★) 关于相关关系,下列说法不正确的是( )
A.相关关系是一种非确定关系
B.相关关系r越大,两个变量的相关性越强
C.当两个变量相关且相关系数时,表明两个变量正相关
D.相关系数r的绝对值越接近1,表明两个变量的相关性越强
【答案】B
【解析】对于A,相关关系不同于函数关系,它是一种非确定的关系,A正确;
对于B,相关关系|r|越大,两个变量的相关性越强,∴B错误;
对于C,当两个变量相关且相关系数r>0时,说明两个变量正相关,∴C正确;
对于D,相关系数r的绝对值越接近1,表明两个变量的相关性越强,D正确.
故选:B.
7(★) 变量与相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量与相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )
参考公式:线性相关系数r
A. B. C. D.
【答案】C
【解析】由已知中的数据可知:第一组数据正相关,则相关系数大于零,
第二组数据负相关,则相关系数小于零,故选:C.
8(★) 【多选题】为了对变量与的线性相关性进行检验,由样本点求得两个变量的样本相关系数为,那么下面说法中错误的有( )
A.若所有样本点都在直线上,则
B.若所有样本点都在直线上,则
C.若越大,则变量与的线性相关性越强
D.若越小,则变量与的线性相关性越强
【答案】ABD
【解析】当所有样本点都在直线y=-2x+1上时,样本点数据完全负相关,其相关系数r=-1,所以A、B都错误;
相关系数|r|值越大,则变量x与y的线性相关性越强,C正确;
相关系数|r|值越小,则变量x与y的线性相关性越弱,D错误.
综上知,以上错误的说法是ABD.
故选:ABD.
9(★) 对相关系数,下列说法正确的是( )
A.越大,线性相关程度越大
B.越小,线性相关程度越大
C.越大,线性相关程度越小,越接近0,线性相关程度越大
D.且越接近1,线性相关程度越大,越接近0,线性相关程度越小
【答案】D
【解析】两个变量之间的相关系数,r的绝对值越接近于1,
表面两个变量的线性相关性越强,
r的绝对值越接近于0,表示两个变量之间几乎不存在线性相关,
故选:D.
10(★) 下列四个图各反映了两个变量的某种关系,其中可以看作具有较强线性相关关系的是( )
A.①③ B.①④ C.②③ D.①②
【答案】B
【解析】∵两个变量的散点图,
若样本点成带状分布,则两个变量具有线性相关关系,
∴两个变量具有线性相关关系的图是①和④.
故选:B.
11(★) 已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为,,,,则( )
A.甲组数据变量间的线性相关程度最强 B.乙组数据变量间的线性相关程度最弱
C.丙组数据变量间的线性相关程度最强 D.丁组数据变量间的线性相关程度最强
【答案】C
【解析】因为线性相关系数的绝对值越大,线性相关性越强,
甲、乙、丙、丁四组数据的线性相关系数分别为0.46,0.79,,0.85,
所以丙组数据的线性相关性最强.
故选:C.
12(★) 对两个变量进行线性相关检验,得线性相关系数,对两个变量进行线性相关检验,得线性相关系数,则下列判断正确的是( )
A.变量与正相关,变量与负相关,变量与的线性相关性较强
B.变量与负相关,变量与正相关,变量与的线性相关性较强
C.变量与正相关,变量与负相关,变量与的线性相关性较强
D.变量与负相关,变量与正相关,变量与的线性相关性较强
【答案】C
【解析】由线性相关系数r1=0.7859>0知x与y正相关,
由线性相关系数r2=-0.9568<0知u,v负相关,
又|r1|<|r2|,
∴变量u与v的线性相关性比x与y的线性相关性强.
故选:C.成对数据的统计相关性
1 相关关系与确定关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
比如 正方形面积与边长,高一定时圆锥的体积与底圆半径等均为确定关系;体重与身高,子女的身高与父亲的身高,空气污染指数与汽车保有量等均为相关关系.
2 正相关与负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;从散点图来看,点从左下角往右上角走.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关;从散点图来看,点从左上角往右下角走.
比如脂肪含量与年龄 , 子女的身高与父亲的身高正相关.
3 线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4 样本相关系数
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,则
我们称为变量和变量的样本相关系数.
① 当时,称成对数据正相关;当时,称成对数据负相关.
② 越接近于,两个变量的线性相关性越强;
接近于时,两个变量之间几乎不存在线性相关关系.
③ 样本相关系数也可以推导得到
【题型一】 相关关系与确定关系
【典题1】下面哪两个变量间是相关关系( )
A.出租车费与行驶的里程 B.房屋面积与房屋价格
C.身高与体重 D.铁块的大小与质量
【题型二】正相关与负相关
【典题1】有以下五组变量:
①某商品的销售价格与销售量;
②学生的学籍号与学生的数学成绩;
③坚持每天吃早餐的人数与患胃病的人数;
④气温与冷饮销售量;
⑤电瓶车的重量和行驶每千米的耗电量.
其中两个变量成正相关的是( )
A.①③ B.②④ C.②⑤ D.④⑤
【典题2】在各散点图中,两个变量具有正相关关系的是( )
A. B.
C. D.
【题型三】成对数据的统计相关系数
【典题1】对某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A. B.
C. D.
【典题2】如图所示,5个数据,去掉后,下列说法正确的是( )
A.相关系数变大 B.残差平方和变大
C.相关指数变小 D.解释变量与预报变量的相关性变强
巩固练习
1(★)下列两个量之间的关系是相关关系的为( )
A.正方体的体积与棱长的关系 B.学生的成绩和体重
C.路上酒后驾驶的人数和交通事故发生的多少 D.水的体积和重量
2(★) 下列说法正确的是( )
A.圆的面积与半径之间的关系是相关关系 B.粮食产量与施肥量之间的关系是函数关系
C.一定范围内,学生的成绩与学习时间成正相关关系 D.人的体重与视力成负相关关系
3(★) 变量有观测数据,得散点图(1);对变量,有观测数据,得散点图(2),由这两个散点图可以判断( )
A.变量与正相关,与正相关 B.变量与正相关,与负相关
C.变量与负相关,与正相关 D.变量与负相关,与负相关
4(★) 判断如图所示的图形中具有相关关系的是( )
A. B. C. D.
5(★) 对两个变量的几组观测数据统计如表,则这两个相关变量的关系是( )
10 9 8 7 6 5
2 3 3.5 4 4.8 5
A.负相关 B.正相关
C.先正后负相关 D.先负后正相关
6(★) 关于相关关系,下列说法不正确的是( )
A.相关关系是一种非确定关系
B.相关关系r越大,两个变量的相关性越强
C.当两个变量相关且相关系数时,表明两个变量正相关
D.相关系数r的绝对值越接近1,表明两个变量的相关性越强
7(★) 变量与相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量与相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则( )
参考公式:线性相关系数r
A. B. C. D.
8(★) 【多选题】为了对变量与的线性相关性进行检验,由样本点求得两个变量的样本相关系数为,那么下面说法中错误的有( )
A.若所有样本点都在直线上,则
B.若所有样本点都在直线上,则
C.若越大,则变量与的线性相关性越强
D.若越小,则变量与的线性相关性越强
9(★) 对相关系数,下列说法正确的是( )
A.越大,线性相关程度越大
B.越小,线性相关程度越大
C.越大,线性相关程度越小,越接近0,线性相关程度越大
D.且越接近1,线性相关程度越大,越接近0,线性相关程度越小
10(★) 下列四个图各反映了两个变量的某种关系,其中可以看作具有较强线性相关关系的是( )
A.①③ B.①④ C.②③ D.①②
11(★) 已知甲、乙、丙、丁四组数据变量间对应的线性相关系数分别为,,,,则( )
A.甲组数据变量间的线性相关程度最强 B.乙组数据变量间的线性相关程度最弱
C.丙组数据变量间的线性相关程度最强 D.丁组数据变量间的线性相关程度最强
12(★) 对两个变量进行线性相关检验,得线性相关系数,对两个变量进行线性相关检验,得线性相关系数,则下列判断正确的是( )
A.变量与正相关,变量与负相关,变量与的线性相关性较强
B.变量与负相关,变量与正相关,变量与的线性相关性较强
C.变量与正相关,变量与负相关,变量与的线性相关性较强
D.变量与负相关,变量与正相关,变量与的线性相关性较强