专题8.1 成对数据的统计相关性(重难点题型精讲)
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
4.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【题型1 变量间的相关关系】
【方法点拨】
根据变量间的相关关系的定义,进行判断求解即可.
【例1】(2022春·四川成都·高二期中)下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.儿童的年龄与体重 D.物体的体积和质量
【解题思路】根据相关关系和函数关系的概念即可判断
【解答过程】A、D是函数关系;B是不相关关系;C是相关关系,
故选:C.
【变式1-1】(2023·全国·高二专题练习)下列说法正确的是( )
A.中的x,y是具有相关关系的两个变量
B.正四面体的体积与棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染传染病的医务人员数与医院收治的传染病人数是具有相关关系的两个变量
【解题思路】根据相关关系的定义、函数的定义即可判断
【解答过程】A,B均为函数关系,故A、B错误;C,D为相关关系,故C错,D对.
故选:D.
【变式1-2】(2022春·安徽阜阳·高二阶段练习)有几组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③立方体的棱长和体积.其中两个变量成正相关的是( )
A.①③ B.②③
C.② D.③
【解题思路】利用相关关系和函数关系的概念分析解答.
【解答过程】①汽车的重量和汽车每消耗1升汽油所行驶的平均路程是负相关关系;
②平均日学习时间和平均学习成绩是正相关关系;
③立方体的棱长和体积是函数关系,不是相关关系.
故选:C.
【变式1-3】(2023·全国·高二专题练习)下列说法正确的是( )
A.任何两个变量都具有相关关系
B.球的体积与该球的半径具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【解题思路】根据相关关系是一种不确定关系,函数关系是一种确定关系,可判断A;根据球的体积与半径之间的关系,可判断该关系为函数关系,可判断B;根据农作物的产量与施化肥量之间的关系可得该关系为一种相关关系,可判断C;根据学生的数学成绩与物理成绩之间是一种相关关系可判断D.
【解答过程】解:当两个变量之间具有确定的关系时,两个变量之间是函数关系,而不是相关关系,故A错误;
球的体积与该球的半径之间是函数关系,故B错误;
农作物的产量与施化肥量之间的关系是相关关系,是非确定性关系,故C错误;
学生的数学成绩与物理成绩之间的关系是相关关系,是非确定性关系,故D正确.
故选:D.
【题型2 利用散点图判断相关性】
【方法点拨】
根据所给的散点图,研究两个变量之间的相关关系,进行求解即可.
【例2】(2022·全国·高三专题练习)对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关
B.变量与负相关,与负相关
C.变量与正相关,与正相关
D.变量与正相关,与负相关
【解题思路】根据散点图直接判断可得出结论.
【解答过程】由散点图可知,变量与负相关,变量与正相关,所以,与负相关.
故选:B.
【变式2-1】(2022·高二课时练习)在下列各散点图中,两个变量具有正相关关系的是( )
A. B.
C. D.
【解题思路】根据散点图中两个变量的变化趋势直接判断即可.
【解答过程】对于A,散点的变化具有波动性,非正相关关系,A错误;
对于B,当变大时,的变化趋势也是逐渐增大,可知两个变量具有正相关关系,B正确;
对于C,当变大时,的变化趋势是逐渐减小,可知两个变量具有负相关关系,C错误;
对于D,两个变量的变化无规律,二者没有相关性,D错误.
故选:B.
【变式2-2】(2022·重庆沙坪坝·模拟预测)某中学的兴趣小组在某座山测得海拔高度 气压 沸点的六组数据,并绘制出如图所示的散点图,下列说法错误的是( )
A.气压与海拔高度呈负相关 B.沸点与气压呈正相关
C.沸点与海拔高度呈正相关 D.沸点与海拔高度的相关性很强
【解题思路】根据正相关、负相关的概念判断.
【解答过程】沸点与气压呈正相关,气压与海拔高度呈负相关,所以沸点与海拔高度呈负相关,
故选:C.
【变式2-3】(2023·全国·高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【解题思路】利用正负相关与线性相关的强弱进行求解即可
【解答过程】都是正线性相关,
所以,
并且相关性最强,
所以;
都是负线性相关并,
所以,
且相关性强,
所以,
所以;
所以;
故选:A.
【题型3 样本相关系数的意义】
【方法点拨】
对于所给题目,根据样本相关系数的定义和有关概念来进行判断,即可得解.
【例3】(2022秋·陕西榆林·高二期末)两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关系数如下表,其中拟合效果最好的模型是( )
模型 模型1 模型2 模型3 模型4
相关系数
A.模型1 B.模型2 C.模型3 D.模型4
【解题思路】根据相关系数的定义,判断的大小,即可判断选项.
【解答过程】根据相关系数的定义可知,越大,约接近于1,则拟合效果越好.
由数据可知,模型2的相关系数最大,所以拟合效果最好.
故选:B.
【变式3-1】(2022春·山东临沂·高二期末)对于样本相关系数,下列说法错误的是( )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数
D.样本相关系数越大,成对样本数据的线性相关程度也越强
【解题思路】利用相关系数与成对样本数据间的相关关系逐项判断,可得出合适的选项.
【解答过程】对于A选项,样本相关系数可以用来判断成对样本数据相关的正负性,A对;
对于B选项,样本相关系数可以是正的,也可以是负的,B对;
对于C选项,样本相关系数,C对;
对于D选项,样本相关系数的绝对值越大,成对样本数据的线性相关程度也越强,D错.
故选:D.
【变式3-2】(2022·高二课时练习)下列有关样本线性相关系数r的说法,错误的是( )
A.相关系数r可用来衡量x与y之间的线性相关程度
B.,且越接近0,相关程度越小
C.,且越接近1,相关程度越大
D.,且越接近1,相关程度越小
【解题思路】根据相关系数的定义,即可判断选项.
【解答过程】相关系数是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大,所以不正确的只有D.
故选:D.
【变式3-3】(2022春·江苏无锡·高二期末)对于样本相关系数r,下列说法不正确的是( )
A.样本相关系数r可以用来判断成对数据相关的正负性
B.样本相关系数
C.当时,表明成对样本数据间没有线性相关关系
D.样本相关系数r越大,成对样本数据的线性相关程度也越强
【解题思路】根据相关系数:1.;2.,则成对数据为正相关,,则成对数据为负相关;3. ,线性相关程度越强,,线性相关程度越弱,时,则成对样本数据间没有线性相关关系;理解辨析.
【解答过程】根据相关系数的理解:
,B正确;
,则成对数据为正相关;,则成对数据为负相关; A正确;
,线性相关程度越强,,线性相关程度越弱,时,则成对样本数据间没有线性相关关系,C正确,D不正确;
故选:D.
【题型4 样本相关系数的应用】
【方法点拨】
样本相关系数是对两个变量相关程度进行定量刻画,|r|越大,表明两个变量之间的线性相关程度越强,运
用样本相关系数进行判断的一般步骤如下:
(1)整理数据,求出相关值;(2)计算样本相关系数;(3)得出结论.
【例4】(2022秋·陕西西安·高二阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);(附:相关系数, )
【解题思路】(1)由已知数据求得20个样区野生动物数量的平均数,乘以200得答案;
(2)由已知直接利用相关系数公式求解.
【解答过程】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本 的相关系数
.
【变式4-1】(2022·全国·高三专题练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得,,,,.
(1)估计该地区这种野生动物的数量;
(2)求样本的相关系数.(精确到0.01)
【解题思路】(1)计算出样区野生动物的数量的平均值,乘以地块数,即得答案;
(2)根据相关系数公式进行计算,可得答案.
【解答过程】(1)由已知得样本平均数 ,
从而该地区这种野生动物数量的估计值为.
(2)由,,,
可得样本 的相关系数为
.
【变式4-2】(2022·高二课时练习)下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图.(注:年份代码分别对应年份.)
由折线图看出,可用线性回归模型拟合与的关系.请求出相关系数,并用相关系数的大小说明与相关性的强弱.
参考数据和公式:,,,样本相关系数.
【解题思路】计算出的值,将参考数据代入相关系数公式,求出的值,即可得出结论.
【解答过程】由折线图中数据和参考数据得,
,
,,
所以.
所以与的线性相关程度比较高.
【变式4-3】(2022·高二课时练习)为调查野生动物保护地某种野生动物的数量,将保护地分成面积相近的300个地块,并设计两种抽样方案.
方案一:在该地区应用简单随机抽样的方法抽取30个作为样本区,依据抽样数据计算得到相应的相关系数;
方案二:在该地区应用分层抽样的方法抽取30个作为样本区,调查得到样本数据,其中和分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求方案二抽取的样本的相关系数r(精确到0.01),并判定哪种抽样方法更能准确地估计这种野生动物的数量.
附:若相关系数则相关性很强,的值越大相关性越强.
【解题思路】(1)首先求出样区野生动物平均数,然后利用所求平均数乘以该地区的地块数即可求解;
(2)根据所给数据以及相关系数公式即可求,然后与方案一的相关系数比较,并结合相关系数的意义即可求解.
【解答过程】(1)
由题意可得,样区野生动物平均数为,
又因为该地区的地块数为300,
所以该地区这种野生动物的估计值为.
(2)
由题中数据可得, 样本的相关系数为
.
因为方案一的相关系数为,明显小于方案二的相关系数,
所以方案二的分层抽样方法更能准确地估计.专题8.1 成对数据的统计相关性(重难点题型精讲)
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
4.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【题型1 变量间的相关关系】
【方法点拨】
根据变量间的相关关系的定义,进行判断求解即可.
【例1】(2022春·四川成都·高二期中)下列两个量之间的关系是相关关系的是( )
A.匀速直线运动中时间与位移的关系 B.学生的成绩和身高
C.儿童的年龄与体重 D.物体的体积和质量
【变式1-1】(2023·全国·高二专题练习)下列说法正确的是( )
A.中的x,y是具有相关关系的两个变量
B.正四面体的体积与棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染传染病的医务人员数与医院收治的传染病人数是具有相关关系的两个变量
【变式1-2】(2022春·安徽阜阳·高二阶段练习)有几组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③立方体的棱长和体积.其中两个变量成正相关的是( )
A.①③ B.②③
C.② D.③
【变式1-3】(2023·全国·高二专题练习)下列说法正确的是( )
A.任何两个变量都具有相关关系
B.球的体积与该球的半径具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【题型2 利用散点图判断相关性】
【方法点拨】
根据所给的散点图,研究两个变量之间的相关关系,进行求解即可.
【例2】(2022·全国·高三专题练习)对变量、由观测数据得散点图,对变量、由观测数据得散点图.由这两个散点图可以判断( )
A.变量与负相关,与正相关
B.变量与负相关,与负相关
C.变量与正相关,与正相关
D.变量与正相关,与负相关
【变式2-1】(2022·高二课时练习)在下列各散点图中,两个变量具有正相关关系的是( )
A. B.
C. D.
【变式2-2】(2022·重庆沙坪坝·模拟预测)某中学的兴趣小组在某座山测得海拔高度 气压 沸点的六组数据,并绘制出如图所示的散点图,下列说法错误的是( )
A.气压与海拔高度呈负相关 B.沸点与气压呈正相关
C.沸点与海拔高度呈正相关 D.沸点与海拔高度的相关性很强
【变式2-3】(2023·全国·高三专题练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【题型3 样本相关系数的意义】
【方法点拨】
对于所给题目,根据样本相关系数的定义和有关概念来进行判断,即可得解.
【例3】(2022秋·陕西榆林·高二期末)两个变量与的回归模型中,分别选择了4个不同的模型,它们的相关系数如下表,其中拟合效果最好的模型是( )
模型 模型1 模型2 模型3 模型4
相关系数
A.模型1 B.模型2 C.模型3 D.模型4
【变式3-1】(2022春·山东临沂·高二期末)对于样本相关系数,下列说法错误的是( )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数
D.样本相关系数越大,成对样本数据的线性相关程度也越强
【变式3-2】(2022·高二课时练习)下列有关样本线性相关系数r的说法,错误的是( )
A.相关系数r可用来衡量x与y之间的线性相关程度
B.,且越接近0,相关程度越小
C.,且越接近1,相关程度越大
D.,且越接近1,相关程度越小
【变式3-3】(2022春·江苏无锡·高二期末)对于样本相关系数r,下列说法不正确的是( )
A.样本相关系数r可以用来判断成对数据相关的正负性
B.样本相关系数
C.当时,表明成对样本数据间没有线性相关关系
D.样本相关系数r越大,成对样本数据的线性相关程度也越强
【题型4 样本相关系数的应用】
【方法点拨】
样本相关系数是对两个变量相关程度进行定量刻画,|r|越大,表明两个变量之间的线性相关程度越强,运
用样本相关系数进行判断的一般步骤如下:
(1)整理数据,求出相关值;(2)计算样本相关系数;(3)得出结论.
【例4】(2022秋·陕西西安·高二阶段练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);(附:相关系数, )
【变式4-1】(2022·全国·高三专题练习)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量(单位:头),并计算得,,,,.
(1)估计该地区这种野生动物的数量;
(2)求样本的相关系数.(精确到0.01)
【变式4-2】(2022·高二课时练习)下图是我国年至年生活垃圾无害化处理量(单位:亿吨)的折线图.(注:年份代码分别对应年份.)
由折线图看出,可用线性回归模型拟合与的关系.请求出相关系数,并用相关系数的大小说明与相关性的强弱.
参考数据和公式:,,,样本相关系数.
【变式4-3】(2022·高二课时练习)为调查野生动物保护地某种野生动物的数量,将保护地分成面积相近的300个地块,并设计两种抽样方案.
方案一:在该地区应用简单随机抽样的方法抽取30个作为样本区,依据抽样数据计算得到相应的相关系数;
方案二:在该地区应用分层抽样的方法抽取30个作为样本区,调查得到样本数据,其中和分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求方案二抽取的样本的相关系数r(精确到0.01),并判定哪种抽样方法更能准确地估计这种野生动物的数量.
附:若相关系数则相关性很强,的值越大相关性越强.