8.1 成对数据的相关关系
学习目标
1.理解两个变量的相关关系的概念;
2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系;
3.会根据相关系数判断两个变量的相关程度.
重点难点
重点:相关关系的概念及利用散点图判断两个变量之间是否具有相关关系
难点:根据相关系数判断两个变量的相关程度
知识梳理
1.变量的相关关系
相关关系是一种不确定性关系;相关关系是相对于函数关系而言的.
像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
相关关系与函数关系的异同点
关系 项目 函数关系 相关关系
相同点 都是两个变量间的关系
不同点 是一种确定关系 是一种非确定关系
是一种因果关系 不一定是因果关系,也可能是伴随关系
2.散点图:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图。
3.正相关与负相关
(1)正相关:根据样本数据所作得散点图中,若点散布在从左下角到右上角的区域。对于两个变量的这种相关关系,我们称之为正相关。
(2)负相关:根据样本数据所作得散点图中,若点散布在从左上角到右下角的区域。对于两个变量的这种相关关系,我们称之为负相关。
3.线性相关与非线性相关
①线性相关:散点图是描述成对数据之间关系的一种直观方法.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线性相关;
②非线性相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
4.样本相关系数
我们称r为变量x和变量y的样本相关系数.
1.下列关系是相关关系的是________.(填序号)
①曲线上的点与该点的坐标之间的关系;
②苹果的产量与气候之间的关系;
③森林中同一种树木,其断面直径与高度之间的关系;
④学生与其学号之间的关系.
学习过程
问题探究
我们知道,如果变量y是变量工的函数,那么由x就可以唯一确定y.然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度.例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值,那么,该如何刻画这两个变量之间的关系呢 下面我们就来研究这个问题.
我们知道,一个人的体重与他的身高有关系,一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素,像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系(correlation).
两个变量具有相关关系的事例在现实中大量存在,例如:
1.子女身高y与父亲身高x之间的关系,一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮,但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高.
2.商品销售收人y与广告支出x之间的关系,一般来说,广告支出越多,商品销售收入越高,但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关。
3.空气污染指数y与汽车保有量x之间的关系,一般来说,汽车保有量增加,空气污染指数会上升,但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素。
4.粮食亩产量y与施肥量x之间的关系,在一定范围内,施肥量越大,粮食亩产量就越高,但施肥量并不是决定粮食亩产量的唯一因索,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响。
概念解析
探究1:在对人体的脂肪的含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据。
编号 1 2 3 4 5 6 7
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
根据以上数据,你能推新人体的脂肪含量与年龄之间存在怎样的关系吗
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图
由散点图可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.
变量相关关系的分类
(1)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,
我们就称这两个变量正相关. 当一个变量的值增加时,
另一个变量的相应值也呈现减少的趋势,称这两个变量负相关.
探究2.通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等,散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢
对于变量 和变量 ,设经过随机抽样得到的成对数据为( 1, 1),( 2, 2), ,( , ),
将数据以为零点进行平移,得到平移后的成对数据为:
绘制散点图为
平移
这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的规律是由人体脂肪含量与年龄正相关所决定的。
探究3:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后星现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗
根据散点图特征,初步构造统计量.利用散点的
横纵坐标是否同号,可以构造一个量
一般情形下,Lxy>0表明成对样本数据正相关; Lxy <0表明成对样本数据负相关.
问题1: Lxy的大小一定能度量出成对样本数据的相关程度吗
我们发现, Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小.
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度.为了消除单位的影响,进一步做“标准化”处理为简单起见,把上述“标准化”处理后的成对数据分别记为
仿照Lxy的构造,可以得到
分别
样本相关系数r是一个描述成对样本数据的数字特征,
它的正负和绝对值的大小可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关;当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大。
当r<0时,称成对样本数据负相关;当其中一个数据的值变小时,另一个数据的值通常会变大:当其中一个数据的值变大时,另一个数据的值通常会变小。
概念解析样本相关系数r的取值范围为[-1,1],样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
样本相关系数r有时也称样本线性相关系数,|r|刻画了样本点集中于某条直线的程度.当r=0
时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
二、典例解析
例1.根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
参考数据:
归纳总结
1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若|r|>0.75,则线性相关较为显著,否则不显著.
例2. 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入/亿元 32.2 31.1 32.9 35.8 37.1 38 39 43 44.6 46
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.
体重与身高、臂展与身高分别具有怎样的相关性
跟踪训练1.由于往届高三年级数学学科的学习方式大都是“刷题——讲题——再刷题”的模式,效果不理想.某市一中的数学课堂教改采用了“记题型——刷题——检测效果”的模式,并记录了某学生的记题型时间t(单位:h)与检测效果y的数据如表所示.
t 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 5.2 5.9
据统计表明,y与t之间具有线性相关关系,请用相关系数r加以说明(若|r|≥0.75,则认为y与t有很强的线性相关关系,否则认为没有很强的线性相关关系).
参考公式及数据:相关系数r=,=4.3, (yi-)2=7.08,(ti-)(yi-)=14,≈14.08.
达标检测
1.判断(正确的打“√”,错误的打“×”).
(1)变量之间只有函数关系,不存在相关关系.( )
(2)两个变量之间产生相关关系的原因受许多不确定的随机因素的影响.( )
(3)两个变量的相关系数越大,它们的相关程度越强.( )
(4)若相关系数r=0,则两变量x,y之间没有关系.( )
2.下列各图中所示的两个变量具有相关关系的是( )
A.(1)(2) B.(1)(3) C.(2)(4) D.(2)(3)
3.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,3,…,10),得散点图2,由这两个散点图可以断定( )
A.x与y正相关,u与v正相关 B.x与y正相关,u与v负相关
C.x与y负相关,u与v正相关 D.x与y负相关,u与v负相关
4.在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关系数r有如下四个选项,其中拟合得最好的模型为( )
A.模型1的相关系数r为0.75
B.模型2的相关系数r为0.55
C.模型3的相关系数r为0.25
D.模型4的相关系数r为0.90
5.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
已知=90,≈140.8,iyi=112.3,≈8.9,≈1.4.
(1)求,;
(2)对x,y进行线性相关性检验.
课堂小结
判断变量的相关性通常有两种方式:
1.散点图;
2.相关系数r,
前者只能粗略地说明变量间具有相关性,而后者可以从定量的角度分析变量相关性的强弱.
参考答案
知识梳理
1. ②③ 解析:利用相关关系的概念进行判断.①④中两个变量之间的关系是一种确定性关系,而②③中的两个变量之间的关系是不确定的,所以它们具有相关关系.
学习过程
问题探究
探究1:成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了统计图.我们我们把这样的统计图叫做散点图
问题1:我们发现, Lxy的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小.
二、典例解析
例1. 解:先画出散点图,如右图所示观察散点图,
可以看出样本点都集中在一条直线附近,
由此推断脂肪含量和年龄线性相关.
由样本相关系数 ≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强。脂肪含量与年龄变化趋势相同.
归纳总结
例2. 解:从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.
例3.解:通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正相关.其中,臂展与身高的相关程度更高.
体重与身高、臂展与身高分别具有怎样的相关性
跟踪训练1.解:由题得==4,
(ti-)2=9+4+1+0+1+4+9=28,
所以r==≈0.99>0.75,所以y与t有很强的线性相关关系.
达标检测
1.答案 :(1)(3)(4)错;(2)对
当堂达标
2.D 解析:(1)为函数关系;(2)(3)为相关关系;(4)中,因为点分布得比较分散,两者之间无相关关系.
3. C 解析:由题图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关;由题图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关.
4.D 解析:D中相关系数r的绝对值最接近1,相关性最强,故选D.
5. 解:(1)==4,
==5.
(2)iyi-5 =112.3-5×4×5=12.3,
-52=90-5×42=10,
-52=140.8-125=15.8,
所以r===≈0.987.
所以有把握认为x与y之间具有线性相关关系,去求回归直线方程是有意义的.
1