(共28张PPT)
8.1.2 样本相关系数
这两组成对变量都是线性正相关,你能判断哪一组的线性相关性更强吗?
通过散点图可以推断两个变量之间是否存在相关关系、是正相关还是负相关、是线性相关是非线性相关,但这些推断是定性的推断.
从定量的角度刻画成对样本数据的线性相关程度,进而推断两个变量的线性相关程度。
样本相关数r
根据散点图特征,初步构造统计量:
年龄/岁
脂肪含量/%
中心化
成对样本数据:
将数据以 为零点进行平移,得到平移后的数据为:
通过绘图分析可得,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图 (1)所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示.
利用散点 的横纵坐标是否同号,可以构造一个量:
一般情形下, 表明成对样本数据正相关;
表明成对样本数据负相关.
问题2:你认为 的大小一定能度量出成对样本数据的相关程度吗?
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度。
为了消除单位的影响,进一步做“标准化”处理:
为简单起见,把上述“标准化”处理后的成对数据分别记为:
仿照Lxy的构造,可以得到
我们称r 为变量x和变量y的样本线性相关系数,简称样本相关系数.
当r >0时,称成对样本数据正相关;
当r <0时,称成对样本数据负相关.
样本相关系数r是一个描述成对样本数据的数字特征,它的正负和绝对值的大小可以反映成对样本数据的变化特征.
样本相关系数r的正负能反映出成对变量的什么关系?
标准化处理后的成对样本数据:
设其第一分量为
设其第二分量为
新知探究
那么,样本相关系数的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下的取值范围.
样本相关系数r的取值范围:
样本相关系数r的取值范围为[-1,1]
思考:当时,成对样本数据之间具有怎样的关系呢?
当时,中的或,向量和共线.由向量的知识可知,存在实数,使得,即,.
这表明成对样本数据都落在直线上.这时,成对样本数据的两个分量之间满足一种线性关系.
相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
注意:若0.75≤|r|≤1,则认为y与x的线性相关程度很强;
若0.3≤|r|<0.75,则认为y与x的线性相关程度一般;
若|r|≤0.25,则认为y与x的线性相关程度较弱)
训练2 两个变量x,y的样本相关系数r1=0.785 9,两个变量u,v的样本相关系数r2=-0.956 8,则下列判断正确的是( )
C
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
解析 由样本相关系数r1=0.785 9>0知x与y正相关,
由样本相关系数r2=-0.956 8<0知u,v负相关.
又|r1|<|r2|,
∴变量u与v的线性相关性比x与y的线性相关性强.
辨析1.某部门所属的10个工业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
根据上表资料计算得相关系数,则固定资产价值与工业增加值之间得线性相关程度______(填“较高”或“较低”).
答案:较高.
例1 根据表8. 1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
解: 由样本数据可得
由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
例1 根据表8. 1-1中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
解: 由样本数据可得
由此可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
例2.有人收集了某城市居民年收入(所有居民在一年内收入得总和)与商品销售额得10年数据,如表所示.
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额得相关程度和变化趋势的异同.
解:画出成对样本数据的散点图,如图所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.由样本数据计算得样本相关系数.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表所示.
体重与身高、臂展与身高分别具有怎样的相关性?
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征.
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为和,都为正线性相关.其中,臂展与身高的相关程度更高.
题型一:相关系数的计算
例1.关于两个变量和的7组数据如下表所示:
计算两个变量的样本相关关系,并据此判断与之间是否具有线性相关关系.
解:∵,
,
,
21 23 25 27 29 32 35
7 11 21 24 66 115 325
解:∵
,
21 23 25 27 29 32 35
7 11 21 24 66 115 325
∴
由于与比较接近,∴与具有线性相关关系.
例1 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
所以y与x之间具有正相关关系.
变式 足球是深受全世界人们喜爱的运动,我国大力发展校园足球.为了解本地区足球特色学校的发展状况,社会调查小组得到如下统计数据:
年份x 2016 2017 2018 2019 2020
足球特色学校y(百个) 0.30 0.60 1.00 1.40 1.70
根据上表数据, 计算y与x的样本相关系数r, 并说明y与x的线性相关程度.
(附: 若0.75≤|r|≤1,则认为y与x的线性相关程度很强;若0.3≤|r|<0.75,则认为y与x的线性相关程度一般;|r|≤0.25,则认为y与x的线性相关程度较弱)
解:
根据题意得
∴y与x的线性相关程度很强.
4. 随机抽取7家超市,得到其广告支出与销售额数据如下:
解:
由样本数据可得
正线性相关,相关性较强,销售额与广告支出的变化趋势相同.
超市 A B C D E F G
广告支出/万元 1 2 4 6 10 14 20
销售额/万元 19 32 44 40 52 53 54
请推断超市的销售额与广告支出之间的相关关系的类型、相关程度和变化趋势的特征.
课堂小结
1.样本相关系数定义:假定两个随机变量的成对数据分别为,,,则变量间样本相关系数的计算公式为
,则称为变量和变量的样本相关系数,其中,时,称成对样本数据正相关,当时,称成对样本数据负相关.
2.(1)当越接近1时,成对样本数据的线性相关程度越强;
(2)当越接近0时,成对样本数据的线性相关程度越弱.