(共17张PPT)
7.2 成对数据的线性相关性
1.结合实例,了解样本相关系数的统计含义.
2.了解样本相关系数与标准化数据向量夹角的关系.
3.会计算样本相关系数,并能根据相关系数的大小判断变量之间相关程度的强弱.
给定两个随机变量(X,Y)的7组成对数据:
利用最小二乘法,可以得到Y关于X的线性回归方程为Y=0.143X+0.102.
这时,X和Y是否具有线性关系呢?
如图可知这7组成对数据均位于单位圆上,所以X和Y不具备线性关系.
当数据不多时,
散点图
变量相关关系
定性推断
但是对一般的情形又如何判断呢?
问题1:如何判断两个随机变量是否具有线性关系呢?
为了解决这个问题,引入(线性)相关系数的概念,通过计算两个随机变量间的(线性)相关系数,来判断它们之间线性相关程度的大小.
以本章第1.2节为例,已知Y关于X的线性回归方程为
由 可知, 一定满足线性回归方程,
∴
①
若X和Y的线性相关性好,则yi和 (i=1,2,3)的差应该不大,最理想的状况应该是
②
记向量u= ,v= ,则③式可记为
v= u .
线性回归方程最理想的状况是向量u,v共线(向量u,v的夹角为0或π).因此,可以用向量u,v夹角的大小来刻画X和Y线性相关的程度,记
由①②式消去 得
③
注:显然|r|≤1.|r|值越接近1,说明X和Y的线性相关性越强;|r|值越接近0,说明X和Y的线性相关性越弱.
问题2:在处理很多实际问题时,常常需要把一组数据x1,x2,...,xn,标准化,即把它转化为均值为0、方差为1的数据.如何实施呢?
令 (i=1,2,...,n),不难验证x'1,x'2,...,x'n是均值为0、方差为1的数据,称它为原来数据x1,x2,...,xn的标准化.
把x1,x2,...,xn和y1,y2,...,yn分别标准化,得到
此时,向量(x'1,x'2,...,x'n),(y'1,y'2,...,y'n)的夹角余弦值与向量
u=( …, ),v= 的夹角余弦值相同.
概念生成
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2),...,(xn,yn),记
称r为随机变量X和Y的样本(线性)相关系数.
为了计算的方便,再给出如下式子:
显然,样本(线性)相关系数r的取值范围为[-1,1].
| r |值越接近1,随机变量之间的线性相关程度越强;| r |值越接近0,随机变量之间的线性相关程度越弱.
当r>0时,两个随机变量的值总体上变化趋势相同,此时称两个随机变量正相关;
当r<0时,两个随机变量的值总体上变化趋势相反,此时称两个随机变量负相关;
当r=0时,此时称两个随机变量线性不相关.
例1:为了对2020年某校期末成绩进行分析,在60分以上的全体同学中随机抽取8位,他们的数学、物理成绩对应如下表:
学生编号 1 2 3 4 5 6 7 8
数学成绩x 68 72 78 81 85 88 91 93
物理成绩y 70 66 81 83 79 80 92 89
用变量y与x的样本相关系数r(精确到0.01)说明物理成绩y与数学成绩x的线性相关程度的强弱,并说明它们的变化趋势特征.
参考数据:=52 957, ≈545.82.
解:==82,
==80,
r=≈=≈0.87>0.
所以物理成绩y与数学成绩x的线性相关程度较强,且呈正相关,它们的变化趋势相同.
例2:计算下表两个随机变量之间的样本相关系数r,并谈谈通过计算发现了什么.
x -5 -4 -3 0 3 4 5
y 0 3 4 5 4 3 0
解:
因此,
由此可知,样本数据不具有线性相关性,建立线性回归方程是没有任何意义的.
从图可以看出,表格中的数据都在同一个半圆上,与样本相关系数r的计算结果一致.
注:当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
C
2.已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A.-0.95 B.-0.13 C.0.15 D.0.96
3.变量X,Y的散点图如图所示,那么X,Y之间的样本相关系数r最接近的值为( )
A.1 B.-0.5
C.0 D.0.5
A
C
针对本节课所学内容,说说你都学到了哪些知识?
成对数据的线性相关性
相关系数
应用
r>0,正相关;
r<0,负相关;
r=0,不相关.