(共32张PPT)
8.1.1 变量的相关关系
第八章 成对数据的统计分析
数学
1. 能说明样本相关系数的正负与相关关系正负性的关系;
2. 结合散点图和通过样本相关系数的计算,能比较多组成对数据间的线性相关程度的强弱,并能解释其在具体情境中的含义.
学习目标
学习重难点
重点:
样本相关系数的定义,样本相关系数的统计含义.
难点:
体会相关系数r的意义,对两个随机变量是否线性相关进行判断.
课堂导入
通过上一节的学习,小明提出了自己的疑问:
问题:由下列散点图可判断出图①是负相关,图②是正相关,那么能否判断出哪一个图中两个变量的相关性相对更强?
如何描述它们之间线性相关关系的强弱呢?
课堂导入
探究1:变量的相关系数
思考
能否像引入均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
优化数据的方法
1.平移
2.标准化
课堂探究
对于变量和变量,设经过随机抽样获得的成对样本数据为,,其中,,,和,,,的均值分别为和. 将数据以为零点进行平移,得到平移后的成对数据为,,,,并绘制散点图.
利用上述方法处理表中的数据,得到下图. 我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
课堂探究
线性负相关
线性正相关
无相关关系
非线性相关
线性负相关
线性正相关
无相关关系
非线性相关
(x,y)基本异号
(x,y)基本同号
中心化
数据预处理的常用方法:中心化(零均值化)
课堂探究
如上图,一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多.
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
如上图,如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多.
课堂探究
思考
根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的正负号规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
课堂探究
思考
你认为的大小一定能度量出成对样本数据的相关程度吗?
思路点拨
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.
我们发现, 的大小与数据的度量单位有关,所以不能直接用它度量成对样本数据相关程度的大小。
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度。
课堂探究
标准化
课堂探究
课堂探究
定义
样本相关系数 r
是一个描述成对样本数据
的数字特征,它反映了两个随机变量之间的线性相关程度.
r 的符号反映了相关关系的
正负性.
样本的相关系数
当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关.
课堂探究
思考
相关系数r的取值范围是多少呢
思路点拨
观察的结构,
联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,
我们将向量的维数推广到维,维向量的数量积仍然定义为,其中为向量的夹角.
类似于平面或空间向量的坐标表示,对于向量
和,我们有.
项目2:探究变量的相关系数的取值范围
课堂探究
项目2:探究变量的相关系数的取值范围
课堂探究
项目2:探究变量的相关系数的取值范围
思考
当时,成对样本数据之间具有怎样的关系呢?
课堂探究
探究2:变量的相关系数的取值范围
样本相关系数r有时也称样本线性相关系数,|r| 刻画了样本点集中于某条直线的程度. 当 r=0 时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
注 意
知识归纳
小试牛刀
根据下图不同成对样本数据的散点图和相应的样本相关系数,分析成对样本数据的相关性.
图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱.
典例剖析
例1: :根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
典例剖析
例2:在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表所示.
体重与身高、臂展与身高分别具有怎样的相关性?
典例剖析
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征
名师解惑
1.利用量化的观点研究两个变量的相关性
相关系数r的性质
(1)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,成对样本数据没有线性相关关系.
(2)取值范围:r
当|r|越接近于1时,成对样本数据的线性相关程度越强;
当|r|越接近于0时,成对样本数据的线性相关程度越弱;
对于其他相关类型如曲线相关,|r|的大小则不具有指导意义.
需要注意的是|r|=1,成对样本数据的两个变量之间满足线性关系,并不能认为总体中的两个变量一定有线性关系,可以推断它们的相关程度很强.
评价反馈
1、对两个变量x,y进行线性相关检验,得到线性相关系数r1=0.785 9,对两个变量u,v进行线性相关检验,得到线性相关系数r2=-0.956 8,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
C
B
2.变量x,y的线性相关系数为r1,变量m,n的线性相关系数为r2,下列说法错误的是( )
A.若|r1|=0.96,则说明变量x,y之间线性相关性强
B.若r1>r2,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若0<r1<1,则说明变量x,y之间的相关性为正相关
D.若r1=0,则说明变量x,y之间线性不相关
评价反馈
3.某统计部门对四组数据进行统计分析后, 获得如图所示的散点图.
下面关于样本相关系数的比较, 正确的是 ( )
A. B.
C. D.
C
评价反馈
B
评价反馈
BD
评价反馈
1
回顾本节课我们的研究过程,你运用了哪些方法?有什么体会?
课堂小结
(1)构造样本相关系数定义的过程中用到了哪些处理数据的基本方法?
(2)样本相关系数与标准化处理后数据对应的向量有什么关系?这种关系与相关程度的关系是怎样的?
(3)散点图和样本相关系数之间的关系是怎样的?它们有哪些优缺点?
(4)在应用问题中推断两个变量相关关系的一般步骤是什么?你有什么启发?
课堂小结
(1)优化数据的常用方法为平移和标准化
(2)相关系数r可以看作是标准化数据向量夹角的余弦值. 当r=1时,向量x^'和y^'同向,两变量完全正相关;当r=-1时,向量x^'和y^'反向,两变量完全负相关;当r=0时,向量x^'和y^'垂直,表示两变量不存在线性相关关系;当0<|r|<1时,则是一种中间的渐变状态,
当|r|越接近于1时,成对样本数据的线性相关程度越强;当|r|越接近于0时,成对样本数据的线性相关程度越弱;
(3)散点图是对相关系数的直观展示,相关系数是对散点图的量化补充.
(4)画出散点图定性分析,计算相关系数定量分析.
样本相关系数的结构体系
课堂小结
1.教科书第103页练习第3,4题,
第104页习题8.1第2,3题.
布置作业
谢谢大家