8.1成对数据的统计相关性 课件(共39张PPT)

文档属性

名称 8.1成对数据的统计相关性 课件(共39张PPT)
格式 pptx
文件大小 718.2KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2023-05-10 08:50:41

图片预览

文档简介

(共39张PPT)
第八章 成对数据的统计分析
8.1 成对数据的统计相关性
1.结合实例,理解变量的相关关系.
2.了解样本相关系数的统计含义,会通过相关系数比较多组成对数据的相关性.
我们知道,如果变量 y 是变量 x 的函数,那么由 x 就可以唯一确定 y. 然而,现实世界中还存在这样的情况:两个变量之间有关系,但密切程度又达不到函数关系的程度. 例如,人的体重与身高存在关系,但由一个人的身高并不能确定他的体重值. 那么,该如何刻画这两个变量之间的关系呢?下面我们就来研究这个问题.
我们知道,一个人的体重与他的身高有关系. 一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小. 但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素. 像这样,两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
变量的相关关系
两个变量具有相关关系的事例在现实中大量存在. 例如:
1.子女身高 y 与父亲身高 x 之间的关系;
2.商品销售收入 y 与广告支出 x 之间的关系;
3.空气污染指数 y 与汽车保有量 x 之间的关系;
4.粮食亩产量 y 与施肥量 x 之间的关系.
对上述各例中两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断. “经验之中有规律”,经验的确可以为我们的决策提供一定的依据,但仅凭经验推断又有不足.
因为在相关关系中,变量 y 的值不能随变量 x 的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系. 因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或判断.
思考1:在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示. 表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.
编号 1 2 3 4 5 6 7
年龄/岁 23 27 39 41 45 49 50
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄/岁 53 54 56 57 58 60 61
脂肪含量/% 29.6 30.2 31.4 30.8 33.5 35.2 34.6
根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?
为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征. 用横轴表示年龄,
纵轴表示脂肪含量,则上表中每个编
号下的成对样本数据都可用直角坐标
系中的点表示出来,由这些点组成了
下面的统计图,我们把这样的统计图
叫散点图.
观察图象可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄的增加,相应的脂肪含量值呈现增加的趋势. 这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.
从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
根据图象,能够推断脂肪含量与年龄这两个变量正相关.
散点图是描述成对数据之间关系的一种直观方法. 观察图象,从中我们不仅可以大致看出脂肪含量和年龄呈现正相关,而且从整体上可以看出散点落在一条直线附近.
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
观察下面的散点图,我们发现:
图(1)中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;
图(1)
图(2)
图(3)
类似地,图(2)中的散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;图(3)中的散点杂乱无章,无规律可言,看不出这两个变量有什么相关性.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
例1.(多选)下列关系中,属于相关关系的是(  )
A.正方形的边长与面积之间的关系
B.农作物的产量与施肥量之间的关系
C.出租车费与行驶的里程
D.降雪量与交通事故的发生率之间的关系
BD
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断;
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响. 
1.已知相关关系:①正相关,②负相关,③不相关.则图(1)(2)(3)分别反映的两变量间的相关关系是(  )
A.①②③ B.②③① C.②①③ D.①③②
D
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关系、是正相关还是负相关、是线性相关还是非线性相关等. 散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小. 能否象引入均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢
样本相关系数
对于变量 x 和变量 y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2, y2),…,(xn,yn),其中x1,x2,…,xn 和 y1,y2,…,yn .的均值分别为 和 . 为了刻画每个变量的观测数据相对其均值的增减情况,将数据以 为零点进行平移,得到平移后的成对数据为 ,
,…, ,并绘制散点图.
利用上述方法处理脂肪与年龄构成的成对数据,得到下图. 我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号. 显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
一般地,如果变量 x 和 y 正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图(1);如果变量 x 和 y 负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2).
图(1)
图(2)
思考2:根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发,利用散点 的横、纵坐标是否同号,可以构造一个量
一般情形下, 表明成对样本数据正相关; 表明成对样本数据负相关.
因为 的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小. 例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的 L 将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.
我们用

分别除 和 ( i =l,2,…,n),得
, ,..., .
为简单起见,把上述“标准化”处理后的成对数据分别记为
, ,..., .
仿照 的构造,可以得到
我们称 r 为变量 x 和变量 y 的样本相关系数.
这样,我们利用成对样本数据构造了样本相关系数 r .样本相关系数是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当 时,称成对样本数据正相关. 这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当 时,称成对样本数据负相关. 这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
思考3:那么,样本相关系数 r 的大小与成对样本数据的相关程度有什么内在联系呢?
为此,我们先考察一下 r 的取值范围,观察 r 的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到 n 维,n 维向量 , 的数量积仍然定义为 ,
其中 θ 为向量 , 的夹角. 类似于平面或空间向量的坐标表示,对于向量 和 ,我们有
设“标准化”处理后的成对数据 , ,...,
的第一分量构成 n 维向量
第二分量构成 n 维向量
则有
因为 ,所以样本相关系数
其中 θ 为向量 和向量 的夹角.
由 ,可知
思考4:当 时,成对样本数据之间具有怎样的关系呢?
当 时, 中的 或 π,向量 和 共线. 由向量的知识可知,存在实数 λ,使得 ,即
这表明成对样本数据 都落在直线 上. 这时,成对样本数据的两个分量之间满足一种线性关系.
由此可见,样本相关系数 r 的取值范围为. 样本相关系数 r 的绝对值大小可以反映成对样本数据之间线性相关的程度:
当 越接近1时,成对样本数据的线性相关程度越强;
当 越接近0时,成对样本数据的线性相关程度越弱.
下图是不同成对样本数据的散点图和相应的样本相关系数.
综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数 r 可以反映两个随机变量之间的线性相关程度:
r 的符号反映了相关关系的正负性;
的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
两个变量间的线性相关关系可以通过相关系数 r 进行定量分析:
(1)样本相关系数 r 的取值范围为[-1,1].
(2)|r|越接近1,成对数据的线性相关程度越强;|r|越接近0,成对数据的线性相关程度越弱.特别地,当|r|=1时,成对数据的散点落在一条直线上,此时两个变量满足线性关系,但不是相关关系,而是函数关系.
当 r =0时,成对数据之间没有线性相关关系,但不排除它们之间有其他相关关系.
(3)当 r >0时,两变量正相关;当 r <0时,两变量负相关. 
例2 甲、乙、丙、丁四位同学各自对 A,B 两变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数 r 如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
则哪位同学的试验结果体现 A,B 两变量有更强的线性相关性(  )
A.甲 B.乙 C.丙 D.丁
D
2.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则 y 与 x 的相关系数为________.
-1
解:由题得 , , , ,
相关系数 .
1.(多选)在下列各图中,两个变量具有相关关系的是(   )
BC
2.如图所示,给出了样本量均为7的 A,B 两组样本数据的散点图,已知 A组样本数据的相关系数为 r1,B 组数据的相关系数为 r2,则有r1________r2(填“>”或“<”号).
>
3.对变量 x,y,由观测数据得散点图(1);对变量 y,z,由观测数据得散点图(2).由这两个散点图可以判断(  )
A.变量 x 与 y 正相关, x 与 z 正相关
B.变量 x 与 y 正相关, x 与 z 负相关
C.变量 x 与 y 负相关, x 与 z 正相关
D.变量 x 与 y 负相关, x 与 z 负相关
D
4.计算下列成对样本数据的相关系数.
(1) (-2,-3),(-1,-1),(0,1),(1,3),(2,5),(3,7)
(2) (0,0),(1,1),(2,4),(3,9),(4,16)
谢谢观看!