(共38张PPT)
8.1成对数据的统计相关性
如果变量y是变量x的函数,那么由x就可以唯一确定y.
例:正方形的面积y与正方形的边长x之间的关系
y = x2
函数关系
两个变量之间有关系,但密切程度又达不到函数关系的程度.例如,人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值,一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小
例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.
1.变量的相关关系:
注:①相关关系是一种不确定性关系;
②相关关系是相对于函数关系而言的.
像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
现实生活中存在着大量的相关关系:
如: (1)子女的身高y与父亲身高x之间的关系;
(2)商品的销售收入y与广告支出x之间的关系;
(3)空气污染指数y与汽车保有量x之间的关系;
(4)粮食亩产量y与施肥量x之间的关系;
下列变量之间的关系是相关关系的是( )
A.正方体的表面积与体积
B.光照时间与果树的产量
C.匀速行驶车辆的行驶距离与时间
D.某运动会中某代表团的足球队的比赛成绩与乒乓球队的比赛成绩
B
下列说法正确的是
A.y=2x2+1中的x,y是具有相关关系的两个变量
B.正四面体的体积与棱长具有相关关系
C.电脑的销售量与电脑的价格之间是一种确定性的关系
D.传染病医院感染传染病的医务人员数与医院收治的传染病病人数是具
有相关关系的两个变量
√
解析 A,B中的两个变量均为函数关系,C,D中的两个变量为相关关系.
关系 项目 函数关系 相关关系
相同点
都是两个变量间的关系
不同点
是一种确定关系
是一种非确定关系
是一种因果关系
不一定是因果关系,
也可能是伴随关系
2.相关关系与函数关系的异同点?
因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断.
对两个变量之间的相关关系,我们往往会根据自己以往积累的经验作出推断,但仅凭经验推断又有不足.
3.两个变量之间相关关系的确定
在对人体脂肪含量和年龄的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如下表,表中每个编号下的年龄和脂肪含量数据都是对同一个个体的观测结果,它们构成了成对数据.
编号 1 2 3 4 5 6 7
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
根据上述数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?
编号 1 2 3 4 5 6 7
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
以x轴表示年龄,y轴表示脂肪含量,在直角坐标系中描出样本数据对应的图形.
散点图
这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.
当一个变量的值增加时,另一个变量的相应值也呈现减少的趋势,称这两个变量负相关.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.
4.变量相关关系的分类
(1)正相关和负相关
(2)两个变量正相关和负相关散点图的特点
正相关
负相关
散点图是描述成对数据之间关系的一种直观方法.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一一条直线附近,我们就称这两个变量线性相关
①线性相关
(3)线性相关和非线性相关
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
②非线性相关
(3)线性相关和非线性相关
5个学生的数学和物理成绩如下表:
A B C D E
数学 80 75 70 65 60
物理 70 66 68 64 62
画出散点图,并判断它们是否有相关关系.
解:
数学成绩
由散点图可见,两者之间具有正相关关系.
A.该同学的数学成绩总的趋势是在逐步
提高
B.该同学在这连续九次测试中的最高分
与最低分的差超过40分
C.该同学的数学成绩与测试次号之间没有相关关系
D.该同学的数学成绩与测试次号之间具有线性相关性,且为正相关
1.(多选)对某高三学生在连续9次数学测试中的成绩(单位:分)进行统计得到如图所示的散点图.下列关于这位同学的数学成绩的分析中,正确的是
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
√
√
√
2.(1)(多选)在下列所示的四个图中,每个图的两个变量具有相关关系的图是
√
√
解析 图A的两个变量具有函数关系;
图B,C的两个变量具有相关关系;
图D的两个变量之间既不是函数关系,也不是相关关系.
(2)观察下列散点图,①正相关,②负相关,③不相关,与下列图形相对应的是
A.①②③ B.②③①
C.②①③ D.①③②
√
解析 由正、负相关的定义可直接得出.
3.(1)对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
√
解析 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
(2)(多选)某校地理学兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与
气压的相关性都很强
√
√
√
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等,散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢
对于变量x和变量y,设经过随机抽样得到的成对数据为(x1,y1),(x2,y2), ,(xn,yn),
这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号,显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
平移
绘制散点图为
如果变量x和变量y负相关,那么关于均值平移后的大多数点 将分布在第二、四象限,对应的成对数据异号居多.
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
·
一般地,如果变量x和变量y正相关,那么 均值平移后的大多数点将分布在第一、三象限, 对应的成对数据同号居多;
利用散点 的横纵坐标是否同号,可以构造一个量
根据散点图特征,初步构造统计量.
一般情况下,Lxy>0表明成对样本数据正相关;
Lxy<0表明成对样本数据负相关;
你认为Lxy的大小一定能度量出成对样本数据的相关程度吗
在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高单位由米改为厘米,单位的改变不会改变体重与身高之间的相关程度.
“标准化”处理后的成对数据为
为了消除单位的影响,进一步做“标准化”处理
分别除 得
标准化处理后的成对样本数据:
第一分量为
第二分量为
样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢
样本相关系数r的取值范围
样本相关系数r的取值范围为[-1,1]
当|r|=1时,成对样本数据之间具有怎样的关系?
所以 当|r|=1时 ,向量 与 共线。
即存在实数 ,使得
成对样本数据(xi,yi)都落在直线 上
成对样本数据的两个分量之间满足一种线性关系
5.样本相关系数r
(1)当r >0时,称成对样本数据正相关;当r <0时,称成对样本数据负相关.
(2)r的取值范围为[-1,1]
(3)当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
(4)当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
AC
练1:
丁同学
练2:
3.(多选)下面的各图中,散点图与样本相关系数r符合的是
解析 因为样本相关系数r的绝对值越接近1,线性相关程度越高,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符合,A,C,D均符合.
√
√
√
4.变量x与y相对应的一组成对样本数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量u与v相对应的一组成对样本数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量y与x之间的样本相关系数,r2表示变量V与U之间的样本相关系数,则
A.r2C.r2<0√
解析 由已知中的数据,可知第一组成对样本数据正相关,则样本相关系数大于零,第二组成对样本数据负相关,则样本相关系数小于零,故选C.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0.75
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6.(多选)如图所示是某市2020年4月至2021年3月每月最低气温与最高气温的折线统计图,已知每月最低气温与最高气温的样本相关系数r=0.83,则下列结论正确的是(若|r|>0.75,则线性相关程度较强)
A.每月最低气温与最高气温有较
强的线性相关性,且二者为正
线性相关
B.月温差(月最高气温-月最低气
温)的最大值出现在10月
C.9~12月的月温差相对于5~8月,
波动性更大
D.每月最高气温与最低气温的平均值在所统计的前6个月里逐月增加
√
√
√
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
例8 根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
参考数据:
由样本相关系数r≈0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.脂肪含量与年龄变化趋势相同.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入/亿元 32.2 31.1 32.9 35.8 37.1 38 39 43 44.6 46
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,判断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
解 从散点图看,A商品销售额与居民年收入的样本数据呈现线性相关关系.
例9 有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.
居民年收入/亿元
50
45
40
35
20
30
25
30
35
40
45
50
·
·
·
·
·
·
·
55
A商品销售额/万元
·
·
·