第八章 成对数据的统计分析
8.1 成对数据的统计相关性
【学习目标】
学习目标 素养要求
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据; 2.结合实例,会通过相关系数比较多组成对数据的相关性. 1.数学运算 2.数学建模
【自主学习】
一、变量的相关关系
1.两个变量的关系
分类 函数关系 相关关系
特征 两变量有 的关系 两个变量有关系,但又没有确切到可由其中一个去 另一个的程度
2.散点图:将样本中的每一个序号下的成对数据用 中的点表示出来得到的统计图.
3.正相关与负相关
正相关 负相关
当一个变量的值增加时,另一个变量的相应值也呈现 当一个变量的值增加时,另一个变量的相应值呈现
4.线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,则称这两个变量线性相关.
二、样本的相关系数
1.相关系数:统计学里一般用r==来衡量y与x的 ,这里的r称为样本相关系数(简称相关系数).
2.相关系数的性质
(1) 时,成对数据正相关; 时,成对数据负相关,-1≤r≤1;
(2)|r|越小,两个变量之间的线性相关程度越 ,|r|越大,两个变量之间的线性相关程度越 .
(3)|r|=1时,成对数据构成的点都在 上.
【小试牛刀】
1.思维辨析(对的打“√”,错的打“×”)
(1)作文水平与课外阅读量之间的关系是相关关系.( )
(2)匀速行驶的车辆的行驶距离与时间是相关关系.( )
(3)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
2.下列图形中具有相关关系的两个变量是( )
【经典例题】
题型一 相关关系与线性相关关系
点拨:1.函数关系与相关关系
函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.两个变量是否相关的两种判断方法
(1)实际经验法:借助积累的经验进行分析判断;
(2)散点图法:绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
例1 (1)下列两个变量之间的关系是相关关系的是( )
A.正方体的棱长和体积
B.单位圆中角的度数和所对弧长
C.亩产量为常数时,土地面积和总产量
D.日照时间与水稻的亩产量
对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图(2).由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
【跟踪训练】1 5名学生的数学和物理成绩(单位:分)如下:
A B C D E
数学成绩 80 75 70 65 60
物理成绩 70 66 68 64 62
判断数学成绩与物理成绩是否具有线性相关关系.
题型二 相关系数与相关程度的判断
点拨:1.相关系数可以反映两个变量之间的线性相关程度,即散点集中于一条直线的程度,其符号反映了相关关系的正负性.
2.变量间是否具有线性相关关系,可通过散点图或相关系数作出判断,散点图只是粗略作出判断,用相关系数能够较准确的判断相关的程度.
例2 用线性回归模型求得甲、乙、丙3组不同的数据的线性相关系数分别为0.81,-0.98,0.63,其中________(填甲、乙、丙中的一个)组数据的线性相关性最强.
【跟踪训练】2 关于两个变量x和y的7组数据如表所示:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
试判断y与x是否线性相关,并刻画它们的相关程度.
【当堂达标】
1.已知两个变量负相关,且相关程度很强,则它们的相关系数的大小可能是( )
A.-0.95 B.-0.13 C.0.15 D.0.96
2.对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
3.对两个变量x,y的几组观测数据统计如表,则这两个相关变量的关系是( )
x 10 9 8 7 6 5
y 2 3 3.5 4 4.8 5
A.负相关 B.正相关
C.先正后负相关 D.先负后正相关
4.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )
A.1 B.-0.5 C.0 D.0.5
5.现随机抽取了某校10名学生在入学考试中的数学成绩(x)与入学后的第一次考试数学成绩(y),数据如表:
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
请问:这10名学生的两次数学考试成绩是否具有显著的线性相关关系
【参考答案】
【自主学习】
一、1.确定 精确地决定 2.直角坐标系 3.增加的趋势 减少的趋势 4.一条直线
二、1.线性相关性的强弱 2. r>0 r<0 弱 强 一条确定的直线
【小试牛刀】
1.(1)√ (2)× (3)√ (4)√
2.C
【经典例题】
例1(1)D 解析:不确定性是相关关系的一个重要特征.故选D.
(2)C 解析:由两个散点图的形状判断,x与y负相关,u与v是正相关.故选C.
【跟踪训练】1 解:以x轴表示数学成绩,y轴表示物理成绩,得相应的散点图如图所示.
由散点图可知,各点分布在一条直线附近,故两者之间具有线性相关关系.
例2 乙 解析:两个变量y与x的回归模型中,它们的相关指数R2越接近于1,这个模型的拟合效果就越好,在甲、乙、丙中,所给的数值中0.98是相关指数最大的值,即乙的拟合效果最好.
【跟踪训练】2 解:画散点图(图略),观察散点图,可以看出样本点都集中在一条直线附近,由此判断y与x线性相关.
=(21+23+25+27+29+32+35)≈27.4, =(7+11+21+24+66+115+325)≈81.3,
=212+232+252+272+292+322+352=5 414,
xiyi=21×7+23×11+25×21+27×24+29×66+32×115+35×325=18 542.
=72+112+212+242+662+1152+3252=124 393,
所以r==≈≈0.837 5.
所以x与y具有线性相关关系.
【当堂达标】
1. A 解析:相关系数r<0时,成对数据负相关,且|r|越大,两个变量之间的线性相关程度越强.
2.C 解析:给出一组样本数据,总可以作出相应的散点图,故C正确,但不一定能分析出两个变量的关系,故A不正确,更不一定符合线性相关,故B不正确,两个变量的统计数据不一定有函数关系,故D不正确.
3.A 解析:根据两个变量x,y的几组观测数据统计表知,y随x的增大而减小,所以这两个相关变量负相关.
4.C 解析:根据变量x,y的散点图,得x,y之间的样本相关关系非常不明显,所以相关系数r最接近的值应为0.
5.解:=(120+108+…+99+108)=107.8, =(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116 584, =842+642+…+572+712=47 384,
xiyi=120×84+108×64+…+108×71=73 796,
所以,相关系数为r=≈0.750 6,
故两次数学考试成绩有显著的线性相关关系.