8.1.2 样本相关系数
【学习目标】
1. 结合实例,会通过相关系数比较多组成对数据的相关性.
2. 了解样本相关系数与标准化数据向量夹角的关系.
【学习过程】
一、课前预习
预习课本P96~102,思考并完成以下问题
(1) 什么是样本相关系数?
(2) 相关系数有哪些性质?
(3) 样本相关系数与标准化数据向量夹角有什么关系?
二、课前小测
1.判断
(1)回归分析中,若r=±1说明x,y之间具有完全的线性关系.( )
(2)若r=0,则说明成对样本数据间是函数关系.( )
(3)样本相关系数r的范围是r∈(-∞,+∞).( )
2.下面对相关系数r描述正确的是( )
A.r>0表明两个变量负相关
B.r>1表明两个变量正相关
C.r只能大于零
D.越接近于0,两个变量相关关系越弱
3.(多选题)下面的各图中,散点图与相关系数r符合的是 ( )
三、新知探究
1.相关系数r的计算
注意:相关系数是研究变量之间线性相关程度的量
假设两个随机变量的数据分别为(x1,y1),(x2,y2),…,(xn,yn),对数据作进一步的“标准化”处理,用sx=,sy=分别除xi-和yi- (i=1,2,…,n,和分别为x1,x2,…,xn和y1,y2,…,yn的均值),得,,…,,为简单起见,把上述“标准化”处理后的成对数据分别记为(x1′,y1′),(x2′,y2′),…,(xn′,yn′),则变量x和变量y的样本相关系数r的计算公式如下:
r=(x1′y1′+x2′y2′+…+xn′yn′)=.
2.相关系数r的性质
(1)当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
(2)样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.样本相关系数与标准化数据向量夹角的关系
r=x′·y′=|x′||y′|cos θ=cos θ(其中x′=(x1′,x2′,…,xn′),y′=(y1′,y2′,…,yn′),|x′|=|y′|=,θ为向量x′和向量y′的夹角).
四、题型突破
题型一 线性相关性的检验
【例1】 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩x(分)与入学后第一次考试的数学成绩y(分)如下:
学生号 1 2 3 4 5 6 7 8 9 10
x 120 108 117 104 103 110 104 105 99 108
y 84 64 84 68 69 68 69 46 57 71
请问:这10名学生的两次数学成绩是否具有线性相关关系?
【反思感悟】
利用相关系数r判断线性相关关系,需要应用公式计算出r的值,由于数据较大,需要借助计算器.
【跟踪训练】
1.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
已知=90,y=140.78,=112.3.
(1)求,;
(2)对x,y进行线性相关性检验.
题型二 判断线性相关的强弱
【例2】 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据.
甲醛浓度x 18 20 22 24 26 28 30
缩醛化度(y) 26.86 28.35 28.75 28.87 29.75 30.00 30.36
求样本相关系数r并判断它们的相关程度.
【反思感悟】
当相关系数|r|越接近1时,两个变量的相关关系越强,当相关系数|r|越接近0时,两个变量的相关关系越弱.
【跟踪训练】
2.以下是收集到的新房屋的销售价格y(万元)和房屋的大小x(m2)的数据.
房屋大小x/m2 115 110 80 135 105
销售价格y/万元 24.8 21.6 18.4 29.2 22
(1)画出数据的散点图;
(2)求相关系数r,并作出评价.
五、达标检测
1.两个变量之间的相关程度越低,则其线性相关系数的数值( )
A.越小 B.越接近1
C.越接近0 D.越接近-1
2.给定y与x的一组样本数据,求得相关系数r=-0.690,则( )
A.y与x线性不相关 B.y与x正线性相关
C.y与x负线性相关 D.以上都不对
3.(多选题)下列说法正确的是( )
A.变量间的关系是非确定性关系,因此因变量不能由自变量唯一确定
B.线性相关系数可以是正的或负的
C.如果r=±1,说明x与y之间完全线性相关
D.线性相关系数r∈(-1,1)
4.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
已知记忆力x和判断力y是线性相关的,求相关系数r.
六、本课小结
1.通过本节课的学习,进一步提升数学抽象及数据分析素养.
2.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就可利用线性相关系数来判断.
3.|r|越接近1,它们的散点图越接近一条直线,两个变量之间的相关关系越强.
参考答案
课前小测
1.答案:(1)√ (2)× (3)×
解析:(2)若r=0,则说明成对样本数据间没有线性相关关系.
(3)样本相关系数的范围是[-1,1].
2.答案:D
解析:因r>0表明两个变量正相关,故A错误;又因 r∈[-1,1],故B,C错误;两个变量之间的相关系数r的绝对值越接近于1,表明两个变量的线性相关性越强, r的绝对值越接近于0,表示两个变量之间几乎不存在线性相关,故D正确.
3.答案:ACD
解析:因为相关系数r的绝对值越接近1,线性相关程度越高,且r>0时正相关,r<0时负相关,故观察各选项,易知B不符合,A,C,D均符合.故选ACD.
题型突破
【例1】解:=(120+108+…+99+108)=107.8,
=(84+64+…+57+71)=68,
=1202+1082+…+992+1082=116 584,
y=842+642+…+572+712=47 384,
xiyi=120×84+108×64+…+99×57+108×71=73 796.
所以相关系数为r=≈0.750 6.
由此可看出这10名学生的两次数学成绩具有线性相关关系.
【跟踪训练】
1.解:(1)==4.
==5.
(2) xiyi-5=112.3-5×4×5=12.3,
x-52=90-5×42=10,
y-52=140.78-125=15.78,
所以r=≈0.979.
所以x与y之间具有很强的线性相关关系.
题型二 判断线性相关的强弱
【例2】解:列表如下
i xi yi x y xiyi
1 18 26.86 324 721.459 6 483.48
2 20 28.35 400 803.722 5 567
3 22 28.75 484 826.562 5 632.5
4 24 28.87 576 833.476 9 692.88
5 26 29.75 676 885.062 5 773.5
6 28 30.00 784 900 840
7 30 30.36 900 921.729 6 910.80
∑ 168 202.94 4 144 5892.013 6 4 900.16
==24,=,
r=
=≈0.96.
由此可知,甲醛浓度与缩醛化度之间有很强的正线性相关关系.
【跟踪训练】
2.解:(1)图略.
(2)列表如下:
i xi yi x y xiyi
1 115 24.8 13 225 615.04 2 852
2 110 21.6 12 100 466.56 2 376
3 80 18.4 6 400 338.56 1 472
4 135 29.2 18 225 852.64 3 942
5 105 22 11 025 484 2 310
∑ 545 116 60 975 2 756.8 12 952
==109,==23.2,
r=
=
=≈0.96,
由此可知,新房屋的销售价格和房屋的大小之间有很强的正线性相关关系.
达标检测
1.答案:C
解析:由相关系数的性质知选C.
2.答案:C
解析:因为r=-0.690<0,所以y与x负线性相关.
3.答案:ABC
解析:∵相关系数|r|≤1,
∴D错误.
4.解:列表如下
i xi yi x y xiyi
1 6 2 36 4 12
2 8 3 64 9 24
3 10 5 100 25 50
4 12 6 144 36 72
∑ 36 16 344 74 158
==9,==4,
∴r==≈0.99.