(共69张PPT)
·选择性必修第三册·
第七章 随机变量及其分布列
8.1.2 样本相关系数
学习目标
1.了解样本相关系数公式的推导关系
2.掌握样本相关系数公式,并会运用.(重点)
3.了解样本相关系数与标准化数据向量夹角的关系,掌握样本相关系数的范围(难点)
情景导入
8.1.2 样本相关系数
01
创设背景,引入新知
通过上一节的学习,华华提出了自己的一些疑问:
问题1:由上图可判断出图①是负相关,图②是正相关,那么能否判断出图②的相关性比图①强?
不一定.
问题2:怎样定量刻画两个变量的相关性?
可以用样本相关系数公式计算.
样本相关系数
8.1.2 样本相关系数
02
探究新知
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 . 但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.
问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度 进行定量分析呢?
探究新知
对于变量和变量,设经过随机抽样获得的成对样本数据为,,其中,,,和,,,的均值分别为和.
将数据以为零点进行平移,得到平移后的成对数据为,,,,并绘制散点图.
问题:能否引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
探究新知
利用上述方法处理上表中的数据,得到由图.我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
探究新知
如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如下图(1)所示;
如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如下图(2)所示.
探究新知
线性负相关
线性正相关
无相关关系
非线性相关
线性负相关
线性正相关
无相关关系
非线性相关
(x,y)基本异号
(x,y)基本同号
数据预处理的常用方法:中心化(零均值化)
中心化
探究新知
思考
从上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量
.
一般情形下,表明成对样本数据正相关;
表明成对样本数据负相关.
根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗
探究新知
思考
Lxy的大小是否一定能度量出成对样本数据的相关程度吗
因为Lxy的大小与数据的度量得有关,所以不宜直接用它度量成对样本数据相关程度的大小.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用
分别除和,得,,,.
探究新知
为简单起见,把上述“标准化”处理后的成对数据分别记为,,,,仿照的构造,可以得到
(1)我们称为变量和变量的样本相关系数.
探究新知
定义
我们称为变量和变量的样本相关系数(sample correlation coefficient)
样本相关系数
探究新知
样本相关系数r是一个描述成对样本数据的数字特征,它反映了两个随机变量之间的线性相关程度.
样本相关系数r的正负性和绝对值的大小可以反映成对样本数据的变化特征
当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
|r|的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
探究新知
思考
相关系数r的取值范围是多少呢
设“标准化”处理后的成对数据的第一分量构成维向量,第二分量构成维向量,则有
观察的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到维,维向量的数量积仍然定义为,其中为向量的夹角.类似于平面或空间向量的坐标表示,对于向量和,我们有.
探究新知
因为,所以样本相关系数,其中为向量和向量的夹角.
由可知.
∴样本相关系数r的取值范围为[-1,1]
探究新知
相关系数|r|=1时,成对样本数据之间具有怎样的关系呢
当时,中的或,向量和共线.由向量的知识可知,存在实数,使得,即,.
这表明成对样本数据都落在直线上.这时,成对样本数据的两个分量之间满足一种线性关系.
思考
探究新知
总结
相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;
当|r|越接近0时,成对数据的线性相关程度越弱;
特别地,当|r|=0时,成对数据的没有线性相关关系(但不排除它们间有其他相关关系);
当|r|=1时,成对数据都落在一条直线上.
探究新知
观察以下散点图,判断成对数据间的相关关系
要求
图(1) 中成对样本数据的正线性相关程度很强.
图(2) 中成对样本数据的负线性相关程度比较强.
图(3)中 对样本数据的线性相关程度很弱.
图(4)中成对样本数据的线性相关程度极弱.
探究新知
在实际中,获得总体中所有的成对数据往往是不容易的.
因此,我们还是要用样本估计总体的思想来解决问题.
也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.
对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
探究新知
例1.根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
编号/ 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
解:先画出散点图,如图所示.观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
探究新知
根据样本相关系数的定义,.①利用计算工具计算可得,,,.
代入①式,得
由样本相关系数,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
探究新知
例2.有人收集了某城市居民年收入(所有居民在一年内收人的总和)与A商品销售额的10年数据,如下表所示.
第n年 1 2 3 4 5 6 7 8 9 10
居民年收入/亿元 32.2 31.1 32.9 35.8 37.1 38.0 39.0 43.0 44.6 46.0
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
探究新知
解:画出成对样本数据的散点图,如图所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.由样本数据计算得样本相关系数r≈0.95.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
探究新知
例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如表所示.
体重与身高、臂展与身高分别具有怎样的相关性?
探究新知
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为和,都为正线性相关.其中,臂展与身高的相关程度更高.
能力提升
8.1.2 样本相关系数
03
能力提升
题型一
样本相关系数的计算
例题1
0.952
能力提升
解析
能力提升
总结
能力提升
解析
能力提升
总结
能力提升
题型三
样本相关系数r的性质
例题3
解析
A
能力提升
题型三
样本相关系数r的性质
例题4
解析
AD
能力提升
题型四
样本相关系数的实际应用
例题5
能力提升
解析
能力提升
总结
相关关系强弱的定量分析与定性分析
(1)定量分析:样本相关系数r的范围为-1≤r≤1,r为正时,成对样本数据正相关;r为负时,成对样本数据负相关;|r|越接近1,成对样本数据的线性相关程度越强;|r|越接近0,成对样本数据的线性相关程度越弱;当|r|=1时,所有数据点都在一条直线上.
(2)定性分析:相关关系的强弱体现在散点图中就是样本点越集中在某条直线附近,两变量的线性相关程度越强;样本点在某条直线附近越分散,两变量的线性相关程度越弱.
课堂小结+限时小练
8.1.2 样本相关系数
04
课堂小练
随堂限时小练
解
C
随堂限时小练
解
B
随堂限时小练
解
A
随堂限时小练
解
随堂限时小练
解
随堂限时小练
作业布置与课后练习答案
8.1.2 样本相关系数
05
巩固作业
作业布置
作业1:完成教材:第103页 练习第3,4题.
作业2:配套辅导资料对应的《样本相关系数》.
课后作业答案
1.由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的相关关系?为什么?
样本相关系数可以反映变量之间相关的正负性及线性相关的程度,但由于样本数据的随机性,样本相关系数往往不能确切地反映变量之间的相关关系.一般来说,样本量越大,根据样本相关系数推断变量之间相关的正负性及线性相关的程度越可靠,而样本量越小则越不可靠.一个极端的情况是,无论两个变量之间是什么关系,如果样本量取2,则计算可得样本相关系数的绝对值都是1(在样本相关系数存在的情况下),显然据此推断两个变量完全线性相关是不合理的.
课后作业答案
虽然样本相关系数为-1,三个样本点在一条直线上,但是由于样本量太小,据此推断两个变量完全线性相关并不可靠.
课后作业答案
解法二:
i 1 2 3 求和
xi 2 3 5 10
yi 2 -1 - 7 -6
xiyi 4 -3 -35 -34
xi2 4 9 25 38
yi2 4 1 49 54
课后作业答案
3.画出下列成对数据的散点图,并计算样本相关系数.据此,请你谈谈样本相关系数在刻画两个变量间相关关系上的特点.
课后作业答案
课后作业答案
i 1 2 3 4 5 6 求和
xi -2 -1 0 1 2 3 3
yi -3 -1 1 3 5 7 12
xiyi 6 1 0 3 10 21 41
xi2 4 1 0 1 4 9 19
yi2 9 1 1 9 25 49 94
课后作业答案
i 1 2 3 4 5 求和
xi 0 1 2 3 4 10
yi 0 1 4 9 16 30
xiyi 0 1 8 27 64 100
xi2 0 1 4 9 16 30
yi2 0 1 16 81 256 354
课后作业答案
i 1 2 3 4 5 6 求和
xi -2 -1 0 1 2 3 3
yi -8 -1 0 1 8 27 27
xiyi 16 1 0 1 16 81 115
xi2 4 1 0 1 4 9 19
yi2 64 1 0 1 64 729 859
课后作业答案
综上,由相关系数的值可知,|r|越接近1,样本的线性相关性越强,越接近0,线性相关性越弱.
课后作业答案
4.随机抽取7家超市,得到其广告支出与销售额数据如下:
超市 A B C D E F G
广告支出/万元 1 2 4 6 10 14 20
销售额/万元 19 32 44 40 52 53 54
请判断超市的销售额与广告支出之间的相关关系的类型、相关程度和变化趋势的特征.
成对数据的散点图如图所示:
广告支出/万元
销售额/万元
从散点图上可得,超市的销售额与广告支出之间呈现出线性相关关系,
课后作业答案
i 1 2 3 4 5 6 7 求和
xi 1 2 4 6 10 14 20 57
yi 19 32 44 40 52 53 54 294
xiyi 19 64 176 240 520 742 1080 2841
xi2 1 4 16 36 100 196 400 753
yi2 361 1024 1936 1600 2704 2809 2916 13350
由此可推断,销售额与广告支出之间正线性相关,且相关程度较强,销售额与广告支出的变化趋势相同,但随着广告支出超过10万元后,销售额增加幅度变缓.
课后作业答案
1.在以下4幅散点图中,判断哪些图中的y和x之间存在相关关系?其中哪些正相关,哪些负相关?哪些图所对应的成对样本数据呈现出线性相关关系?哪些图所对应的成对样本数据呈现出非线性相关关系.
课后作业答案
图(2)(3)(4)中的y和x之间存在相关关系;其中图(2)(4)中的y和x之间呈现正相关关系;图(2)(3)中的y和x之间呈现线性相关关系;其中图(4)中的y和x之间呈现非线性相关关系.
课后作业答案
2.随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行调查,所得数据如下:
航空公司编号 1 2 3 4 5 6 7 8 9 10
航班正点率/% 81.8 76.8 76.6 75.7 73.8 72.2 71.2 70.8 91.4 68.5
顾客投诉/次 21 58 85 68 74 93 72 122 18 125
顾客投诉次数和航班正点率之间是否呈现出线性相关关系?它们之间的相关程度如何?变化趋势有何特征?
航班正点率/%
散点图
设顾客投诉次数为y,正点率为x,
i 1 2 3 4 5 6 7 8 9 10 求和
xi 81.8 76.8 76.6 75.7 73.8 72.2 71.2 70.8 91.4 68.5 758.8
yi 21 58 85 68 74 93 72 122 18 125 736
xiyi 1717.8 4454.4 6511 5147.6 5461.2 6714.6 5126.4 8637.6 1645.2 8562.5 53978.3
xi2 6691.24 5898.24 5867.56 5730.49 5446.44 5212.84 5069.44 5012.64 8353.96 4692.25 57975.1
yi2 441 3364 7225 4624 5476 8649 5184 14884 324 15625 65796
可以推断顾客投诉次数与航班正点率负线性相关,且相关程度较强,顾客投诉次数和航班正点率的变化趋势相反.
课后作业答案
3.根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
编号 1 2 3 4 5 6 7 8 9 10
x/cm 1 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.8 3.0
F/N 3.08 3.76 4.31 5.02 5.51 6.25 6.74 7.40 8.54 9.24
两个变量的样本相关系数是否为1?请你解释其中的原因.
先画出弹簧长度和所受外力的散点图,如图所示,
课后作业答案
理由如下:在理想状态下,弹簧伸长的长度与所受的外力成正比,则弹簧伸长的长度x和相应所受外力F之间满足线性函数关系,相关系数必为1;但是在现实情况下,测量数据受很多因素的影响,比如弹簧的材料,粗细,测量的误差等等,所以通过测量获得样本数据也具有随机性,因此通过测量数据求得的相关系数不一定为1.
课后作业答案
4.某地区的环境条件适合天鹅栖息繁衍.有人发现了一个有趣的现象,该地区有5个村庄,其中3个村庄附近栖息的天鹅较多,婴儿出生率也较高;2个村庄附近栖息的天鹅较少,婴儿的出生率也较低.有人认为婴儿出生率和天鹅数之间存在相关关系,并得出一个结论:天鹅能够带来孩子,你同意这个结论吗?为什么?
从统计数据看, 婴儿出生率和天鹅数正相关, 但由于样本数据较少, 得出婴儿出生率和天鹅数两个变量正相关的结论可靠性不高.即使婴儿出生率和天鹅数正相关, 也无法得出天鹅能够带来孩子的结论.因为天鹅数多的地方婴儿出生率也高,可能是受共同的第三方因素影响的结果.例如,某个地方生态很好,既有利于吸引天鹅来栖息繁衍,也有利于婴儿的出生,所以不能得出婴儿出生率高是天鹅多的缘故.可见,相关关系只是反映两个变量之间存在的一种数量关系,但这种数量关系并不一定是因果关系.
THANKS
感谢您的聆听