高中数学人教A版(2019)选择性必修第三册8.1.2样本相关系数
教案
一、教学目标
1.
结合实例,了解样本相关系数的统计含义,了解样本相关系数与“标准化”处理后的成对数据两分量向量夹角的关系;
2.
结合实例,会通过相关系数比较多组成对数据的相关性.
二、教学重难点
1.
教学重点
求样本相关系数,通过样本相关系数判断或比较成对数据的相关性强弱.
2.
教学难点
求样本相关系数,理解样本相关系数的统计含义.
三、教学过程
(一)新课导入
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等.散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
(二)探索新知
1.
样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和.将数据以为零点进行平移,得到平移后的成对数据为,并绘制散点图.
上节课在对人体的脂肪含量和年龄之间关系的研究中,绘制出如下表格.
编号
1
2
3
4
5
6
7
年龄/岁
23
27
39
41
45
49
50
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
编号
8
9
10
11
12
13
14
年龄/岁
53
54
56
57
58
60
61
脂肪含量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
利用上述方法处理表中的数据,得到下图.这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图(1)所示;如果变量x和y负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示.
由上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量.一般情形下,表明成对样本数据正相关;表明成对样本数据负相关.
因为的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用
分别除和,得
.
为简单起见,把上述“标准化”处理后的成对数据分别记为
,
仿照的构造,可以得到
我们称r为变量x和变量y的样本相关系数.
2.
样本相关系数与正、负相关的关系
这样,我们利用成对样本数据构造了样本相关系数r.样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征:
当时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
当时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.
3.
样本相关系数与线性相关程度的关系
思考:样本相关系数r的大小与成对样本数据的相关程度有什么内在联系呢?
先考察一下r的取值范围.
观察r的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,将向量的维数推广到n维,n维向量的数量积仍然定义为,其中为向量的夹角.类似于平面或空间向量的坐标表示,对于向量和,有.
设“标准化”处理后的成对数据的第一分量构成n维向量,第二分量构成n维向量,则有.
因为,所以样本相关系数,其中为向量和向量的夹角.
由,可知.
当时,中的或,向量和共线.由向量的知识可知,存在实数,使得,即.这表明成对样本数据都落在直线上.这时,成对样本数据的两个分量之间满足一种线性关系.
由此可见,样本相关系数r的取值范围为.样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
下图是不同成对样本数据的散点图和相应的样本相关系数.图(1)中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数,表明成对样本数据的正线性相关程度很强.图(2)中的散点有明显的从左上角到右下角沿直线分布的趋势,说明成对样本数据也呈现出线性相关关系;样本相关系数,表明成对样本数据的负线性相关程度比较强.从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些;图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱.
4.
用样本相关系数估计总体相关系数
综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r可以反映两个随机变量之间的线性相关程度:r的符号反映了相关关系的正负性;的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
在有限总体中,若要确切地了解两个变量之间相关关系的正负性及线性相关的程度,可以利用这两个变量取值的所有成对数据,通过公式就可以计算出两个变量的相关系数.
不过,在实际中,获得总体中所有的成对数据往往是不容易的.因此,我们还是要用样本估计总体的思想来解决问题.也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.对于简单随机样本而言,样本具有随机性,因此样本相关系数r也具有随机性.一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
例1
有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额的10年数据,如表所示.
第n年
1
2
3
4
5
6
7
8
9
10
居民年收入/亿元
32.2
31.1
32.9
35.8
37.1
38.0
39.0
43.0
44.6
46.0
A商品销售额/万元
25.0
30.0
34.0
37.0
39.0
41.0
42.0
44.0
48.0
51.0
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额的相关程度和变化趋势的异同.
解:画出成对样本数据的散点图,如图所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.
由样本数据计算得样本相关系数.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
(三)课堂练习
1.对于样本相关系数r,下列说法中正确的是(
)
A.r越大,线性相关程度越强
B.越小,线性相关程度越强
C.越大,线性相关程度越弱
D.,且越接近1,线性相关程度越强,越接近0,线性相关程度越弱
答案:D
解析:对于选项A,越大,线性相关程度越强,A错误;
对于选项B,越小,线性相关程度越弱,B错误;
对于选项C,越大,线性相关程度越强,C错误;
对于选项D,,且越接近1,线性相关程度越强,越接近0,线性相关程度越弱,D正确.
故选D.
2.如图1,2分别表示样本容量均为7的A、B两组成对数据的散点图,已知A组成对数据的样本相关系数为,B组成对数据的样本相关系数为,则与的大小关系为(
)
A.
B.
C.
D.无法判断
答案:C
解析:由题图1可知,散点几乎在一条直线上,且成正相关,,由题图2可知,散点分散在一条直线附近,也成正相关,
.A组成对数据的线性相关程度比B组强些,,故选C.
3.若对甲、乙、丙3组不同的成对数据作线性相关性检验,得到这3组成对数据的样本相关系数依次为0.83,0.72,-0.90,则线性相关程度最强的组是________(填“甲”“乙”或“丙”)
答案:丙
解析:样本相关系数越接近1,成对数据的线性相关程度就越强,结合题中所给的3组成对数据的样本相关系数知,-0.90的绝对值最接近1,所以丙组成对数据的线性相关程度最强.
4.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表:
x
1
2
3
4
y
12
28
42
56
在图中画出表中数据的散点图,推断两个变量是否线性相关,计算样本相关系数,并估计它们的相关程度.
附注:参考数据:.
参考公式:相关系数.
答案:作出散点图如图:
由散点图可知,各点大致分布在一条直线附近,由此推断x与y线性相关.
由题中所给表格及参考数据得:
,
,
,
.
∵y与x的相关系数近似为0.9997,可以推断该公司的年销量y与第x年呈正线性相关,且线性相关程度很强.
(四)小结作业
小结:样本相关系数的含义,通过相关系数比较多组成对数据的相关性.
作业:
四、板书设计
8.1.2
样本相关系数
1.
样本相关系数;
2.
样本相关系数与正、负相关的关系;
3.
样本相关系数与线性相关程度的关系;
4.
用样本相关系数估计总体相关系数