(共55张PPT)
第八章 成对数据的统计分析
章前导入
在必修课程中, 我们学习了单个变量的观察数据的直观表示和统计特征的刻画等知识与方法.
例如,用直方图描述样本数据的分布规律 , 用均值刻画样本数据的集中趋势 , 用方差刻画样本数据的离散程度等.
这些方法主要适用于通过样本认识单个变量的统计规律.
两个变量,甚至更多变量呢?
章前导入
在现实中, 我们还经常需要了解两个或两个以上变量之间的关系.
例如,教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系;
医疗卫生部门要制定预防青少年近视的措施,需要了解有哪些因素会影响视力,以及这些因素是如何影响视力的;
商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等.
为此,我们需要进一步学习通过样本推断变量之间关系的知识方法.
章前导入
章前导入
本章的学习内容有成对数据的统计相关性、一元线性回归模型和2×2列联表, 这些知识与方法在解决实际问题中非常有用.
可以发现,两个随机变量的相关性可以通过成对样本数据进行分析; 利用一元线性回归模型可以研究变量之间的随机关系, 进行预测;利用2×2列联表可以检验两个随机变量的独立性.
本章的学习对于提高我们解决实际问题的能力,提升数据分析、数学建模等素养都是非常有帮组的.
第八章 成对数据的统计分析
8.1成对数据的相关关系
8.1.1变量的相关关系
课程标准
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系
2.结合实例,会通过相关系数比较多组成对数据的相关性
新课导入
我们知道 , 如果变量y是变量x的函数 , 那么由x就可以唯一确定y.
然而, 现实世界中还存在这样的情况: 两个变量之间有关系 , 但密切程度又达不到函数关系的程度 .
例如, 人的体重与身高存在关系 , 但由一个人的身高值并不能确定他的体重值 , 那么 , 该如何刻画这两个变量之间的关系呢
下面我们就来研究这个问题.
一
二
三
教学目标
了解变量间的相关关系,能够区别函数关系与相关关系
能够利用散点图分析数据
变量相关关系的分类,了解正相关、负相关关系
教学目标
难点
重点
易错点
新知探究
探究一:变量间的相关关系
新知讲解
问题1 什么是函数关系?
函数关系:
当自变量取值一定时,因变量取值由它唯一确定,如正方形面积与边长的关系, 路程与速度之间的关系等。(有始有终)
论油腻大叔是怎样炼成的?
年龄越大越“油”?
变量1:年龄
变量2:脂肪含量
新知讲解
我们知道, 一个人的体重与他的身高有关系. 一般而言, 个子高的人往往体重值较大, 个子矮的人往往体重值较小,但身高并不是决定体重的唯一因素 , 例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素 .
像这样 , 两个变量有关系 , 但又没有确切到可由其中的一个去精确地决定另一个的程度 , 这种关系称为相关关系.
新知讲解
问题2 函数关系与相关关系有和区别?
函数关系:
当自变量取值一定时,因变量取值由它唯一确定,如正方形面积与边长的关系, 路程与速度之间的关系等。(有始有终)
相关关系:
当自变量取值一定时,因变量的取值带有一定的随机性
新知讲解
两个变量具有相关关系的事例在现实中大量存在. 例如:
1.子女身高与父亲身高之间的关系. 一般来说, 父亲的个子高, 其子女的个子也会比较高; 父亲个子矮, 其子女的个子也会比较矮 , 但影响子女身高的因素 , 除父亲身高外还有其他因素 , 例如母亲身高、饮食结构、体育锻炼等 , 因此父亲身高又不能完全决定子女身高.
2.商品销售收人与广告支出之间的关系 . 一般来说 , 广告支出越多, 商品销售收入越高. 但广告支出并不是决定商品销售收入的唯一因素 , 商品销售收入还与商品质量、居民收入等因素有关.
新知讲解
3.空气污染指数与汽车保有量之间的关系. 一般来说 , 汽车保有量增加 , 空气污染指数会上升. 但汽车保有量并不是造成空气污染的唯一因素 , 气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素.
4.粮食亩产量与施肥量之间的关系. 在一定范围内, 施肥量越大, 粮食亩产量就越高. 但施肥量并不是决定粮食亩产量的唯一因索 , 粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响.
新知讲解
因为在相关关系中, 变量的值不能随变量的值的确定而唯一确定, 所以我们无法直接用函数去描述变量之间的这种关系.
对上述各例中两个变量之间的相关关系 , 我们往往会根据自己以往积累的经验作出推断 . “经验之中有规律”, 经验的确可以为我们的决策提供一定的依据 , 但仅凭经验推断又有不足, 例如 , 不同经验的人对同一情形可能会得出不同结论 , 不是所有的情形都有经验可循等.
因此 , 在研究两个变量之间的相关关系时 , 我们需要借助数据说话. 即通过样本数据分析, 从数据中提取信息, 并构建适当的模型, 再利用模型进行估计或推断.
新知探究
探究二:散点图分析数据
新知讲解
探究:在对人体的脂肪的含量和年龄之间关系的研究中, 科研人员获得了一些年龄和脂肪含量的简单随机样本数据 , 如表所示 , 表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果 , 它们构成了成对数据.
编号 1 2 3 4 5 6 7
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
问题3 根据以上数据 , 你能推断人体的脂肪含量与年龄之间存在怎样的关系吗
新知探究
编号 1 2 3 4 5 6 7
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
编号 8 9 10 11 12 13 14
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
追问1:脂肪含量随着年龄的变化有什么规律吗?
从整体上看,脂肪含量随着年龄的增大而增大
追问2:根据规律, 23岁的脂肪含量一定比30岁的脂肪含量低吗?
不一定
新知讲解
为了更加直观地描述上述成对样本数据中脂肪含量与年龄的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征.
用横轴(轴)表示年龄, 纵轴(轴)表示脂肪含量, 则表中每个编号下的成对样本数据都可用直角坐标系中的点表示出来 , 由这些点组成了如下所示的统计图 .
我们把这样的统计图叫做散点图.
新知讲解
观察散点图可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增加的趋势.
这样, 由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.
正相关:指的是两个变量有相同的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变大
负相关:指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变小
概念生成
正相关:指的是两个变量有相同的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变大
点的位置散布在从左下角到右上角的区域
负相关:指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变小
点的位置散布在从左上角到右下角的区域内
新知讲解
散点图是描述成对数据之间关系的一种直观方法 . 观察前面散点图 , 从中我们不仅可以大致看出脂肪含量和年龄呈正相关 , 而且从整体上可以看出散点落在某条直线附近.
一般地, 如果两个变量的取值呈现正相关或负相关, 而且散点落在一条直线附近, 我们就称这两个变量线性相关.
新知讲解
问题4 观察下列的图形,他们是线性相关吗?
图中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;
图中的散点落在某条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;
新知讲解
一般地, 如果两个变量的取值呈现正相关或负相关, 而且散点落在一条直线附近, 我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
小结
1. 相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2. 散点图:把成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
3.正相关与负相关:
正相关:指的是两个变量有相同的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变大;
负相关:指的是两个变量有相反的变化趋势,即从整体上来看一个变量会随着另一个变量变大而变小
第八章 成对数据的统计分析
8.1成对数据的相关关系
8.1.2样本相关关系
一
二
三
教学目标
结合实例,会通过相关系数比较多组成对数据的相关性
了解样本相关系数与标准化数据向量夹角的关系
能够利用相关系数进行解决(判断相关问题)
教学目标
难点
重点
易错点
新知导入
通过观察散点图中成对样本数据的分布规律,我们可以大致推断两个变量是否存在相关关系、是正相关还是负相关、是线性相关还是非线性相关等 .
散点图虽然直观,但无法确切地反映成对样本数据的相关程度,也就无法量化两个变量之间相关程度的大小. 能否像引入平均值、方差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数据的相关程度进行定量分析呢?
新知探究
探究一:样本相关系数
新知讲解
对于变量和变量,设经过随机抽样得到的成对数据为
其中和的均值分别为和.
问题1 将数据以为零点进行平移,得到平移后的成对数据为
,,,
并绘制散点图,会得到怎样的图像呢?
新知讲解
追问1 用上述的方法将8.1.1的“探究”进行处理,并绘制散点图,你能发现什么
我们发现,这时的散点大多数分布在第一象限、第三象限,大多数散点的横、纵坐标同号.
显然,这样的规律是由人体脂肪含量与年龄正相关所决定的.
新知讲解
一般地,如果变量和正相关,那么关于均值平移后的大多数散点将分布在第一象限、第三象限,对应的成对数据同号的居多,如图所示;
如果变量和负相关,那么关于均值平移后的大多数散点将分布在第二象限、第四象限,对应的成对数据异号的居多,如图(2)所示.
新知讲解
问题2 根据上述分析,你能利用正相关变量和负相关变量的成对样本数据平移后呈现的规律,构造一个度量成对样本数据是正相关还是负相关的数字特征吗?
从上述讨论得到启发,利用散点的横、纵坐标是否同号,可以构造一个量
.
一般情形下,表明成对样本数据正相关;表明成对样本数据负相关.
新知讲解
问题3 你认为的大小一定能度量出成对样本数据的相关程度吗?
因为的大小与数据的度量得有关,所以不宜直接用它度量成对样本数据相关程度的大小.
例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把身高的单位由米改为厘米,则相应的将变为原来的100倍,但单位的改变并不会导致体重与身高之间相关程度的改变.
新知讲解
为了消除度量单位的影响,需要对数据作进一步的“标准化”处理.我们用分别除和,得,,,.
为简单起见,把上述“标准化”处理后的成对数据分别记为,,,,仿照的构造,可以得到
.(1)
我们称为变量和变量的样本相关系数.
概念生成
样本相关系数:
这样,我们利用成对样本数据构造了样本相关系数.样本相关系数是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
(1)当时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.
(2)当时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常也变小.
新知探究
探究二:样本相关系数与标准化数据向量夹角的关系
新知讲解
问题4 那么,样本相关系数的大小与成对样本数据的相关程度有什么内在联系呢?为此,我们先考察一下的取值范围.
观察的结构,联想到二维(平面)向量、三维(空间)向量数量积的坐标表示,我们将向量的维数推广到维,维向量的数量积仍然定义为,其中为向量的夹角.
类似于平面c或空间向量的坐标表示,对于向量
和
我们有.
新知讲解
设“标准化”处理后的成对数据
第一分量构成维向量
第二分量构成维向量,
则有
因为,所以样本相关系数,其中为向量和向量的夹角.
由可知.
的取值范围
新知讲解
问题4 当时,成对样本数据之间具有怎样的关系呢?
当时,中的或,向量和共线.
由向量的知识可知,存在实数,使得,
即,.
这表明成对样本数据都落在直线上.这时,成对样本数据的两个分量之间满足一种线性关系.
概念生成
由此可见,样本相关系数的取值范围为.
样本相关系数的绝对值大小可以反映成对样本数据之间线性相关的程度:
当越接近1时,成对样本数据的线性相关程度越强;
当越接近0时,成对样本数据的线性相关程度越弱.
样本相关系数有时也称样本线性相关系数 ,刻画了样本点集中于某条直线的程度.
当时, 只表明成对样本数据间没有线性相关关系, 但不排除它们之间有其他相关关系.
新知讲解
下图是不同成对样本数据的散点图和相应的样本相关系数
图(1)中的散点有明显的从左下角到右上角沿直线分布的趋势,说明成对样本数据呈现出线性相关关系;样本相关系数,表明成对样本数据的正线性相关程度很强.
新知讲解
图(2)中的散点有明显的从左上角到右下角沿直线分布的趋势, 说明成对样本数据也呈现出线性相关关系; 样本相关系数, 表明成对样本数据的负线性相关程度比较强.
从样本相关系数来看,图(1)中成对样本数据的线性相关程度要比图(2)中强一些
新知讲解
图(3)和图(4)中的成对样本数据的线性相关程度很弱,其中图(4)中成对样本数据的线性相关程度极弱
综上可知,两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数可以反映两个随机变量之间的线性相关程度:的符号反映了相关关系的正负性;的的大小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.
新知讲解
在有限总体中,若要确切地了解两个变量之间相关关系的正负性及线性相关的程度,我们可以利用这两个变量取值的所有成对数据,通过公式
就可以计算出两个变量的相关系数.
例如,要确切了解脂肪含量与年龄的线性相关程度,需要调查所有人的年龄及其脂肪含量,再将得到的成对数据代入上面的公式,计算出相关系数.这个相关系数就能确切地反映变量之间的相关程度.
新知讲解
不过,在实际中,获得总体中所有的成对数据往往是不容易的.因此,我们还是要用样本估计总体的思想来解决问题.也就是说,我们先要通过抽样获取两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关系数,从而了解两个变量之间的相关程度.对于简单随机样本而言,样本具有随机性,因此样本相关系数也具有随机性.
一般地,样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.
例题讲解
例1 根据表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本相关系数,并推断它们的相关程度.
新知讲解
解:先画出散点图,如图所示.观察散点图,可以看出样本点都集中在一条直线附近,由此推断脂肪含量和年龄线性相关.
根据样本相关系数的定义,
.
新知讲解
利用计算工具计算可得,,,
.
代入①式,得
由样本相关系数,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程度很强.
例2 有人收集了某城市居民年收入(所有居民在一年内收入得总和)与商品销售额得10年数据,如表所示.
画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与A商品销售额得相关程度和变化趋势的异同。
例题讲解
第年 1 2 3 4 5 6 7 8 9 10
居民年收入/亿元 32.2 31.1 32.9 35.8 37.1 38.0 39.0 43.0 44.6 46.0
A商品销售额/万元 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0
例题讲解
解:画出成对样本数据的散点图,如图所示.从散点图看,A商品销售额与居民年收入的样本数据呈现出线性相关关系.
由样本数据计算得样本相关系数.由此可以推断,A商品销售额与居民年收入正线性相关,即A商品销售额与居民年收入有相同的变化趋势,且相关程度很强.
例题讲解
例3 在某校高一年级 中随机抽取25名男生,测得他们的身高、体重、臂展等数据,如下表所示.
编号 身高/cm 体重/kg 臂展/cm 编号 身高/cm 体重/kg 臂展/cm
1 2 3 4 5 6 7 8 9 10 11 12 13 173 179 175 179 182 173 180 170 169 1 77 177 178 174 55 71 52 62 82 63 55 81 54 54 59 67 56 169 170 172 177 174 166 174 1 69 1 66 176 170 174 170 14 15 16 17 18 19 20 21 22 23 24 25 166 176 176 175 169 184 169 182 171 177 173 173 66 61 49 60 48 86 58 54 58 61 58 51 161
166
165
173
162
189
164
170
164
173
165
169
问题6 体重与身高、臂展与身高分别具有怎样的相关性?
例题讲解
解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,两个散点图都呈现出线性相关的特征.
通过计算得到体重与身高、臂展与身高的样本相关系数分别约为0.34和0.78,都为正线性相关. 其中,臂展与身高的相关程度更高.
小结
1. 样本相关系数:
2.相关系数的性质:
当时,称成对样本数据正相关;当时,称成对样本数据负相关.
;
当越接近1时,成对数据的线性相关程度越强;当越接近0时,成对数据的线性相关程度越弱;特别地,当时,成对数据的没有线性相关关系;当时,成对数据都落在一条直线上.