第八章
成对数据的统计分析
8.1
成对数据的统计相关性
8.1.1
变量的相关关系
教学设计
一、教学目标
1.
理解变量的相关关系;
2.
会画出成对样本数据的散点图;
3.
会通过散点图判断成对样本数据的相关性;
二、教学重难点
1.
教学重点
利用散点图直观判断成对数据的相关性.
2.
教学难点
作出成对数据的散点图,通过散点图判断成对样本数据的相关性.
三、教学过程
(一)新课导入
思考:人的体重与身高存在关系,但由一个人的身高值并不能确定他的体重值.那么,该如何刻画这两个变量之间的关系呢?
(二)探索新知
1.
变量的相关关系
一个人的体重与他的身高有关系.一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.像这样,两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
两个变量具有相关关系的事例在现实中大量存在.例如:
1.子女身高y与父亲身高x之间的关系.一般来说,父亲的个子高,其子女的个子也会比较高;父亲个子矮,其子女的个子也会比较矮.但影响子女身高的因素,除父亲身高外还有其他因素,例如母亲身高、饮食结构、体育锻炼等,因此父亲身高又不能完全决定子女身高.
2.商品销售收入y与广告支出x之间的关系.一般来说,广告支出越多,商品销售收入越高.但广告支出并不是决定商品销售收入的唯一因素,商品销售收入还与商品质量、居民收入等因素有关.
3.空气污染指数y与汽车保有量x之间的关系.一般来说,汽车保有量增加,空气污染指数会上升.但汽车保有量并不是造成空气污染的唯一因素,气象条件、工业生产排放、居民生活和取暖、垃圾焚烧等都是影响空气污染指数的因素.
4.粮食亩产量y与施肥量x之间的关系.在一定范围内,施肥量越大,粮食亩产量就越高.但施肥量并不是决定粮食亩产量的唯一因素,粮食亩产量还要受到土壤质量、降水量、田间管理水平等因素的影响.
因为在相关关系中,变量y的值不能随变量x的值的确定而唯一确定,所以我们无法直接用函数去描述变量之间的这种关系.因此,在研究两个变量之间的相关关系时,我们需要借助数据说话,即通过样本数据分析,从数据中提取信息,并构建适当的模型,再利用模型进行估计或推断.
2.
散点图
在对人体的脂肪含量和年龄之间关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据,如表所示,表中每个编号下的年龄和脂肪含量数据都是对同一个体的观测结果,它们构成了成对数据.
编号
1
2
3
4
5
6
7
年龄/岁
23
27
39
41
45
49
50
脂肪含量/%
9.5
17.8
21.2
25.9
27.5
26.3
28.2
编号
8
9
10
11
12
13
14
年龄/岁
53
54
56
57
58
60
61
脂肪含量/%
29.6
30.2
31.4
30.8
33.5
35.2
34.6
根据以上数据,你能推断人体的脂肪含量与年龄之间存在怎样的关系吗?
为了更加直观地描述上述成对样本数据中脂肪含量与年龄之间的关系,类似于用直方图描述单个变量样本数据的分布特征,我们用图形展示成对样本数据的变化特征.用横轴表示年龄,纵轴表示脂肪含量,则表中每个编号下的成对样本数据都可用直角坐标系中的点表示出来,由这些点组成了如图所示的统计图.我们把这样的统计图叫做散点图.
3.
由散点图判断变量的相关关系
观察上图,可以发现,这些散点大致落在一条从左下角到右上角的直线附近,表明随年龄值的增加,相应的脂肪含量值呈现增高的趋势.这样,由成对样本数据的分布规律,我们可以推断脂肪含量变量和年龄变量之间存在着相关关系.
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
由上图,能够推断脂肪含量与年龄这两个变量正相关.
散点图是描述成对数据之间关系的一种直观方法.观察上图散点图,从中不仅可以大致看出脂肪含量和年龄呈现正相关性,而且从整体上可以看出散点落在某条直线附近.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
观察散点图,我们发现:图(1)中的散点落在某条曲线附近,而不是落在一条直线附近,说明这两个变量具有相关性,但不是线性相关;类似地,图(2)中的散点落在一条折线附近,这两个变量也具有相关性,但它们既不是正相关,也不是负相关;图(3)中的散点杂乱无章,无规律可言,看不出两个变量有什么相关性.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
(三)课堂练习
1.下列两个变量之间的关系是相关关系的是(
)
A.正方体的棱长和体积
B.单位圆中角的度数和所对弧长
C.学生的学籍号与学生的数学成绩
D.日照时间与水稻的亩产量
答案:D
解析:选项A,B中两个变量之间是确定的函数关系,不是相关关系;选项C,学生的学籍号与学生的数学成绩是不相关的;选项D中日照时间与水稻的亩产量是相关的.
2.对变量x,y由观测数据得散点图(1);对变量y,z由观测数据得散点图(2).由这两个散点图可以判断(
)
A.变量x与y正相关,x与z正相关
B.变量x与y正相关,x与z负相关
C.变量x与y负相关,x与z正相关
D.变量x与y负相关,x与z负相关
答案:D
解析:由这两个散点图可以判断,变量x与y负相关,y与z正相关,所以x与z负相关.
3.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是(
)
A.利润率与人均销售额成正比例函数关系
B.利润率与人均销售额成反比例函数关系
C.利润率与人均销售额成正相关关系
D.利润率与人均销售额成负相关关系
答案:C
解析:根据题意,画出利润率与人均销售额的散点图,如图所示.
由散点图知,利润率与人均销售额成正相关关系.故选C.
4.对某高三学生在连续九次数学测试中的成绩(单位:分)进行统计得到如下散点图.下面关于这位同学的数学成绩的分析中,正确的共有(
)
①该同学的数学成绩总的趋势是在逐步升高;
②该同学在这连续九次测试中的最高分与最低分的差超过40分;
③该同学的数学成绩与考试次数具有线性相关性,且为正相关.
答案:D
解析:根据散点图可知该同学的成绩与考试次数正相关,所以①③均正确;第一次的成绩在90分以下,第九次的成绩在130分以上,所以②正确,故选D.
5.某个男孩的年龄与身高的统计数据如下表所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
答案:(1)散点图如图所示.
(2)由图知,所有样本点接近一条直线排列,因此,认为y与x具有线性相关关系.
(四)小结作业
小结:画出成对样本数据的散点图,通过散点图判断成对样本数据的相关性.
作业:
四、板书设计
8.1.1
变量的相关关系
1.
变量的相关关系;
2.
散点图;
3.
由散点图判断变量的相关关系:
(1)正相关、负相关.
(2)线性相关.
(3)非线性相关(曲线相关).