INCLUDEPICTURE "数学RJAXZXBX3第八章LLL.TIF" INCLUDEPICTURE "数学RJAXZXBX3第八章LLL.TIF" \* MERGEFORMAT
8.1 成对数据的统计相关性
学习目标
1.了解变量间的相关关系,会画散点图. 2.会用散点图判断两个变量之间是否具有相关关系和线性相关关系. 3.结合实例,了解样本相关系数的统计含义. 4.会通过样本相关系数判断多组成对样本数据的相关性.
eq \o(\s\up7( INCLUDEPICTURE "新知学习探究LLL.TIF" INCLUDEPICTURE "新知学习探究LLL.TIF" \* MERGEFORMAT ),\s\do5( ))
INCLUDEPICTURE "新课导学1LLL.TIF" INCLUDEPICTURE "新课导学1LLL.TIF" \* MERGEFORMAT
在现实中,我们经常需要了解两个或两个以上变量之间的关系.例如:
(1)教育部门为掌握学生身体健康状况,需要了解身高变量和体重变量之间的关系;
(2)医疗卫生部门要制定预防青少年近视的措施,需要了解有哪些因素会影响视力,以及这些因素是如何影响视力的;
(3)商家要根据顾客的意见改进服务水平,希望了解哪些因素影响服务水平,以及这些因素是如何起作用的;等等.
为此,我们需要进一步学习通过样本推断变量之间关系的知识和方法.
思考1 正方形的面积y与正方形的边长x之间的函数关系是一个确定性的关系吗?
提示:正方形的面积y与正方形的边长x之间的函数关系为y=x2,是确定性关系.
思考2 一个人的体重与他的身高是一个确定性的关系吗?
提示:我们知道,一个人的体重与他的身高有关系.一般而言,个子高的人往往体重值较大,个子矮的人往往体重值较小.但身高并不是决定体重的唯一因素,例如生活中的饮食习惯、体育锻炼、睡眠时间以及遗传因素等也是影响体重的重要因素.所以一个人的体重与他的身高不是确定性关系.
一 相关关系的概念及判定
相关关系:两个变量有关系,但又没有确切到可由其中的一个去____________决定另一个的程度,这种关系称为相关关系.
[答案自填] 精确地
【即时练】
1.判断正误,正确的打“√”,错误的打“×”.
(1)y=2x2+1中的x,y是具有相关关系的两个变量.( )
(2)正四面体的体积与棱长具有相关关系.( )
(3)电脑的销售量与电脑的价格之间是一种确定性的关系.( )
(4)写作水平与课外阅读量具有相关关系.( )
答案:(1)× (2)× (3)× (4)√
2.(多选)下列变量之间的关系是相关关系的是( )
A.圆的面积S和半径r
B.成长期内,人的年龄与身高
C.降雪量和交通事故发生率
D.每亩田施肥量和粮食亩产量
解析:选BCD.对于A,两者之间是确定性的函数关系;对于B,一般来说,成长期内,人的年龄越大,身高越高,故两者是相关关系;对于C,一般来说降雪量越大,交通事故发生率越高,故两者是相关关系;对于D,一般来说在一定范围内,施肥量越多,粮食亩产量越高,故两者是相关关系.故选BCD.
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
函数关系与相关关系的区别
(1)函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系;
(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
二 散点图及应用
1.散点图:将样本中的成对样本数据用________中的点表示出来得到的统计图.
2.正相关与负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现________的趋势,我们就称这两个变量________相关;当一个变量的值增加时,另一个变量的相应值呈现__________的趋势,则称这两个变量________相关.
3.线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在______________附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
[答案自填] 直角坐标系 增加 正
减小 负 一条直线
INCLUDEPICTURE "例1LLL.TIF" INCLUDEPICTURE "例1LLL.TIF" \* MERGEFORMAT 某商城在某年前5个月的销售额和利润额资料如下表所示:
月份 一月 二月 三月 四月 五月
销售额x/千万元 3 5 6 7 9
利润额y/千万元 2 3 3 4 5
(1)根据上表数据画出散点图;
(2)观察散点图,判断利润额y与销售额x之间是否具有线性相关关系.
【解】 (1)散点图如图所示.
INCLUDEPICTURE "25RJS8-1.TIF" INCLUDEPICTURE "25RJS8-1.TIF" \* MERGEFORMAT
(2)由散点图可知,所有散点落在一条直线附近,所以利润额y与销售额x之间具有线性相关关系.
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
(1)画散点图的一般步骤
①建立平面直角坐标系,两轴的单位长度可以不一致;
②将n个数据点(xi,yi)(i=1,2,3,…,n)描在平面直角坐标系中,描出的点一般是实心点.
(2)由散点图判断线性相关的方法
通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.如果发现点的分布从整体上看大致落在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
画直线时,一定要画在多数点经过的区域.具体作直线时,用一条透明的直尺边缘尽量靠近或经过大多数点,然后画出直线.
[跟踪训练1] (1)(多选)某校地理学兴趣小组在某座山上测得不同位置的海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法正确的是( )
INCLUDEPICTURE "25XH1.TIF" INCLUDEPICTURE "25XH1.TIF" \* MERGEFORMAT
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与气压呈负相关
解析:选BC.由题图1知气压随海拔高度的增加而减小,由题图2知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,故B,C正确,A,D错误.
(2)(多选)观察下列散点图,具有相关关系的是( )
INCLUDEPICTURE "25RJS8-3.TIF" INCLUDEPICTURE "25RJS8-3.TIF" \* MERGEFORMAT
解析:选BC.A中,所有的散点都在曲线上,所以A具有函数关系,不符合题意;B中,所有的散点分布在一条直线的附近,所以B具有相关关系,符合题意;C中,所有散点都分布在一条曲线的附近,所以C具有相关关系,符合题意;D中,所有的散点杂乱无章,没有分布在一条直线或曲线的附近,所以D不具有相关关系,不符合题意.
三 样本相关系数
1.样本相关系数计算公式
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),其中x1,x2,…,xn和y1,y2,…,yn的均值分别为和,则r== eq \f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\i\su(i=1,n,x)-n\o(x,\s\up6(-))2) \r(\i\su(i=1,n,y)-n \o(y,\s\up6(-))2)) .称r为变量x和变量y的样本相关系数.
2.样本相关系数的性质
(1)样本相关系数r的取值范围为____________;
(2)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;
(3)|r|越接近1,成对样本数据的线性相关程度越强;|r|越接近0,成对样本数据的线性相关程度越弱.
[答案自填] [-1,1]
【即时练】
1.对四组不同数据进行统计,获得如图所示的散点图,对它们的样本相关系数进行比较,正确的是( )
INCLUDEPICTURE "25RJS8-4.TIF" INCLUDEPICTURE "25RJS8-4.TIF" \* MERGEFORMAT
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
解析:选A.由给出的四组数据的散点图可以看出,题图①和题图③中的成对样本数据是正相关的,样本相关系数大于0,题图②和题图④中的成对样本数据是负相关的,样本相关系数小于0,题图①和题图②中的点相对更加集中于一条直线附近,所以相关性更强,所以r1接近于1,r2接近于-1,由此可得r2<r4<0<r3<r1.故选A.
2.某唱片公司想了解唱片费用x(单位:十万元)与唱片销售量y(单位:千张)之间的关系,现从其所发行的唱片中随机抽取了10张,得到如下的资料:
i=28,=303.4,i=75,=598.5,iyi=237,则y与x的样本相关系数r=________.
解析:由题可知,==2.8,==7.5,
r= eq \f(\i\su(i=1,10,x)iyi-10\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\i\su(i=1,10,x)-10\o(x,\s\up6(-))2)\r(\i\su(i=1,10,y)-10\o(y,\s\up6(-))2)) =0.3.
答案:0.3
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
样本相关系数的计算步骤
第一步:求出,的值;
第二步:求出(xi-)(yi-),(xi-)2,
(yi-)2(或iyi,,)的值;
第三步:代入公式计算得结果.
四 相关系数的实际应用
INCLUDEPICTURE "例2LLL.TIF" INCLUDEPICTURE "例2LLL.TIF" \* MERGEFORMAT (对接教材例1)科研人员在对人体脂肪含量y和年龄x之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:
x/岁 26 27 39 41 49 53 56 58 60 61
y/% 14.5 17.8 21.2 25.9 26.3 29.6 31.4 33.5 35.2 34.6
根据上表的数据得到如下的散点图.
INCLUDEPICTURE "25RJS8-5.TIF" INCLUDEPICTURE "25RJS8-5.TIF" \* MERGEFORMAT
(1)求;
(2)计算样本相关系数(精确到0.01),并刻画它们的线性相关程度.
参考数据:=27,iyi=13 527.8,=23 638,
=7 759.6,≈6.56,≈54.18,
参考公式:样本相关系数
r=
= eq \f(\i\su(i=1,n,x)iyi-n\o(x,\s\up6(-)) \o(y,\s\up6(-)),\r(\i\su(i=1,n,x)-n\o(x,\s\up6(-))2)\r(\i\su(i=1,n,y)-n\o(y,\s\up6(-))2)) .
【解】 (1)=×(26+27+39+41+49+53+56+58+60+61)=47.
(2)r= eq \f(\i\su(i=1,10,x)iyi-10\o(x,\s\up6(-)) \o(y,\s\up6(-)),\r(\i\su(i=1,10,x)-10\o(x,\s\up6(-))2)\r(\i\su(i=1,10,y)-10\o(y,\s\up6(-))2))
=
=
=
=
≈
≈0.98.
由样本相关系数r≈0.98,可以推断人体脂肪含量和年龄的线性相关程度很强.
INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "解题技法LLL.TIF" \* MERGEFORMAT
相关关系强弱的定量分析与定性分析
(1)定量分析:样本相关系数r的范围为-1≤r≤1,r>0时,成对样本数据正相关;r<0时,成对样本数据负相关;|r|越接近1,成对样本数据的线性相关程度越强;|r|越接近0,成对样本数据的线性相关程度越弱;当|r|=1时,所有数据点都在一条直线上.
(2)定性分析:相关关系的强弱体现在散点图中就是样本点越集中在某条直线附近,两变量的线性相关程度越强;样本点在某条直线附近越分散,两变量的线性相关程度越弱.
[跟踪训练2] 某网店经销某商品,为了解该商品的月销量y(单位:千件)与售价x(单位:元/件)之间的关系,收集了5组数据并进行了初步处理,得到下表:
x 5 6 7 8 9
y 8 6 4.5 3.5 3
请根据表中数据计算y与x的样本相关系数r,并说明y与x之间的线性相关关系的强弱(精确到0.01).
参考数据及公式:≈12.85,
样本相关系数r=.
解:由题意,得=7,=5,
则(xi-)2=10,(yi-)2=16.5,
(xi-)(yi-)=-12.5,
所以r=≈-0.97.
因为|r|≈0.97非常接近1,
所以y与x之间的线性相关关系很强.
eq \o(\s\up7( INCLUDEPICTURE "课堂巩固自测LLL.TIF" INCLUDEPICTURE "课堂巩固自测LLL.TIF" \* MERGEFORMAT ),\s\do5( ))
1.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据计算得到样本相关系数为r1;方案二:剔除点(10,32),根据剩下的数据计算得到样本相关系数为r2,则( )
INCLUDEPICTURE "25RJS8-6.TIF" INCLUDEPICTURE "25RJS8-6.TIF" \* MERGEFORMAT
A.0C.-1解析:选A.由题图可知,变量x和y正相关,所以02.(多选)(教材P95 T1改编)给出下列关系,其中是相关关系的是( )
A.人的年龄与他(她)拥有的财富之间的关系
B.指数曲线上的点与该点的坐标之间的关系
C.苹果的产量与气候之间的关系
D.森林中的同一种树木,其截面直径与高度之间的关系
解析:选ACD.对于A,人的年龄与他(她)拥有的财富之间的关系是客观存在的相互依存的非确定性关系,具有相关关系,A符合题意;对于B,指数曲线上的点与该点的坐标之间的关系满足函数关系,为确定性关系,B不符合题意;对于C,苹果的产量与气候之间的关系是客观存在的相互依存的非确定性关系,具有相关关系,C符合题意;对于D,森林中的同一种树木,其截面直径与高度之间的关系是客观存在的相互依存的非确定性关系,具有相关关系,D符合题意.故选ACD.
3.为了比较甲、乙、丙、丁四组数据的线性相关程度的强弱,小明分别计算了甲、乙、丙、丁四组数据的样本相关系数,其数值分别为-0.95,-0.87,0.76,0.92,则这四组数据中线性相关程度最强的是________组数据.
解析:根据题意,因为样本相关系数的绝对值越大,线性相关程度越强,所以甲组数据的线性相关程度最强.
答案:甲
4.(教材P103T4改编)某商店经营一批进价为每件4元的商品,在市场调查时发现,此商品的销售单价x(单位:元)与日销售量y(单位:件)之间有如下关系:
x 5 6 7 8
y 10 8 7 3
试计算x,y之间的样本相关系数r,并刻画它们的线性相关程度.
参考数据:(xi-)(yi-)=-11,(xi-)2=5, (yi-)2=26,≈11.401 8.
解:由题意知,样本相关系数
r==
≈-0.964 8.
因为|r|≈0.964 8接近1,
所以y与x之间的线性相关程度很强.
INCLUDEPICTURE "课堂小结.TIF" INCLUDEPICTURE "课堂小结.TIF" \* MERGEFORMAT
1.已学习:(1)两个变量相关关系的概念;(2)通过散点图直观判断成对样本数据的相关性;(3)样本相关系数的概念与性质;(4)利用样本相关系数判断变量间的线性相关关系.
2.须贯通:掌握判断变量x和y是否具有线性相关关系的两种方法:(1)散点图法:直观观察散点是否分布在一条直线的附近;(2)样本相关系数法:|r|越接近1,说明变量间的线性相关程度越强.
3.应注意:相关关系的非确定性;样本相关系数的计算公式记错记混.