8.1 成对数据的统计相关性(概念课逐点理清式教学)
课时目标
1.会通过收集现实问题中两个有关联变量的数据作出散点图,能利用散点图直观认识变量间的相关关系.
2.会求样本相关系数r,并能利用样本相关系数r判断两个随机变量线性相关程度的大小.
逐点清(一) 相关关系的概念
[多维度理解]
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为 关系.
微点助解
相关关系与函数关系的异同点
函数关系 相关关系
相同点 都是两个变量间的关系
不同点 是一种确定关系 是一种非确定关系
是一种因果关系 不一定是因果关系,也可能是伴随关系
[细微点练明]
1.[多选]下列说法正确的是 ( )
A.闯红灯与交通事故发生率的关系是相关关系
B.同一物体的加速度与作用力的关系是函数关系
C.产品的成本与产量的关系是函数关系
D.广告费用与销售量的关系是相关关系
2.判断以下两个变量之间是否具有相关关系
(1)正方形的面积与其周长之间的关系;
(2)父母的身高与子女的身高之间的关系;
(3)学生的学号与身高;
(4)汽车匀速行驶时的路程与时间的关系.
逐点清(二) 散点图与变量的相关关系
[多维度理解]
1.散点图:为了更加直观地描述成对样本数据中两个变量之间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
2.从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 的趋势,我们就称这两个变量 相关;当一个变量的值增加时,另一个变量的相应值呈现 的趋势,则称这两个变量 相关.
3.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们就称这两个变量 相关.
4.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
[细微点练明]
1.在下列所示的四个图中,每个图的两个变量具有线性相关关系的图是 ( )
2.对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
3.某种木材体积与树木的树龄之间有如下的对应关系:
树龄 2 3 4 5 6 7 8
体积 30 34 40 60 55 62 70
(1)请作出这些数据的散点图;
(2)你能由散点图发现木材的体积与树木的树龄近似呈什么关系吗
逐点清(三) 样本相关系数
[多维度理解]
1.样本相关系数: r==.
2.样本相关系数r的取值范围为 .
当|r|越接近1时,成对样本数据的线性相关程度越 ;
当|r|越接近0时,成对样本数据的线性相关程度越 .
微点助解
样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关;
当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系;
当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
[细微点练明]
1.对四组成对样本数据进行统计,获得以下散点图,关于其样本相关系数的比较,正确的是 ( )
A.r2C.r42.已知r1表示变量X与Y之间的样本相关系数,r2表示变量U与V之间的样本相关系数,且r1=0.837,r2=-0.957,则 ( )
A.变量X与Y之间呈正相关关系,且X与Y之间的相关程度强于U与V之间的相关程度
B.变量X与Y之间呈负相关关系,且X与Y之间的相关程度强于U与V之间的相关程度
C.变量U与V之间呈负相关关系,且X与Y之间的相关程度弱于U与V之间的相关程度
D.变量U与V之间呈正相关关系,且X与Y之间的相关程度弱于U与V之间的相关程度
3.学习于才干信仰,犹如运动于健康体魄,持之以恒、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x 1 2 3 4 5 6 7
一次最多答对题数y 12 15 16 18 21 24 27
参考数据:=4,=19,x=140,y=2 695,xiyi=600,≈2.45,
样本相关系数r==·.
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其样本相关系数r≈ (结果保留两位小数).
4.某食品加工厂新研制出一种袋装食品(规格:500 g/袋),下面是近六个月每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号 1 2 3 4 5 6
每袋出厂价格xi 10.5 10.9 11 11.5 12 12.5
月销售量yi 2.2 2 1.9 1.8 1.5 1.4
并计算得x=782.56,y=19.9,xiyi=122.
(1)计算该食品加工厂这六个月内这种袋装食品的每袋出厂价格的平均数、平均月销售量和平均月销售收入;
(2)求每袋出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若样本相关系数|r|≥0.75,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定的每袋食品的出厂价格与月销售量是否有较强的相关性.
附:样本相关系数r=,≈0.57.
8.1 成对数据的统计相关性
[逐点清(一)]
[多维度理解] 相关
[细微点练明]
1.选ABD 闯红灯与发生交通事故之间不是因果关系,但具有相关性,是相关关系,所以A正确;物体的加速度与作用力的关系是函数关系,所以B正确;产品的成本与产量之间是相关关系,所以C错误;广告费用与销售量之间是相关关系,所以D正确.
2.解:(1)设正方形的面积为S,周长为C,则S=,即正方形的面积由其周长唯一确定,因此二者是函数关系,不是相关关系.
(2)子女身高除了与父母的身高有一定关系外,还与其他因素有关,即子女的身高并不是由其父母的身高唯一确定的,因此二者之间具有相关关系.
(3)学生的学号与身高之间没有任何关系,不具有相关关系.
(4)若汽车匀速行驶时的速度为v,行驶的路程为s,时间为t,则s=vt,因此当速度一定时,路程由时间唯一确定,二者之间具有函数关系,而不是相关关系.
[逐点清(二)]
[多维度理解] 2.增加 正 减小 负 3.一条直线 线性
[细微点练明]
1.选B A中,两个变量x与y之间具有函数关系,不是相关关系,不符合题意;B中,两个变量x与y构成的点在一条直线附近带状分布,所以两个变量之间是线性相关关系,符合题意;C中,两个变量x与y构成的点不在一条直线附近带状分布,所以两个变量之间不是线性相关关系,不符合题意;D中,两个变量x与y构成的点不在一条直线附近带状分布,所以两个变量之间不是线性相关关系,不符合题意.
2.选C 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
3.解:(1)以x轴表示树木的树龄,y轴表示木材的体积,可得相应的散点图如图所示.
(2)由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树木的树龄呈线性相关关系.
[逐点清(三)]
[多维度理解] 2.[-1,1] 强 弱
[细微点练明]
1.选A 由给出的四组成对样本数据的散点图可以看出,题图1和题图3是正相关,样本相关系数大于0,题图2和题图4是负相关,样本相关系数小于0,题图1和题图2的样本点集中在一条直线附近,所以相关程度更强,所以r1接近于1,r2接近于-1,由此可得r22.选C 因为r1=0.837>0,r2=-0.957<0,所以变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,因为|r1|<|r2|,所以X与Y之间的相关程度弱于U与V之间的相关程度.
3.解析: 由题意r=·=×=×≈≈0.99.
答案:0.99
4.解:(1) 该食品加工厂这六个月内这种袋装食品每袋出厂价格的平均数为=×(10.5+10.9+11+11.5+12+12.5)=11.4(元),平均月销售量为=×(2.2+2+1.9+1.8+1.5+1.4)=1.8(万袋), 平均月销售收入为xiyi=×122=(万元).
(2) 由已知,每袋出厂价格与月销售量的样本相关系数为
r=
=
=
==-
=-≈-≈-0.98.
(3)由于每袋出厂价格与月销售量的样本相关系数|r|≈0.98>0.75,所以该食品加工厂制定的每袋食品的出厂价格与月销售量有较强的相关性.
4 / 4(共67张PPT)
8.1
成对数据的统计相关性
(概念课——逐点理清式教学)
课时目标
1.会通过收集现实问题中两个有关联变量的数据作出散点图,能利用散点图直观认识变量间的相关关系.
2.会求样本相关系数r,并能利用样本相关系数r判断两个随机变量线性相关程度的大小.
CONTENTS
目录
1
2
3
逐点清(一) 相关关系的概念
逐点清(二) 散点图与变量
的相关关系
逐点清(三) 样本相关系数
4
课时跟踪检测
逐点清(一) 相关关系的概念
01
多维度理解
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为______关系.
相关
微点助解
相关关系与函数关系的异同点
函数关系 相关关系
相同点 都是两个变量间的关系
不同点 是一种确定关系 是一种非确定关系
是一种因果关系 不一定是因果关系,也可能是伴随关系
细微点练明
1.[多选]下列说法正确的是 ( )
A.闯红灯与交通事故发生率的关系是相关关系
B.同一物体的加速度与作用力的关系是函数关系
C.产品的成本与产量的关系是函数关系
D.广告费用与销售量的关系是相关关系
√
√
√
解析:闯红灯与发生交通事故之间不是因果关系,但具有相关性,是相关关系,所以A正确;物体的加速度与作用力的关系是函数关系,所以B正确;产品的成本与产量之间是相关关系,所以C错误;广告费用与销售量之间是相关关系,所以D正确.
2.判断以下两个变量之间是否具有相关关系
(1)正方形的面积与其周长之间的关系;
解:设正方形的面积为S,周长为C,则S=,即正方形的面积由其周长唯一确定,因此二者是函数关系,不是相关关系.
(2)父母的身高与子女的身高之间的关系;
解:子女身高除了与父母的身高有一定关系外,还与其他因素有关,即子女的身高并不是由其父母的身高唯一确定的,因此二者之间具有相关关系.
(3)学生的学号与身高;
解:学生的学号与身高之间没有任何关系,不具有相关关系.
(4)汽车匀速行驶时的路程与时间的关系.
解:若汽车匀速行驶时的速度为v,行驶的路程为s,时间为t,则s=vt,因此当速度一定时,路程由时间唯一确定,二者之间具有函数关系,而不是相关关系.
逐点清(二) 散点图与变量
的相关关系
02
多维度理解
1.散点图:为了更加直观地描述成对样本数据中两个变量之间的关系,用横轴表示其中的一个变量,纵轴表示另一个变量,则成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
2.从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现_____的趋势,我们就称这两个变量_____相关;当一个变量的值增加时,另一个变量的相应值呈现______的趋势,则称这两个变量_____相关.
增加
正
减小
负
3.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在__________附近,我们就称这两个变量_______相关.
4.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
一条直线
线性
细微点练明
1.在下列所示的四个图中,每个图的两个变量具有线性相关关系的图是 ( )
√
解析:A中,两个变量x与y之间具有函数关系,不是相关关系,不符合题意;B中,两个变量x与y构成的点在一条直线附近带状分布,所以两个变量之间是线性相关关系,符合题意;C中,两个变量x与y构成的点不在一条直线附近带状分布,所以两个变量之间不是线性相关关系,不符合题意;D中,两个变量x与y构成的点不在一条直线附近带状分布,所以两个变量之间不是线性相关关系,不符合题意.
2.对变量x,y有成对样本数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有成对样本数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断 ( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:由这两个散点图可以判断,变量x与y负相关,u与v正相关.
√
3.某种木材体积与树木的树龄之间有如下的对应关系:
树龄 2 3 4 5 6 7 8
体积 30 34 40 60 55 62 70
(1)请作出这些数据的散点图;
解:以x轴表示树木的树龄,y轴表示木材的体积,可得相应的散点图如图所示.
(2)你能由散点图发现木材的体积与树木的树龄近似呈什么关系吗
解:由散点图发现木材体积随着树龄的增加而呈增加的趋势,且散点落在一条直线附近,所以木材的体积与树木的树龄呈线性相关关系.
逐点清(三) 样本相关系数
03
多维度理解
2.样本相关系数r的取值范围为______.
当|r|越接近1时,成对样本数据的线性相关程度越____;
当|r|越接近0时,成对样本数据的线性相关程度越_____.
[-1,1]
强
弱
微点助解
样本相关系数r是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征:
当r>0时,称成对样本数据正相关;
当r<0时,称成对样本数据负相关;
当|r|=1时,表明成对样本数据都在一条直线上,即两个变量之间满足一种线性关系;
当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
1.对四组成对样本数据进行统计,获得以下散点图,关于其样本相关系数的比较,正确的是 ( )
细微点练明
A.r2C.r4解析:由给出的四组成对样本数据的散点图可以看出,题图1和题图3是正相关,样本相关系数大于0,题图2和题图4是负相关,样本相关系数小于0,题图1和题图2的样本点集中在一条直线附近,所以相关程度更强,所以r1接近于1,r2接近于-1,由此可得r2√
2.已知r1表示变量X与Y之间的样本相关系数,r2表示变量U与V之间的样本相关系数,且r1=0.837,r2=-0.957,则 ( )
A.变量X与Y之间呈正相关关系,且X与Y之间的相关程度强于U与V之间的相关程度
B.变量X与Y之间呈负相关关系,且X与Y之间的相关程度强于U与V之间的相关程度
C.变量U与V之间呈负相关关系,且X与Y之间的相关程度弱于U与V之间的相关程度
D.变量U与V之间呈正相关关系,且X与Y之间的相关程度弱于U与V之间的相关程度
解析:因为r1=0.837>0,r2=-0.957<0,所以变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,因为|r1|<|r2|,所以X与Y之间的相关程度弱于U与V之间的相关程度.
√
3.学习于才干信仰,犹如运动于健康体魄,持之以恒、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x 1 2 3 4 5 6 7
一次最多答对题数y 12 15 16 18 21 24 27
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其样本相关系数r≈________(结果保留两位小数).
0.99
4.某食品加工厂新研制出一种袋装食品(规格:500 g/袋),下面是近六个月每袋出厂价格(单位:元)与销售量(单位:万袋)的对应关系表:
月份序号 1 2 3 4 5 6
每袋出厂价格xi 10.5 10.9 11 11.5 12 12.5
月销售量yi 2.2 2 1.9 1.8 1.5 1.4
(1)计算该食品加工厂这六个月内这种袋装食品的每袋出厂价格的平均数、平均月销售量和平均月销售收入;
(2)求每袋出厂价格与月销售量的样本相关系数(精确到0.01);
(3)若样本相关系数|r|≥0.75,则认为相关性很强;否则没有较强的相关性.你认为该食品加工厂制定的每袋食品的出厂价格与月销售量是否有较强的相关性.
课时跟踪检测
04
1
3
4
5
6
7
8
9
11
2
1.下列图中,样本相关系数最大的是 ( )
√
解析:观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他3图更接近1.故选A.
10
1
5
6
7
8
9
11
2
3
4
2.“吸烟有害健康,吸烟会对身体造成伤害”.相关科学家研究表明,开始吸烟年龄X分别为16岁、18岁、20岁和22岁者,其得肺癌的相对危险度Y依次为15.10,12.81,9.72,3.21;每天吸烟支数U分别为10,20,30者,其得肺癌的相对危险度V分别为7.5,9.5和16.6,用r1表示变量X与Y之间的样本相关系数,用r2表示变量U与V之间的样本相关系数,则下列说法正确的是 ( )
A.r1=r2 B.r1>r2>0
C.0√
10
1
5
6
7
8
9
11
2
3
4
解析:由题意可知,开始吸烟年龄递增时,得肺癌的相对危险度呈递减趋势,所以吸烟年龄与得肺癌的相对危险度呈负相关,所以r1<0,同理可知,得肺癌的相对危险度与每天吸烟支数呈正相关,所以r2>0.因此可得r1<010
1
5
6
7
8
9
11
3
4
2
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
解析:由题设知,这组样本数据完全正相关,也就是具有函数关系,其样本相关系数为1.
√
10
1
5
6
7
8
9
11
3
4
2
4.[多选]下列关于样本相关系数r的说法正确的是 ( )
A.样本相关系数r越大两个变量间相关程度越强
B.样本相关系数r的取值范围为[-1,1]
C.样本相关系数r>0时两个变量正相关,r<0时两个变量负相关
D.样本相关系数r=1时,样本点在同一直线上
√
√
√
10
1
5
6
7
8
9
11
3
4
2
解析:对于样本相关系数r,有以下结论:①当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.②r的绝对值越接近于1,表明两个变量的线性相关程度越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.对于A,当r<0时此结论不成立,所以A不正确;对于B,由样本相关系数的性质可得-1≤r≤1,所以B正确;对于C,由样本相关系数的性质可知正确;对于D,由样本相关系数的性质可知正确.
10
1
5
6
7
8
9
11
3
4
2
5.已知四组不同数据的两变量的样本相关系数如下:数据组①:r1=0;数据组②:r2=-0.95;数据组③:|r3|=0.89;数据组④:r4=0.75.下列说法正确的是 ( )
A.数据组①对应的数据点都在同一直线上
B.数据组②中的两变量线性相关性最强
C.数据组③中的两变量线性相关性最强
D.数据组④中的两变量线性相关性最弱
√
10
1
5
6
7
8
9
11
3
4
2
解析:数据组①中r1=0,表明两变量不具有线性相关性,故A错误;因为|r2|>|r3|>|r4|>|r1|,所以数据组②中的两变量线性相关性最强,故B正确,C错误;数据组①中r1=0,则两变量线性相关性最弱,故D错误.
10
1
5
6
7
8
9
11
3
4
2
6.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:小时)如下表:
由上表数据得到的正确结论是 ( )
身体综合指标评分(x) 1 2 3 4 5
用时(y/小时) 9.5 8.6 7.8 7 6.1
10
1
5
6
7
8
9
11
3
4
2
10
1
5
6
7
8
9
11
3
4
2
A.身体综合指标评分x与骑行用时y正相关
B.身体综合指标评分x与骑行用时y的相关程度较弱
C.身体综合指标评分x与骑行用时y的相关程度较强
D.身体综合指标评分x与骑行用时y的关系不适合用线性回归模型拟合
√
10
1
5
6
7
8
9
11
3
4
2
10
1
5
6
7
8
9
11
3
4
2
7.近五年来某草原羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示,
年份 1 2 3 4 5
羊只数量/万只 1.4 0.9 0.75 0.6 0.3
草地植被指数 1.1 4.3 15.6 31.3 49.7
10
1
5
6
7
8
9
11
3
4
2
若利用这五组数据得到的两变量间的样本相关系数为r1,去掉第一年数据(1.4,1.1)后得到的样本相关系数为r2,则r1_____r2(填“≥”“≤”“<”或“>”).
解析:根据散点图可知,羊只数量与草地植被指数呈负相关,则样本相关系数r1<0,r2<0,当去掉第一年数据(1.4,1.1)后,数据的线性相关性变强,所以|r1|<|r2|,所以r1>r2.
>
10
1
5
6
7
8
9
11
3
4
2
8.某校高三年级267名学生参加期末考试,其中某班37名学生的语文成绩、数学成绩与总成绩在全年级的排名情况分别如图①、图②所示,甲、乙、丙为该班三名学生.
10
1
5
6
7
8
9
11
3
4
2
(1)在甲、乙两人中,本次考试的语文成绩名次比其总成绩名次靠前的学生是_____;
解析:由题图①可知,在甲、乙两人中,本次考试的语文成绩名次比其总成绩名次靠前的学生是乙.
乙
10
1
5
6
7
8
9
11
3
4
2
(2)在语文和数学两个科目中,丙同学本次考试的成绩名次更靠前的科目是_______.
解析:因为同一个人的总成绩是不会变的,在题图②中丙是从右往左数第5个点,即丙的总成绩为班里倒数第5,所以在题图①中从右往左数第5个点表示的就是丙,可知这个点的位置比题图②中丙的位置高,所以语文名次更“靠后”,即丙同学本次考试的数学成绩更靠前.
数学
10
1
5
6
7
8
9
11
3
4
2
9.某市煤气消耗量与使用煤气户数的历史记录资料如表所示.
i(年) 1 2 3 4 5
x(户数:万户) 1 1.2 1.6 1.8 2
y(煤气消耗量: 百万立方米) 6 7 9.8 12 12.1
i(年) 6 7 8 9 10
x(户数:万户) 2.5 3.2 4 4.2 4.5
y(煤气消耗量: 百万立方米) 14.5 20 24 25.4 27.5
10
1
5
6
7
8
9
11
3
4
2
其散点图如图所示.
从散点图可知,煤气消耗量与使用煤气户数__________(填“线性相关”或“线性不相关”);若两者关系近似满足直线方程y=6.057x+0.082,则当煤气用户扩大到5万户时,该市煤气消耗量估计是________百万立方米.
线性相关
30.367
10
1
5
6
7
8
9
11
3
4
2
解析:由散点图发现图中各点在一条直线附近,所以煤气消耗量与使用煤气户数是线性相关关系.给出近似直线方程,只需将x=5代入,故该市煤气消耗量估计是6.057×5+0.082=30.367(百万立方米).
10
1
5
6
7
8
9
11
3
4
2
10.现有某种机械设备,随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.此种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示,计算y与x的样本相关系数r,并说明y与x的线性相关程度的强弱.
使用年限x(年) 2 4 5 6 8
失效费y(万元) 3 4 5 6 7
10
1
5
6
7
8
9
11
3
4
2
10
1
5
6
7
8
9
11
3
4
2
10
1
5
6
7
8
9
11
3
4
2
10
1
5
6
7
8
9
11
3
4
2
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
10
1
5
6
7
8
9
11
3
4
2
(2)求样本(xi,yi)(i=1,2,…,20)的样本相关系数(精确到0.01);
10
1
5
6
7
8
9
11
3
4
2
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
10
1
5
6
7
8
9
11
3
4
2
解:分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
10课时跟踪检测(二十三) 成对数据的统计相关性
1.下列图中,样本相关系数最大的是 ( )
2.“吸烟有害健康,吸烟会对身体造成伤害”.相关科学家研究表明,开始吸烟年龄X分别为16岁、18岁、20岁和22岁者,其得肺癌的相对危险度Y依次为15.10,12.81,9.72,3.21;每天吸烟支数U分别为10,20,30者,其得肺癌的相对危险度V分别为7.5,9.5和16.6,用r1表示变量X与Y之间的样本相关系数,用r2表示变量U与V之间的样本相关系数,则下列说法正确的是 ( )
A.r1=r2 B.r1>r2>0
C.03.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为 ( )
A.-1 B.0
C. D.1
4.[多选]下列关于样本相关系数r的说法正确的是 ( )
A.样本相关系数r越大两个变量间相关程度越强
B.样本相关系数r的取值范围为[-1,1]
C.样本相关系数r>0时两个变量正相关,r<0时两个变量负相关
D.样本相关系数r=1时,样本点在同一直线上
5.已知四组不同数据的两变量的样本相关系数如下:数据组①:r1=0;数据组②:r2=-0.95;数据组③:|r3|=0.89;数据组④:r4=0.75.下列说法正确的是 ( )
A.数据组①对应的数据点都在同一直线上
B.数据组②中的两变量线性相关性最强
C.数据组③中的两变量线性相关性最强
D.数据组④中的两变量线性相关性最弱
6.某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:小时)如下表:
身体综合指标评分(x) 1 2 3 4 5
用时(y/小时) 9.5 8.6 7.8 7 6.1
由上表数据得到的正确结论是 ( )
参考数据:(xi-)2=10,(yi-)2=7.06, (xi-)(yi-)=-8.4, ≈8.402.
参考公式:样本相关系数
r=.
A.身体综合指标评分x与骑行用时y正相关
B.身体综合指标评分x与骑行用时y的相关程度较弱
C.身体综合指标评分x与骑行用时y的相关程度较强
D.身体综合指标评分x与骑行用时y的关系不适合用线性回归模型拟合
7.近五年来某草原羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示,
年份 1 2 3 4 5
羊只数量/万只 1.4 0.9 0.75 0.6 0.3
草地植被指数 1.1 4.3 15.6 31.3 49.7
若利用这五组数据得到的两变量间的样本相关系数为r1,去掉第一年数据(1.4,1.1)后得到的样本相关系数为r2,则r1 r2(填“≥”“≤”“<”或“>”).
8.某校高三年级267名学生参加期末考试,其中某班37名学生的语文成绩、数学成绩与总成绩在全年级的排名情况分别如图①、图②所示,甲、乙、丙为该班三名学生.
(1)在甲、乙两人中,本次考试的语文成绩名次比其总成绩名次靠前的学生是 ;
(2)在语文和数学两个科目中,丙同学本次考试的成绩名次更靠前的科目是 .
9.某市煤气消耗量与使用煤气户数的历史记录资料如表所示.
i(年) 1 2 3 4 5
x(户数:万户) 1 1.2 1.6 1.8 2
y(煤气消耗量: 百万立方米) 6 7 9.8 12 12.1
i(年) 6 7 8 9 10
x(户数:万户) 2.5 3.2 4 4.2 4.5
y(煤气消耗量: 百万立方米) 14.5 20 24 25.4 27.5
其散点图如图所示.
从散点图可知,煤气消耗量与使用煤气户数 (填“线性相关”或“线性不相关”);若两者关系近似满足直线方程y=6.057x+0.082,则当煤气用户扩大到5万户时,该市煤气消耗量估计是 百万立方米.
10.现有某种机械设备,随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.此种机械设备的使用年限x(单位:年)与失效费y(单位:万元)的统计数据如下表所示,计算y与x的样本相关系数r,并说明y与x的线性相关程度的强弱.
使用年限x(年) 2 4 5 6 8
失效费y(万元) 3 4 5 6 7
附:r=,≈1.4.
11.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量, 并计算得xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的样本相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数r=,≈1.414.
课时跟踪检测(二十三)
1.选A 观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,|r|值相比于其他3图更接近1.故选A.
2.选D 由题意可知,开始吸烟年龄递增时,得肺癌的相对危险度呈递减趋势,所以吸烟年龄与得肺癌的相对危险度呈负相关,所以r1<0,同理可知,得肺癌的相对危险度与每天吸烟支数呈正相关,所以r2>0.因此可得r1<03.选D 由题设知,这组样本数据完全正相关,也就是具有函数关系,其样本相关系数为1.
4.选BCD 对于样本相关系数r,有以下结论:①当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.②r的绝对值越接近于1,表明两个变量的线性相关程度越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.对于A,当r<0时此结论不成立,所以A不正确;对于B,由样本相关系数的性质可得-1≤r≤1,所以B正确;对于C,由样本相关系数的性质可知正确;对于D,由样本相关系数的性质可知正确.
5.选B 数据组①中r1=0,表明两变量不具有线性相关性,故A错误;因为|r2|>|r3|>|r4|>|r1|,所以数据组②中的两变量线性相关性最强,故B正确,C错误;数据组①中r1=0,则两变量线性相关性最弱,故D错误.
6. 选C 因为样本相关系数r==≈-1.即样本相关系数近似为-1,y与x负相关,且相关程度相当高,从而可用线性回归模型拟合y与x的关系.所以选项A、B、D错误,C正确.
7.解析:根据散点图可知,羊只数量与草地植被指数呈负相关,则样本相关系数r1<0,r2<0,当去掉第一年数据(1.4,1.1)后,数据的线性相关性变强,所以|r1|<|r2|,所以r1>r2.
答案:>
8.解析:(1)由题图①可知,在甲、乙两人中,本次考试的语文成绩名次比其总成绩名次靠前的学生是乙.
(2)因为同一个人的总成绩是不会变的,在题图②中丙是从右往左数第5个点,即丙的总成绩为班里倒数第5,所以在题图①中从右往左数第5个点表示的就是丙,可知这个点的位置比题图②中丙的位置高,所以语文名次更“靠后”,即丙同学本次考试的数学成绩更靠前.
答案:(1)乙 (2)数学
9.解析:由散点图发现图中各点在一条直线附近,所以煤气消耗量与使用煤气户数是线性相关关系.给出近似直线方程,只需将x=5代入,故该市煤气消耗量估计是6.057×5+0.082=30.367(百万立方米).
答案:线性相关 30.367
10. 由题表知,=×(2+4+5+6+8)=5,=×(3+4+5+6+7)=5, (xi-)(yi-)=(2-5)×(3-5)+(4-5)×(4-5)+(5-5)×(5-5)+(6-5)×(6-5)+(8-5)×(7-5)=14, (xi-)2=(2-5)2+(4-5)2+(5-5)2+(6-5)2+(8-5)2=20, (yi-)2=(3-5)2+(4-5)2+(5-5)2+(6-5)2+(7-5)2=10,所以样本相关系数r===≈=0.98.
因为0.98>0.75,所以使用年限与失效费之间有较强的相关性.
11.解: (1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的样本相关系数
r===≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
4 / 4