中小学教育资源及组卷应用平台
第8讲 成对数据的统计相关性
1.C
【分析】由相关系数的绝对值越接近于1,回归模型拟合效果越好即可得出结论.
【详解】根据相关系数的绝对值大小可得模型3的相关系数为0.9,离1最接近,
所以C项的拟合效果最好.
故选:C
2.C
【分析】根据相关系数的定义判断.
【详解】因为,,所以变量与之间呈正相关关系,变量与之间呈负相关关系,且与之间的相关性弱于与之间的相关性.
故选:C.
3.C
【详解】分析:将数据按照大小顺序排列后,由于一共有7个数字,所以取第四个数字为中位数.
日均成交量为成交量的平均数,正相关为统计图中的点从左下分布至右上.
认购量与成交量的增量均是第七天与第六天数据之差.
详解:将成交量数据按大小顺序排列,中位数为26,所以①错;
平均成交量为,超过44.1的只有一天,所以②错;
由图中可以看出,数据点并不是从左下分布至右上,所以③错;
10月7日认购量增量为,成交量增量为,所以④对.
故选C.
点睛:本题主要考查统计知识,需熟练掌握样本数据特征的计算以及变量的相关性的概念.
4.D
【分析】根据残差图的定义和性质逐个分析判断即可.
【详解】对于A,通过残差图可以发现原始数据中的可疑数据,判断所建模型的拟合效果,所以A正确,
对于B,由残差图可知残差图的纵坐标只能是残差,横坐标可以是编号,解释变量,也可以是预报变量,所以B正确,
对于C,残差点分布的带状区域的宽度越窄,模型拟合精度越高,预报精度越高,所以C正确,
对于D,残差点分布的带状区域的宽度越窄,残差平方和越小,相关指数越大,所以D错误,
故选:D
5.C
【分析】根据正相关、负相关以及线性相关关系的强弱可得出结果.
【详解】由题意可知,第一、四组数据正相关,第二、三组负相关,
当相关系数的绝对值越大,数据的线性相关性越强,
且第一组数据的线性相关性较第四组强,则,
第二组数据的线性相关性较第三组强,则且,,则.
因此,.
故选:C.
6.D
【分析】①根据回归分析基本思想判断,残差平方和越小,拟合效果越好;
②根据相关系数的计算公式,来判断②是否正确;
③利用回归方程的系数,判断③是否正确;
④根据独立性检验的基本思想,观测值越大,“与有关系”的把握程度越大.
【详解】根据回归分析基本思想,残差平方和越大,说明模型的拟合效果越不好,即①为假命题;两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0;故②为真命题;在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.4个单位,故③为真命题;对分类变量与的随机变量的观测值来说,越小,“与有关系”的把握程度越小,故④为假命题;故真命题为:②③.
故选:D.
【点睛】本题借助考查命题的真假判断,考查回归分析,独立性检验,重点考查基础概念,属于基础题型.
7.B
【分析】根据散点图中点的分布的特征,确定四个图对应的相关系数的正负以及大小关系,可得答案.
【详解】由散点图可知第1,3图表示的正相关,且第1个图中的点比第3个图中的点分布更为集中,
故;
第2,4图表示的负相关,且第2个图中的点比第4个图中的点分布更为集中,
故,且,故,
综合可得,
故选:B
8.D
【分析】根据一元线性回归模型对随机误差的假定即可判断结果.
【详解】图A显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图B说明残差的方差不是一个常数,随观测时间变大而变大;
图C显示残差与观测时间有线性关系,应将时间变量纳入模型;
图D的残差较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,
可见D满足一元线性回归模型对随机误差的假定.
故选:D.
9.C
【分析】根据回归方程和相关系数的定义逐项判断即可.
【详解】对于A:若,则与是正相关,故A错误;
对于B:若接近,则表示与的相关性很强,故B错误;
对于C:若,则与是正相关,则,故C正确;
对于D:线性回归方程为估计值,不知准确值,故D错误.
故选:C.
10.A
【详解】分析:利用回归方程,计算时,的值,进而可求方程在样本处的残差.
详解:当时,,
∴方程在样本处的残差是
故选A.
点睛:本题考查线性回归方程的运用,考查学生的计算能力,属于基础题.
11.ACD
【分析】根据相关系数的意义依次判断各个选项即可.
【详解】对于A,相关系数,可以为负值,A错误;
对于BC,根据相关系数意义知:,且越接近于,相关程度越大,相反则越小,B正确,C错误;
对于D,当时,两个变量之间为负相关关系,D错误.
故选:ACD.
12.AC
【分析】利用相关系数的定义与性质可判断各选项的正误.
【详解】两个变量的相关系数,则两个变量正相关,A对;
两个变量的相关系数的绝对值越大,它们的线性相关程度越强,B错;
若两个变量负相关,则其样本点集中在一条斜率为负的直线附近,C对;
相关系数的取值范围是,D错.
故选:AC.
13.BCD
【分析】根据回归分析的基本概念,逐项分析,即可求解.
【详解】对于A中,根据回归系数的含义,可得回归方程,变量增加一个单位,平均减少4个单位,所以A是正确的;
对于B中,根据互斥事件与对立事件的关系,可得互斥事件不一定是对立事件,对立事件一定是互斥事件,所以B项不正确;
对于C中,对分类变量与,随机变量的观测值越大,则判断“与有关系”的把握程度越大,所以C项不正确;
对于D中,两个随机变量的线性相关系数越接近0,则这两个随机变量相关性越弱,所以D项不正确.
故选:BCD.
【点睛】本题主要考查回归分析的基本概念,以及互斥事件与对立事件的关系,以及分类变量的线性相关系数的基本概念,属于基础概念题.
14.ABD
【分析】由已知求出可得,代入可解得,即可判断A;根据正态分布的对称性,即可判断选项B;若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,可得C答案错误;由一组数据的平均数是2算出,即可判断D答案正确.
【详解】由可得
,代入可解得,故A答案正确;
因为区间和关于对称,
所以正态分布在区间和上取值的概率相等,
故B答案正确;
若两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,
故C答案错误;
若一组数据的平均数是2,即
解得,所以这组数的众数和中位数都是2,故D答案正确
故选:ABD
【点睛】本题考查的知识点有:线性回归分析、正态分布、平均数、中位数和众数,属于基础题.
15.BC
【分析】根据二项分布的期望公式,即可判断A;根据正态分布的对称性,即可判断B;根据百分位数的定义,判断C,根据相关系数的定义,即可判断D.
【详解】对于A,随机变量,则,
故,故A错误;
对于B,∵随机变量,,
∴;故B正确;
对于C,先把原数据从小到大排列:90,92,92,93,93,94,95,96,99,100,,第80百分位数为,故C正确;
对于D,样本相关系数人的范围在-1和1之间,有正有负,相关有正相关和负相关,
相关系数的绝对值的大小越接近1,两个变量的线性相关性越强,反之,线性相关性越弱,故D错误;
故选:BC
16.AD
【分析】根据散点图和变量关系依次判断即可.
【详解】对A,根据散点图易得变量与正相关,故A正确;
对B,由散点图可得与的变化趋向于一条曲线,所以模型二能更好地拟合GDP值随年份的变化情况,故B错误;
对C,若选择模型二,,令,则图象经过点,故C错误;
对D,当时,通过模型计算得GDP值为70,实际GDP值为71,则残差为1,故D正确.
故选:AD.
17.BC
【分析】根据线性回归系数的定义、正态分布的性质以及期望与方差的性质逐一判断可得选项.
【详解】解:对于A:相关系数的定义得:相关系数r的绝对值越接近于1, x,y的线性相关程度越强,故A错误;
对于B:回归方程为时,因为,所以变量x和y具有负的线性相关关系,故B正确;
对于C:因为随机变量服从正态分布N(0,1),P(>1)=P,所以P(-1<<1)=1-2P,故C正确;
对于D:根据期望与方差的性质得E(2X+1)=2E(X)+1,D(2X+1)=4D(X),故D错误,
故选:BC.
18.ABC
【分析】对于A,正态分布曲线关于直线对称,则,故选项A正确;对于B,回归方程的直线斜率为负数,所以变量x与y呈负的线性相关关系,所以B正确;对于C,所求概率为,所以C正确;对于D,由,解得或,所以D错误.
【详解】对于A,随机变量服从正态分布,若,则正态分布曲线关于直线对称,则,故选项A正确;
对于B,回归方程的直线斜率为负数,所以变量x与y呈负的线性相关关系,所以B正确;
对于C,该生在上学路上到第3个路口首次遇到红灯,则该生在前2个路口不是红灯,第3个路口是红灯,由独立事件的概率乘法可知,所求概率为,所以C正确;
对于D,由,即,解得或,所以D错误.
故选:ABC.
19.
【分析】根据数据计算各相关量,结合相关系数公式直接计算.
【详解】由已知得,,,,,
所以相关系数,
故答案为:.
20.
【分析】利用观测值减去预测值来求得残差.
【详解】,
残差为.
故答案为:
21.有
【分析】分析表格数据物品大小与销售价格的关系得解.
【详解】解:物品大小的值由小变大时,销售价格也由小变大,因此,两个变量有相关关系.
故答案为:有
22.①③/
【分析】根据相关系数的大小与线性相关性之间的关系判断可得出结果.
【详解】一般而言,当,则变量和具有较强的线性相关关系,
所以,①和③中变量和具有线性相关关系,②中相关系数的绝绝对值较小,
④中观察值的组数较少.
故答案为:①③.
23.
【分析】由于所有散点都在一条直线上,故,根据直线可知.
【详解】因为,所以这两个变量成负相关,故这组样本数据的相关系数为负值,又所有样本点都在直线上,则,所以.
【点睛】本小题考查相关系数的知识,如果散点都在一条直线上,则.
24.②
【分析】根据散点图判断即可;
【详解】解:根据散点图知,更适宜作为年销量关于年份代码的回归方程;
故答案为:②
25./
【分析】利用样本中心在其经验回归方程为上,求出,再计算当时的残差即可.
【详解】经验回归直线过样本点的中心,,,
经验回归方程为.当时,,残差为.
故答案为:.
26.①④
【分析】根据回归分析有关知识对选项逐一分析,由此确定正确选项.
【详解】解:回归直线经过样本点中心,①正确.
线性回归方程对应的直线不一定经过样本数据点,②错误.
在残差图中,残差点分布的代状区域的宽度越狭窄,其模型拟合的精度越高,③错误.
在回归分析中,越接近越好,④正确.
故答案为:①④
27.②
【分析】根据最小二乘法的定义,即可判断.
【详解】根据最小二乘法的定义,回归方程是为了使残差平方和最小.
故答案为:②
28.②
【分析】利用中位数、相关系数、的观测值、残差分析的相关知识逐个分析即可.
【详解】①由甲的数据可知它的中位数为45,乙的中位数为,故正确;
②相关系数时,两个变量有很强的相关性,故②错误;
③由于的观测值,满足,故有95%的把握认为两个变量有关,所以③正确;
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指,是正确的.
故答案为②.
【点睛】本题考查了中位数、相关系数、的观测值、残差分析,属于基础题.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
第8讲 成对数据的统计相关性
一、变量的相关关系
1、相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2、散点图:将样本中n个数据点()描在平面直角坐标系中得到的统计图叫做散点图,是描述成对数据之间关系的一种直观方法.
3.(1)正相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
(2)负相关:如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
4.(1)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;(2)非线性相关与曲线相关:如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关;
二、相关关系与函数关系的异同
1.相同点:两者均是指两个变量之间的关系.
2.不同点:(1)函数关系是一种确定的关系,相关关系是一种不确定的关系;(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
三、样本相关系数
1.样本相关系数:
其中,,,它们分别是变量x和变量y的算术平均数.
2.样本相关系数r的性质
(1)当时,称成对样本数据正相关;当时,成对样本数据负相关;当时,成对样本数据间没有线性相关关系;
(2)r的取值范围为[-1,1]. 当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.
【课堂训练】
一、单选题
1.在变量与x的回归模型中,根据下面四个的相关系数,判断拟合效果最好的是( )
A.模型1的相关系数为0.2 B.模型2的相关系数为0.3
C.模型3的相关系数为0.9 D.模型4的相关系数为0.8
2.已知表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,且,,则( )
A.变量与之间呈正相关关系,且与之间的相关性强于与之间的相关性
B.变量与之间呈负相关关系,且与之间的相关性强于与之间的相关性
C.变量与之间呈负相关关系,且与之间的相关性弱于与之间的相关性
D.变量与之间呈正相关关系,且与之间的相关性弱于与之间的相关性
3.某市国庆节天假期的楼房认购量(单位:套)与成交量(单位:套)的折线图如图所示,小明同学根据折线图对这天的认购量与成交量作出如下判断:①日成交量的中位数是;②日成交量超过日平均成交量的有天;③认购量与日期正相关;④月日认购量的增量大于月日成交量的增量.上述判断中错误的个数为
A. B. C. D.
4.下列关于残差图的叙述错误的是
A.通过残差图可以发现原始数据中的可疑数据,判断所建模型的拟合效果
B.残差图的纵坐标只能是残差,横坐标可以是编号,解释变量,也可以是预报变量
C.残差点分布的带状区域的宽度越窄,模型拟合精度越高,预报精度越高
D.残差点分布的带状区域的宽度越窄,残差平方和越小,相关指数越小
5.对四组数据进行统计后,获得了如下图所示的散点图,对于其相关系数的比较,下列说法正确的是( )
A. B.
C. D.
6.下面四个命题中真命题的是( )
①在回归分析模型中,残差平方和越大,说明模型的拟合效果越好;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.4个单位;
④对分类变量与的随机变量的观测值来说,越小,“与有关系”的把握程度越大.
A.①④ B.②④ C.①③ D.②③
7.对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B. C. D.
8.下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
9.已知变量关于的回归直线方程为,相关系数为,则下列选项正确的是( )
A.若,则与是正相关
B.若接近,则表示与的相关性很强
C.若,则
D.若变量增大一个单位,则变量就一定增加个单位
10.已知回归方程,则该方程在样本处的残差为
A.-1 B.1 C.2 D.5
二、多选题
11.对于线性相关系数,以下说法错误的是( )
A.只能是正值,不能为负值
B.,且越接近于,相关程度越大;相反则越小
C.,且越接近于,相关程度越小;相反则越大
D.时表示两个变量无相关关系
12.(多选)下列说法正确的是( )
A.两个变量的相关系数,则两个变量正相关
B.两个变量的相关系数越大,它们的线性相关程度越强
C.若两个变量负相关,则其样本点集中在一条斜率为负的直线附近
D.相关系数的取值范围是
13.下列说法中错误的是( )
A.对于回归方程,变量增加一个单位,平均减少4个单位
B.互斥事件一定是对立事件,对立事件不一定是互斥事件
C.对分类变量与,随机变量的观测值越小,则判断“与有关系”的把握程度越大
D.两个随机变量的线性相关系数越接近0,则这两个随机变量相关性越强
14.下列说法中正确的是( )
A.对具有线性相关关系的变量有一组观测数据,其线性回归方程是,且,则实数的值是
B.正态分布在区间和上取值的概率相等
C.若两个随机变量的线性相关性越强,则相关系数的值越接近于1
D.若一组数据的平均数是2,则这组数据的众数和中位数都是2
15.下列结论正确的有( )
A.若随机变量,则
B.若随机变量,,则
C.96,90,92,92,93,93,94,95,99,100的第80百分位数为97.5
D.样本相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱
16.某中学课外活动小组为了研究经济走势,根据该市1999—2021年的GDP(国内生产总值)数据绘制出下面的散点图:
该小组选择了如下2个模型来拟合GDP值随年份的变化情况,模型一:;模型二:,下列说法正确的有( )
A.变量与正相关
B.根据散点图的特征,模型一能更好地拟合GDP值随年份的变化情况
C.若选择模型二,的图象一定经过点
D.当时,通过模型计算得GDP值为70,实际GDP值为71,则残差为1
17.下列说法正确的有( )
A.相关系数r的绝对值越接近于1, x,y的线性相关程度越弱
B.回归方程为时,变量x和y具有负的线性相关关系
C.设随机变量服从正态分布N(0,1),若P(>1)=P,则P(-1<<1)=1-2P
D.E(2X+1)=2E(X)+1,D(2X+1)=4D(X)+1
18.下列命题中正确的是( )
A.设随机变量服从正态分布,若,则
B.经验回归方程为时,变量x和y负相关
C.某学生在上学的路上要经过4个路口,假设在各路口是否遇到红灯是相互独立的,遇到红灯的概率都是,那么该生在上学路上到第3个路口首次遇到红灯的概率为
D.若,则取最大值时
三、填空题
19.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号
根部横截面积
材积量
则该林区这种树木的根部横截面积与材积量的样本相关系数 (精确到).
20.已知方程是根据女大学生的身高预报她的体重的回归方程,其中的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是 .
21.以下是收集到的某物品的销售价格y和物品的大小x的数据:
物品大小/m2 11.5 110 80 135 105
销售价格/万元 4.8 21.6 18.4 29.2 22
则根据数据可以判断x,y 相关关系.(填“有”或“无”)
22.对四对变量与进行线性相关检验,已知是观测值组数,是相关系数,若已知①,;②,;③,;④,;则变量和具有线性相关关系的是 .
23.在一组样本数据为,,…,不全相等的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数 .
24.习近平总书记在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,这将进一步推动新能源汽车产业的迅速发展.根据近几年我国某新能源汽车的年销售量的调研,做出如图所示的散点图,给出与销售的两种回归模型①,②,你认为哪个模型更适宜 .(从①②中选一个填到空格处)
25.对具有线性相关关系的变量有一组观测数据(),其经验回归方程为,且,,则相应于点的残差为 .
26.下列说法正确的命题是 (填序号).
①回归直线过样本点的中心;
②线性回归方程对应的直线至少经过其样本数据点,,…,中的一个点;
③在残差图中,残差点分布的带状区域的宽度越宽,其模型拟合的精度越高;
④在回归分析中,为0.98的模型比为0.80的模型拟合的效果好.
27.一组成对数据,,,…,的样本中心点为(,),由这组数据拟合的线性回归方程为,用最小二乘法求回归方程是为了使 最小.①总偏差平方和;②残差平方和;③回归平方和.
28.有如下四个命题:
①甲乙两组数据分别为甲:28,31,39,42,45,55,57,58,66;乙:29,34,35,48,42,46,55,53,55,67.则甲乙的中位数分别为45和44.
②相关系数,表明两个变量的相关性较弱.
③若由一个22列联表中的数据计算得的观测值,那么有95%的把握认为两个变量有关.
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应于数据的残差是指.
以上命题“错误”的序号是
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)