8.1 成对数据的统计相关性 课时作业
一、单选题
1.已知方程是根据女大学生的身高预报体重的回归方程,其中,的单位分别是,,则该方程在样本处的残差是
A.54.55 B.3.45 C.2.45 D.111.55
2.在下列各图中,每个图的两个变量具有相关关系的图是
A.(1)(2) B.(1)(3) C.(2) (4) D.(2)(3)
3.在一组样本数据不全相等的散点图中,若所有样本点都在直线上,则这组样本数据的样本相关系数为( )
A. B.0 C.1 D.
4.在下列各量之间,存在相关关系的是
①正方体的体积与棱长之间的关系; ②一块农田的水稻产量与施肥量之间的关系;
③人的身高与年龄之间的关系; ④家庭的支出与收入之间的关系;
⑤某户家庭用电量与电价之间的关系.
A.②③ B.③④ C.④⑤ D.②③④
5.研究变量得到一组样本数据,进行回归分析,有以下结论
①残差平方和越小的模型,拟合的效果越好;
②用相关指数来刻画回归效果,越小说明拟合效果越好;
③在回归直线方程中,当解释变量每增加1个单位时,预报变量平均增加0.2个单位
④若变量和之间的相关系数为,则变量和之间的负相关很强,以上正确说法的个数是
A.1 B.2 C.3 D.4
6.研究变量得到一组样本数据,进行回归分析,有以下结论:
①残差平方和越小的模型,拟合的效果越好;
②用相关指数来刻画回归效果,越小说明拟合效果越好;
③线性回归方程对应的直线至少经过其样本数据点中的一个点;
④若变量和之间的相关系数,则变量和之间的负相关很强.
以上正确说法的个数是
A. B. C. D.
二、多选题
7.某校高三1班48名物理方向的学生在一次质量检测中,语文成绩、数学成绩与六科总成绩在全年级中的排名情况如下图所示,“”表示的是该班甲、乙、丙三位同学对应的点.从这次考试的成绩看,下列结论正确的是( )
A.该班六科总成绩排名前6的同学语文成绩比数学成绩排名更好
B.在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是语文
C.数学成绩与六科总成绩的相关性比语文成绩与六科总成绩的相关性更强
D.在甲、乙两人中,其语文成绩名次比其六科总成绩名次靠前的学生是甲
8.下列说法正确的是( )
A.相关系数r越大,两个变量之间的线性相关性越强
B.相关系数r与回归系数同号
C.当时,是A与B独立的充要条件
D.正态曲线越“胖”,方差越小
三、填空题
9.对四组数据进行统计,依次获得如图所示的散点图.
关于其相关系数的大小比较,将0、、、、从小到大排列,应为______.
10.对相关系数r,
①r越大,线性相关程度越大;
②r越小,线性相关程度越大;
③|r|越大,线性相关程度越小,|r|越接近0,线性相关程度越大;
④|r|≤1且|r|越接近1,线性相关程度越大,|r|越接近0,线性相关程度越小
以上说法中,正确说法的序号是__________.
11.变量与相对应的一组数据为:,,,,; 变量与相对应的一组数据为,,,,,表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,是则与的大小关系是__.
12.若有一组数据的总偏差平方和为100,相关指数=0.75,则其残差平方和为_______.
四、解答题
13.新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.日前公布的《“十四五”中医药发展规划》提出,提升中医药参与新发突发传染病防治和公共卫生事件的应急处置能力.某中药企业决定加大中药产品的科研投入,根据市场调研和模拟,得到科研投入x(亿元)与产品的收益y(亿元)的数据统计如下:
投入x(亿元) 2 3 4 5 6
产品收益y(亿元) 3 7 9 10 11
(1)是否可用线性回归模型拟合y与x的关系?请用相关系数r加以说明(当时,变量x,y有较强的线性相关关系);
(2)利用最小二乘法求出y关于x的线性回归方程,并预测当科研投入为10亿元时产品的收益.
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为:,.
本题相关数据:,.
14.假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:
x 2 3 4 5 6
y 2.2 3.8 5.5 6.5 7.0
已知.
(1)求,;
(2)对x,y进行线性相关性检验.
15.某个男孩的年龄与身高的统计数据如下表所示.
年龄x(岁) 1 2 3 4 5 6
身高y(cm) 78 87 98 108 115 120
(1)画出散点图;
(2)判断y与x是否具有线性相关关系.
16.为了研究一种昆虫的产卵数y和温度x是否有关,现收集了7组观测数据列于下表中,并做出了散点图,
发现样本点并没有分布在某个带状区域内,两个变量并不呈现线性相关关系,现分别用模型①与模型;②作为产卵数y和温度x的回归方程来建立两个变量之间的关系.
温度x/℃ 20 22 24 26 28 30 32
产卵数y/个 6 10 21 24 64 113 322
400 484 576 676 784 900 1024
1.79 2.30 3.04 3.18 4.16 4.73 5.77
26 692 80 3.57
1157.54 0.43 0.32 0.00012
其中,,,.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
(1)根据表中数据,模型①、②的相关指数计算分别为,,请根据相关指数判断哪个模型的拟合效果更好.
(2)根据(1)中的判断,在拟合效果更好的模型下求y关于x的回归方程;并估计温度为30℃时的产卵数.(,,,与估计值均精确到小数点后两位)
(参考数据:,,)
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1.C
【解析】由题意首先求得预测值,然后计算残差即可.
【详解】由回归方程可得当身高为165cm时,
体重的预测值为:,
故样本的残差值为:.
故选C.
【点睛】本题主要考查线性回归方程的应用,残差的计算,属于基础题.
2.D
【分析】仔细观察图象,寻找散点图间的相互关系,主要观察这些散点是否围绕一条曲线附近排列着,由此能够得到正确答案.
【详解】散点图(1)中,所有的散点都在曲线上,所以(1)具有函数关系;
散点图(2)中,所有的散点都分布在一条直线的附近,所以(2)具有相关关系;
散点图(3)中,所有的散点都分布在一条曲线的附近,所以(3)具有相关关系,
散点图(4)中,所有的散点杂乱无章,没有分布在一条曲线的附近,所以(4)没有相关关系.
故选D.
【点睛】本题考查散点图和相关关系,是基础题.
3.A
【分析】根据样本数据的所有样本点都在一条直线上,得出这组样本数据完全相关,再根据直线的斜率得出是正相关还是负相关即可.
【详解】这组样本数据的所有样本点都在直线上,
这组样本数据完全相关,
即说明这组数据的样本完全负相关,其相关系数是
故选:A.
4.D
【详解】试题分析:相关关系是一种非确定的关系,而①和⑤均是两个有确定关系的量.
考点:相关关系.
5.C
【分析】由题意逐一考查所给命题的真假即可.
【详解】由题意可知:研究变量,得到一组样本数据,进行回归分析时:
①残差平方和越小的模型,拟合的效果越好;
②用相关指数来刻画回归效果,越大说明拟合效果越好,故②错;
③在回归直线方程中,当解释变量每增加1个单位时,预报变量平均增加0.2个单位
④相关系数为正值,则两变量之间正相关,相关系数为负值,则两变量之间负相关,相关系数的绝对值越接近1,则变量之间的相关性越强.若变量和之间的相关系数为,则变量和之间的负相关很强.
综上可得,正确说法的个数是3.
本题选择C选项.
【点睛】本题主要考查线性回归方程的性质及其结论的应用等知识,属于基础能力.
6.B
【分析】由题意,对各个命题逐一判断,可得真假.
【详解】①残差平方和越小的模型,模拟效果越好,故①对;
②用相关指数来刻画回归效果,越大说明模拟效果越好,故②错
③回归直线必过样本中心,但数据点不一定在线上,故③错
④相关系数为正值,则两变量正相关,相关系数为负值,则两变量负相关,且相关系数绝对值越接近1,相关性越强,,则负相关很强,故④对,故选B
【点睛】主要考查回归分析性质及结论的应用,属基础题.
7.BCD
【分析】结合图形可分析出答案.
【详解】由图可得,该班六科总成绩排名前6的同学数学成绩比语文成绩排名更好,故A错误;
由右图可得丙同学的总成绩排在班上倒数第三名,其语文成绩排在250到300名之间,
从左图可得其数学成绩排在400名左右,故B正确;
数学成绩与六科总成绩的相关性比语文成绩与六科总成绩的相关性更强,因为右图的点的分布较左图更分散,故C正确;
由左图可得甲的总成绩排在班上第7名,年级名次100多一点,
对应到右图可得,其语文成绩排在年级近100名,故甲的语文成绩名次比其六科总成绩名次靠前,
由左图可得甲的总成绩排在班上第27名,年级名次接近250名,
对应到右图可得,其语文成绩排在年级250名之后,故乙的语文成绩名次比其六科总成绩名次靠后,故D正确;
故选:BCD
8.BC
【分析】A选项,结合相关系数的意义作出判断,A错误;B选项,分r为正和r为负两种情况进行说明;C选项,从条件概率公式和独立事件的定义进行分析即可;D选项,从正态曲线的性质得到方差越大.
【详解】相关系数,相关系数越大,两个变量之间的线性相关性越强,A错误;
相关系数r为正时,则两个变量为正相关,故回归系数为正,相关系数r为负时,则两个变量为负相关,故回归系数为负,
故相关系数r与回归系数同号,B正确;
当时,,因为,所以,
即,故A与B独立,
若A与B独立,则,
因为,所以,
所以当时,是A与B独立的充要条件,C正确;
正态曲线越“胖”,说明随机变量的取值越分散,故方差越大,D错误.
故选:BC
9.
【分析】根据散点图直接求解即可.
【详解】由散点图可知,
所以.
故答案为:.
10.④
【详解】两个变量之间的相关系数,r的绝对值越接近于1,表示两个变量的线性相关性越强,r的绝对值非常接近于0时,表示两个变量之间几乎不存在线性相关.故答案为④.
11./
【分析】根据题意给的数据可知变量与之间的正相关、变量与之间的正相关,进而可得、,从而得出结果.
【详解】由变量与相对应的一组数据为:,,,,.
可得:变量与之间的正相关,因此.
而由变量与相对应的一组数据为,,,,,可知:变量与之间的正相关,.
因此与的大小关系是.
故答案为:.
12.25
【详解】因为数据的总偏差平方和为,相关指数,,,故答案为.
13.(1)可以
(2),预计收入为亿元;
【分析】(1)由所给数据求出,,从而求出,再根据相关系数公式求出相关系数,即可判断;
(2)求出、,即可得到回归直线方程,再令,即可得到预测值;
(1)
解:由表中数据可得,,
,
,,,
,
变量、有较强的线性相关关系,可用线性回归模型拟合与的关系.
(2)
解:由(1)知,
所以,
故关于的回归方程为,
将代入回归方程可得,,
故预测投入(亿元)时产品的收益为(亿元).
14.(1)4,5.0;(2)答案见解析.
【分析】(1)根据表格数据直接求解即可;
(2)根据题意,结合参考数据和相关系数的计算公式,求出,即可判断x与y之间是否具有线性相关关系.
【详解】(1) ,
.
(2),
,
,
所以.
所以有把握认为x与y之间具有线性相关关系,去求回归直线方程是有意义的.
15.(1)图见解析;(2)具有.
【分析】(1)利用表中数据描点可得出散点图.
(2)观察散点图可得y与x具有线性相关关系
【详解】(1)散点图如图所示.
(2)由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.
16.(1)模型②的拟合效果更好;(2),当时,估计产卵数为.
【分析】(1)根据相关指数的大小,即可比较模型拟合效果的优劣,相关指数越大,拟合效果越好;
(2)由(1)可知选模型②,两边取对数得,再令,则,所以先利用最小二乘法求的回归系数,再代换回去即可.
【详解】解:(1)因为,所以模型②的拟合效果更好.
(2)由(1)知模型②的拟合效果更好,
对于模型②:设,则,
其中,
.
所以y关于x的回归方程为,
当时,估计产卵数为.
【点睛】此题考查了线性回归方程的应用问题,考查了相关指数的应用问题,属于中档题.
答案第1页,共2页
答案第1页,共2页