8.1成对数据的统计相关性A
一.选择题(共8小题)
1.两个变量的散点图如图,可考虑用如下函数进行拟合比较合理的是
A. B. C. D.
2.如图所示,图中有5组数据,去掉______组数据后(填字母代号),剩下的4组数据的线性相关性最大
A. B. C. D.
3.在下列各图中,两个变量具有相关关系的图是
A.(1)(2)(3) B.(1)(3)(4) C.(2)(3)(4) D.(1)(2)(4)
4.为了比较甲、乙、丙三组数据的线性相关性的强弱,小郑分别计算了甲、乙、丙三组数据的线性相关系数,其数值分别为0.939,0.937,0.948,则
A.甲组数据的线性相关性最强,乙组数据的线性相关性最弱
B.乙组数据的线性相关性最强,丙组数据的线性相关性最弱
C.丙组数据的线性相关性最强,甲组数据的线性相关性最弱
D.丙组数据的线性相关性最强,乙组数据的线性相关性最弱
5.如图是九江市2019年4月至2020年3月每月最低气温与最高气温的折线统计图:已知每月最低气温与最高气温的线性相关系数,则下列结论错误的是
A.每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关
B.月温差(月最高气温月最低气温)的最大值出现在10月
C.月的月温差相对于月,波动性更大
D.每月最高气温与最低气温的平均值在前6个月逐月增加
6.甲、乙、丙、丁四位同学各自对,两变量的线性相关性作试验,并用回归分析方法分别求得相关系数,如表:
相关系数 甲 乙 丙 丁
0.78 0.69 0.87
则哪位同学的试验结果体现两变量有更强的线性相关性?
A.甲 B.乙 C.丙 D.丁
7.恩格尔系数是食品支出总额占个人消费支出总额的比重.据某机构预测,个城市职工购买食品的人均支出(千元)与人均月消费支出(千元)具有线性相关关系,且回归方程为,若其中某城市职工的人均月消费支出为5千元,则该城市职工的月恩格尔系数约为
A. B. C. D.
8.对变量,有观测数据,,2,,,得散点图(1);对变量,,有观测数据,,2,,,得散点图(2),由这两个散点图可以判断
A.变量与正相关,与正相关
B.变量与正相关,与负相关
C.变量与负相关,与正相关
D.变量与负相关,与负相关
二.多选题(共2小题)
9.如图所示,5个数据,去掉后,下列说法正确的是
A.相关系数变大
B.残差平方和变大
C.相关指数变小
D.解释变量与预报变量的相关性变强
10.下列结论中正确的个数是
A.若,则
B.在线性回归分析中,相关系数越大,变量间的相关性越强
C.已知随机变量服从正态分布,,则
D.已知,为两条不同直线,,为两个不同平面,若,,,则
三.填空题(共4小题)
11.下列说法:①分类变量与的随机变量越大,说明“与有关系”的可信度越大,②以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别是和0.3,③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,④若变量和满足关系,且变量与正相关,则与也正相关,正确的个数是 .
12.甲、乙、丙、丁四位同学各自对、两变量进行线性相关试验,并用回归分析方法分别求得相关系数如表:
甲 乙 丙 丁
0.85 0.80
则这四位同学的试验结果能体现出、两变量有更强的线性相关性的是 .
13.对两个变量的相关系数,有下列说法:(1)越大,相关程度越大;(2)越小,相关程度越大;(3)趋近于0时,没有非线性相关系数;(4)越接近于1时,线性相关程度越强,其中正确的是 .
14.高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况如图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 ;
②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是 .
四.解答题(共4小题)
15.在一段时间内,某种商品的价格元和需求量件之间的一组数据为:
(元 14 16 18 20 22
(件 12 10 7 5 3
且知与具有线性相关关系,求出对的线性回归方程,并说明拟合效果的好坏.
16.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如表所示:
根据以上数据试判断含杂质的高低与设备改造有无关系?
杂质高 杂质低
旧设备 37 121
新设备 22 202
17.研究某设备的使用年限与维修费用之间的关系,测得一组数据如下值为观察值)
年限(年 2 3 4 5 6
维修费用(万元) 3 4.4 5 5.6 6.2
由数据可知与有明显的线性相关关系,可以用一条直线的方程来反映这种关系.
(Ⅰ)将表中的数据画成散点图;
(Ⅱ)如果直线过散点图中的最左侧点和最右侧点,求出直线的方程;
(Ⅲ)如果直线过散点图中的中间点(即点,且使维修费用的每一个观察值与直线上对应点的纵坐标的差的绝对值之和最小,求出直线的方程.
18.某种产品的广告费支出与销售额(单位:万元)之间有如下对应数据:
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.83
2 4 5 6 8
30 40 60 50 70
(Ⅰ)画出散点图;
(Ⅱ)求回归直线方程;
(Ⅲ)试预测广告费支出为10万元时,销售额多大?
8.1成对数据的统计相关性A
参考答案与试题解析
一.选择题(共8小题)
1.【解答】解:由散点图可知,此曲线类似对数函数型曲线,因此可用函数模型进行拟合.
故选:.
2.【解答】解:图中5组数据,、、、四点分布在一条直线附近且靠近某一直线,
点离得较远,是离群点;
所以去掉点剩下的4组数据的线性相关性最大.
故选:.
3.【解答】解:图(1)、(2)、(3)中,散点图中的点大致分布在一条直线附近,成带状分布,所以变量间具有线性相关关系;
图(4)中,散点图中的点分布杂乱无章,不在一条直线附近,也不成带状分布,所以变量间不具有线性相关关系.
故选:.
4.【解答】解:甲、乙、丙三组数据的线性相关系数分别为0.939,0.937,0.948,
所以线性相关系数最大的丙组数据的线性相关性最强,
线性相关系数最小的乙组数据的线性相关性最弱.
故选:.
5.【解答】解:每月最低气温与最高气温的线性相关系数,可知每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关,
由所给的折线图可以看出月温差(月最高气温月最低气温)的最大值出现在10月,月的月温差相对于月,波动性更大,
每月的最高气温与最低气温的平均值在前5个月逐月增加,第六个月开始减少,所以正确,错误;
故选:.
6.【解答】解:根据题意知,丁同学的相关系数为最大,
所以丁同学的试验结果体现两变量有更强的线性相关性.
故选:.
7.【解答】解:把代入回归方程中,得;
则该城市职工的月恩格尔系数约为.
故选:.
8.【解答】解:由题图1可知,随的增大而减小,各点整体呈下降趋势,与负相关,
由题图2可知,随的增大而增大,各点整体呈上升趋势,与正相关.
故选:.
二.多选题(共2小题)
9.【解答】解:由散点图知,去掉离群点后,与的相关性变强,且为正相关,
所以相关系数的值变大,相关指数的值变大,残差平方和变小.
故选:.
10.【解答】解:若,且,则,若,则,故错误;
根据线性相关系数的绝对值越接近1,两个变量的线性相关性越强;反之,线性相关性越弱,判断错误;
已知随机变量服从正态分布,,则曲线关于对称,可得,,故正确;
已知,为两条不同直线,,为两个不同平面,若,,
过的一个平面与交于,由线面平行的性质定理可得,,同理由,过的平面与交于,可得
,则,,可得,再由线面平行的性质定理可得,则,故正确.
其中正确的个数为2.
故选:.
三.填空题(共4小题)
11.【解答】解:对于①,根据独立性原理知,分类变量与的随机变量越大,说明“与有关系”的可信度越大,①正确;
对于②,根据回归模型和对数的运算性质知,以模型去拟合一组数据时,为了求出回归方程,
设,将其变换后得到线性方程,则,的值分别是和0.3,所以②正确;
对于③,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域的宽度越狭窄,
其模型拟合的精度越高,所以③正确;
对于④,若变量和满足关系,且变量与正相关,则与是负相关,所以④错误.
综上知,正确命题的序号是①②③,共3个.
故答案为:3.
12.【解答】解:根据线性相关系数的定义,,相关性更强,
由表格可得能体现出、两变量有更强的线性相关性的是丁.
故答案为:丁.
13.【解答】解:对于(1),越大,相关程度越大,命题(1)正确;
对于(2),越小,相关程度越小,命题(2)错误;
对于(3),趋近于0时,线性相关关系越弱,命题(3)错误;
对于(4),越接近于1时,线性相关程度越强,命题(4)正确.
综上,正确的命题是(1)、(4).
故答案为:(1)、(4).
14.【解答】解:
①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是 乙;
②由高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级的排名情况的散点图可知,两个图中,同一个人的总成绩是不会变的.从第二个图看,丙是从右往左数第5个点,即丙的总成绩在班里倒数第5.在左边的图中,找到倒数第5个点,它表示的就是丙,发现这个点的位置比右边图中丙的位置高,所以语文名次更“大”,及数学的成绩更靠前.
故答案为:乙;数学.
四.解答题(共4小题)
15.【解答】解:,,
,,
,.
线性回归方程为;
时,,差是0,
时,,差是0.3,
时,,差是0.4,
时,,差是0.1,
时,,差是0.2,
,
由于0.9943609非常接近1,
故这个回归模型拟合效果比较好.
16.【解答】解:由已知数据得到如下列联表
杂质高 杂质低 合计
旧设备 37 121 158
新设备 22 202 224
合计 59 323 382
由公式,
由于,
故有的把握认为含杂质的高低与设备是否改造是有关的.
17.【解答】解:(Ⅰ)如图所示.
(Ⅱ)因为散点图中的最左侧点和最右侧点分别是,,
所以直线的方程是:,即.
(Ⅲ)由题意可设直线的方程为.
则维修费用的每一个观察值与直线上对应点的纵坐标的差的绝对值之和
,
因为的单调递增区间为,单调递减区间为,
所以当时,取得最小值0.8,
此时直线的方程是.
18.【解答】解:(Ⅰ)根据表中所列数据可得散点图如下:
(Ⅱ),
又已知,.
于是可得:
因此,所求回归直线方程为:
(Ⅲ)根据上面求得的回归直线方程,当广告费支出为10万元时,
(万元)
即这种产品的销售收入大约为82.5万元