统计
一、单选题
1.(2021·辽宁大连·高二期末)对四组数据进行统计,获得以下散点图,将四组数据相应的相关系数进行比较,正确的有( )
A. B.
C. D.
2.(2021·吉林·汪清县汪清第四中学高二期末(理))某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程是,则( )
A. B. C. D.
3.(2021·内蒙古·集宁二中高一期末)对两个变量进行线性相关检验,得线性相关系数,对两个变量进行线性相关检验,得线性相关系数,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
4.(2021·湖北·通城县第二高级中学高二期末)2020年2月,受新冠肺炎的影响,医卫市场上出现了“一罩难求”的现象.在政府部门的牵头下,部分工厂转业生产口罩,如表为某小型工厂2~5月份生产的口罩数(单位:万)
x 2 3 4 5
y 2.2 3.8 5.5 m
若y与x线性相关,且回归直线方程为,则表格中实数m的值为( )
A.6.5 B.6.9 C.7.1 D.7.6
5.(2021·陕西·榆林市第十中学高二期末(理))下列说法错误的是( )
A.当相关系数时,表明两个变量正相关
B.用相关系数r来衡量两个变量之间线性关系的强弱时,越接近于1,相关性越强
C.所有的样本点必然都落在回归直线上
D.回归直线过样本点的中心
6.(2021·陕西渭南·高二期末(文))党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值()(单位:万亿元)关于年份代号的回归方程为,由回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为( )
A.14.04 B.202.16 C.13.58 D.14.50
7.(2021·湖北·应城市第一高级中学高二期末)已知x与y之间的一组数据如下表:
x 3 4 5 6
y 30 40 60 50
若y与x线性相关,根据上表求得y与x的线性回归方程,中的为8,据此模型预报时y的值为( )A.70 B.63 C.65 D.66
二、多选题
8.(2021·福建·莆田二中高三期末)下列命题中,真命题的是( )
A.若样本数据的方差为2,则数据的方差为8
B.若回归方程为,则变量y与x负相关
C.若随机变量X服从正态分布,,则
D.在线性回归分析中相关指数用来刻画回归的效果,若值越小,则模型的拟合效果越好
9.(2021·山东德州·高二期末)19世纪中期,英国著名的统计学家弗朗西斯·高尔顿搜集了1078对夫妇及其儿子的身高数据,发现这些数据的散点图大致呈直线状态,即儿子的身高y(单位:cm)与父母平均身高x(单位:cm)具有线性相关关系,通过样本数据(),求得回归直线方程 ,则下列结论中正确的是( )
A.回归直线至少过中的一个点
B.若,,则回归直线过点
C.若父母平均身高增加1cm,则儿子身高估计增加0.516cm
D.若样本数据()所构成的点都在回归直线上,则线性相关系数
三、填空题
10.(2021·西藏·拉萨那曲高级中学高二期末(理))给出下列说法:
①回归直线恒过样本点的中心;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变;
④在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位.
其中说法正确的是_____________.
11.(2021·江苏南京·高二期末)已知变量y与x线性相关,若,,且与的线性回归直线的斜率为6.5,则线性回归方程是______.
12.(2021·西藏·林芝市第二高级中学高二期末(文))为了了解家庭月收入(单位:千元)与月储蓄(单位:千元)的关系,从某居民区随机抽取10个家庭,根据测量数据的散点图可以看出与之间具有线性相关关系,其回归直线方程为,若该居民区某家庭月收入为7千元,据此估计该家庭的月储蓄为__________千元.
四、解答题
13.(2021·湖北省武昌实验中学高二期末)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式.
参考数据:,.
回归方程中斜率和截距的最小二乘估计公式分别为,.
提升练
一、多选题
1.(2021·重庆·高二期末)下列说法错误的是( )
A.回归直线必过样本中心点
B.相关系数的绝对值越接近1,说明两个变量的线性相关性越强
C.残差的平方和越小,说明模型的拟合效果越差
D.在独立性检验中,统计变量越大,说明两个变量的关系就越弱
2.(2021·湖南·长沙一中高二期末)下列四个命题中正确的命题是( )
A.在回归模型中,预报变量的值不能由解释变量唯一确定
B.若变量,满足关系,且变量与正相关,则与也正相关
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,
二、填空题
3.(2021·江苏省天一中学高二期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为中学生追星与性别有关,则男生至少有__________人.
参考数据及公式如下:
0.050 0.010 0.001
3.841 6.635 10.828
,.
参考答案:
一、单选题
1.(2021·辽宁大连·高二期末)对四组数据进行统计,获得以下散点图,将四组数据相应的相关系数进行比较,正确的有( )
A. B.
C. D.
【答案】A
【解析】
【分析】
根据散点图可得正负相关关系,并根据散点图的集中程度确定大小关系.
【详解】
由散点图可知:图和图是正相关,相关系数大于;图和图是负相关,相关系数小于;
图中的点比图中的点更加集中,;图中的点比图中的点更加集中,;
.
故选:A.
2.(2021·吉林·汪清县汪清第四中学高二期末(理))某工厂的每月各项开支与毛利润(单位:万元)之间有如下关系,与的线性回归方程是,则( )
A. B. C. D.
【答案】A
【解析】
【分析】
求出样本中心点的坐标,代入回归直线方程可求得的值.
【详解】
由表格中的数据可得,,
则样本中心点的坐标为,
将样本中心点的坐标代入回归直线方程可得,解得.
故选:A.
3.(2021·内蒙古·集宁二中高一期末)对两个变量进行线性相关检验,得线性相关系数,对两个变量进行线性相关检验,得线性相关系数,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
【答案】C
【解析】
【分析】
由线性相关系数的正负判断两变量的正负相关性,由线性相关系数的绝对值大小判断两变量相关性强弱.
【详解】
由线性相关系数知与正相关,
由线性相关系数知与负相关,
又,所以,变量与的线性相关性比与的线性相关性强,
故选:C
4.(2021·湖北·通城县第二高级中学高二期末)2020年2月,受新冠肺炎的影响,医卫市场上出现了“一罩难求”的现象.在政府部门的牵头下,部分工厂转业生产口罩,如表为某小型工厂2~5月份生产的口罩数(单位:万)
x 2 3 4 5
y 2.2 3.8 5.5 m
若y与x线性相关,且回归直线方程为,则表格中实数m的值为( )
A.6.5 B.6.9 C.7.1 D.7.6
【答案】C
【解析】
【分析】
利用回归直线经过样本中心可求的值.
【详解】
,故,故,
故,
故选:C.
5.(2021·陕西·榆林市第十中学高二期末(理))下列说法错误的是( )
A.当相关系数时,表明两个变量正相关
B.用相关系数r来衡量两个变量之间线性关系的强弱时,越接近于1,相关性越强
C.所有的样本点必然都落在回归直线上
D.回归直线过样本点的中心
【答案】C
【解析】
【分析】
根据相关系数、相关系数的概念以及回归直线方程的特点进行分析和判断.
【详解】
由相关系数的意义知:当相关系数时,表明变量x和y正相关,故A正确;
用相关系数r来衡量两个变量之间线性关系的强弱时,接近于1,相关性越强,故B正确;
所有的样本点都可能落在回归直线上,但也可能一个都不落在回归直线上,所以C不正确;
回归直线过样本点的中心,故D正确.
故选:C.
6.(2021·陕西渭南·高二期末(文))党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值()(单位:万亿元)关于年份代号的回归方程为,由回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为( )
A.14.04 B.202.16 C.13.58 D.14.50
【答案】A
【解析】
【分析】
先求出2035年对应的年份代号的值代入回归方程可得2035年底国内生产总值,再除以人口数量14.4亿即可求解.
【详解】
根据题意可得2035年底对应的,
将代入可得:万亿元,
所以我国在2035年底人均国内生产总值约为万元,
故选:A.
7.(2021·湖北·应城市第一高级中学高二期末)已知x与y之间的一组数据如下表:
x 3 4 5 6
y 30 40 60 50
若y与x线性相关,根据上表求得y与x的线性回归方程,中的为8,据此模型预报时y的值为( )A.70 B.63 C.65 D.66
【答案】C
【解析】
根据表中数据,求得,代入公式,即可求得,进而可得线性回归方程,令代入方程,即可求得答案.
【详解】
由表中数据可知:,
所以,所以,
令,,
故选:C
二、多选题
8.(2021·福建·莆田二中高三期末)下列命题中,真命题的是( )
A.若样本数据的方差为2,则数据的方差为8
B.若回归方程为,则变量y与x负相关
C.若随机变量X服从正态分布,,则
D.在线性回归分析中相关指数用来刻画回归的效果,若值越小,则模型的拟合效果越好
【答案】AB
【解析】
【分析】
结合新样本数据的方差公式可判断A正确;由前系数可判断B正确;结合正态分布对称性可求的值;相关指数越大,模拟效果越好.
【详解】
若样本数据的方差为2,则数据的方差为,A项正确;
,,则变量y与x负相关,B项正确;
因为X服从正态分布,,
则,故C项错误;
在线性回归分析中相关指数越大,则模型的拟合效果越好,故D项错误.
故选:AB
9.(2021·山东德州·高二期末)19世纪中期,英国著名的统计学家弗朗西斯·高尔顿搜集了1078对夫妇及其儿子的身高数据,发现这些数据的散点图大致呈直线状态,即儿子的身高y(单位:cm)与父母平均身高x(单位:cm)具有线性相关关系,通过样本数据(),求得回归直线方程 ,则下列结论中正确的是( )
A.回归直线至少过中的一个点
B.若,,则回归直线过点
C.若父母平均身高增加1cm,则儿子身高估计增加0.516cm
D.若样本数据()所构成的点都在回归直线上,则线性相关系数
【答案】BCD
【解析】
【分析】
利用回归方程的性质判断各选项.
【详解】
对于A选项,回归直线不一定经过中的一个点,故A选项错误.对于B选项,回归直线过点,故B选项正确.对于C选项,由于,所以若父母平均身高增加1cm,则儿子身高估计增加0.516cm,故C选项正确.对于D选项,若样本数据()所构成的点都在回归直线上,则线性相关系数,故D选项正确,
故选:BCD.
三、填空题
10.(2021·西藏·拉萨那曲高级中学高二期末(理))给出下列说法:
①回归直线恒过样本点的中心;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变;
④在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位.
其中说法正确的是_____________.
【答案】①②④.
【解析】
【分析】
①回归直线恒过样本点的中心;
②两个变量相关性越强,则相关系数就越接近1;
③某7个数的平均数为4,方差为2,现加入一个新数据4,平均值不变,方差改变;
④回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位是平均减少,或者估计减少.
【详解】
①回归直线恒过样本点的中心,正确;
②两个变量相关性越强,则相关系数就越接近1,正确;
③某7个数的平均数为4,方差为2,现加入一个新数据4,平均值不变,方差改变,故错误;
④回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位是平均减少,或者估计减少,故正确.
故答案为:①②④.
11.(2021·江苏南京·高二期末)已知变量y与x线性相关,若,,且与的线性回归直线的斜率为6.5,则线性回归方程是______.
【答案】.
【解析】
【分析】
设线性回归方程为,把已知数据代入求得,则线性回归方程可求.
【详解】
解:设线性回归方程为,
,,与的线性回归直线的斜率为6.5,
.
关于的线性回归方程为.
故答案为:.
12.(2021·西藏·林芝市第二高级中学高二期末(文))为了了解家庭月收入(单位:千元)与月储蓄(单位:千元)的关系,从某居民区随机抽取10个家庭,根据测量数据的散点图可以看出与之间具有线性相关关系,其回归直线方程为,若该居民区某家庭月收入为7千元,据此估计该家庭的月储蓄为__________千元.
【答案】
【解析】
【分析】
直接代入即得答案.
【详解】
由于,代入,于是得到,故答案为1.7.
【点睛】
本题主要考查线性回归方程的理解,难度很小.
四、解答题
13.(2021·湖北省武昌实验中学高二期末)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式.
参考数据:,.
回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)0.95;答案见解析;(2);610千克.
【解析】
(1)根据散点图中的数据分别求得可得,,,,,进而求得相关系数,再与0.75比较下结论.
(2)结合(1)中的数据,分别求得,,写出回归方程,然后将代入求解.
【详解】
(1)由已知数据可得,,
所以,
,
,
所以相关系数.
因为,所以可用线性回归模型拟合y与x的关系.
(2),,
所以回归方程为.
当时,,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为610千克.
提升练
一、多选题
1.(2021·重庆·高二期末)下列说法错误的是( )
A.回归直线必过样本中心点
B.相关系数的绝对值越接近1,说明两个变量的线性相关性越强
C.残差的平方和越小,说明模型的拟合效果越差
D.在独立性检验中,统计变量越大,说明两个变量的关系就越弱
【答案】CD
【解析】
【分析】
根据回归直线的求法即可知样本中心在回归直线上即知A的正误,由相关系数、残差的含义判断B、C,根据独立性检验思想判断D.
【详解】
A:根据最小二乘法(回归直线的求法)知:样本中心在回归直线上,正确;
B:由相关系数的实际意义:其绝对值越接近1,变量间的相关性越强,正确;
C:由残差的含义:残差的平方和越小,拟合效果越好,错误;
D:由独立性检验思想知:统计变量越大,两个变量的相关可能性越高,错误.
故选:CD
2.(2021·湖南·长沙一中高二期末)下列四个命题中正确的命题是( )
A.在回归模型中,预报变量的值不能由解释变量唯一确定
B.若变量,满足关系,且变量与正相关,则与也正相关
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,
【答案】ACD
【解析】
【分析】
由已知结合归回方程的相关概念,不难确定A、C正确,选项B中,变量,,三者之间的关系,可根据给出的变量,满足的关系来判断;选项D中,可根据给到的回归方程,通过两边取指数,对比对应项的系数完成求解.
【详解】
选项A:在回归模型中,预报变量的值有解释变量和随机误差共同确定,即只能解释部分的变化,故该选项正确;
选项B:若变量,满足关系,且变量与正相关,则与也正相关;应该是负相关.故错误;
选项C:在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适. 相关指数来刻画回归的效果, 值越大,说明模型的拟合效果越好。比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好,故该选项正确;
选项D:以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,.故正确.
故选:ACD.
二、填空题
3.(2021·江苏省天一中学高二期末)针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为中学生追星与性别有关,则男生至少有__________人.
参考数据及公式如下:
0.050 0.010 0.001
3.841 6.635 10.828
,.
【答案】30
【解析】
【分析】
设男生人数为,依题意可得列联表;根据表格中的数据,代入求观测值的公式,求出观测值同临界值进行比较,列不等式即可得出结论.
【详解】
设男生人数为,依题意可得列联表如下:
喜欢追星 不喜欢追星 总计
男生
女生
总计
若在犯错误的概率不超过的前提下认为是否喜欢追星和性别有关,
则,
由,解得,
由题知应为6的整数倍,
若在犯错误的概率不超过的前提下认为是否喜欢追星和性别有关,
则男生至少有30人,
故答案为:30.