3.1 回归分析的基本思想及其初步应用
1.某研究员为研究某两个变量的相关性,随机抽取这两个变量样本数据如下表:
0.2
1
2.2
3.2
1.1
2.1
2.3
3.3
4.2
若依据表中数据画出散点图,则样本点都在曲线附近波动.但由于某种原因表中一个值被污损,将方程作为回归方程,则根据回归方程和表中数据可求得被污损数据为( )
A.1.2 B.1.3 C.1.4 D.1.5
2.根据最小二乘法由一组样本点其中,求得的回归方程是,则下列说法正确的是( )
A. 至少有一个样本点落在回归直线上
B. 若所有样本点都在回归直线上,则变量间的相关系数为1
C. 对所有的解释变量的值一定与有误差
D. 若回归直线的斜率,则变量与正相关
3.某研究员为研究某两个变量的相关性,随机抽取这两个变量样本数据如下表:
0.2
1
2.2
3.2
1.1
2.1
2.3
3.3
4.2
若依据表中数据画出散点图,则样本点都在曲线附近波动.但由于某种原因表中一个值被污损,将方程作为回归方程,则根据回归方程和表中数据可求得被污损数据为( )
A.1.2 B.1.3 C.1.4 D.1.5
4.在一组样本数据为(不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数为( )
A. B. C.1 D.
5.下列命题错误的是( )
A.两个随机变量的线性相关性越强,相关系数的绝对值越接近于1
B.设,且,则
C.在残差图中,残差点分布的带状区域的宽带越狭窄,其模型拟合的精度越高
D.已知变量和满足关系,若变量与正相关,则与负相关
6.在回归分析中,相关指数的值越大,说明残差平方和( )
A.越大 B.越小 C.可能大也可能小 D.以上均错
7.已知的取值如下表:
x
0
1
3
4
y
2.2
4.3
4.8
6.7
若具有线性相关关系,且回归方程为,则a的值为________.
8.某次测量发现一组数据具有较强的相关性,并计算得,其中数据因书写不清,只记得是内的任意一个值,则该数据对应的残差的绝对值不大于1的概率为______________.(残差=真实值-预测值)
9.前几年随着网购的普及,线下零售遭遇挑战,但随着新零售模式的不断出现,零售行
业近几年呈现增长趋势,下表为2016~2019年百货零售业的销售额(单位:亿元,数
据经过处理,1~4分别对应2016~2019年)
年份代码
1
2
3
4
销售额
95
165
230
310
(1)由上表数据可知,可用线性回归模型拟合与的关系,请用相关系数加以说明;
(2)建立关于的回归方程,并预测2020年我国百货零售业的销售额;
(3)从2016~2019年这4年的百货零售业销售额及2020年预测销售额这5个数据中
任取2个数据,求这2个数据之差的绝对值大于200亿元的概率.
参考数据:,
参考公式:相关系数回归方程中斜率和截距的最小二乘估计公式分别为.
答案以及解析
1.答案:C
解析:由表中数据额可得,,由线性回归方程得,,即,解得,故选C.
2.答案:D
解析:回归直线必过样本数据中心点,但样本点可能全部不在回归直线上,故A错误;
所有样本点都在上,则变量间的相关系数为,故B错误;
若所有的样本点都在上,则的值与相等,故C错误;
相关系数与符号相同,若的斜率,则,样本点应分布从左到右应该是上升的,则变量与正相关,故D正确.
故选:D.
3.答案:C
解析:由表中数据额可得,,由线性回归方程得,,即,解得,故选C.
4.答案:D
解析:由回归方程是,可得变量是负相关的,所以这组样本数据的相关系数为负值,又所有样本点都在该直线上,则,所以相关系数.故选D.
5.答案:B
解析:对于A,根据相关系数的意义知,A正确对于B,由点,知,概率密度函数的图象关于对称故
所以,故B错误对于C,根据残差图的意义,C正确对于D,变量和满足关系,所以和负相关,因为与正相关,所以与负相关,故D正确故选:B
6.答案:B
解析:根据回归分析的公式和性质,可以用来衡量模拟效果好坏的几个量分别是相关指数,残差平方和和相关系数,只有残差平方和越小越好,其他的都是越大越好.
用系数的值判断模型的拟合效果, 越大,模型的拟合效果越好,而用相关系数r的值判断模型的拟合效果时, 越大,模型的拟合效果越好,
由此可知相关指数的值越大,说明残差平方和越小.
7.答案:2.6
解析:由已知得,,而回归方程过点,则, ∴.
8.答案:
解析:根据题意,又,所以,由几何概型的概率公式可得,该数据对应的残差的绝对值不大于1的概率.
9.答案:(1)由表中的数据和参考数据得
,
,.
与的相关系数近似为0.999,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系
(2)由(1)得,,
关于的回归方程
将2020年对应的 代入回归方程得
故预测2020年我国百货零售业的销售额为377.5亿元.
(3)从这5个数据中任取2个数据,结果有:(95,165),(95,230),(95,310),(95,377.5),(165,230),
(165,310),(165,377.5),(230,310),(230,377.5),(310,377.5),共10个.
所取2个数据之差的绝对值大于200亿元的结果有:(95,310),(95,377.5),(165,377.5),共3个,
所以所求概率为.