9.1 线性回归分析 同步练习
学校:___________姓名:___________班级:___________考号:___________
一、单选题
1.给定两个随机变量的5组成对数据:,,,,.通过计算,得到关于的线性回归方程为,则( )
A.1 B.1.1 C.0.9 D.1.15
2.某车间加工零件的数量与加工时间的统计数据如表:
零件数(个) 18 20 22
加工时间(分) 27 33
现已求得上表数据的回归方程中的值为0.9,则据此回归模型可以预测,加工100个零件所需要的加工时间约为102分钟,则的值为( )
A.28 B.29 C.30 D.32
3.某公司收集了某商品销售收入(万元)与相应的广告支出(万元)共10组数据(),绘制出如下散点图,并利用线性回归模型进行拟合.
若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.残差平方和变小
C.相关系数的值变小 D.解释变量与预报变量相关性变弱
4.随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“618”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价(单位:元)和销售量(单位:百件)之间的一组数据(如表所示),用最小二乘法求得关于的线性回归方程是,预测当售价为45元时,销售量件数大约为( )(单位:百件)
20 25 30 35 40
5 7 8 9 11
A.12 B.12.5 C.13 D.11.75
5.开始吸烟年龄与得肺癌的相对危险度相对应的一组数据为,;每天吸烟的支数与其得肺癌的相对危险度相对应的一组数据为,.用表示变量与之间的线性相关系数,用表示变量与之间的线性相关系数,则下列说法正确的是( )
A. B. C. D.
6.随着居民家庭收入的不断提高,人们对居住条件的改善的需求也在逐渐升温.某城市统计了最近5个月的房屋交易量,如下表所示:
时间 1 2 3 4 5
交易量(万套) 0.8 1.0 1.2 1.5
若与满足一元线性回归模型,且经验回归方程为,则下列说法错误的是( )
A.根据表中数据可知,变量与正相关
B.经验回归方程中
C.可以预测时房屋交易量约为(万套)
D.时,残差为
7.下列说法错误的是( )
A.若随机变量、满足且,则
B.样本数据,,,,,,,,,的第百分位数为
C.若事件、相互独立,则
D.若、两组成对数据的相关系数分别为、,则组数据的相关性更强
8.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据如下表:已知该产品的色度y和色差x之间满足线性相关关系,且,现有一组测量数据为,则该数据的残差为( )
色差x 22 24 26 28
色度y 16 19 20 21
A. B. C. D.
二、多选题
9.已知由样本数据(i=1,2,3,…,10)组成的一个样本,得到回归直线方程为,且.剔除一个偏离直线较大的异常点后,得到新的回归直线经过点.则下列说法正确的是
A.相关变量x,y具有正相关关系
B.剔除该异常点后,样本相关系数的绝对值变大
C.剔除该异常点后的回归直线方程经过点
D.剔除该异常点后,随x值增加相关变量y值减小速度变小
10.已知某产品的销售额(单位:万元)与广告费用(单位:万元)之间的关系如下表
0 1 2 3 4
10 20 30 35
若根据表中的数据用最小二乘法求得对的线性回归方程为,则下列说法中正确的是( )
A.产品的销售额与广告费用负相关
B.该回归直线过点
C.当广告费用为10万元时,销售额一定为74万元
D.的值是15
11.对具有线性相关关系的两个变量x,y进行统计时,得到数据如表所示,若通过表格数据得到的经验回归方程为,则下列说法正确的是( )
x 3 5 7 9
y m
A.
B.变量y与x是正相关关系
C.该回归直线必过点
D.x每增加1个单位,减少2个单位
12.下列命题正确的是( )
A.已知,若,则
B.若散点图的散点均落在一条斜率非0的直线上,则决定系数
C.数据的均值为4,标准差为1,则这组数据中没有大于5的数
D.数据的75百分位数为47
三、填空题
13.甲、乙、丙、丁各自研究两个随机变量的数据,若甲、乙、丙、丁计算得到各自研究的两个随机变量的线性相关系数分别为,,,,则这四人中, 研究的两个随机变量的线性相关程度最高.
14.某同学在研究变量,之间的相关关系时,得到以下数据:并采用最小二乘法得到了线性回归方程,则 0(填“>”或“<”).
4.8 5.8 7 8.3 9.1
2.8 4.1 7.2 9.1 11.8
15.商家为了解某品牌取暖器的月销售量Y(台)与月平均气温之间的关系,随机统计了某4个月该品牌取暖器的月销售量与当月平均气温,其数据如下表;
平均气温() 10 7 4 1
月销售量(台) 26 37 55 82
由表中数据算出线性回归方程中的,当平均气温为时,此品牌取暖器的月销售量为 台(结果保留整数).
16.以曲线拟合一组数据时,经代换后的线性回归方程为,则 , .
四、解答题
17.某农业大学组织部分学生进行作物栽培试验,由于土壤相对贫瘠,前期作物生长较为缓慢,为了增加作物的生长速度,达到预期标准,小明对自己培育的一株作物使用了营养液,现统计了使用营养液十天之内该作物的高度变化
天数x 1 2 3 4 5 6 7 8 9 10
作物高度y/cm 9 10 10 11 12 13 13 14 14 14
(1)观察散点图可知,天数与作物高度之间具有较强的线性相关性,用最小二乘法求出作物高度关于天数的线性回归方程(其中用分数表示);
(2)小明测得使用营养液后第22天该作物的高度为,请根据(1)中的结果预测第22天该作物的高度的残差.
参考公式:.参考数据:.
18.已知某水果种植基地苹果的种植面积(单位:公顷)与其产量(单位:吨)呈线性相关关系,小王准备承包一块苹果种植地,为了解市场行情,在该基地调查了5家果农,统计得到了苹果种植面积与其产量的数据如表所示:
种植面积/公顷 1 2 3 4 5
产量/吨 20 38 64 78 100
(1)求关于的线性回归方程;
(2)若苹果的销量等于产量,且所种苹果的总利润(单位:千元)满足,苹果种植面积,请根据(1)的结果预测要使得单位面积的苹果利润最大,小王应该种植多少公顷的苹果?
附:回归方程中斜率和截距的最小二乘估计公式分别为,.
19.自媒体职业就是通过自媒体平台发布文章或者视频,赚取收益的职业.某自媒体从业人员从业10个月以来的月收益(单位:元)统计如下:
第个月 1 2 3 4 5 6 7 8 9 10
月收益(单位:元) 400 1600 1800 2400 2000 2600 3000 3200 3400 3600
(1)若该自媒体从业人员的月收益与自媒体从业时间成正相关关系,试估计该自媒体从业人员从业第几个月开始月收益超过5000元;
(2)从这10个月的月收益不低于2400元的月份里随机抽取3个月进行话题分析,记这3个月中月收益不低于3000元的有个月,求的分布列和期望.
附:经验回归方程中,,其中为样本均值.
20.20世纪80年代初,随着我国的改革开放,经济体制和经营体制逐渐灵活,市场上的商品日益丰富,城市和农村出现小卖部.小卖部主营生活日用商品,有着经营成本小、规模小、商品种类少、分布广等特点.近几年,市场商品极大的丰富,人们的生活水平达到了新的高度,实体小卖部逐渐被应运而生的大小超市所取代.为适应市场,某小卖部经营者欲将经营规模扩大,将小卖部发展成生鲜综合超市,现将2013~2022年的年利润(单位:万元)统计如下:
年限 1 2 3 4 5 6 7 8 9 10
年利润(万元) 2 8 9 12 10 13 15 16 17 18
其中,1表示2013年,2表示2014年,3表示2015年,……,以此类推,10表示2022年.
(1)若年利润(单位:万元)与小卖部营业年限成正相关关系,在不改变经营状态的情况下,预测该小卖部2023年的年利润.(结果保留两位小数)
(2)该小卖部经营者从2013~2022年中年利润不低于12万元的年限里随机抽取3个,记这3个年限中年利润超过14万元的有个,求的分布列和期望.
附:线性回归方程中,,,其中为样本均值.
21.为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x 1 2 3 4 5
y 7.0 6.5 5.5 3.8 2.2
(1)求y关于x的线性回归方程x;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:.
第1页 共4页 ◎ 第2页 共4页
第1页 共4页 ◎ 第2页 共4页
参考答案:
1.A
【分析】根据回归直线必过样本中心点求解即可.
【详解】因为,,
所以,解得,
故选:A
2.C
【分析】根据题意求得,再结合线性回归方程过样本中心点运算求解.
【详解】由题意可知:,
且当时,,解得,
可知,
又因为,
可知点在上,
即,解得.
故选:C.
3.B
【分析】从图中分析得到去掉点后,回归效果更好,再由决定系数,残差平方和,相关系数和相关性的概念和性质作出判断.
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
故决定系数会变大,更接近于1,残差平方和变小,
相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1,
即相关系数的值变大,解释变量与预报变量相关性变强,
故A、C、D错误,B正确.
故选:B.
4.D
【分析】求出,,根据回归直线方程必过样本中心点求出,从而得到回归直线方程,再代入计算可得.
【详解】因为,,
所以回归直线过点,故,即,所以.
将代入中,得.
故选:D.
5.D
【分析】借助线性相关系数的定义判断即可得.
【详解】由与相对应的数据可得,随的增大而减小,呈负相关,故,
由与相对应的数据可得,随的增大而增大,呈正相关,故,
故.
故选:D.
6.D
【分析】首先求出、,根据回归方程必过样本中心点求出参数,从而得到回归方程,再一一判断即可.
【详解】对于B,依题意,,
所以,解得,所以,故B正确;
对于A,因为经验回归方程,,
所以变量与正相关,故A正确;
对于C,当时,,
所以可以预测时房屋交易量约为(万套),故C正确;
对于D,当时,,
所以时,残差为,故D错误.
故选:D
7.D
【分析】根据方差的性质判断A,根据百分位数计算规则判断B,根据相互独立事件及条件概率概率公式判断C,根据相关系数的概念判断D.
【详解】对于A:因为且,所以,故A正确;
对于B:因为,所以第百分位数为从小到大排列的第个数,即为,故B正确;
对于C:若事件、相互独立,则,
所以,故C正确;
对于D:若、两组成对数据的相关系数分别为、,
因为,所以组数据的相关性更强,故D错误.
故选:D
8.D
【分析】根据题意,由回归直线方程过样本中心点,即可得到,然后代入计算,即可得到结果.
【详解】由题意可知,,,
将代入,即,解得,
所以,当时,,
所以该数据的残差为.
故选:D.
9.BC
【分析】根据给定条件,求出新样本的中心点,进而求出新回归直线的斜率,再逐项判断即得.
【详解】依题意,原样本中,,
剔除一个偏离直线较大的异常点后,新样本中,,
因此剔除该异常点后的回归直线方程经过点,C正确;
由新的回归直线经过点,得新的回归直线斜率为,因此相关变量x,y具有负相关关系,A错误;
又,则剔除该异常点后,随x值增加相关变量y值减小速度变大,D错误;
由剔除的是偏离直线较大的异常点,得剔除该点后,新样本数据的线性相关程度变强,即样本相关系数的绝对值变大,B正确.
故选:BC
10.BD
【分析】对于A项,由回归方程即可之家额判断;对于B项,计算出样本中心点即可判断;对于C项,因回归方程求出的是预报值,与实际值不一定完全吻合,故可判断,对于D项,只需根据样本中心点坐标即,运用平均数公式即可求得.
【详解】对于A项,因对的线性回归方程为,其中,故产品的销售额与广告费用正相关,即A项错误;
对于B项,由表格知,代入,解得,即样本中心点坐标为,回归直线必过样本中心点,故B项正确;
对于C项,由对的线性回归方程为知,当时,代入可得,即销售额的预报值为74万元,但实际不一定是,故C项错误;
对于D项,由B项知,即,解得.故D项正确.
故选:BD.
11.ACD
【分析】首先分析题意,利用线性相关关系及线性回归方程的知识逐个分析即可.
【详解】选项A:依题意,,,
则,解得,A正确.
选项B:回归方程中,,,则变量y与x是负相关关系,B错误.
选项C;由于样本点的中心为,因此该回归直线必过点,C正确.
选项D:由回归方程知,x每增加1个单位,减少2个单位,D正确.
故选:ACD.
12.ABD
【分析】对于A:利用正态分布的对称性判断;对于B:根据相关的概念判断;对于C:举反例说明;对于D:直接求75百分位数.
【详解】对于A:已知,若,
则,A正确;
对于B:若散点图的散点均落在一条斜率非0的直线上,则变量与变量之间满足线性函数关系,则决定系数,B正确;
对于C:不妨设,
则,解得,
此时,
故找到一组数,数据中有大于5的数,C错误;
对于D:,故这组数据的75百分位数为47,D正确.
故选:ABD.
13.乙
【分析】根据相关系数的定义判断即可.
【详解】因为,所以这四人中,乙研究的两个随机变量的线性相关程度最高,
故答案为:乙.
14.
【分析】画出散点图,数形结合得到答案.
【详解】画出散点图如下:
从而可以看出中,.
故答案为:.
15.90
【分析】
先求样本中心点,根据线性回归方程过样本中心点可得,令即可得结果.
【详解】
由题意可得,,
可知点在回归方程上,其中,
即,解得,所以,
当时,.
故答案为:90.
16. 3
【分析】利用对数的运算法则结合回归方程求解即可.
【详解】因为,所以=,
令,则,
又因为,所以,则.
故答案为:.
17.(1);
(2).
【分析】(1)根据表格数据利用公式求出即可求解.
(2)将代入回归方程求得预测值,然后根据残差定义求解即可.
【详解】(1)依题意,,
,
故,
,故所求回归直线方程为.
(2)由(1)可知,当时,,
故所求残差为.
18.(1)
(2)10
【分析】(1)根据题中数据和公式分析求解即可;
(2)根据(1)的结果整理可得,结合二次函数分析求解.
【详解】(1)由题意可得:,
,
,
则,
所以关于的线性回归方程为.
(2)由题意可知:单位面积的苹果利润为,
因为,
可知当,即时,单位面积的苹果利润取到最大值181千元/公顷,
所以小王应该种植10公顷的苹果.
19.(1)第14个月
(2)分布列见解析,
【分析】(1)根据最小二乘法即可求解回归方程,进而可由不等式求解,
(2)根据超几何的概率公式求解分布列,即可由期望公式求解期望.
【详解】(1),
,
,
,
经验回归方程为.
令,解得,
估计该自媒体从业人员从业第14个月开始月收益超过5000元.
(2)在这10个月中,月收益不低于2400元的有6个月,月收益不低于3000元的有4个月,
的所有可能取值为,
,
的分布列为
1 2 3
.
20.(1)20.47万元
(2)分布列见解析,期望为2
【分析】(1)根据条件,求出利润与年份的线性回归方程,即可求出结果;
(2)的可能取值为1,2,3,求出每个取值对应的概率,即可求出分布列,再根据期望的计算公式,求出期望.
【详解】(1),,
,
=
,所以线性回归方程为,
所以当时,,
所以在不改变经营状态的情况下,预测该小卖部2023年的年利润为20.47万元.
(2)2013~2022年这10年中,年利润不低于12万元的有6年,年利润超过14万元的有4年,故的可能取值为1,2,3,
,
的分布列为
1 2 3
所以期望.
21.(1)
(2)预测当年产量为2.72吨时,年利润取到最大值
【分析】(1)求出,,根据最小二乘法的估计公式求出的值,即可求得线性回归方程;
(2)求出年利润z的表达式,结合二次函数知识,即可求得答案.
【详解】(1)由题意知,,
,,
故
,
,
所以y关于x的线性回归方程为.
(2)年利润
,
当时,年利润z最大.
故预测当年产量为2.72吨时,年利润取到最大值.
答案第1页,共2页
答案第1页,共2页