编者学科君小注:
本专辑专为2022年上海高中数学课改版沪教版2021必修二、选择性必修一、选择性必修二研发,供中等及以上学生使用。
思路设计:重在培优训练,分选择、填空、解答三种类型题,知识难度层层递进,由中等到压轴,基础差的学生选做每种类型题的前4题;基础中等的学生必做前4题、选做5-8题;尖子生全部题型必做,冲刺压轴题。
进阶02 一元线性回归分析综合专练(解析版)
错误率:___________易错题号:___________
一、单选题
1.某产品的广告费用与销售额的统计数据如下表:
广告费用(万元) 2 3 4 5 6
销售额(万元) 19 25 34 38 44
根据上表可得回归直线方程为,下列说法正确的是( )
A.回归直线 必经过样本点、
B.这组数据的样本中心点未必在回归直线上
C.回归系数6.3的含义是广告费用每增加1万元,销售额实际增加6.3万元
D.据此模型预报广告费用为7万元时销售额为50.9万元
【标准答案】D
【思路指引】
根据回归方程的含义与性质判断ABC,根据最小二乘法求出回归方程可判断D.
【详解详析】
回归直线 ,不一定经过任何一个样本点,故 A错;
由最小二乘法可知,这组数据的样本中心点一定在回归直线上,故B错;
回归系数6.3的含义是广告费用每增加1万元,预测销售额增加6.3万元,故C错;
,,
将代入可得,则回归方程为,
时,,故D正确.
故选:D.
【名师指路】
本题主要考查回归方程的含义与性质,考查根据最小二乘法求出回归方程以及利用回归方程估计总体,属于基础题.
2.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为( )
A.39.5 B.40 C.43.5 D.45
【标准答案】B
【思路指引】
由表中数据计算求得,根据回归直线经过样本中心点,求出的值.
【详解详析】
由表中数据,计算可得,,
因为回归直线方程过样本中心点,
所以有,解得,
故选:B.
【名师指路】
关键点点睛:该题考查的是有关回归直线的问题,正确解题关键是掌握回归直线过样本中心点.
3.已知变量关于的回归方程为,其一组数据如表所示:若,则预测值可能为( )
A. B. C. D.
【标准答案】D
【思路指引】
将回归方程左右同时取对数得:,看作回归直线的形式,由回归直线过样本中心点可构造方程求得,由此得到回归方程;将代入回归方程即可求得结果.
【详解详析】
由得:,,
解得:,回归方程为,若,则.
故选:D.
【名师指路】
关键点点睛:本题考查非线性回归中的预估值的求解,解题关键是能够通过对指数型回归模型左右同时取对数,将其变为线性回归的形式来进行求解.
4.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天 1 2 3 4 5
使用人数() 15 173 457 842 1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )A. B. C.3 D.2
【标准答案】B
【思路指引】
先计算出的值,然后求得估计值,最后计算出残差.
【详解详析】
令,则,
1 4 9 16 25
使用人数() 15 173 457 842 1333
,,
所以,
所以,
当时,,
所以残差为.
故选:B
【名师指路】
非线性回归要先转化为线性回归来求解,回归直线方程过样本中心点.
5.如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
【标准答案】B
【思路指引】
根据图中的点,计算去掉前后的相关系数、残差平方和、,即可判断各选项的正误.
【详解详析】
由图,,,则,,,
∴相关系数.
令回归方程,则,
∴,即回归方程为,可得为,,,,,
∴残差平方和,故,
去掉后,
,,则,,,
∴相关系数.
∴,A、D正确;
令回归方程,则,
∴,即回归方程为,可得为,,,,
∴残差平方和,故,
∴,B错误,C正确;
故选:B
6.中国是茶的故乡,也是茶文化的发源地.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶克数与食客的满意率的关系,调查研究发现,可选择函数模型来拟合与的关系,根据以下统计数据:
茶叶克数 1 2 3 4 5
4.34 4.36 4.44 4.45 4.51
可求得关于的非线性经验回归方程为( )
A. B.
C. D.
【标准答案】A
【思路指引】
令,由线性回归方程经过样本中心点,利用表中数据求得,代入选项即得.
【详解详析】
由题表中数据可知,
令,则,
对于A,化简变形可得,等号两边同取对数,可得,将代入可得,所以A正确;
对于B,,
∴,将代入可得,
,故B错误;
对于C,∵,将代入可得,
∴,故C错误;
对于D,∵,将代入可得,
∴,故D错误.
故选:A.
7.某研究所为了研究近几年中国留学生回国人数的情况,对2014至2018年留学生回国人数进行了统计,数据如下表:
年份 2014 2015 2016 2017 2018
年份代码 1 2 3 4 5
留学生回国人数/万 36.5 40.9 43.3 48.1 51.9
根据上述统计数据求得留学生回国人数(单位:万)与年份代码满足的线性回归方程为,利用回归方程预测年留学生回国人数为( )
A.63.14万 B.64.72万 C.66.81万 D.66.94万
【标准答案】D
【思路指引】
先求出样本点的中心,代入线性回归方程即可求出,再将代入线性回归方程即可得到结果.
【详解详析】
由题意知:,,
所以样本点的中心为,所以,解得:,
可得线性回归方程为,
年对应的年份代码为,令, 则,
所以预测2022年留学生回国人数为66.94万,
故选:D.
8.给出下列有关线性回归分析的四个命题:
①线性回归直线未必过样本数据点的中心;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关系数就越接近于.
其中真命题的个数为( )
A. B. C. D.
【标准答案】A
【思路指引】
根据线性回归直线的性质可判断选项A,B;根据相关系数的性质可判断C,D,进而可得正确选项.
【详解详析】
对于①,线性回归直线一定过样本数据点的中心,故①错误;
对于②,回归直线在散点图中可能不经过任何一个样本数据点,故②错误;
对于③,当相关系数时,两个变量正相关,故③正确;
对于④,如果两个变量的相关性越强,则相关性系数就越接近于或,故④错误.
故真命题的个数为1,
故选:A.
9.变量与的数据如表所示,其中缺少了一个数值,已知关于的线性回归方程为,则缺少的数值为( )
22 23 24 25 26
23 24 ▲ 26 28
A.24 B.25 C.25.5 D.26
【标准答案】A
【思路指引】
可设出缺少的数值,利用表中的数据,分别表示出、,将样本中心点带入回归方程,即可求得参数.
【详解详析】
设缺少的数值为,则,,
因为回归直线方程经过样本点的中心,所以,解得.
故选:A.
10.设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32 B.63 C.64 D.128
【标准答案】C
【思路指引】
先通过换元把非线性回归方程转化为线性回归直线方程,从而可以利用公式求系数的值,然后把的值代入即可得到答案.
【详解详析】
令,则 ,
,,
所以 ,,
所以,即,
所以当时, .
故选:C.
二、填空题
11.邢台市物价部门对市区的天一城、北国商城、恒大城、家乐园、中北世纪城5家商场的某件商品在7月15号一天销售量及其价格进行调查,5家商场的售价元和销售量件之间的一组数据如下表所示:
价格 8.5 9 11 11.5
销售量 12 6 7 5
已知销售量与价格之间有较强的线性相关关系,其线性回归方程是,且,则其中的______.
【标准答案】10
先求样本平均值,,再根据样本中心点在回归直线上列方程求解即可得答案.
【详解详析】
解:依题意,,
代入回归直线方程得①,
根据题意②,
解①②组成的方程组得.
故答案为:.
【名师指路】
本题考查已知回归方程求原始数据,考查运算能力,解题的关键是样本中心点在回归直线上,是基础题.
12.对平面直角坐标系中的两组点,如果存在一条直线使这两组点分别位于该直线的两侧,则称该直线为“分类直线”.对于一条分类直线,记所有的点到的距离的最小值为,约定:越大,分类直线的分类效果越好.某学校高三(2)班的7位同学在2020年期间网购文具的费用(单位:百元)和网购图书的费用(单位:百元)的情况如图所示,现将,,和为第Ⅰ组点.将,和归为第Ⅱ点.在上述约定下,可得这两组点的分类效果最好的分类直线,记为.给出下列四个结论:
①直线比直线的分类效果好;
②分类直线的斜率为2;
③该班另一位同学小明的网购文具与网购图书的费用均为300元,则小明的这两项网购花销的费用所对应的点与第Ⅱ组点位于的同侧;
④如果从第Ⅰ组点中去掉点,第Ⅱ组点保持不变,则分类效果最好的分类直线不是.
其中所有正确结论的序号是___________.
【标准答案】②③④
【思路指引】
根据分类直线的定义判断.
【详解详析】
由图象知:,
①当直线为分类直线时,,当直线为分类直线时,所以直线分类效果好,故错误;
②由图知定位L的位置由确定,所以直线L过点的外心,设直线方程为 则 ,解得,故正确;
③当到L的距离与到L的距离相等时为L的临界值,此时点在L的右侧,故正确;
④去掉点后,,解得,故正确;
故答案为:②③④
【名师指路】
关键点点睛:本题关键是理解分类直线的定义,如本题L的位置由确定.
13.种棉花以绒长、品质好、产量高著称于世.我国2020至2021年度种棉花产量为万吨,占国内产量比重约,占国内消费比重约.已知某地区所产种棉花的产量与光照时长之间的关系如表.若根据表中的数据用最小二乘法求得关于的回归直线方程为,则下列说法中正确的有_______.(把正确答案的编号全部填上)
光照时长(单位:小时)
产量(单位:万吨)
①该回归直线过点;②种棉花的产量与光照时长成正相关;
③的值是;④当光照时长为小时时, 种棉花的产量一定为万吨.
【标准答案】①②③
【思路指引】
首先计算,代入回归直线方程,求得的值,判断①③,根据表格数据,直接判断正负相关性,根据回归方程,只能得到预测值,而不是准确值.
【详解详析】
由线性回归方程,可知种棉花的产量与光照时长成正相关,故②正确;,,代入,得,则,故③正确;
,则回归直线过点故①正确;
当时,,则当光照时长为小时时,种棉花的产量约为万吨,④错误.
故选:①②③
14.某种产品的广告费支出与销售额之间有如下对应数据:
广告费用(万元) 0.2 0.4 0.5 0.6 0.8
销售额(万元) 3 4 6 5 7
销售额(万元)与广告费用(万元)之间有线性相关关系,回归方程为 (为常数),现在要使销售额达到7.8万元,估计广告费用约为____万元.
【标准答案】.
【思路指引】
由已知求得样本点的中心的坐标,代入线性回归方程求得,得到线性回归方程,取求得值即可.
【详解详析】
,
,
样本点的中心为,
代入,得,即.
线性回归方程为.
取,得,则(万元).
故答案为:.
15.下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:)的对比表,已知表中数据计算得到y关于x的线性回归方程为,则相应于点的残差为________.
气温 5 10 15 20 25
杯数y 26 20 16 14 14
【标准答案】.
【思路指引】
由表中数据计算出,,代入线性回归方程求出,进而可求得结果.
【详解详析】
,,
代入线性回归方程得,解得,
则线性回归方程为.
所以,则相应于点的残差为.
故答案为:.
16.某种细胞的存活率(%)与存放温度(℃)之间具有线性相关关系,其样本数据如下表所示:
存放温度/℃ 20 15 10 5 0
存活率/% 6 14 26 33 43 60 63
计算得,,,,并求得回归方程为,但实验人员发现表中数据的对应值录入有误,更正为.则更正后的回归方程为______.
【标准答案】
【思路指引】
根据更正前的数据计算更正后的,,,,从而求更正后的回归方程.
【详解详析】
由题意知,更正后,,
,,
∴,,
∴更正后的回归方程为.
故答案为:.
17.已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,那么表格中的数据m的值为______.
x 0 1 3 4
y 2.2 4.3 4.8 m
【标准答案】6.7
【思路指引】
根据回归直线必过样本中心点求解即可.
【详解详析】
,,
把的坐标代入回归直线方程得,
解得.
故答案为:6.7
18.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 4 5 6 7 8 9
销量y(件) 90 84 83 80 75 68
由表中数据,求得线性回归方程为=-4x+,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.
【标准答案】
【详解详析】
由已知得=6.5,=80,将(,)代入=-4x+,解得=106.将表格中的(4,90),(5,84),(6,83),(7,80),(8,75),(9,68),依次代入线性回归方程=-4x+106,得在回归直线左下方的点为(5,84),(9,68),共2个.故在这些样本点中任取一点,则它在回归直线左下方的概率为.
19.2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
A区 B区 C区 D区 E区
外来务工人员数 5000 4000 3500 3000 2500
留在当地的人数占比 80% 90% 80% 80% 84%
根据这5个地区的数据求得留在当地过年人员数y与外来务工人员数x的线性回归方程为.该市对外来务工人员选择留在当地过年的每人补贴1000元,该市F区有10000名外来务工人员,根据线性回归方程估计F区需要给外来务工人员中留在当地过年的人员的补贴总额为___________万元.(参考数据:取)
【标准答案】
【思路指引】
求出,利用中心点求得,然后令代入可得估计值,求得留在当地过年的人员数可得补贴总额.
【详解详析】
由已知,
,
所以,则,即,
时,,
估计应补贴(万元).
故答案为:.
【名师指路】
关键点点睛:本题考查结尾回归直线方程的应用,线性回归直线的性质:线性回归直线一定过中心点,由此可求得方程中的参数值,得方程,从而用回归方程进行计算估计.
20.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 50 60 70
根据上表可得回归方程,其中,据此估计,当投入10万元广告费时,销售额为_________万元;
【标准答案】85
【思路指引】
根据表中数据求得样本中心,代入回归方程后求得,然后再求当 的函数值即可.
【详解详析】
由上表可知:.
得样本点的中心为,代入回归方程,得.
所以回归方程为,
将代入可得:.
故答案为:85
三、解答题
21.当今时代,国家之间的综合国力的竞争,在很大程度上表现为科学技术水平与创新能力的竞争.特别是进入人工智能时代后,谁掌握了核心科学技术,谁就能对竞争对手进行降维打击.我国自主研发的某种产品,其厚度越小,则该种产品越优良,为此,某科学研发团队经过较长时间的实验研发,不断地对该产品的生产技术进行改造提升,最终使该产品的优良厚度达到领先水平并获得了生产技术专利.
(1)在研发过程中,对研发时间x(月)和产品的厚度y(nm)进行统计,其中1~7月的数据资料如下:
x(月) 1 2 3 4 5 6 7
y(nm) 99 99 45 32 30 24 21
现用作为y关于x的回归方程类型,请利用表中数据,求出该回归方程,并估计该产品的“理想”优良厚度约为多少
(2)某企业现有3条老旧的该产品的生产线,迫于竞争压力,决定关闭并出售生产线.现有以下两种售卖方案可供选择:
①直接售卖,则每条生产线可卖5万元;
②先花20万元购买技术专利并对老旧生产线进行改造,使其达到生产领先水平后再售卖.已知在改造过程中,每条生产线改造成功的概率均为,若改造成功,则每条生产线可卖20万元;若改造失败,则卖价为0万元.请判断该企业应选择哪种售卖方案更为科学 并说明理由.
参考数据:设z=,zi=,=0.37,=50,=184.5,-72=0.55;
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=u+中的斜率和纵截距的最小二乘法估计的计算公式为=,=-.
【标准答案】(1),13nm;
(2)方案②,详见解析.
【思路指引】
(1)利用回归直线公式即求;
(2)分别计算两种方案的收益,比较即得.
(1)
由题可得,
∴,
∴,
∵,
∴,即该产品的“理想”优良厚度约为13nm.
(2)
方案①,售卖收益为万元;
方案②,设为3条老旧生产线改造成功的收益,的可能取值为-20,0,20,40,
,,
,,
∴,
∵,
∴该企业应选择方案②更为科学.
22.大气污染物PM2.5(大气中直径小于或等于2.5μm的颗粒物)的浓度超过一定的限度会影响人的身体健康.为了研究PM2.5的浓度受汽车流量影响的程度,某校数学建模社团选择了学校附近5个监测点,统计每个监测点24h内过往的汽车流量(单位:千辆),同时在低空相同的高度测定每个监测点该时间段内的PM2.5的平均浓度(单位:μg/m3),得到的数据如下表所示:
监测点编号 1 2 3 4 5
汽车流量 1.3 1.2 1.6 1.0 0.9
PM2.5浓度 66 72 113 34 35
根据以上信息,完成下列问题:
(1)建立PM2.5的浓度关于汽车流量的一元线性回归模型;
(2)我国规定空气中PM2.5的浓度安全标准为24h平均浓度为75μg/m3,该地为使PM2.5 24h平均浓度不超过68.6,拟对汽车流量作适当控制,请你根据本题数据估计汽车流量控制的最大值;
(3)从5个监测点中抽取3个,记PM2.5平均浓度不超过68.6的个数为X,求X的分布列和数学期望.
参考公式:==,=-.
【标准答案】(1);
(2).
(3)分布列见解析,期望为.
【思路指引】
(1)根据所给数据计算出方程的系数得回归方程;
(2)用回归方程估计的浓度,解不等式可得;
(3)5个监测点中PM2.5平均浓度不超过68.6的有三个:1,4,5,用列举法写出任取3个的基本事件,并得出的基本事件,计数后可得概率,从而得分布列,由期望计算期望.
(1)
,,
,
,
所以回归方程为;
(2)
,,最大值为.
(3)
从5个监测点中任意抽取个的基本事件有:123,124,125,134,135,145,234,235,245,345共10个,
5个监测点中,PM2.5平均浓度不超过68.6的有3个:编号1,4,5,因此的可能分别为,
的基本事件有:123,234,235三个,,
的基本事件有:124,125,134,135,245,345共6个,,
的基本事件有:145一个,,
的分布列为:
1 2 3
.
23.5G的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该创新公司在第1月份至6月份的5G经济收入y(单位:百万元)关于月份x的数据如表:
时间(月份) 1 2 3 4 5 6
收入(百万元) 6.6 8.6 16.1 21.6 33.0 41.0
根据以上数据绘制散点图,如图.
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个适宜作为5G经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中数据,求出y关于x的回归方程,并预测该公司8月份的5G经济收入;
(3)从前6个月的收入中抽取3个,记月收入超过16百万的个数为X,求X的分布列和数学期望.
参考数据:
3.50 21.15 2.85 17.50 125.35 6.73
其中设,
参考公式和数据:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,,,.
【标准答案】(1)
(2)回归方程为,8月份的5G经济收入百万元.
(3)答案见解析
【思路指引】
(1)根据散点图判断可得答案;
(2)根据(1)的结果,然后根据参考数据求出方程,进而求得y关于x的回归方程,再将代入方程可得答案;
(3)求出X的可能取值及概率,可得分布列和数学期望.
(1)
,散点图中点的分布不是一条直线,相邻两点在y轴上差距是增大的趋势,故用表示更合适.
(2)
由得,设,所以,
因为,,,,
所以,,
,
所以,即,
则回归方程为,
预测该公司8月份的5G经济收入百万元.
(3)
月收入超过16百万的个数为的可能取值为1,2,3,
则,
,
,
则的分布列为
1 2 3
所以.
24.经观测,某种昆虫的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如下图的散点图及一些统计量表.
275 731.1 21.7 150 2368.36 30
表中,
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据.试求y关于x回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
【标准答案】(1)
(2)
【思路指引】
(1)根据散点图看出样本点分布在一条指数函数的周围,即可判断;
(2)令,利用最小二乘法即可求出y关于x的线性回归方程.
(1)
根据散点图判断,看出样本点分布在一条指数函数的周围,
所以适宜作为y与x之间的回归方程模型;
(2)
令,则,
;
,
∴;
∴y关于x的回归方程为.
25.2021年6月17日9时22分,我国酒泉卫星发射中心用长征遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号 1 2 3 4 5 6 7 8 9 10 11 12
x 2 3 4 6 8 10 13 21 22 23 24 25
y 15 22 27 40 48 54 60 68.5 68 67.5 66 65
当时,建立了y与x的两个回归模型:模型①:,模型②:;当时,确定y与x满足的线性回归方程为.
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益;
回归模型 模型① 模型②
回归方程
79.13 20.2
(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好,
【标准答案】(1)模型②拟合精度更高、更可靠,亿
(2)投入17亿元比投入20亿元时收益小
【思路指引】
(1)根据公式计算相关指数,再根据大小选择合适的模型,根据所得模型可求直接受益.
(2)根据(1)中的公式结合利润计算方法可求公司收益,从而可得两者的大小关系.
(1)
对于模型①,
对应的,
故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合精度更高、更可靠.
故对A型材料进行应用改造的投入为17亿元时的直接收益为.
(2)
当时,
后五组的,,
由最小二乘法可得,
故当投入20亿元时公司收益(直接收益+国家补贴)的大小为:
,
故投入17亿元比投入20亿元时收益小.编者学科君小注:
本专辑专为2022年上海高中数学课改版沪教版2021必修二、选择性必修一、选择性必修二研发,供中等及以上学生使用。
思路设计:重在培优训练,分选择、填空、解答三种类型题,知识难度层层递进,由中等到压轴,基础差的学生选做每种类型题的前4题;基础中等的学生必做前4题、选做5-8题;尖子生全部题型必做,冲刺压轴题。
进阶02 一元线性回归分析综合专练(原卷版)
错误率:___________易错题号:___________
一、单选题
1.某产品的广告费用与销售额的统计数据如下表:
广告费用(万元) 2 3 4 5 6
销售额(万元) 19 25 34 38 44
根据上表可得回归直线方程为,下列说法正确的是( )A.回归直线 必经过样本点、
B.这组数据的样本中心点未必在回归直线上
C.回归系数6.3的含义是广告费用每增加1万元,销售额实际增加6.3万元
D.据此模型预报广告费用为7万元时销售额为50.9万元
2.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为( )A.39.5 B.40 C.43.5 D.45
3.已知变量关于的回归方程为,其一组数据如表所示:若,则预测值可能为( )
A. B. C. D.
4.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天 1 2 3 4 5
使用人数() 15 173 457 842 1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )A. B. C.3 D.2
5.如图,5个数据,去掉后,下列说法错误的是( )
A.相关系数r变大 B.残差平方和变大
C.R2变大 D.解释变量x与预报变量y的相关性变强
6.中国是茶的故乡,也是茶文化的发源地.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶克数与食客的满意率的关系,调查研究发现,可选择函数模型来拟合与的关系,根据以下统计数据:
茶叶克数 1 2 3 4 5
4.34 4.36 4.44 4.45 4.51
可求得关于的非线性经验回归方程为( )A. B.
C. D.
7.某研究所为了研究近几年中国留学生回国人数的情况,对2014至2018年留学生回国人数进行了统计,数据如下表:
年份 2014 2015 2016 2017 2018
年份代码 1 2 3 4 5
留学生回国人数/万 36.5 40.9 43.3 48.1 51.9
根据上述统计数据求得留学生回国人数(单位:万)与年份代码满足的线性回归方程为,利用回归方程预测年留学生回国人数为( )A.63.14万 B.64.72万 C.66.81万 D.66.94万
8.给出下列有关线性回归分析的四个命题:
①线性回归直线未必过样本数据点的中心;
②回归直线就是散点图中经过样本数据点最多的那条直线;
③当相关系数时,两个变量正相关;
④如果两个变量的相关性越强,则相关系数就越接近于.
其中真命题的个数为( )
A. B. C. D.
9.变量与的数据如表所示,其中缺少了一个数值,已知关于的线性回归方程为,则缺少的数值为( )
22 23 24 25 26
23 24 ▲ 26 28
A.24 B.25 C.25.5 D.26
10.设两个相关变量和分别满足,,,2,…,6,若相关变量和可拟合为非线性回归方程,则当时,的估计值为( )
A.32 B.63 C.64 D.128
二、填空题
11.邢台市物价部门对市区的天一城、北国商城、恒大城、家乐园、中北世纪城5家商场的某件商品在7月15号一天销售量及其价格进行调查,5家商场的售价元和销售量件之间的一组数据如下表所示:
价格 8.5 9 11 11.5
销售量 12 6 7 5
已知销售量与价格之间有较强的线性相关关系,其线性回归方程是,且,则其中的______.
12.对平面直角坐标系中的两组点,如果存在一条直线使这两组点分别位于该直线的两侧,则称该直线为“分类直线”.对于一条分类直线,记所有的点到的距离的最小值为,约定:越大,分类直线的分类效果越好.某学校高三(2)班的7位同学在2020年期间网购文具的费用(单位:百元)和网购图书的费用(单位:百元)的情况如图所示,现将,,和为第Ⅰ组点.将,和归为第Ⅱ点.在上述约定下,可得这两组点的分类效果最好的分类直线,记为.给出下列四个结论:
①直线比直线的分类效果好;
②分类直线的斜率为2;
③该班另一位同学小明的网购文具与网购图书的费用均为300元,则小明的这两项网购花销的费用所对应的点与第Ⅱ组点位于的同侧;
④如果从第Ⅰ组点中去掉点,第Ⅱ组点保持不变,则分类效果最好的分类直线不是.
其中所有正确结论的序号是___________.
13.种棉花以绒长、品质好、产量高著称于世.我国2020至2021年度种棉花产量为万吨,占国内产量比重约,占国内消费比重约.已知某地区所产种棉花的产量与光照时长之间的关系如表.若根据表中的数据用最小二乘法求得关于的回归直线方程为,则下列说法中正确的有_______.(把正确答案的编号全部填上)
光照时长(单位:小时)
产量(单位:万吨)
①该回归直线过点;②种棉花的产量与光照时长成正相关;
③的值是;④当光照时长为小时时, 种棉花的产量一定为万吨.
14.某种产品的广告费支出与销售额之间有如下对应数据:
广告费用(万元) 0.2 0.4 0.5 0.6 0.8
销售额(万元) 3 4 6 5 7
销售额(万元)与广告费用(万元)之间有线性相关关系,回归方程为 (为常数),现在要使销售额达到7.8万元,估计广告费用约为____万元.
15.下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:)的对比表,已知表中数据计算得到y关于x的线性回归方程为,则相应于点的残差为________.
气温 5 10 15 20 25
杯数y 26 20 16 14 14
16.某种细胞的存活率(%)与存放温度(℃)之间具有线性相关关系,其样本数据如下表所示:
存放温度/℃ 20 15 10 5 0
存活率/% 6 14 26 33 43 60 63
计算得,,,,并求得回归方程为,但实验人员发现表中数据的对应值录入有误,更正为.则更正后的回归方程为______.
17.已知x,y的取值如下表所示,由散点图分析可知y与x线性相关,且回归直线方程为,那么表格中的数据m的值为______.
x 0 1 3 4
y 2.2 4.3 4.8 m
18.某工厂为了对一种新研发的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 4 5 6 7 8 9
销量y(件) 90 84 83 80 75 68
由表中数据,求得线性回归方程为=-4x+,若在这些样本点中任取一点,则它在回归直线左下方的概率为________.
19.2021年受疫情影响,国家鼓励员工在工作地过年.某机构统计了某市5个地区的外来务工人员数与他们选择留在当地过年的人数占比,得到如下的表格:
A区 B区 C区 D区 E区
外来务工人员数 5000 4000 3500 3000 2500
留在当地的人数占比 80% 90% 80% 80% 84%
根据这5个地区的数据求得留在当地过年人员数y与外来务工人员数x的线性回归方程为.该市对外来务工人员选择留在当地过年的每人补贴1000元,该市F区有10000名外来务工人员,根据线性回归方程估计F区需要给外来务工人员中留在当地过年的人员的补贴总额为___________万元.(参考数据:取)
20.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 50 60 70
根据上表可得回归方程,其中,据此估计,当投入10万元广告费时,销售额为_________万元;
三、解答题
21.当今时代,国家之间的综合国力的竞争,在很大程度上表现为科学技术水平与创新能力的竞争.特别是进入人工智能时代后,谁掌握了核心科学技术,谁就能对竞争对手进行降维打击.我国自主研发的某种产品,其厚度越小,则该种产品越优良,为此,某科学研发团队经过较长时间的实验研发,不断地对该产品的生产技术进行改造提升,最终使该产品的优良厚度达到领先水平并获得了生产技术专利.
(1)在研发过程中,对研发时间x(月)和产品的厚度y(nm)进行统计,其中1~7月的数据资料如下:
x(月) 1 2 3 4 5 6 7
y(nm) 99 99 45 32 30 24 21
现用作为y关于x的回归方程类型,请利用表中数据,求出该回归方程,并估计该产品的“理想”优良厚度约为多少
(2)某企业现有3条老旧的该产品的生产线,迫于竞争压力,决定关闭并出售生产线.现有以下两种售卖方案可供选择:
①直接售卖,则每条生产线可卖5万元;
②先花20万元购买技术专利并对老旧生产线进行改造,使其达到生产领先水平后再售卖.已知在改造过程中,每条生产线改造成功的概率均为,若改造成功,则每条生产线可卖20万元;若改造失败,则卖价为0万元.请判断该企业应选择哪种售卖方案更为科学 并说明理由.
参考数据:设z=,zi=,=0.37,=50,=184.5,-72=0.55;
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=u+中的斜率和纵截距的最小二乘法估计的计算公式为=,=-.
22.大气污染物PM2.5(大气中直径小于或等于2.5μm的颗粒物)的浓度超过一定的限度会影响人的身体健康.为了研究PM2.5的浓度受汽车流量影响的程度,某校数学建模社团选择了学校附近5个监测点,统计每个监测点24h内过往的汽车流量(单位:千辆),同时在低空相同的高度测定每个监测点该时间段内的PM2.5的平均浓度(单位:μg/m3),得到的数据如下表所示:
监测点编号 1 2 3 4 5
汽车流量 1.3 1.2 1.6 1.0 0.9
PM2.5浓度 66 72 113 34 35
根据以上信息,完成下列问题:
(1)建立PM2.5的浓度关于汽车流量的一元线性回归模型;
(2)我国规定空气中PM2.5的浓度安全标准为24h平均浓度为75μg/m3,该地为使PM2.5 24h平均浓度不超过68.6,拟对汽车流量作适当控制,请你根据本题数据估计汽车流量控制的最大值;
(3)从5个监测点中抽取3个,记PM2.5平均浓度不超过68.6的个数为X,求X的分布列和数学期望.
参考公式:==,=-.
23.5G的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该创新公司在第1月份至6月份的5G经济收入y(单位:百万元)关于月份x的数据如表:
时间(月份) 1 2 3 4 5 6
收入(百万元) 6.6 8.6 16.1 21.6 33.0 41.0
根据以上数据绘制散点图,如图.
(1)根据散点图判断,与(a,b,c,d均为常数)哪一个适宜作为5G经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中数据,求出y关于x的回归方程,并预测该公司8月份的5G经济收入;
(3)从前6个月的收入中抽取3个,记月收入超过16百万的个数为X,求X的分布列和数学期望.
参考数据:
3.50 21.15 2.85 17.50 125.35 6.73
其中设,
参考公式和数据:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,,,.
24.经观测,某种昆虫的产卵数y与温度x有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如下图的散点图及一些统计量表.
275 731.1 21.7 150 2368.36 30
表中,
(1)根据散点图判断,与哪一个适宜作为y与x之间的回归方程模型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据.试求y关于x回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
25.2021年6月17日9时22分,我国酒泉卫星发射中心用长征遥十二运载火箭,成功将神舟十二号载人飞船送入预定轨道,顺利将聂海胜、刘伯明、汤洪波3名航天员送入太空,发射取得圆满成功,这标志着中国人首次进入自己的空间站.某公司负责生产的A型材料是神舟十二号的重要零件,该材料应用前景十分广泛.该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造、根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号 1 2 3 4 5 6 7 8 9 10 11 12
x 2 3 4 6 8 10 13 21 22 23 24 25
y 15 22 27 40 48 54 60 68.5 68 67.5 66 65
当时,建立了y与x的两个回归模型:模型①:,模型②:;当时,确定y与x满足的线性回归方程为.
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合精度更高、更可靠的模型,预测对A型材料进行应用改造的投入为17亿元时的直接收益;
回归模型 模型① 模型②
回归方程
79.13 20.2
(2)为鼓励科技创新,当应用改造的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,根据(1)中选择的拟合精度更高更可靠的模型,比较投入17亿元与20亿元时公司收益(直接收益+国家补贴)的大小.
附:刻画回归效果的相关指数,且当越大时,回归方程的拟合效果越好,