第八章 8.2 8.2.2 一元线性回归模型的综合问题
A级——基础过关练
1.在回归分析中,R2的值越大,说明残差平方和( )
A.越大 B.越小
C.可能大也可能小 D.以上均错
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的决定系数R2分别如下表所示:
学生 甲 乙 丙 丁
R2 0.95 0.50 0.85 0.77
则建立的回归模型拟合效果最好的同学是( )
A.甲 B.乙
C.丙 D.丁
3.在线性回归模型中,变量x与y的一组样本数据对应的点均在直线y=x+上,则R2等于( )
A. B.
C.1 D.2
4.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表所示:
学生 甲 乙 丙 丁
散点图
残差平方和 115 106 124 103
试验结果体现拟合A,B两变量关系的模型拟合精度高的同学是( )
A.甲 B.乙
C.丙 D.丁
5.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批该产品测得如下数据:
色差x 21 23 25 27 29 31
色度y 15 16 17 21 22 23
已知该产品的色差和色度之间满足线性相关关系,且=0.25x+,现有一对测量数据为(32,21.25),则该组数据的残差(测量值与预测值的差)为( )
A.0.65 B.0.75
C.-0.75 D.0.95
6.(多选)下列说法错误的有( )
A.一组数据的预测值与真实值之间的误差越大,残差越小
B.线性回归方程对应的直线=x+至少经过其样本数据点中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,决定系数R2为0.98的模型比决定系数R2为0.80的模型拟合的效果差
7.某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表所示:
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
已知y关于x的经验回归方程为=0.5x+0.4,则当销售额为5千万元时,残差为________.
8.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,其变换后得到经验回归方程z=0.3x+4,则c=________.
9.对两个具有非线性相关关系的变量x,y进行回归分析,设μ=ln y,υ=(x-4)2,利用二乘法得到μ关于υ的经验回归方程为=-0.5υ+2,则的最大值是________.
10.(2024年福州期末)为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2025年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型,其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①:=166.9e0.058t(决定系数R≈0.88)和模型②:=152.4+16.3t(样本相关系数r1≈0.97,决定系数R≈0.94).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(样本相关系数r2≈0.99,决定系数R≈0.98).
(1)可以根据模型①得到2025年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2025年全国普通本科招生数的预测值;
(2)你认为用哪个模型得到的预测值更可靠?说明理由.(写出一个即可)
B级——能力提升练
11.(多选)某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了该平台从2016年到2024年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成以年份序号x(2016年作为第1年)的函数.运用excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如图所示,则下列说法正确的有( )
A.销售额y与年份序号x呈正相关关系
B.三次函数回归模型的残差平方和大于直线回归模型的残差平方和
C.三次函数回归曲线的拟合效果好于回归直线的拟合效果
D.根据三次函数回归曲线可以预测2025年“年货节”期间的销售额约为2 125.78亿元
12.为了研究某种病毒在特定环境下随时间变化的繁殖情况,得到了一些数据,绘制成散点图,发现用模型y=cekx拟合比较合适.令z=ln y,得到=1.3x+,经计算发现x,z满足下表,则k=________,c=________.
天数x 2 3 4 5 6
z 1.5 4.5 5.5 6.5 7
13.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(单位:万元)和销售量y(单位:万台)的数据如下表所示:
年份 2016 2017 2018 2019 2020 2021 2022
广告费支出x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的经验回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得经验回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好.
C级——创新拓展练
14.(2023年葫芦岛模拟)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x (单位:百万元)与收益y (单位:百万元)的数据统计如下表所示:
科技投入x 1 2 3 4 5 6 7
收益y 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表所示:
x xiyi xizi (yi-)2 (yi-)2
5 140 1 239 149 2 134 130
其中zi=log2yi,=zi.
(1)请根据表中数据,建立y关于x的非线性回归方程.(系数精确到0.1)
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为=8.25x+3,以及该回归模型的决定系数R=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
参考数据:log25≈2.3.
参考答案
【A级——基础过关练】
1.【答案】B
2.【答案】A
3.【答案】C
4.【答案】D 【解析】根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小,则由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.
5.【答案】B 【解析】样本中心点坐标为(26,19),代入经验回归方程得到=12.5,所以=0.25x+12.5.将x=32代入,求解得到对应的预估值为20.5,因而其残差为21.25-20.5=0.75.故选B.
6.【答案】ABD 【解析】对于A,一组数据的预测值与真实值之间的误差越大,残差越大,所以A错误;对于B,经验回归方程对应的直线=x+可能不过任何一个样本数据点,所以B错误;对于C,残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,所以C正确;对于D,回归分析中,决定系数R2为0.98的模型比决定系数R2为0.80的模型拟合的效果好,所以D错误.故选ABD.
7.【答案】0.1 【解析】当x=5时,=0.5×5+0.4=2.9,表格中对应y=3,于是残差为3-2.9=0.1.
8.【答案】e4 【解析】由题意,得ln (cekx)=0.3x+4,所以ln c+kx=0.3x+4,比较两边系数,得ln c=4,所以c=e4.
9.【答案】e2 【解析】将μ=ln y,υ=(x-4)2代入经验回归方程=-0.5υ+2,得=e-0.5(x-4)2+2.当x=4时,=e-0.5(4-4)2+2=e2,故最大值为e2.
10.解:(1)利用模型②得2025年全国普通本科招生数的预测值为=152.4+16.3×25=559.9(万人),
利用模型③得2025年全国普通本科招生数的预测值为=372.8+9.8×12=490.4(万人).
(2)利用模型③得到的预测值更可靠,理由如下:
理由一:从计算结果可以看出,模型③的决定系数R≈0.98最大,说明其拟合效果最好,因此利用模型③得到的预测值更可靠.
理由二:模型①的决定系数比模型②③小很多,说明其拟合效果最差.对于模型②③,模型③的样本相关系数r2≈0.99比模型②的样本相关系数r1≈0.97大,说明模型③的两变量的线性相关性比模型②更强,因此利用模型③得到的预测值更可靠.
【B级——能力提升练】
11.【答案】AC 【解析】由散点图的变化趋势可知,销售额y与年份序号x呈正相关关系,故选项A正确;由散点图以及直线回归模型和三次函数回归模型的位置关系可知,三次函数回归模型的残差平方和小于直线回归模型的残差平方和,故选项B错误;因为0.999>0.936,所以三次函数回归曲线的拟合效果好于回归直线的拟合效果,故选项C正确;因为三次函数为y=0.168x3+28.141x2-29.027x+6.889,则当x=10时,y=2 698.719亿元,故选项D错误.故选AC.
12.【答案】1.3 e-0.2 【解析】由表知,=×(2+3+4+5+6)=4,=×(1.5+4.5+5.5+6.5+7)=5,由经验回归直线=1.3x+恒过点,知5=1.3×4+,解得=-0.2,∴=1.3x-0.2,即ln y=1.3x-0.2,∴y=e1.3x-0.2=e-0.2·e1.3x,∴k=1.3,c=e-0.2.
13.解:(1)∵=8,=4.2,xiyi=279.4,x=708,
∴===0.17,
=-=4.2-0.17×8=2.84,
∴y关于x的经验回归方程为=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,∴选用=1.63+0.99更好.
【C级——创新拓展练】
14.解:(1)将y=2bx+a两边取对数得log2y=bx+a,
令z=log2y,则=x+.
∵=4,
∴==≈0.3,
=-=5-0.3×4=3.8,
∴经验回归方程为=0.3x+3.8,即=20.3x+3.8.
(2)①甲建立的回归模型的R=1-≈0.939>0.893=R,
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
设20.3x+3.8≥100,得0.3x+3.8≥log2100=2+2log25,解得x≥9.3.
∴科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿元.