中小学教育资源及组卷应用平台
2024人教版高中数学选择性必修第三册同步
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
基础过关练
题组一 经验回归方程及其应用
1.(2023山西运城教育发展联盟期中)下列说法错误的是( )
A.决定系数R2越大,模型的拟合效果越好
B.若变量x和y之间的样本相关系数r=-0.999,则变量x和y之间的负相关性很强
C.残差平方和越小的模型,拟合效果越好
D.在经验回归方程=-2x+0.8中,当x每增加1个单位时,一定减少2个单位
2.(2022江西新余一中开学考试)有一组样本点(xi,yi)(其中i=1,2,…,300),根据最小二乘法求得y关于x的经验回归方程是=x+,则下列说法正确的是( )
A.至少有一个样本点落在对应经验回归直线上
B.若所有的样本点都在对应经验回归直线上,则变量间的样本相关系数为1
C.对所有的解释变量xi(i=1,2,…,300),xi+的值一定与yi有误差
D.若>0,则变量x与y正相关
3.(2022广东信宜二中开学考试)色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批该产品,测得如下数据:
色差x 21 23 25 27 29 31
色度y 15 16 17 21 22 23
已知该产品的色差和色度之间满足线性相关关系,且=0.25x+,现有一对测量数据(32,21.25),则该组数据的残差为( )
A.0.65 B.0.75 C.-0.75 D.0.95
4.(2023江苏连云港期末)某杂交水稻研究小组先培育出第一代杂交水稻,再由第一代培育出第二代,第二代培育出第三代,以此类推,且亲代与子代的每穗总粒数之间的关系如下表所示:
代数代码x 1 2 3 4
总粒数y 197 193 201 209
通过上面四组数据得到了x与y之间的经验回归方程是=4.4x+,则预测第十代杂交水稻每穗的总粒数为( )
A.233 B.234 C.235 D.236
5.(2022江西抚州期中)某学校为了解学生中男生的体重y(单位:kg)与身高x(单位:cm)是否存在线性相关关系,搜集了7位男生的数据,得到如下表格:
序号 1 2 3 4 5 6 7
身高x(cm) 166 173 174 178 180 183 185
体重y(kg) 57 62 59 71 67 75 78
根据表中数据计算得到y关于x的经验回归方程为=x-136.55.
(1)= ;
(2)已知决定系数R2=1-,当R2≥0.9时,模型的拟合效果非常好,当0.8参考数据:(yi-)2=52.36.
6.(2022河南商丘月考)一台还可以用的机器由于使用的时间较长,按不同的转速生产出来的某机械零件有一些会有缺陷,每小时生产有缺陷零件的数量随机器转速的变化而变化,下表为抽样试验结果:
转速x(转/秒) 16 14 12 8
每小时生产有缺陷 零件的数量y(个) 11 9 8 5
(1)画出散点图;
(2)如果变量x和y线性相关,求y关于x的经验回归方程=x+;
(3)若实际生产中,允许每小时生产的产品中有缺陷的零件最多有10个,机器的转速应控制在什么范围内
附:经验回归方程=x+中,=
题组二 非线性回归分析
7.(2022河南郑州期末)2022年9月1日至23日(日期代码分别为1,2,…,23),某餐馆在区域M内投放广告单数量y(万张)与日期代码x满足经验回归方程=,则= (精确到小数点后两位).
参考数据:y1y2y3…y23=e89.7,=12.
8.(2023江苏淮安期末)某乡政府为提高当地农民的收入,指导农民种植药材,并取得了较好的效果.以下是某农户近5年种植药材的平均收入的统计数据:
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
平均收入y(千元) 59 61 64 68 73
(1)根据表中数据,现有y=a+bx与y=c+dx2两种模型可以拟合y与x之间的关系,请分别求出两种模型的回归方程;(结果保留一位小数)
(2)统计学中常通过比较残差的平方和来比较两个模型的拟合效果,请根据残差平方和说明上述两个模型哪一个的拟合效果更好,并据此预测2030年该农户种植药材的平均收入.
参考数据:(ti-)(yi-)=217,(ti-)2=374,其中ti=.
参考公式:经验回归方程=x+中,=,=-.
能力提升练
题组一 经验回归方程及其应用
1.(2023江苏淮安六校联盟学情调查)某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集了5组对应数据,如下表所示:
产品的产量x(吨) 3 4 5 6 7
原材料的质量y(吨) 4.0 2.5 -0.5 0.5 m
根据表中数据得出y关于x的经验回归方程为=-1.4x+,据此计算出在样本数据(4,2.5)的残差为-0.5,则表中的m=( )
A.1.5 B.1.2
C.-1.2 D.-1.5
2.(多选题)(2023重庆期末)对于变量x和变量y,数据
(-1,1),(1,1),(x1,y1),(x2,y2),…,(x18,y18)的样本点的中心为(4.5,9),其经验回归方程为=x,若去除前两个已知样本点后得到的新的经验回归方程为=x+,则对于新的样本数据,下列说法正确的是( )
A.新的样本点的中心为(5,10)
B.x与y具有正相关的关系
C.新的经验回归方程=x+与经验回归方程=x是相同的
D.随着变量x的增加,变量y的增加速度增大
3.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,2022年12月1日至12月5日的昼夜温差与实验室每天每100颗种子中的发芽数如下表所示:
日期 12月 1日 12月 2日 12月 3日 12月 4日 12月 5日
温差x(℃) 10 11 13 12 8
发芽数y 23 25 30 26 16
该农科所确定的研究方案如下:先从这5组数据中选取2组,用剩下的3组数据求经验回归方程,再用被选取的2组数据进行检验.
(1)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据求y关于x的经验回归方程=x+;
(2)若由经验回归方程得到的估计数据与所选出的检验数据的误差的绝对值不超过2,则认为得到的经验回归方程是可靠的,问(1)中所得到的经验回归方程是否可靠
(3)请预测温差为14 ℃时的发芽率.
参考公式:经验回归方程=x+中,=,=-.
4.大气污染物PM2.5(大气中直径小于或等于2.5 μm的颗粒物)的浓度超过一定的限度会影响人的身体健康.为了研究PM2.5的浓度受车流量影响的程度,某校数学建模社团选择了学校附近5个监测点,统计每个监测点24 h内的车流量x(单位:千辆),同时在低空相同的高度测定每个监测点该时间段内的PM2.5的平均浓度y(单位:μg/m3),得到的数据如表所示:
监测点编号 1 2 3 4 5
车流量x(千辆) 1.3 1.2 1.6 1.0 0.9
PM2.5的平均 浓度y(μg/m3) 66 72 113 34 35
(1)建立y关于x的一元线性回归模型,并用样本相关系数加以说明(一般地,样本相关系数的绝对值在0.75以上(含0.75)认为线性相关性较强,否则认为线性相关性较弱);
(2)我国规定空气中PM2.5的浓度安全标准为24 h平均浓度为75 μg/m3,该地为使PM2.524 h平均浓度不超过68.6 μg/m3,拟对车流量作适当控制,请你根据本题数据估计车流量控制的最大值.
参考公式:在经验回归方程=x+中,=,=-;样本相关系数r=
题组二 非线性回归分析
5.(2023江苏苏州期末)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年~2022年云计算市场规模数据如下,且市场规模y(单位:千万元)与年份代码x的关系可以用模型y=aebx(其中e=2.718 28…)拟合,设z=ln y.
年份 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5
市场规模y (千万元) m 11 20 36.6 54.6
z n 2.4 3 3.6 4
由上表可得经验回归方程为=0.52x+1.44,则m的值约为( )
A.2 B.7.4 C.1.96 D.6.9
6.(2022江西赣州二模)某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y(单位:十)表示每天使用扫码支付的人次,统计数据如下表所示:
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制了如下散点图.
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个更适合作为每天使用扫码支付的人次y关于活动推出的天数x的回归方程类型(给出判断结果即可,不必说明理由);
(2)根据(1)中的判断结果及表中的数据,求y关于x的回归方程,并预测活动推出第8天时使用扫码支付的人次.
参考数据:
xivi 100.54
62.14 1.54 50.12 3.47
其中vi=lg yi,=vi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=u+中,
7.(2023安徽六安舒城中学模拟)放行准点率是衡量机场运行效率和服务质量的重要指标之一.某机场自2012年起采取相关策略优化各个服务环节,运行效率不断提升.以下是根据2013~2022年年份数xi(i=1,2,…,10)与该机场飞往A地航班放行准点率yi(单位:百分比)的统计数据所作的散点图及经初步处理后得到的一些统计量的值.
2 017.5 80.4 1.5 40 703 145.0 1 621 254.2 27.7 1 226.8
其中ti=ln(xi-2 012),=.
(1)根据散点图判断y=bx+a与y=cln(x-2 012)+d中哪一个适宜作为该机场飞往A地航班放行准点率y关于年份数x的回归方程类型(给出判断即可,不必说明理由),并根据表中数据建立回归方程,预测2023年该机场飞往A地的航班放行准点率;
(2)已知2023年该机场飞往A地、B地和其他地区的航班比例分别为0.2,0.2和0.6,若以(1)中的预测值作为2023年该机场飞往A地航班放行准点率的估计值,且2023年该机场飞往B地及其他地区航班放行准点率的估计值分别为80%和75%,现从2023年在该机场起飞的航班中随机抽取一个,求该航班准点放行的概率.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=+u中,==,=-.
参考数据:ln 11≈2.40.
答案与分层梯度式解析
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
基础过关练
1.D 2.D 3.B 4.A
1.D 在经验回归方程=-2x+0.8中,当x每增加1个单位时,约减少2个单位.
故选D.
2.D 经验回归直线必过样本点的中心,但样本点可能全部不在经验回归直线上,故A错误;
若所有的样本点都在对应经验回归直线上,则变量间的样本相关系数为±1,故B错误;
若所有的样本点都在对应经验回归直线上,则xi+的值与yi相等,故C错误;
样本相关系数r与符号相同,若>0,则r>0,样本点应分布在从左下角到右上角的区域,此时变量x与y正相关,故D正确.
故选D.
3.B 由题表中数据得样本点的中心为(26,19),将(26,19)代入经验回归方程得=12.5,所以=0.25x+12.5,将x=32代入,得到对应的y的估计值为20.5,因而该组数据的残差为21.25-20.5=0.75.故选B.
方法总结 回归直线不一定过样本点,但一定过样本点的中心(,),常利用这一结论列方程求经验回归方程中的参数.
4.A 由题表得=×(1+2+3+4)=2.5,=×(197+193+201+209)=200,所以200=4.4×2.5+,解得=189,所以x与y之间的经验回归方程是=4.4x+189.
当x=10时,=4.4×10+189=233.故选A.
5.答案 (1)1.15 (2)良好
解析 (1)由题表中数据可得,
==177,
==67,
所以67=×177-136.55,解得=1.15.
(2)由(1)知=67,故(yi-)2=(-10)2+(-5)2+(-8)2+42+02+82+112=390,
则有R2=1-≈0.87,因为0.8<0.87<0.9,
所以该经验回归方程对应模型的拟合效果良好.
6.解析 (1)画出散点图,如图所示:
(2)由题表中数据易得=12.5,=8.25,xiyi=438,=660,
∴==≈0.728 6,
=-=8.25-0.728 6×12.5=-0.857 5.
故经验回归方程为=0.728 6x-0.857 5.
(3)由题意得0.728 6x-0.857 5≤10,即x≤≈14.9.
故机器的转速应不超过14.9转/秒.
7.答案 0.29
解析 对=的两边取自然对数,得ln =x+0.38,所以ln y与x具有线性相关关系.
因为ln(y1y2y3…y23)=ln e89.7=89.7,
所以=3.9,
所以3.9=12+0.38,所以≈0.29.
8.解析 (1)由题表得=×(1+2+3+4+5)=3,=×(59+61+64+68+73)=65,
所以(xi-)(yi-)=35,(xi-)2=10,
所以===3.5,
=-=65-3.5×3=54.5.
设t=x2,则y=c+dx2=c+dt,
易得=×(12+22+32+42+52)=11,
==≈0.6,
所以=-≈65-0.6×11=58.4.
所以两种模型的回归方程分别为=3.5x+54.5,=0.6x2+58.4.
(2)对于=3.5x+54.5,其残差平方和为(59-58)2+(61-61.5)2+(64-65)2+(68-68.5)2+(73-72)2=3.5.
对于=0.6x2+58.4,其残差平方和为(59-59)2+(61-60.8)2+(64-63.8)2+(68-68)2+(73-73.4)2=0.24.
因为0.24<3.5,所以模型=0.6x2+58.4的拟合效果更好.
当x=13时,=0.6×132+58.4=159.8,故预测2030年该农户种植药材的平均收入为159.8千元,即15.98万元.
能力提升练
1.A 2.AB 5.B
1.A 因为样本数据(4,2.5)的残差为-0.5,所以2.5-(-1.4×4+)=-0.5,解得=8.6,所以y关于x的经验回归方程为=-1.4x+8.6.
由题表得==5,==,所以=-1.4×5+8.6,解得m=1.5.故选A.
2.AB 对于A,由题意得-1+1+x1+x2+…+x18=4.5×20,-1+1+y1+y2+…+y18=9×20,所以x1+x2+…+x18=90,y1+y2+…+y18=180,所以=5,=10,所以新的样本点的中心为(5,10),故A正确.
对于B,易知=x过点(4.5,9),所以9=4.5×,解得=2,所以x与y具有正相关的关系,故B正确.
对于C,根据最小二乘估计可得==2,化简得,所以=≠2,所以新的经验回归方程=x+与经验回归方程=x不相同,故C错误.
对于D,因为经验回归方程为直线方程,所以随着变量x的增加,变量y的增加速度不变,故D错误.
故选AB.
3.解析 (1)利用12月2日至12月4日的数据,求得=×(11+13+12)=12,=×(25+30+26)=27,
(xi-)(yi-)=(-1)×(-2)+1×3+0×(-1)=5,
(xi-)2=(-1)2+12+02=2,
所以==,
=-=27-×12=-3.
所以y关于x的经验回归方程为=x-3.
(2)当x=10时,=×10-3=22,|22-23|<2,
当x=8时,=×8-3=17,|17-16|<2,
所以(1)中所得到的经验回归方程是可靠的.
(3)当x=14时,=×14-3=32,
所以预测温差为14 ℃时的发芽率为32%.
4.解析 (1)由题表得==1.2,
==64,
xiyi=1.3×66+1.2×72+1.6×113+1.0×34+0.9×35=418.5,
=1.32+1.22+1.62+1.02+0.92=7.5,
=662+722+1132+342+352=24 690,
所以===115,
=-=64-115×1.2=-74,
所以=115x-74.
样本相关系数r=
=≈0.97.
因为|0.97|>0.75,
所以y与x的线性相关性较强.
(2)令115x-74≤68.6,得x≤1.24,
故估计车流量控制的最大值为1.24.
5.B 由题表得=×(1+2+3+4+5)=3,将=3代入=0.52x+1.44,得=0.52×3+1.44=3,所以=(n+2.4+3+3.6+4)=3,解得n=2.因为z=ln y,所以2=ln m,解得m=e2≈7.4.故选B.
6.解析 (1)根据题中散点图可知,y=c·dx更适合作为每天使用扫码支付的人次y关于活动推出的天数x的回归方程类型.
(2)对y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d.
设lg y=v,则v=lg c+xlg d,
由题表知=4,=140,
∴lg ===0.25,
lg =-lg =1.54-4×0.25=0.54,
∴=0.54+0.25x,∴lg =0.54+0.25x,
∴y关于x的回归方程为=100.54+0.25x=3.47×100.25x.
把x=8代入上式,得=3.47×102=347,
∴预测活动推出第8天时使用扫码支付的人次为3 470.
7.解析 (1)由题图可以看出,y=cln(x-2 012)+d适宜作为该机场飞往A地航班放行准点率y关于年份数x的回归方程类型.
令t=ln(x-2 012),则y=ct+d,
易得===4,
=-=80.4-4×1.5=74.4,
所以=4t+74.4,
因此该机场飞往A地航班放行准点率y关于年份数x的回归方程为=4ln(x-2 012)+74.4.
当x=2 023时,=4ln(2 023-2 012)+74.4=4ln 11+74.4≈4×2.40+74.4=84.
所以预测2023年该机场飞往A地的航班放行准点率为84%.
(2)设A1=“该航班飞往A地”,A2=“该航班飞往B地”,A3=“该航班飞往其他地区”,C=“该航班准点放行”,则P(A1)=0.2,P(A2)=0.2,P(A3)=0.6,
P(C|A1)=0.84,P(C|A2)=0.8,P(C|A3)=0.75.
所以P(C)=P(A1)P(C|A1)+P(A2)P(C|A2)+P(A3)·P(C|A3)=0.2×0.84+0.2×0.8+
0.6×0.75=0.778.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)