8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
基础过关练
题组一 经验回归方程及其应用
1.(2020广东汕尾高二上期末)某种产品的广告支出x(单位:万元)与销售额y(单位:万元)之间的关系如下表:
x 2 4 5 6 8
y 30 40 60 50 70
若已知y关于x的经验回归方程为=6.5x+17.5,那么当广告支出为6万元时,随机误差的效应(残差)为 万元(残差=观测值-预测值)( )
A.17.5 B.-6.5 C.24.5 D.-56.5
2.(2020北京师范大学附属实验中学高三下第一次质量评估)为了规定工时定额,需要确定加工某种零件所需的时间,为此进行了5次试验,得到5组数据:(x1,y1),(x2,y2),(x3,y3),(x4,y4),(x5,y5),由最小二乘法求得经验回归方程为=0.67x+54.9.若已知x1+x2+x3+x4+x5=150,则y1+y2+y3+y4+y5=( )
A.75 B.155.4 C.375 D.466.2
3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯收益y(单位:万元)的数据,如下表:
月份 10 11 12 1 2 3 4
月份代号t 3 4 5 6 7 8 9
纯收益y 66 69 73 81 89 90 91
已知y关于t的经验回归方程为=4.75t+51.36,请估计该公司2019年6月的纯收益为( )
A.94.11万元 B.98.86万元
C.103.61万元 D.108.36万元
4.为了了解家庭月收入x(单位:千元)与月储蓄y(单位:千元)的关系,从某居民区随机抽取10个家庭进行统计,根据统计数据的散点图知x与y之间具有线性相关关系,其经验回归方程为=0.3x-0.4,若该居民区某家庭的月收入为7千元,据此估计该家庭的月储蓄为 千元.
5.(2020山东日照实验中学高二下阶段性考试)若根据5名儿童的年龄x(岁)和体重y(kg)的数据用最小二乘法得到体重关于年龄的经验回归方程是=2x+18,已知这5名儿童的年龄分别是3,5,2,6,4,则这5名儿童的平均体重是 kg.
6.(2020河北衡水深州一中高三上月考)习近平总书记在党的十九大报告中指出,要在“幼有所育、学有所教、劳有所得、病有所医、老有所养、住有所居、弱有所扶”上不断取得新进展,保证全体人民在共建共享发展中有更多获得感.现S市政府针对全市10所由市财政投资建设的敬老院进行了满意度测评,得到数据如下表:
敬老院 A B C D E F G H I J
满意度x(%) 20 34 25 19 26 20 19 24 19 13
投资额y(万元) 80 89 89 78 75 71 65 62 60 52
(1)求投资额y关于满意度x的样本相关系数r;
(2)我们约定:投资额y关于满意度x的样本相关系数r的绝对值在0.75以上(含0.75),两者线性相关性较强,否则,线性相关性较弱.如果没有达到较强线性相关关系,则采取“末位淘汰”制(即满意度最低的敬老院市财政将不再继续投资,改为区财政投资).求在剔除“末位淘汰”的敬老院后投资额y关于满意度x的经验回归方程.(系数精确到0.1)
参考数据:=21.9,=72.1,-10=288.9,≈37.16,xiyi-10=452.1,≈17.
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=x+的斜率和截距的最小二乘估计公式分别为:=,=-,样本相关系数r=.
7.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,2019年12月1日至12月5日的昼夜温差与实验室每天每100颗种子中的发芽数如下表所示:
日期 12月 1日 12月 2日 12月 3日 12月 4日 12月 5日
温差x(℃) 10 11 13 12 8
发芽数y(颗) 23 25 30 26 16
该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求经验回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻的2组数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求y关于x的经验回归方程=x+;
(3)若由经验回归方程得到的估计数据与所选出的检验数据的误差不超过2颗,则认为得到的经验回归方程是可靠的,试问(2)中所得的经验回归方程是否可靠
参考公式:经验回归方程=x+中,=,=-.
题组二 非线性回归分析
8.(2019河南开封高二期中)已知变量y关于x的回归方程为=ebx-0.5,其一组数据如下表所示:
x 1 2 3 4
y e e3 e4 e6
若x=5,则y的值可能为( )
A.e5 B. C.e7 D.
9.某工厂每日生产一种产品x(x≥1)吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而有所变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x(吨) 1 2 3 4 5
日销售额y(万元) 5 12 16 19 21
(1)请判断y=bx+a与y=dln x+c中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的经验回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参考公式:经验回归方程=x+中,=.
参考数据:≈0.96,5ln 1+12ln 2+16ln 3+19ln 4+21ln 5≈86,ln 6≈1.8,(ln 1)2+(ln 2)2+(ln 3)2+(ln 4)2+(ln 5)2≈6.2.
能力提升练
题组一 经验回归方程及其应用
1.(2019福建莆田高二期末,)某同学将收集到的六组数据(xi,yi)(i=1,2,3,4,5,6)制成如图所示的散点图,并通过计算得到其经验回归直线l1的方程为=0.68x+,其样本相关系数为r1,决定系数为.经过残差分析确定点F为“离群点”(对应残差过大的点),把它去掉后,再利用剩下的五组数据计算得到其经验回归直线l2的方程为=x+0.68,其样本相关系数为r2,决定系数为.以下结论中不正确的是( )
A.r1>0,r2>0 B.>
C.=0.12 D.0<<0.68
2.(2020四川成都高二期末,)某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:
年号x 1 2 3 4 5
年生产利润y (单位:千万元) 0.7 0.8 1 1.1 1.4
预测第8年该国企的生产利润为( )
参考公式及数据:=,=-,xiyi-5 =1.7,-5=10.
A.1.88千万元 B.2.21千万元
C.1.85千万元 D.2.34千万元
3.(2019河南林州第一中学高二上期中,)一台还可以用的机器由于使用的时间较长,按不同的转速生产出来的某机械零件有一些会有缺陷,每小时生产有缺陷零件的数量随机器转速的变化而变化,下表为抽样试验结果:
转速x(转/秒) 16 14 12 8
每小时生产有缺陷的零件数y(个) 11 9 8 5
(1)画出散点图;
(2)如果变量x和y线性相关,求y关于x的经验回归方程;
(3)若实际生产中,允许每小时生产的产品中有缺陷的零件最多为10个,那么机器的转速应控制在什么范围内
4.(2020河北石家庄第二中学高三下教学质量检测,)BMI指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.在我国,BMI<18.5,认为体重过轻;18.5≤BMI<24,认为体重正常;BMI≥24,认为体重超重.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如下表所示:
编号 1 2 3 4 5 6 7 8
身高x(cm) 166 167 160 173 178 169 158 173
体重y(kg) 57 58 53 61 66 57 50 66
(1)根据最小二乘法求得的经验回归方程为=0.8x-75.9.利用已经求得的经验回归方程完善下列残差表,并求解释变量(身高)对于响应变量(体重)变化的贡献值R2(保留两位有效数字);
编号 1 2 3 4 5 6 7 8
身高x(cm) 166 167 160 173 178 169 158 173
体重y(kg) 57 58 53 61 66 57 50 66
残差 0.1 0.3 0.9 -1.5 -0.5
(2)通过残差分析,对于残差最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58 kg.请重新根据最小二乘法,求出y关于x的经验回归方程.
参考公式:R2=1-,==,=-,=yi-xi-.
参考数据:xiyi=78 880,=226 112,=168,=58.5,=226.
题组二 非线性回归分析
5.(2019山西晋中平遥中学高二下期中,)某电视厂家准备在五一举行促销活动,现在根据近七年的广告支出与销售量的数据确定此次广告支出.广告支出x(万元)和销售量y(万台)的数据如下:
年份 2012 2013 2014 2015 2016 2017 2018
广告支出x 1 2 4 6 11 13 19
销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4
(1)试根据这些数据建立y关于x的经验回归方程;(2)若用模型y=c+d拟合y与x的关系,可得经验回归方程=1.63+0.99,经计算(1)中的经验回归方程和该经验回归方程的R2分别约为0.75和0.88,请用R2说明选择哪个回归方程更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)中的结果回答:当广告支出为20万元时,销售量及利润的预测值分别是多少 (精确到0.01)
参考数据:xiyi=279.4,≈2.236.
参考公式:=,=-.
6.(2019山东青岛高三调研检测,)近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y(单位:十)表示每天使用扫码支付的人次,统计数据如下表所示:
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制了如下散点图.
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个更适合作为扫码支付的人次y关于活动推出天数x的经验回归方程类型(给出判断结果即可,不必说明理由);
(2)根据(1)中的判断结果及表中的数据,求y关于x的经验回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
xivi 100.54
62.14 1.54 50.12 3.47
其中vi=lg yi,=vi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=u+中,
答案全解全析
8.2 一元线性回归模型
及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数
的最小二乘估计
基础过关练
1.B 取x=6,得=6.5×6+17.5=56.5,
∴当广告支出为6万元时,随机误差的效应(残差)为50-56.5=-6.5.故选B.
2.C 由题意,可得==30,代入经验回归方程,可得=0.67×30+54.9=75,
所以y1+y2+y3+y4+y5=5×75=375,故选C.
3.C 将2019年6月的月份代号t=11代入经验回归方程,得=4.75×11+51.36=103.61.故选C.
4.答案 1.7
解析 将x=7代入=0.3x-0.4,得=1.7,因此该家庭的月储蓄约为1.7千元.
5.答案 26
解析 由题意得==4,
由于经验回归直线过样本点的中心(,),所以=2+18=2×4+18=26,
故这5名儿童的平均体重是26 kg.
6.解析 (1)根据样本相关系数的公式,可得
r=≈≈0.72.
(2)由(1)可知,样本相关系数r≈0.72<0.75,所以投资额y与满意度x没有达到较强线性相关关系,
所以要“末位淘汰”掉J敬老院.
此时==≈22.89,==≈74.33,
-9≈288.9+10×21.92-132-9×22.892≈200.43,
xiyi-9≈452.1+10×21.9×72.1-13×52-9×22.89×74.33≈253.28,
所以=≈1.3,
=-≈74.33-1.3×22.89≈44.6.
所以所求经验回归方程为=1.3x+44.6.
7.解析 (1)设取到不相邻2组数据为事件A.因为从5组数据中选取2组数据共有10种情况,每种情况是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P(A)=1-=,故选取的2组数据恰好是不相邻的2组数据的概率为.
(2)利用12月2日至12月4日的数据,求得=×(11+13+12)=12,=×(25+30+26)=27,
(xi-)(yi-)=(-1)×(-2)+1×3+0×(-1)=5,
(xi-)2=(-1)2+12+02=2,
所以==,=-=-3.
所以y关于x的经验回归方程为=x-3.
(3)当x=10时,=×10-3=22,|22-23|<2,同样地,当x=8时,=×8-3=17,|17-16|<2,所以(2)中所得到的经验回归方程是可靠的.
8.D 由=ebx-0.5,得ln =bx-0.5,令z=ln ,则z=bx-0.5,∴x与z之间的数据关系如下表所示:
x 1 2 3 4
z 1 3 4 6
∴==2.5,==3.5,
∴3.5=b×2.5-0.5,解得b=1.6,∴z=1.6x-0.5,∴=e1.6x-0.5,当x=5时,=e1.6×5-0.5=,故选D.
9.解析 (1)y=dln x+c更适合刻画x,y之间的关系.理由:由题表中的数据可知,x的值每增加1,函数值y的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故y=dln x+c更适合刻画x,y之间的关系.
(2)令z=ln x,由题意得===14.6,所以=≈=10,=-·≈14.6-10×0.96=5,所以y关于x的回归方程为=10ln x+5.
当x=6时,日销售额为10ln 6+5≈23(万元).
能力提升练
1.B 由题图可知两变量正线性相关,故r1>0,r2>0,且r12.C 由题可得==3,==1,
所以==0.17,=-=1-0.17×3=0.49,
所以年生产利润关于年号的经验回归方程为=0.17x+0.49,
当x=8时,=0.17×8+0.49=1.85,故选C.
3.解析 (1)画出散点图,如图所示:
(2)由题表易得=12.5,=8.25,xiyi=438,=660,
∴==≈0.728 6,
=-≈8.25-0.728 6×12.5=-0.857 5.
故经验回归方程为=0.728 6x-0.857 5.
(3)要使y≤10,则0.728 6x-0.857 5≤10,即x≤≈14.901 9.
故机器的转速应控制在14.9转/秒以下.
4.解析 (1)由题知经验回归方程为=0.8x-75.9,则=57-0.8×169+75.9=-2.3,=50-0.8×158+75.9=-0.5,=66-0.8×173+75.9=3.5.完善残差表如下,
编号 1 2 3 4 5 6 7 8
身高x(cm) 166 167 160 173 178 169 158 173
体重y(kg) 57 58 53 61 66 57 50 66
残差 0.1 0.3 0.9 -1.5 -0.5 -2.3 -0.5 3.5
R2=1-=1-×(0.01+0.09+0.81+2.25+0.25+5.29+0.25+12.25)≈0.91,
所以解释变量(身高)对于响应变量(体重)变化的贡献值R2≈0.91.
(2)通过残差分析知,残差最大(绝对值)的那组数据为第8组,所以y8=58,
所以修改后xiyi=78 880-173×66+173×58=77 496,
=×(8×58.5-66+58)=57.5,
所以===0.675,
=-=57.5-0.675×168=-55.9.所以y关于x的经验回归方程是=0.675x-55.9.
5.解析 (1)由题意得=8,=4.2,xiyi=279.4,=708,
∴===0.17,=-=4.2-0.17×8=2.84,
∴y关于x的经验回归方程为=0.17x+2.84.
(2)R2越接近于1,模型的拟合效果越好,故选用=1.63+0.99.
(3)当x=20时,=1.63+0.99≈6.06(万台),
z≈200×(1.63+0.99)-20≈1 191.46(万元).
故销售量的预测值为6.06万台,利润的预测值为1 191.46万元.
6.解析 (1)根据散点图可知,y=c·dx更适合作为扫码支付的人次y关于活动推出天数x的经验回归方程类型.
(2)对y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d.
设lg y=v,则v=lg c+xlg d,
由题知=4,=1.54,=140,
∴lg ===0.25,
lg =-lg =1.54-4×0.25=0.54,
∴=0.54+0.25x,∴lg =0.54+0.25x,
∴y关于x的经验回归方程为=100.54+0.25x=3.47×100.25x.
把x=8代入上式,得=3.47×102=347,
∴活动推出第8天使用扫码支付的人次约为3 470.