第八章 8.2
A 组·素养自测
一、选择题
1.(多选题)(2021·湖北天门高二期末)小明同学在做市场调查时得到如下样本数据:
x 1 3 6 10
y 8 a 4 2
他由此得到经验回归方程为=-2.1x+15.5,则下列说法正确的是( ABC )
A.变量x与y负线性相关 B.当x=2时,=11.3
C.a=6 D.变量x与y之间是函数关系
[解析] A.因为=-2.1,所以变量x与y负线性相关,正确;B.将x=2代入经验回归方程,得=11.3,正确;C.将(,)代入经验回归方程,得a=6,正确;D.变量x与y之间是相关关系,不是函数关系,错误.
2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如表:
甲 乙 丙 丁
R2 0.98 0.78 0.50 0.85
哪位同学建立的回归模型拟合效果最好( A )
A.甲 B.乙
C.丙 D.丁
[解析] 相关指数R2越大,表示回归模型的效果越好.
3.2020年初,新型冠状病毒引起的肺炎疫情暴发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示:
周数(x) 1 2 3 4 5
治愈人数(Y) 2 17 36 103 142
由表格可得Y关于x的非线性经验回归方程为=6x2+a,则此回归模型第4周的残差(实际值与预报值之差)为( C )
A.5 B.-13
C.13 D.0
[解析] 因为=(1+4+9+16+25)=11,=(2+17+36+103+142)=60,所以a=60-6×11=-6,则Y关于x的非线性经验回归方程为=6x2-6.取x=4,得=6×42-6=90,
所以此回归模型第4周的预报值为90,
则此回归模型第4周的残差为 103-90=13.
4.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x/万元 8.2 8.6 10.0 11.3 11.9
支出Y/万元 6.2 7.5 8.0 8.5 9.8
根据上表可得经验回归方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元的家庭的年支出为( B )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
[解析] 由题意可得=×(8.2+8.6+10.0+11.3+11.9)=10,
=×(6.2+7.5+8.0+8.5+9.8)=8,
所以=8-0.76×10=0.4,
所以线性经验回归方程为=0.76x+0.4,把x=15代入,可得=0.76×15+0.4=11.8(万元).
5.已知x与Y之间的几组数据如表:
x 1 2 3 4 5 6
Y 0 2 1 3 3 4
假设根据上表数据所得经验回归方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是( C )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
[解析] 过(1,0)和(2,2)的直线方程为y′=2x-2,画出六点的散点图,回归直线的大概位置如图所示,
显然,b′>,>a′.
二、填空题
6.(2021·福建福州尤溪高二期中)已知经验回归方程=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.2),则残差平方和是__0.06__.
[解析] 因为=2x+1,所以当x=2时,=5,e1=-0.1;x=3时,=7,e2=0.1;x=4时,=9,e3=0.2.
所以残差平方和为e+e+e=0.01+0.01+0.04=0.06.
7.已知具有线性相关的变量x,y,设其样本点为Pi(xi,yi)(i=1,2,…,6),经验回归方程为=2x+,若++…+=(12,18)(O为坐标原点),则=__-1__.
[解析] 由题意可得,=(x1+x2+x3+x4+x5+x6)==2,
=(y1+y2+…+y6)==3.
经验回归方程为=2x+,所以3=2×2+,解得=-1.
8.已知n组成对样本数据确定的经验回归方程为=-x+2且=4,通过残差分析,发现两组成对样本数据(-1.7,2.9),(-2.3,5.1)误差较大,除去这两组成对样本数据后,重新求得经验回归直线的斜率估计值为-1.5,则当x=-4时,=__7__.
[解析] 由样本数据点集{(xi,yi)|i=1,2,…,n}求得的经验回归方程为=-x+2,且=4,所以=-2,
故数据的样本中心点为(-2,4),
去掉(-1.7,2.9),(-2.3,5.1),
重新求得的经验回归直线的斜率估计值为-1.5.
经验回归方程设为:=-1.5x+,代入(-2,4),求得=1.
所以经验回归直线的方程为:y=-1.5x+1,将x=-4代入经验回归方程,求得y的估计值为-1.5×(-4)+1=7.
三、解答题
9.(2021·山东潍坊高二月考)某人计划购买一辆某品牌新能源汽车,他从当地该品牌销售网站了解到近五个月实际销量如下表:
月份编号t 1 2 3 4 5
销量y(万辆) 0.5 0.6 1 1.4 1.7
经分析发现,可用线性回归模型拟合该品牌新能源汽车的实际销量y(万辆)与月份编号t之间的相关关系.请用最小二乘法求y关于t的经验回归方程=t+,并预测月份编号t为6时,该品牌新能源汽车的销量.
[解析] 易知==3,
==1.04,
=12+22+32+42+52=55,
iyi=1×0.5+2×0.6+3×1+4×1.4+5×1.7=18.8,
==
==0.32,
=-=1.04-0.32×3=0.08.
则y关于t的经验回归方程为=0.32t+0.08,
当t=6时,=2,即月份编号为6时,当地该品牌新能源汽车的销量约为2万辆.
10.在一段时间内,某淘宝网店一种商品的销售价格x(元)和日销售量Y(件)之间的一组数据为:
价格x(元) 22 20 18 16 14
日销售量Y(件) 37 41 43 50 56
求出Y关于x的经验回归方程,并说明该方程拟合效果的好坏.
参考数据:iyi=3 992,=1 660.
[解析] 作出散点图(此处略),观察散点图,可知这些点散布在一条直线的附近,故可用线性回归模型来拟合数据.
因为==18,
==45.4.
所以==-2.35,
=45.4-(-2.35)×18=87.7.
所以经验回归方程为=-2.35x+87.7.
yi-i与yi-的值如表:
yi- 1 0.3 -2.4 -0.1 1.2
yi- -8.4 -4.4 -2.4 4.6 10.6
计算得(yi-i)2=8.3,(yi-)2=229.2,所以R2=1-≈0.964.
因为0.964很接近于1,
所以该模型的拟合效果比较好.
B 组·素养提升
一、选择题
1.(多选题)某公司过去五个月的广告费支出x(单位:万元)与销售额y(单位:万元)之间有下列对应数据:
x 2 4 5 6 8
y ▲ 40 60 50 70
工作人员不慎将表格中y的第一个数据丢失,已知y对x呈线性相关关系,且经验回归方程为=6.5x+17.5,则下列说法正确的有( AB )
A.销售额y与广告费支出x正相关
B.丢失的数据(表中▲处)为30
C.该公司广告费支出每增加1万元,销售额一定增加6.5万元
D.若该公司下月广告费支出为8万元,则销售额约为75万元
[解析] 由回归方程=6.5x+17.5,可知=6.5,则销售额y与广告费支出x正相关,所以A正确;设丢失的数据为m,由表中的数据可得=5,=,把点代入经验回归方程,可得=6.5×5+17.5,解得m=30,所以B正确;该公司广告费支出每增加1万元,销售额不一定增加6.5万元,所以C不正确;若该公司下月广告费支出为8万元,则销售额约为y=6.5×8+17.5=69.5(万元),所以D不正确,故选AB.
2.(多选题)某同学将收集到的六组数据制作成散点图如图所示,并得到其回归直线的方程为l1:y=0.68x+,计算其相关系数为r1.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的5组数据计算得到经验回归直线的方程为l2:y=x+0.68,相关系数为r2,以下结论中,正确的是( ACD )
A.r1>0,r2>0 B.r1>r2
C.=0.12 D.0<<0.68
[解析] 由图可知两变量呈现正相关,故r1>0,r2>0,且r1<r2,故A正确,B错误;又回归直线l1:y=0.68x+必经过样本中心点(3.5,2.5),所以=2.5-0.68×3.5=0.12,C正确;回归直线l2:y=x+0.68必经过样本中心点(3,2),所以2=×3+0.68,所以=0.44,也可直接根据图象判断0<<0.68(比较两直线的倾斜程度),故ACD正确.
3.若一函数模型为y=sin2α+2sin α+1,为将y转化为t的经验回归方程,则需作变换t等于( B )
A.sin2α B.(sin α+1)2
C.2 D.以上都不对
[解析] 因为y是关于t的经验回归方程,实际上就是y是关于t的一次函数,又因为y=(sin α+1)2,若令t=(sin α+1)2,则可得y与t的函数关系式为y=t,此时变量y与变量t是线性相关关系.
4.已知变量y关于x的经验回归方程为=ebx-0.5,其一组数据如下表所示:
x 1 2 3 4
y e e3 e4 e6
若x=5,则预测y的值可能为( D )
A.e5 B.e
C.e7 D.e
[解析] 将式子两边取对数,得到ln=bx-0.5,令z=ln,得到z=bx-0.5,列出x,z的取值对应的表格,
x 1 2 3 4
z 1 3 4 6
则==2.5,==3.5,
∵(,)满足z=bx-0.5,∴3.5=b×2.5-0.5,
解得b=1.6,∴z=1.6x-0.5,∴y=e1.6x-0.5,当x=5时,=e1.6×5-0.5=e,故选D.
二、填空题
5.对某台机器购置后的运行年限x(x=1,2,3,…)与当年利润y的统计分析知x,y具备线性相关关系,经验回归方程为=10.47-1.3x,估计该台机器最为划算的使用年限为__8__年.
[解析] 当年利润小于或等于零时应该报废该机器,当y=0时,令10.47-1.3x=0,解得x≈8,故估计该台机器最为划算的使用年限为8年.
6.以模型y=cekx去拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到线性经验回归方程z=0.3x+4,则c=__e4__.
[解析] 由题意,得ln(cekx)=0.3x+4,所以ln c+kx=0.3x+4,
所以lnc=4,所以c=e4.
7.(一题两空)某品牌服装专卖店为了解保暖衬衣的销售量(y件)与平均气温x(℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表.
时间 二月上旬 二月中旬 二月下旬 三月上旬
旬平均气温x(℃) 3 8 12 17
旬销售量y(件) 55 m 33 24
由表中数据算出线性经验回归方程=bx+a中的b=-2,样本中心点为(10,38).
(1)表中数据m=__40__;
(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__14__件.
[解析] (1)由=38,得m=40.
(2)由=-得=58,故=-2x+58,
当x=22时,=14,
故三月中旬的销售量约为14件.
三、解答题
8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据.
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1)求回归直线方程=x+,其中=-20;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元? (利润=销售收入-成本)
[解析] (1)由于==8.5,
==80.
所以=-=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值,故当单价定为8.25元时,工厂可获得最大利润.
9.如图是某企业2015年至2021年的污水净化量(单位:吨)的折线图.
注:年份代码1—7分别对应年份2015—2021.
(1)由折线图看出,可用线性经验回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的经验回归方程,预测2022年该企业的污水净化量.
[解析] (1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18, (ti-)(yi-)=21,所以r=≈0.94.
因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性经验回归模型拟合y与t的关系.
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性经验回归方程为=t+=t+51,将2022年对应的t=8代入上式,得=×8+51=57,
所以预测2022年该企业污水净化量约为57吨.(共66张PPT)
第八章 成对数据的统计分析
8.2 一元线性回归模型及其应用
必备知识 探新知
关键能力 攻重难
课堂检测 固双基
素养目标 定方向
素养作业 提技能
素养目标 定方向
课程标准 学法解读
1.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件. 2.针对实际问题,会用一元线性回归模型进行预测. 1.了解一元线性回归模型的含义,了解模型参数的统计意义.
2.掌握最小二乘法,会求回归直线的方程,能根据经验回归方程进行预测.
3.理解残差、决定系数的概念,会进行线性回归分析.
必备知识 探新知
知识点1
因变量
响应变量
解释
随机误差
思考:具有相关关系的两个变量,其样本点散布在某一条直线y=bx+a的附近,可以用一次函数 y=bx+a来描述两个变量之间的关系吗?
提示:不能.
知识点2
(2)经验回归方程的系数计算公式
知识点3
关键能力 攻重难
题型探究
题型一 求经验回归方程
随着网络的普及,网上购物的方式已经受到越来越多年轻人的青睐,某家网络店铺商品的成交量x(单位:件)与店铺的浏览量y(单位;次)之间的对应数据如下表所示:
典例 1
x/件 2 4 5 6 8
y/次 30 40 50 60 70
(1)根据表中数据画出散点图;
(2)根据表中的数据,求出y关于x的经验回归方程;
(3)当这种商品的成交量突破100件(含100 件)时,预测这家店铺的浏览量至少为多少?
[分析] 以横轴表示成交量,纵轴表示浏览量,画出散点图,若散点图显示两变量线性相关,则依据公式求解回归直线方程,再利用回归直线方程进行估计.
[解析] (1)散点图如图所示.
【对点训练】 某公司的生产部门调研发现,该公司第二,三季度的月用电量Y与月份x线性相关,且数据统计如下:
月份 4 5 6 7 8 9
月用电量(千瓦时) 6 16 27 55 46 56
[解析] (1)作散点图如图所示. 因为用电量与月份之间线性相关,所以散点图的样本点分布在经验回归直线附近比较窄的带状区域内,而点(7,55)离其他点所在区域较远,故(7,55)这组数据有误.
题型二 线性经验回归分析
(2021·山东临沂高三期末)某公司为了预测下月产品销售情况,找出了近7个月的产品销售量y(单位:万件)的统计表:
典例 2
月份代码t 1 2 3 4 5 6 7
销售量y(万件) y1 y2 y3 y4 y5 y6 y7
【对点训练】 某运动员训练次数与训练成绩之间的数据关系如表:
次数(x) 30 33 35 37 39 44 46 50
成绩(y) 30 34 37 39 42 46 48 51
(1)作出散点图;
(2)求出经验回归方程;
(3)作出残差图;
(4)计算R2,并说明运动员的训练次数对成绩的影响占百分之几.
[解析] (1)作出该运动员训练次数x与成绩y的散点图,如图所示.由散点图可知,它们之间具有相关关系.
(3)残差分析:下面的表格列出了运动员训练次数和成绩的原始数据以及相应的残差数据.
作残差图如图所示.
由图可知,残差点比较均匀地分布在水平带状区域内,说明选择的模型比较合适.
(4)计算R2≈0.985 5,说明了该运动的训练次数对成绩的影响占98.55%.
题型三 非线性经验回归问题
(2021·山东青岛高三调研)某公交公司推出扫码支付优惠乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示推出的天数,y表示每天使用扫码支付的人次(一人次等于十人),统计数据如下表:
典例 3
x 1 2 3 4 5 6 7
y 6 11 21 34 66 101 196
根据以上数据,绘制了如图所示的散点图.
[规律方法] 求非线性经验回归方程的方法
(1)非线性经验回归方程的求解,一般可以根据散点图选取合适的非线性回归模型,或根据已知条件选取拟合程度较好的非线性回归模型,再通过变换,转化为求线性经验回归方程,最后还原即可.
【对点训练】 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量Y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
易错警示
生搬硬套求回归直线方程的步骤致错.
在一次抽样调查中测得样本的5个样本点数值如下表:
试建立y与x之间的经验回归方程.
典例 4
x 0.25 0.5 1 2 4
y 16 12 5 2 1
[辨析] 此题解法是错误的,原因是这两个变量之间不是线性相关关系.此类问题的解决,应先对两个变量间的相关关系进行相关性检验,然后结合作出的散点图,选择适宜的回归方程.
[正解] 由数值表可作散点图如图所示:
由置换后的数值表作散点如图所示:
由散点图可以看出y与t呈近似的线性相关关系.列表如下:
课堂检测 固双基
1.关于回归分析,下列说法错误的是 ( )
A.回归分析是研究两个具有相关关系的变量的方法
B.散点图中,解释变量在x轴,响应变量在y轴
C.回归模型中一定存在随机误差
D.散点图能明确反映变量间的关系
[解析] 用散点图反映两个变量间的关系时,存在误差.
D
2.关于残差图的描述错误的是 ( )
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或预报变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
[解析] 残差点分布的带状区域的宽度越窄,说明模型拟合精度越高,则残差平方和越小,此时,相关指数R2的值越大.
C
B
B
10
素养作业 提技能