一元线性回归模型及其应用
1 一元线性回归模型
用表示父亲身高,表示儿子身高,表示随机误差,假定随机误差的均值为,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
我们称它为关于的一元线性回归模型.
2 线性回归方程
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
PS 线性回归直线经过定点.
3 残差分析
通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测量,观测值减去预测值称为残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判定原始数据是否存在可疑数据,这方面的工作称为残差分析.
通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为,方差为的随机变量的观测值.
4 比较模型的拟合效果
残差平方和
残差平方和越小,拟合效果越好.
相关指数
越大,残差平方和越小,模型拟合效果越好.
【题型一】一元线性回归模型
【典题1】某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价(元)和销售额(元)的数据,整理得到下面的散点图:
已知销售额单价销量,根据散点图,下面四个回归方程类型中最适宜作为服装销量与单价的回归方程类型的是( )
A. B. C. D.
【典题2】 已知由样本数据组成的一个样本,得到回归直线方程为且,去除两个歧义点和后,得到新的回归直线的斜率为.则下列说法正确的是( )
A.相关变量具有正相关关系
B.去除歧义点后的回归直线方程为
C.去除歧义点后,随值增加相关变量值增加速度变小
D.去除歧义点后,样本的残差为0.1(附:y1)
【典题3】 2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2019年12月~2020年12月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )
A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点(,)
D.模型回归曲线的拟合效果比模型好
巩固练习
1(★) 某校课外学习小组为研究某作物种子的发芽率和温度(单位:°C)的关系,由实验数据得到右面的散点图.由此散点图,最适宜作为发芽率和温度的回归方程类型的是( )
A. B. C. D.
2(★) 2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在60天内感染新冠肺炎的累计病例人数(万人)与时间(天)的散点图,则下列最适宜作为此模型的回归方程的类型是( )
A. B. C. D.
3(★) 对于一组具有线性相关关系的数据,根据最小二乘法求得回归直线方程为,则以下说法正确的是( )
A.预报变量的值由解释变量唯一确定
B.在回归分析中,的模型比的模型拟合效果好
C.所有的样本点均落在回归直线上
D.残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高
4(★) 某生物实验小组设计实验,得到光照强度与某种植物光合作用速率的一组数据,经过分析提出了四种回归模型,①、②、③、④四种模型的残差平方和的值分别为,,,,则拟合效果最好的是( )
A.模型① B.模型② C.模型③ D.模型④
5(★) 两个物理兴趣小组在实验室研究某粒子运动轨迹.共同记录到粒子的13个位置的坐标信息如表:
小组根据表中数据,直接对作线性回归分析,得到:
回归方程为,相关指数;
小组先将数据依变换进行整理,再对作线性回归分析,得到:
回归方程为,相关指数.
根据统计学知识,下列方程中,最有可能是该粒子运动轨迹方程的是( )
A. B.
C. D.
6(★★) 【多选题】下列说法正确的是( )
A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好
D.在回归直线方程中,当解释变量每增加个单位时,预报变量多增加0.1个单位
7(★★)【多选题】小明同学在做市场调查时得到如下样本数据
他由此得到回归直线的方程为,则下列说法正确的是( )
A.变量与线性负相关 B.当时可以估计
C. D.变量与之间是函数关系
8(★★) 【多选题】已知由样本数据点集合求得的线性回归方程为,.现发现两个数据点和的误差较大,去除这两个数据点后重新求得的回归直线的斜率为,则下列说法中正确的有( )
A.去除这两个数据点前,当变量每增加个单位长度时,变量减少个单位长度
B.去除这两个数据点后的回归直线过点
C.去除这两个数据点后的估计值的增长速度变慢
D.去除这两个数据点后,当时,的估计值为
9(★) 已知样本点的回归直线方程为,若样本点与的残差相同,则与的关系式为 .(附:对于样本点的残差i=yii)
10(★★) 下列说法:①分类变量与的随机变量越大,说明“与有关系”的可信度越大,②以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别是和0.3,③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,④若变量和满足关系,且变量与正相关,则x与z也正相关,正确的个数是 .
【题型二】 一元线性回归模型的应用
【典题1】某产品的宣传费用(单位:万元)与销售额(单位:万元)的统计数据如表所示:
根据上表可得回归方程,则宣传费用为万元时,销售额最接近( )
A.123万元 B.128万元 C.133万元 D.138万元
【典题2】一研学实践活动小组利用课余时间,对某公司1至5月份销售某种产品的销售量及销售单价进行了调查,月销售单价(单位:元)和月销售量(单位:百件)之间的一组数据如表所示:
月份
月销售单价(元)
月销售量(百件)
(1)根据1至5月份的数据,求出关于的回归直线方程;
(2)预计在今后的销售中,月销售量与月销售单价仍然服从(1)中的关系,若该种产品的成本是1元/件,那么该产品的月销售单价应定为多少元,才能获得最大月利润?(注:利润=销售收入-成本)
附:回归直线方程,其中,.
参考数据:,.
【典题3】某同学使用某品牌暖水瓶,其内胆规格如图所示.若水瓶内胆壁厚不计,且内胆如图分为①②③④四个部分,它们分别为一个半球、一个大圆柱、一个圆台和一个小圆柱体,若其中圆台部分的体积为,且水瓶灌满水后盖上瓶塞时水溢出.记盖上瓶塞后,水瓶的最大盛水量为.
(1)求;
(2)该同学发现:该品牌暖水瓶盛不同体积的热水时,保温效果不同.为了研究保温效果最好时暖水瓶的盛水体积,做以下实验:把盛有最大盛水量的水的暖水瓶倒出不同体积的水,并记录水瓶内不同体积水在不同时刻的水温,发现水温(单位:)与时刻满足线性回归方程,通过计算得到如表:
倒出体积
拟合结果
倒出体积
拟合结果
注:表中倒出体积(单位:)是指从最大盛水量中倒出的那部分水的体积.其中:
令.对于数据,可求得回归直线为,对于数据,可求得回归直线为:.
(i)指出的实际意义,并求出回归直线的方程(参考数据:)
(ⅱ)若与的交点横坐标即为最佳倒出体积,请问保温瓶约盛多少体积水时(盛水体积保留整数,且取保温效果最佳?
附:对于一组数据,其回归直线中的斜率和截距的最小二乘估计分别为,.
【典题4】近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图所示的频率分布直方图.在图对使用时间的分组中,将使用时间落入各组的频率视为概率.
(1)若在该交易市场随机选取辆年成交的二手车,求恰有辆使用年限在的概率;
(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中(单位:年)表示二手车的使用时间,(单位:万元)表示相应的二手车的平均交易价格.
①由散点图判断,可采用作为该交易市场二手车平均交易价格关于其使用年限的回归方程,相关数据如下表(表中,):
试选用表中数据,求出关于的回归方程;
②该汽车交易市场拟定两个收取佣金的方案供选择.
甲:对每辆二手车统一收取成交价格的的佣金;
乙:对使用8年以内(含8年)的二手车收取成交价格的的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的的佣金.
假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.
附注:
①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;
②参考数据:,,,,.
巩固练习
1(★)设一个线性回归方程,当变量每增加一个单位时,则y的变化情况正确的是( )
A.平均增加约个单位 B.平均增加约个单位
C.平均减少约个单位 D.平均减少约个单位
2(★) 某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),左图为选取的15名志愿者身高与臂展的折线图,右图为身高与臂展所对应的散点图,并求得其回归方程为,以下结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为190厘米的人臂展大约为189.65厘米
D.身高相差10厘米的两人臂展都相差11.6厘米
3(★★)【多选题】 技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了技术的融合与创新,前景美好!某手机商城统计了个月的手机销量,如表所示:
月份 2020年6月 2020年7月 2020年8月 2020年9月 2020年10月
月份编号
销量/部
若与线性相关,由上表数据求得线性回归方程为,则下列说法正确的是( )
A.手机的销量逐月增加,平均每个月增加约台 B.
C.与正相关 D.预计月份该手机商城的手机销量约为部
4 (★★) 已知某品牌的新能源汽车的使用年限(单位:年)与维护费用(单位:千元)之间有如下数据:
使用年限单位:年)
维护费用(单位:千元)
与之间具有线性相关关系,且关于的线性回归方程为1.05x.据此估计,当使用年限为年时,维护费用约为 千元.
附:线性回归方程中的系数,.
5(★★) 科研人员在研制新冠肺炎疫苗过程中,利用小白鼠进行接种试验,现收集了小白鼠接种时的用药量(单位:毫克)和有效度的7组数据,得到如下散点图及其统计量的值:
()2 )2 )
其中,.
(Ⅰ)根据散点图判断,与哪一个更适合作为有效度与用药量的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据建立关于的回归方程.
(Ⅲ)若要使有效度达到75,则用药量至少为多少毫克?
6(★★★) 网上购物就是通过互联网检索商品信息,并通过电子订购单发出购物请求,厂商通过邮购的方式发货或通过快递公司送货上门,货到后通过银行转账、微信或支付宝支付等方式在线汇款.根据2019年中国消费者信息研究,超过40%的消费者更加频繁地使用网上购物,使得网上购物和送货上门的需求量激增,越来越多的消费者也首次通过第三方品牌官方网站和微信社群等平台进行购物.某天猫专营店统计了2020年8月5日至9日这5天到该专营店购物的人数和时间第,天间的数据,列表如表:
(1)由表中给出的数据是否可用线性回归模型拟合人数y与时间x之间的关系?若可用,估计8月10日到该专营店购物的人数(人数用四舍五入法取整数;若,则线性相关程度很高,可用线性回归模型拟合,计算r时精确到0.01).
参考数据:65.88.
附:相关系数r,
回归直线方程的斜率:,.
(2)运用分层抽样的方法从第1天和第5天到该专营店购物的人中随机抽取7人,再从这7人中任取3人进行奖励,求这3人取自不同天的概率;
(3)该专营店为了吸引顾客,推出两种促销方案:
方案一,购物金额每满100元可减10元;
方案二,一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.
某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
7 (★★★) 中国茶文化博大精深,茶水的口感与茶叶类型以及水温有关.经验表明,若某种绿茶用的水泡制,等到茶水温度降至时饮用,则口感最佳.某研究小组通过测量(室温恒为),到下面的表格及散点图:
泡制时间
水温
(1)小组成员根据散点图并考虑茶水温度降到室温(即)就不能再降的事实,决定选择函数模型来表示和的关系.
①令,求出关于的线性回归方程;
②利用①的结论,求出中的与的值.
(2)你认为该品种绿茶用的水泡制多久后饮用,口感最佳?
参考数据:,,,,,,,,.
参考公式:线性回归方程中,,.一元线性回归模型及其应用
1 一元线性回归模型
用表示父亲身高,表示儿子身高,表示随机误差,假定随机误差的均值为,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
我们称它为关于的一元线性回归模型.
2 线性回归方程
对于变量和变量,设经过随机抽样获得的成对样本数据为,其中和的均值分别为和,其中
我们将称为关于的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
备注 线性回归直线经过定点.
3 残差分析
通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测量,观测值减去预测值称为残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判定原始数据是否存在可疑数据,这方面的工作称为残差分析.
通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为,方差为的随机变量的观测值.
4 比较模型的拟合效果
残差平方和
残差平方和越小,拟合效果越好.
相关指数
越大,残差平方和越小,模型拟合效果越好.
【题型一】一元线性回归模型
【典题1】某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价(元)和销售额(元)的数据,整理得到下面的散点图:
已知销售额单价销量,根据散点图,下面四个回归方程类型中最适宜作为服装销量与单价的回归方程类型的是( )
A. B. C. D.
【解析】由散点图知,销售额y与单价x呈线性关系,不妨设y=m+nx,
所以zn,与选项B中的回归方程类型一致.
故选:B.
【典题2】 已知由样本数据组成的一个样本,得到回归直线方程为且,去除两个歧义点和后,得到新的回归直线的斜率为.则下列说法正确的是( )
A.相关变量具有正相关关系
B.去除歧义点后的回归直线方程为
C.去除歧义点后,随值增加相关变量值增加速度变小
D.去除歧义点后,样本的残差为0.1(附:y1)
【解析】对选项:
由2,代入,得,
(样本中心(,)一定在线性回归方程上)
去除两个歧义点和后,得到新的,,
又得到新的回归直线的斜率为,
新的线性回归方程的 ,
则去除两个歧义点后的线性回归方程为 ,故正确;
(求出新的样本中心(,),再利用其一定在线性回归方程上求出)
又由斜率,相关变量具有正相关关系,故正确;
对选项:
原本回归直线方程中增加则增加,去除歧义点后,回归直线方程中增加则增加,故去除歧义点后,随x值增加相关变量y值增加速度变大,故错误;
对选项:
当时, ,则去除歧义点后,样本的残差为,故正确.
故选:.
【典题3】 2020年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区2019年12月至2020年12月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1~13分别对应2019年12月~2020年12月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )
A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点(,)
D.模型回归曲线的拟合效果比模型好
【解析】由散点图可知,随的增加而增加,故错误;
年月,相对2019年12月为,此时,代入,求得,故正确;
(在实际应用中要注意理解变量的实际意义)
曲线经过点,曲线经过点,故错误;
(样本中心(,)一定在线性回归方程上,但题目中的模型和不是线性模型,需要进行变换)
因为,所以模型回归曲线的拟合效果比模型的好,故正确.
(越大,拟合效果越好)
故选:.
巩固练习
1(★) 某校课外学习小组为研究某作物种子的发芽率和温度(单位:°C)的关系,由实验数据得到右面的散点图.由此散点图,最适宜作为发芽率和温度的回归方程类型的是( )
A. B. C. D.
【答案】B
【解析】由图知,散点图分布在一个对数函数的图象附近,因此最适合作为发芽率y和温度x的回归方程类型的是y=a+blnx.
故选:B.
2(★) 2020年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在60天内感染新冠肺炎的累计病例人数(万人)与时间(天)的散点图,则下列最适宜作为此模型的回归方程的类型是( )
A. B. C. D.
【答案】C
【解析】函数图像随着自变量的变大,函数值增长速度越来越快,属于指数型函数的特征,
只有选项C为指数型函数.
故选:C.
3(★) 对于一组具有线性相关关系的数据,根据最小二乘法求得回归直线方程为,则以下说法正确的是( )
A.预报变量的值由解释变量唯一确定
B.在回归分析中,的模型比的模型拟合效果好
C.所有的样本点均落在回归直线上
D.残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高
【答案】D
【解析】选项A,预报变量由解释变量进行估计,即选项A错误;
选项B,相关系数R2越大,说明拟合效果越好,即选项B错误;
选项C,可能所有的样本点都不在回归直线上,即选项C错误;
选项D,在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高,即选项D正确.
故选:D.
4(★) 某生物实验小组设计实验,得到光照强度与某种植物光合作用速率的一组数据,经过分析提出了四种回归模型,①、②、③、④四种模型的残差平方和的值分别为,,,,则拟合效果最好的是( )
A.模型① B.模型② C.模型③ D.模型④
【答案】C
【解析】残差平方和越小,表示该模型的拟合效果越好,比较四种模型的残差平方和,可知模型③的最小,所以其拟合效果最好.
故选:C.
5(★) 两个物理兴趣小组在实验室研究某粒子运动轨迹.共同记录到粒子的13个位置的坐标信息如表:
小组根据表中数据,直接对作线性回归分析,得到:
回归方程为,相关指数;
小组先将数据依变换进行整理,再对作线性回归分析,得到:
回归方程为,相关指数.
根据统计学知识,下列方程中,最有可能是该粒子运动轨迹方程的是( )
A. B.
C. D.
【答案】C
【解析】由统计学知识可知,R2越大,拟合效果越好,
又A小组的相关指数R2=0.4472,B小组的相关指数R2=0.9375,
∴B组的拟合效果好,则回归方程为0.5006u+0.4922,
又u=x2,v=y2,∴y2=-0.5006x2+0.4922,
即1.
故选:C.
6(★★) 【多选题】下列说法正确的是( )
A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好
D.在回归直线方程中,当解释变量每增加个单位时,预报变量多增加0.1个单位
【答案】CD
【解析】对于A,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.故A错误;
对于B,6月9日本地降水概率为90%,只是表明下雨的可能性是90%,有可能这天不下雨,不能说明天气预报并不科学,故B错误;
在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故C正确;
在回归直线方程中,当解释变量x每增加1个单位时,预报变量增加0.1个单位,故D正确.
故选:CD.
7(★★)【多选题】小明同学在做市场调查时得到如下样本数据
他由此得到回归直线的方程为,则下列说法正确的是( )
A.变量与线性负相关 B.当时可以估计
C. D.变量与之间是函数关系
【答案】ABC
【解析】由回归直线的方程为2.1x+15.5,可知变量x与y线性负相关,故A正确;
当x=2时,,故B正确;
∵,,∴样本点的中心坐标为(5,),
代入2.1x+15.5,得,解得a=6,故C正确;
变量x与y之间具有线性负相关关系,不是函数关系,故D错误.
故选:ABC.
8(★★) 【多选题】已知由样本数据点集合求得的线性回归方程为,.现发现两个数据点和的误差较大,去除这两个数据点后重新求得的回归直线的斜率为,则下列说法中正确的有( )
A.去除这两个数据点前,当变量每增加个单位长度时,变量减少个单位长度
B.去除这两个数据点后的回归直线过点
C.去除这两个数据点后的估计值的增长速度变慢
D.去除这两个数据点后,当时,的估计值为
【答案】BCD
【解析】去掉两个数据点(1.8,3.8)和(4.2,6.2)之前,1.5x+0.5,
所以x每增加1个单位,y增加1.5个单位,故选项A错误;
去掉两个数据点(1.8,3.8)和(4.2,6.2)之前,
回归方程过,则,
而去掉的2个点,
所以去掉后的没有变化,
故去除这两个数据点后的回归直线过点(3,5),故选项B正确;
去掉两个数据点后,回归方程的斜率由1.5变为1.2,
故去除这两个数据点后y的估计值的增长速度变慢,故选项C正确;
去掉两个数据点后,得到样本的中心为(3,5),则有5=1.2×3+a,解得a=1.4,
故回归方程变为y=1.2x+1.4,
当x=4时,y=1.2×4+1.4=6.2,故选项D正确.
故选:BCD.
9(★) 已知样本点的回归直线方程为,若样本点与的残差相同,则与的关系式为 .(附:对于样本点的残差i=yii)
【答案】s=3-2r
【解析】∵回归直线方程为2x+a,样本点(r,1)与(1,s)的残差相同,
∴1-(2r+a)=s-(2+a),即s=3-2r.
故答案为:s=3-2r.
10(★★) 下列说法:①分类变量与的随机变量越大,说明“与有关系”的可信度越大,②以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,的值分别是和0.3,③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,④若变量和满足关系,且变量与正相关,则x与z也正相关,正确的个数是 .
【答案】3
【解析】对于①,根据独立性原理知,分类变量A与B的随机变量K2越大,说明“A与B有关系”的可信度越大,①正确;
对于②,根据回归模型和对数的运算性质知,以模型y=cekx去拟合一组数据时,为了求出回归方程,
设z=lny,将其变换后得到线性方程z=0.3x+4,则c,k的值分别是e4和0.3,所以②正确;
对于③,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域的宽度越狭窄,
其模型拟合的精度越高,所以③正确;
对于④,若变量x和y满足关系y=-0.1x+1,且变量y与z正相关,则x与z是负相关,所以④错误.
综上知,正确命题的序号是①②③,共3个.
故答案为:3.
【题型二】 一元线性回归模型的应用
【典题1】某产品的宣传费用(单位:万元)与销售额(单位:万元)的统计数据如表所示:
根据上表可得回归方程,则宣传费用为万元时,销售额最接近( )
A.123万元 B.128万元 C.133万元 D.138万元
【解析】 (4+5+6+7+8)=6;(60+80+90+100+120)=90;
因为回归直线经过样本中心,所以90=14×6,6,
所以回归直线方程:14x+6,
当x=9时,14×9+6=132.
故选:C.
【典题2】一研学实践活动小组利用课余时间,对某公司1至5月份销售某种产品的销售量及销售单价进行了调查,月销售单价(单位:元)和月销售量(单位:百件)之间的一组数据如表所示:
月份
月销售单价(元)
月销售量(百件)
(1)根据1至5月份的数据,求出关于的回归直线方程;
(2)预计在今后的销售中,月销售量与月销售单价仍然服从(1)中的关系,若该种产品的成本是1元/件,那么该产品的月销售单价应定为多少元,才能获得最大月利润?(注:利润=销售收入-成本)
附:回归直线方程,其中,.
参考数据:,.
【解析】(1)∵,.
∴,.
∴回归直线方程为.
(2)设该产品的月销售单价为x元,月利润为z百元,则
∵z=(x-1) y,∴z=(x-1)(-7x+21)=-7x2+28x-21=-7(x-2)2+7.
∴当x=2时,zmax=7(百元).
∴该产品的月销售单价应定为2元才能获得最大月利润为7百元.
【典题3】某同学使用某品牌暖水瓶,其内胆规格如图所示.若水瓶内胆壁厚不计,且内胆如图分为①②③④四个部分,它们分别为一个半球、一个大圆柱、一个圆台和一个小圆柱体,若其中圆台部分的体积为,且水瓶灌满水后盖上瓶塞时水溢出.记盖上瓶塞后,水瓶的最大盛水量为.
(1)求;
(2)该同学发现:该品牌暖水瓶盛不同体积的热水时,保温效果不同.为了研究保温效果最好时暖水瓶的盛水体积,做以下实验:把盛有最大盛水量的水的暖水瓶倒出不同体积的水,并记录水瓶内不同体积水在不同时刻的水温,发现水温(单位:)与时刻满足线性回归方程,通过计算得到如表:
倒出体积
拟合结果
倒出体积
拟合结果
注:表中倒出体积(单位:)是指从最大盛水量中倒出的那部分水的体积.其中:
令.对于数据,可求得回归直线为,对于数据,可求得回归直线为:.
(i)指出的实际意义,并求出回归直线的方程(参考数据:)
(ⅱ)若与的交点横坐标即为最佳倒出体积,请问保温瓶约盛多少体积水时(盛水体积保留整数,且取保温效果最佳?
附:对于一组数据,其回归直线中的斜率和截距的最小二乘估计分别为,.
【解析】 (1)依题意得,半球的半径为,体积为,
大圆柱体积,小圆柱体积,
盖上瓶塞后,水瓶的最大盛水量为.
(2)的实际意义为倒出体积水时,暖水瓶内水的降温速率;
越小,降温速率越小,保温效果越好;越大,降温速率越大,保温效果越差;
,对于回归直线,
,,
,,
,
.
回归直线L1的方程为.
(ii)联立,得,
保温瓶最佳倒出体积约为.
保温瓶盛水体积约为,
保温瓶盛水体积约为时保温效果最佳.
【点拨】
① 处理这些实际问题,理解题景与梳理每个变量之间的关系尤为重要.
② 若题中没给到对应的数据,需要笔算,此时注意数据的对应关系避免用错数据出现运算失误,若在草稿纸上能列个表格会清晰很多.
【典题4】近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图所示的频率分布直方图.在图对使用时间的分组中,将使用时间落入各组的频率视为概率.
(1)若在该交易市场随机选取辆年成交的二手车,求恰有辆使用年限在的概率;
(2)根据该汽车交易市场往年的数据,得到图2所示的散点图,其中(单位:年)表示二手车的使用时间,(单位:万元)表示相应的二手车的平均交易价格.
①由散点图判断,可采用作为该交易市场二手车平均交易价格关于其使用年限的回归方程,相关数据如下表(表中,):
试选用表中数据,求出关于的回归方程;
②该汽车交易市场拟定两个收取佣金的方案供选择.
甲:对每辆二手车统一收取成交价格的的佣金;
乙:对使用8年以内(含8年)的二手车收取成交价格的的佣金,对使用时间8年以上(不含8年)的二手车收取成交价格的的佣金.
假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.
附注:
①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;
②参考数据:,,,,.
【解析】 (1)由频率分布直方图知,该汽车交易市场年成交的二手车使用时间在
的频率为,使用时间在的频率为.
所以在该汽车交易市场年成交的二手车随机选取辆,其使用时间在的概
率为,
所以所求的概率为;
(2)①由得,则关于的线性回归方程为,
(通过两边取对数,换元法,把非一元线性回归模型变换为一元线性回归模型)
由于,
(题中给到的参考数据没,,
需要对公式进行转化)
,
则关于的线性回归方程为,
所以关于的回归方程为;
②根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测:
使用时间在的频率为,
对应的成交价格的预测值为;
(取组中值作为代表该组的值算出预测值,以下类似)
使用时间在的频率为,
对应的成交价格预测值为;
使用时间在的频率为,
对应的成交价格的预测值为;
使用时间在的频率为,
对应的成交价格的预测值为;
使用时间在的频率为,
对应的成交价格的预测值为;
若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为
万元;
若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为
(万元);
因为,所以采用甲方案能获得更多佣金.
【点拨】
① 熟悉非一元线性回归模型变换为一元线性回归模型的基本套路;
② 对题中给予的数据,要认真梳理清楚,明确每个变量的实际意义,有些数据是“搅乱视听”的,比如题中的.
巩固练习
1(★)设一个线性回归方程,当变量每增加一个单位时,则y的变化情况正确的是( )
A.平均增加约个单位 B.平均增加约个单位
C.平均减少约个单位 D.平均减少约个单位
【答案】 A
【解析】∵直线回归方程为3+1.2x,
∴变量x增加一个单位时,函数值要平均增加1.2个单位,
故选:A.
2(★) 某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),左图为选取的15名志愿者身高与臂展的折线图,右图为身高与臂展所对应的散点图,并求得其回归方程为,以下结论中不正确的为( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者身高和臂展成正相关关系
C.可估计身高为190厘米的人臂展大约为189.65厘米
D.身高相差10厘米的两人臂展都相差11.6厘米
【答案】 D
【解析】对于A,身高极差大约是25,臂展极差大于等于30,故A正确;
对于B,很明显根据散点图以及回归方程得到,身高矮展臂就会短一些,身高高一些,
展臂就会长一些,故B正确;
对于C,身高为190厘米,代入回归方程可得展臂等于189.65厘米,但不是准确值,故C正确;
对于D,身高相差10厘米的两人展臂的估计值相差11.6厘米,但不是准确值,
回归方程上的点并不都是准确的样本点,故D错误;
故选:D.
3(★★)【多选题】 技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了技术的融合与创新,前景美好!某手机商城统计了个月的手机销量,如表所示:
月份 2020年6月 2020年7月 2020年8月 2020年9月 2020年10月
月份编号
销量/部
若与线性相关,由上表数据求得线性回归方程为,则下列说法正确的是( )
A.手机的销量逐月增加,平均每个月增加约台
B.
C.与正相关
D.预计月份该手机商城的手机销量约为部
【答案】BCD
【解析】线性回归方程为44x+10,5G手机的销量逐月增加,平均每个月增加约44台,
所以A不正确;
根据表中数据,可得3,∴44×3+10=142.
于是,52+95+a+185+227=142×5=710,即a=151,故B正确;
由回归方程中x的系数大于0,可知y与x正相关,且相关系数r>0,故C正确;
12月份时,x=7,44×7+5=318部,故D正确.
故选:BCD.
4 (★★) 已知某品牌的新能源汽车的使用年限(单位:年)与维护费用(单位:千元)之间有如下数据:
使用年限单位:年)
维护费用(单位:千元)
与之间具有线性相关关系,且关于的线性回归方程为1.05x.据此估计,当使用年限为年时,维护费用约为 千元.
附:线性回归方程中的系数,.
【答案】 8.2
【解析】由题意,5,6.1,
因为回归直线经过样本中心,所以6.1=1.05×5,解得0.85,
1.05x+0.85.
当使用年限为7年时,维护费用约为1.05×7+0.85=8.2千元.
5(★★) 科研人员在研制新冠肺炎疫苗过程中,利用小白鼠进行接种试验,现收集了小白鼠接种时的用药量(单位:毫克)和有效度的7组数据,得到如下散点图及其统计量的值:
()2 )2 )
其中,.
(Ⅰ)根据散点图判断,与哪一个更适合作为有效度与用药量的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据建立关于的回归方程.
(Ⅲ)若要使有效度达到75,则用药量至少为多少毫克?
【答案】 (1)y=c+dx2 (2)3.4+1.6x2 (3)7
【解析】(Ⅰ)y=c+dx2更适合作为有效度y与用药量x的回归方程类型.
(Ⅱ)令ωi=xi2,则y=c+dω,
∴1.6,13.4-1.6×10.5=-3.4,
∴3.4+1.6ω,
故y关于x的回归方程为3.4+1.6x2.
(Ⅲ)当75时,有75=-3.4+1.6x2,解得x=7,
故要使有效度达到75,则用药量至少为7毫克.
6(★★★) 网上购物就是通过互联网检索商品信息,并通过电子订购单发出购物请求,厂商通过邮购的方式发货或通过快递公司送货上门,货到后通过银行转账、微信或支付宝支付等方式在线汇款.根据2019年中国消费者信息研究,超过40%的消费者更加频繁地使用网上购物,使得网上购物和送货上门的需求量激增,越来越多的消费者也首次通过第三方品牌官方网站和微信社群等平台进行购物.某天猫专营店统计了2020年8月5日至9日这5天到该专营店购物的人数和时间第,天间的数据,列表如表:
(1)由表中给出的数据是否可用线性回归模型拟合人数y与时间x之间的关系?若可用,估计8月10日到该专营店购物的人数(人数用四舍五入法取整数;若,则线性相关程度很高,可用线性回归模型拟合,计算r时精确到0.01).
参考数据:65.88.
附:相关系数r,
回归直线方程的斜率:,.
(2)运用分层抽样的方法从第1天和第5天到该专营店购物的人中随机抽取7人,再从这7人中任取3人进行奖励,求这3人取自不同天的概率;
(3)该专营店为了吸引顾客,推出两种促销方案:
方案一,购物金额每满100元可减10元;
方案二,一次性购物金额超过800元可抽奖三次,每次中奖的概率均为,且每次抽奖互不影响,中奖一次打9折,中奖两次打8折,中奖三次打6折.
某顾客计划在此专营店购买1000元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
【答案】 (1)109 (2) (3)选项方案二更划算
【解析】(1)由表中的数据可得,,
,,,
故r,
所以变量y与x具有很强的线性相关性,
故可以用线性回归模型拟合人数y与天数x之间的关系,
所以,90-6.4×3=70.8,
所以6.4x+70.8,
令x=6,则有109.2,
故8月10日到该专营店购物的人数为109人;
(2)因为75:100=3:4,
所以第1天和第5天取的人数分别为3人和4人,
3人取自不同天的种数为,
故概率为;
(3)若选方案一,则需付款1000-100=900元,
若选方案二,设需付款X元,则X的可能取值为600,800,900,1000,
相应的概率为P(X=600),P(X=800),
P(X=900),P(X=1000),
所以E(X)=6008009001000.
故选项方案二更划算.
7 (★★★) 中国茶文化博大精深,茶水的口感与茶叶类型以及水温有关.经验表明,若某种绿茶用的水泡制,等到茶水温度降至时饮用,则口感最佳.某研究小组通过测量(室温恒为),到下面的表格及散点图:
泡制时间
水温
(1)小组成员根据散点图并考虑茶水温度降到室温(即)就不能再降的事实,决定选择函数模型来表示和的关系.
①令,求出关于的线性回归方程;
②利用①的结论,求出中的与的值.
(2)你认为该品种绿茶用的水泡制多久后饮用,口感最佳?
参考数据:,,,,,,,,.
参考公式:线性回归方程中,,.
【答案】 (1)① ②c= 0.9,k= 66.7 (2)4.8min
【解析】(1)①由已知得出x与z的关系,如下表:
泡制时间
设线性回归方程,
由题意,得,,
∴(-2)×0.2+(-1)×0.1+1×(-0.1)+2×(-0.2)=-1,
,
则,
,
则z关于x的线性回归方程为;
②由y=kcx+20(x≥0),得y-20=kcx(x≥0),
两边取对数得,ln(y-20)=lnk+xlnc,
利用①的结论得:lnc=-0.1,lnk=4.2,
∴c=e-0.1≈0.9,k=e4.2≈66.7;
(2)由(1)得,y=66.7×0.9x+20(x≥0),
令y=60,得x≈log0.90.6≈4.8.
∴该品种绿茶用85℃的水泡制4.8min后饮用,口感最佳.