中小学教育资源及组卷应用平台
必考点07 一元线性回归模型及其应用
题型一 求一元线性回归方程
例题1某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【解析】 (1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
例题2如今快寄成为不少人日常生活中不可或缺的一部分.某市一调查机构针对该市市场占有率最高的甲 乙两家快寄企业(以下简称快寄甲 快寄乙)的经营情况进行了调查,调查结果如下表:
日期 1 2 3 4 5
快寄甲日接单量x/百单 5 2 9 8 11
快寄乙日接单量y/百单 2.2 2.3 10 5 15
据统计表明y与x之间具有线性相关关系,并经计算求得y与x之间的回归方程为.
(1)求;
(2)假定快寄企业平均每单能获纯利润3元,试预测当快寄乙日接单量不低于2500单时,快寄甲日接单量的最小值(结果精确到单)及所获取的日纯利润的最小值.
【解析】 (1),,
所以;
(2)由题意y与x之间的回归方程为,
由,解得,
所以快寄乙日接单量最小值为2010单,
所以快寄乙日纯利润最小值为元.
【解题技巧提炼】
求经验回归方程的基本步骤
(1)画出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算,,,,iyi;
(3)代入公式求出=x+中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
[提醒] 只有在散点图大致呈线性时,求出的经验回归方程才有实际意义,否则求出的回归方程毫无意义.
题型二 利用回归直线方程对总体进行估计
例题1对具有线性相关关系的变量,测得一组数据如下表,根据表中数据,利用最小二乘法得到回归直线方程,据此模型预测当时,y的估计值为( )
x 2 4 5 6 8
y 20 40 60 70 80
A.210 B.210.5 C.211.5 D.212.5
【答案】C
【解析】由题意可知:,.
∵回归直线方程经过样本中心,∴,,回归直线方程为:,
当时,的估计值为:.故选:C.
例题2一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:
零件个数 10 20 30 40 50 60 70 80
加工时间 62 68 75 81 89 95 102 108
设回归直线方程为,若,则点在直线的________方
【答案】右下方
【解析】由题意可得:,
则 ,故点为 在直线右下方.
【解题技巧提炼】
解题的关键是先确定两个变量y与x是线性相关关系,确定求出回归方程进行估计和预测.
题型三 非线性回归分析
例题1下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预测x=40时y的值.
【解析】(1)作出散点图如图,从散点图可以看出x与y不具有线性相关关系,根据已有知识可以发现样本点分布在某一条指数函数型曲线y=c1的周围,其中c1,c2为待定的参数.
(2)对两边取对数把指数关系变为线性关系,令z=ln y,则有变换后的样本点应分布在直线z=bx+a(a=ln c1,b=c2)的周围,这样就可以利用经验回归模型来建立y与x之间的非线性经验回归方程了,数据可以转化为
x 21 23 25 27 29 32 35
z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
求得经验回归方程为=0.272x-3.849,
∴=e0.272x-3.849.
残差表如下:
yi 7 11 21 24 66 115 325
i 6.443 11.101 19.125 32.950 56.770 128.381 290.325
i 0.557 -0.101 1.875 -8.950 9.23 -13.381 34.675
(3)当x=40时,=e0.272×40-3.849≈1 131.
【解题技巧提炼】
非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示;
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示;
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
题型一 求一元线性回归方程
1.对具有线性相关关系的变量,有一组观测数据,其回归方程为,且,,则实数的值是
A.-2 B.2 C.-1 D.1
【答案】D
【解析】,由于回归直线方程过样本中心点,将代入回归直线方程,解得.
2.随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份 2015 2016 2017 2018 2019
时间代号t 1 2 3 4 5
储蓄存款 y(千亿元) 5 6 7 8 10
(1)求y关于t的经验回归方程=t+;
(2)用所求经验回归方程预测该地区2021年(t=7)的人民币储蓄存款.
参考公式:=,=- .
【解析】(1)由题意可知,n=5,
=i==3,=i==7.2.
=55,iyi=120,
计算得,=1.2,=- =7.2-1.2×3=3.6.
故所求经验回归方程为=1.2t+3.6.
(2)将t=7代入=1.2t+3.6,可得=1.2×7+3.6=12(千亿元),
所以预测该地区2021年的人民币储蓄存款为12千亿元.
题型二 利用回归直线方程对总体进行估计
1.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示,由图可知,y与x之间有较强的线性相关关系,其经验回归方程是,预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为( )
A.6.1 B.5.1 C.3.5 D.5.2
【答案】A
【解析】,
代入可得,
所以回归方程为.
当时,,
即当液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为6.1百千克.故选:A
2. 在一次试验中测得(x,y)的四组数据如下:
x 16 17 18 19
y 50 34 41 31
根据上表可得经验回归方程=-5x+,据此模型预报当x=20时,的值为__________.
【答案】26.5
【解析】==17.5,
==39,
∴回归直线过点(17.5,39),
∴39=-5×17.5+,∴=126.5,
∴当x=20时,=-5×20+126.5=26.5.
题型三 非线性回归方程
为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6
繁殖个数y 6 12 25 49 95 190
求y关于x的非线性经验回归方程.
【解析】作出散点图如图(1)所示.
由散点图看出样本点分布在一条指数型曲线y=cebx的周围,则ln y=bx+ln c.
令z=ln y,a=ln c,则z=bx+a.
x 1 2 3 4 5 6
z 1.79 2.48 3.22 3.89 4.55 5.25
相应的散点图如图(2)所示.从图(2)可以看出,变换后的样本点分布在一条直线附近,因此可以用经验回归方程来拟合.
由表中数据得到经验回归方程为=0.69x+1.115.因此细菌的繁殖个数y关于天数x的非线性经验回归方程为=e0.69x+1.115.
一、单选题
1.2020年春季.新冠肺炎疫情在全球范围内相维爆发.因为政治制度、文化背景等因素的不同.各个国家疫情防控的效果具有明显差异.右图是西方某国在天内感染新冠肺炎的累计病例人数(万人)与时间(天)的散点图.则下列最适宜作为此模型的回归方程的类型是( )
A. B.
C. D.
【答案】C
【解析】根据散点图,可以看出,三点大致分布在一条“指数”函数曲线附近,
选项A对应的“直线型”的拟合函数;选项B对应的“幂函数型”的拟合函数;选项D对应的“对数型”的拟合函数;故选:C
2.为了调查中学生近视情况,某校名男生中有名近视,名女生中有名近视,在检验这些中学生眼睛近视是否与性别有关时,用什么方法最有说服力( )
A.平均数 B.方差 C.回归分析 D.独立性检验
【答案】D
【解析】分析已知条件,得如下表格.
男生 女生 合计
近视 80 70 150
不近视 70 70 140
合计 150 140 290
根据列联表利用公式可得的值,
再与临界值比较,检验这些中学生眼睛近视是否与性别有关,
故利用独立性检验的方法最有说服力.故选:D.
3.某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的列联表.则根据列联表可知( )
年轻人 非年轻人 总计
经常用流行语 125 25 150
不常用流行用语 35 15 50
总计 160 40 200
参考公式:独立性检验统计量,其中 .
下面的临界值表供参考:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
A.有95%的把握认为“经常用流行用语”与“年轻人”有关系
B.没有95%的把握认为“经常用流行用语”与“年轻人”有关系
C.有97.5%的把握认为“经常用流行用语”与“年轻人”有关系
D.有97.5%的把握认为“经常用流行用语”与“年轻人”没有关系
【答案】A
【解析】,
根据临界值知有95%的把握认为经常用流行语与年轻人有关系,
故选:A
4.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了关于的线性回归方程,则下列说法不正确的是( )
(次数/分钟) 20 30 40 50 60
(℃) 25 27.5 29 32.5 36
A.的值是20
B.变量,呈正相关关系
C.若的值增加1,则的值约增加0.25
D.当蟋蟀52次/分鸣叫时,该地当时的气温预报值为33.5℃
【答案】D
【解析】由题意,得,
,
则,故A正确;
由线性回归方程可知,,变量,呈正相关关系,故B正确;
若的值增加1,则的值约增加0.25,故C正确;
当时,,故D错误.故选:D.
5.据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点和误差较大,去除后重新求得的经验回归直线的斜率为1.2,则( )
A.变量与具有正相关关系
B.去除两个误差较大的样本点后,重新求得的回归方程仍为
C.去除两个误差较大的样本点后,的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点的残差为0.05
【答案】A
【解析】因为重新求得的经验回归直线的斜率为1.2,所以变量与具有正相关关系,故A正确;
当时,,设去掉两个误差较大的样本点后,横坐标的平均值为,纵坐标的平均值为,
则,,
因为去除两个误差较大的样本点后,重新求得回归直线的斜率为1.2,
所以,解得,
所以去除两个误差较大的样本点后的经验回归方程为,故B错误;
因为,所以去除两个误差较大的样本点后的估计值增加速度变慢,故C错误;
因为,所以,故D错误.
故选:A.
6.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为( )A.39.5 B.40 C.43.5 D.45
【答案】B
【解析】由表中数据,计算可得,,
因为回归直线方程过样本中心点,
所以有,解得,故选:B.
7.已知变量x,y的关系可以用模型拟合,设,其变换后得到一组数据下:
16 17 18 19
50 34 41 31
由上表可得线性回归方程,则c=( )
A. B. C.109 D.
【答案】D
【解析】由表格数据知:.
由,得,则.
∴,
由,得,
∴,即.故选:D.
8.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:)存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了关于的线性回归方程.
(次数/分钟)
则当蟋蟀每分钟鸣叫次时,该地当时的气温预报值为( )
A. B. C. D.
【答案】D
【解析】由表格中的数据可得,,
由于回归直线过样本中心点,可得,解得.
所以,回归直线方程为.
在回归直线方程中,令,可得.故选:D.
二、多选题
9.已知某高中的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据(),由最小二乘法近似得到关于的经验回归方程为,则下列结论中正确的是( )
A.与是正相关的
B.该经验回归直线必过点
C.若该高中的女生身高增加,则其体重约增加
D.若该高中的女生身高为,则其体重必为
【答案】ABC
【解析】根据关于的经验回归方程,易知关于是正相关的,所以A正确;
经验回归直线过点,所以B正确;
根据经验回归方程的斜率为0.85,可知该高中的女生身高增加,
其体重约增加,所以C正确;
经验回归方程确定之后只能用于预测,所以D错误.故选:ABC.
10.年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点
D.模型回归曲线的拟合效果比模型的好
【答案】BD
【解析】对于A,散点从左下到右上分布,所以当月在售二手房均价y与月份代码x呈正相关关系,故A不正确;
对于B,令,由,
所以可以预测2021年2月在售二手房均价约为1.0509万元/平方米,故B正确;
对于C,非线性回归曲线不一定经过 ,故C错误;
对于D,越大,拟合效果越好,由,故D正确.故选:BD
11.下面的散点图与相关系数一定不符合的是( )
A. B.
C. D.
【答案】ACD
【解析】对于A,C,各点散布在从左上角到右下角的区域里,所以相关系数,A,C均不符合;对于B,各点散布在从左下角到右上角的区域里,所以相关系数,B符合;对于D,各点散布在从左下角到右上角的带状区域里,所以相关系数,D不符合.故选:ACD.
12.下列说法正确的是( )
A.若随机变量,,则
B.若随机变量,则
C.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是,0.5
D.从10名男生,5名女生中随机选取4人,则其中至少有一名女生的概率为
【答案】AC
【解析】随机变量,正态曲线关于对称,则,
,即,故正确;
随机变量,则,
故,故错误;
∵,∴两边取对数得,令,
可得,
∵,∴,,∴,故正确;
从10名男生,5名女生中随机选取4人,则其中至少有一名女生的对立事件为选取的4人中没有一名女生,其概率为,则其中至少有一名女生的概率为,
故不正确;故选:.
三、填空题
13.为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班随机抽取名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知这组数据的样本中心点为,,若该班某学生的脚长为厘米,据此估计其身高为________厘米.
【答案】
【解析】根据题意,计算,,;
∴,
∴,
当 时,计算,
据此估计其身高为(厘米).
故答案为:
14.如果x,y之间的一组数据如下表所示,那么回归直线必过的一个定点坐标是______.
x 0 1 2 3
y 1 2 5 8
【答案】
【解析】由表格数据知:,,即样本中心为,
又回归方程必过样本中心知:回归直线必过的—个定点坐标是.
故答案为:.
15.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为________.
【答案】40
【解析】由表中数据,计算可得,,
因为回归直线方程过样本中心点,所以有,解得.故答案为:40.
16.若变量x和y满足关系,变量y与z正相关,则x与z______相关.
【答案】负
【解析】因为变量x和y满足关系,所以x与y负相关.
因为变量y与z正相关,所以x与z负相关.故答案为:负
四、解答题
17.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26 215 65 2 680 5.36
11250 130 2.6 12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好
(2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)
(ⅱ)若希望2021年盈利额为250亿元,请预测2021年的研发资金投入额为多少亿元?(结果精确到0.01)
附:①相关系数,回归直线中:,
②参考数据:,.
【解析】(1)设和的相关系数为,和的相关系数为,由题意,
,
,
则,因此从相关系数的角度,模型的拟合程度更好.
(2)(ⅰ)先建立关于的线性回归方程,
由,得,即,
,
,
所以关于的线性回归方程为,
所以,则.
(ⅱ)2021年盈利额(亿元),
所以,则,
因为,
所以.
所以2021年的研发资金投入量约为27.56亿元.
18.数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行 每一列 每一个粗线宫()内的数字均含1﹣9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度(秒)与训练天数(天)有关,经统计得到如表的数据:
(天) 1 2 3 4 5 6 7
(秒) 990 990 450 320 300 240 210
现用作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过100天训练后,每天解题的平均速度约为多少秒?
(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为,已知在前3局中小明胜2局,小红胜1局.若不存在平局,请你估计小明最终赢得比赛的概率.参考数据(其中)
1845 0.37 0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
【解析】(1)由题意,,
令,设关于的线性回归方程为,则
,
则.
∴,又,
∴关于的回归方程为,
故时,.
∴经过100天训练后,每天解题的平均速度约为140秒.
(2)设比赛再继续进行局小明最终赢得比赛,则最后一局一定是小明获胜,
由题意知,最多再进行4局就有胜负.
当时,小明胜,∴;
当时,小明胜,∴;
当时,小明胜,∴.
∴小明最终赢得比赛的概率为.
19.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化 减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,.
(1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合;
(2)求关于的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?
参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,.
【解析】(1)由题意知,相关系数.
因为与的相关系数接近1,
所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合.
(2)由题意可得,,
,
所以.
当时,,
所以该市10万人口的县城年垃圾产生总量约为252.5吨.
20.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
【解析】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
.
(北京)股份有限公司
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
必考点07 一元线性回归模型及其应用
题型一 求一元线性回归方程
例题1某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
例题2如今快寄成为不少人日常生活中不可或缺的一部分.某市一调查机构针对该市市场占有率最高的甲 乙两家快寄企业(以下简称快寄甲 快寄乙)的经营情况进行了调查,调查结果如下表:
日期 1 2 3 4 5
快寄甲日接单量x/百单 5 2 9 8 11
快寄乙日接单量y/百单 2.2 2.3 10 5 15
据统计表明y与x之间具有线性相关关系,并经计算求得y与x之间的回归方程为.
(1)求;
(2)假定快寄企业平均每单能获纯利润3元,试预测当快寄乙日接单量不低于2500单时,快寄甲日接单量的最小值(结果精确到单)及所获取的日纯利润的最小值.
【解题技巧提炼】
求经验回归方程的基本步骤
(1)画出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算,,,,iyi;
(3)代入公式求出=x+中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
[提醒] 只有在散点图大致呈线性时,求出的经验回归方程才有实际意义,否则求出的回归方程毫无意义.
题型二 利用回归直线方程对总体进行估计
例题1对具有线性相关关系的变量,测得一组数据如下表,根据表中数据,利用最小二乘法得到回归直线方程,据此模型预测当时,y的估计值为( )
x 2 4 5 6 8
y 20 40 60 70 80
A.210 B.210.5 C.211.5 D.212.5
例题2一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:
零件个数 10 20 30 40 50 60 70 80
加工时间 62 68 75 81 89 95 102 108
设回归直线方程为,若,则点在直线的________方
【解题技巧提炼】
解题的关键是先确定两个变量y与x是线性相关关系,确定求出回归方程进行估计和预测.
题型三 非线性回归分析
例题1下表为收集到的一组数据:
x 21 23 25 27 29 32 35
y 7 11 21 24 66 115 325
(1)作出x与y的散点图,并猜测x与y之间的关系;
(2)建立x与y的关系,预报回归模型并计算残差;
(3)利用所得模型,预测x=40时y的值.
【解题技巧提炼】
非线性回归问题的处理方法
(1)指数函数型y=ebx+a
①函数y=ebx+a的图象,如图所示;
②处理方法:两边取对数得ln y=ln ebx+a,即ln y=bx+a.令z=ln y,把原始数据(x,y)转化为(x,z),再根据线性回归模型的方法求出a,b.
(2)对数函数型y=bln x+a
①函数y=bln x+a的图象,如图所示;
②处理方法:设x′=ln x,原方程可化为y=bx′+a,
再根据线性回归模型的方法求出a,b.
(3)y=bx2+a型
处理方法:设x′=x2,原方程可化为y=bx′+a,再根据线性回归模型的方法求出a,b.
题型一 求一元线性回归方程
1.对具有线性相关关系的变量,有一组观测数据,其回归方程为,且,,则实数的值是
A.-2 B.2 C.-1 D.1
2.随着我国经济的发展,居民储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:
年份 2015 2016 2017 2018 2019
时间代号t 1 2 3 4 5
储蓄存款 y(千亿元) 5 6 7 8 10
(1)求y关于t的经验回归方程=t+;
(2)用所求经验回归方程预测该地区2021年(t=7)的人民币储蓄存款.
参考公式:=,=- .
题型二 利用回归直线方程对总体进行估计
1.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示,由图可知,y与x之间有较强的线性相关关系,其经验回归方程是,预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量y约为( )
A.6.1 B.5.1 C.3.5 D.5.2
2. 在一次试验中测得(x,y)的四组数据如下:
x 16 17 18 19
y 50 34 41 31
根据上表可得经验回归方程=-5x+,据此模型预报当x=20时,的值为__________.
题型三 非线性回归方程
为了研究甲型H1N1中的某种细菌随时间x变化的繁殖个数y,收集数据如下:
天数x 1 2 3 4 5 6
繁殖个数y 6 12 25 49 95 190
求y关于x的非线性经验回归方程.
一、单选题
1.2020年春季.新冠肺炎疫情在全球范围内相维爆发.因为政治制度、文化背景等因素的不同.各个国家疫情防控的效果具有明显差异.右图是西方某国在天内感染新冠肺炎的累计病例人数(万人)与时间(天)的散点图.则下列最适宜作为此模型的回归方程的类型是( )
A. B.
C. D.
【答案】C
【解析】根据散点图,可以看出,三点大致分布在一条“指数”函数曲线附近,
选项A对应的“直线型”的拟合函数;选项B对应的“幂函数型”的拟合函数;选项D对应的“对数型”的拟合函数;故选:C
2.为了调查中学生近视情况,某校名男生中有名近视,名女生中有名近视,在检验这些中学生眼睛近视是否与性别有关时,用什么方法最有说服力( )
A.平均数 B.方差 C.回归分析 D.独立性检验
3.某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的列联表.则根据列联表可知( )
年轻人 非年轻人 总计
经常用流行语 125 25 150
不常用流行用语 35 15 50
总计 160 40 200
参考公式:独立性检验统计量,其中 .
下面的临界值表供参考:
0.15 0.10 0.05 0.025 0.010 0.005 0.001
2.072 2.706 3.841 5.024 6.635 7.879 10.828
A.有95%的把握认为“经常用流行用语”与“年轻人”有关系
B.没有95%的把握认为“经常用流行用语”与“年轻人”有关系
C.有97.5%的把握认为“经常用流行用语”与“年轻人”有关系
D.有97.5%的把握认为“经常用流行用语”与“年轻人”没有关系
4.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了关于的线性回归方程,则下列说法不正确的是( )
(次数/分钟) 20 30 40 50 60
(℃) 25 27.5 29 32.5 36
A.的值是20
B.变量,呈正相关关系
C.若的值增加1,则的值约增加0.25
D.当蟋蟀52次/分鸣叫时,该地当时的气温预报值为33.5℃
5.据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点和误差较大,去除后重新求得的经验回归直线的斜率为1.2,则( )
A.变量与具有正相关关系
B.去除两个误差较大的样本点后,重新求得的回归方程仍为
C.去除两个误差较大的样本点后,的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点的残差为0.05
6.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为( )A.39.5 B.40 C.43.5 D.45
7.已知变量x,y的关系可以用模型拟合,设,其变换后得到一组数据下:
16 17 18 19
50 34 41 31
由上表可得线性回归方程,则c=( )
A. B. C.109 D.
8.蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率(每分钟鸣叫的次数)与气温(单位:)存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了关于的线性回归方程.
(次数/分钟)
则当蟋蟀每分钟鸣叫次时,该地当时的气温预报值为( )
A. B. C. D.
二、多选题
9.已知某高中的女生体重(单位:)与身高(单位:)具有线性相关关系,根据一组样本数据(),由最小二乘法近似得到关于的经验回归方程为,则下列结论中正确的是( )
A.与是正相关的
B.该经验回归直线必过点
C.若该高中的女生身高增加,则其体重约增加
D.若该高中的女生身高为,则其体重必为
10.年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法正确的是( )A.当月在售二手房均价与月份代码呈负相关关系
B.由预测年月在售二手房均价约为万元/平方米
C.曲线与都经过点
D.模型回归曲线的拟合效果比模型的好
11.下面的散点图与相关系数一定不符合的是( )
A. B.
C. D.
12.下列说法正确的是( )
A.若随机变量,,则
B.若随机变量,则
C.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则c,k的值分别是,0.5
D.从10名男生,5名女生中随机选取4人,则其中至少有一名女生的概率为
三、填空题
13.为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班随机抽取名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知这组数据的样本中心点为,,若该班某学生的脚长为厘米,据此估计其身高为________厘米.
14.如果x,y之间的一组数据如下表所示,那么回归直线必过的一个定点坐标是______.
x 0 1 2 3
y 1 2 5 8
15.上饶市婺源县被誉为“茶乡”,婺源茶业千年不衰,新时代更是方兴未艾,其中由农业部监制的婺源大山顶特供茶“擂鼓峰茶尤为出名,为了解每壶“擂鼓峰”茶中所放茶叶量克与食客的满意率的关系,抽样得一组数据如下表:
(克) 2 4 5 6 8
(%) 30 50 70 60
根据表中的全部数据,用最小二乘法得出与的线性回归方程为,则表中的值为________.
16.若变量x和y满足关系,变量y与z正相关,则x与z______相关.
四、解答题
17.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①,②,其中,,,均为常数,为自然对数的底数.令,,经计算得如下数据:
26 215 65 2 680 5.36
11250 130 2.6 12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好
(2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;(系数精确到0.01)
(ⅱ)若希望2021年盈利额为250亿元,请预测2021年的研发资金投入额为多少亿元?(结果精确到0.01)
附:①相关系数,回归直线中:,
②参考数据:,.
18.数独是源自18世纪瑞士的一种数学游戏,玩家需要根据盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行 每一列 每一个粗线宫()内的数字均含1﹣9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛.
(1)赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度(秒)与训练天数(天)有关,经统计得到如表的数据:
(天) 1 2 3 4 5 6 7
(秒) 990 990 450 320 300 240 210
现用作为回归方程模型,请利用表中数据,求出该回归方程,并预测小明经过100天训练后,每天解题的平均速度约为多少秒?
(2)小明和小红在数独APP上玩“对战赛”,每局两人同时开始解一道数独题,先解出题的人获胜,两人约定先胜4局者赢得比赛.若小明每局获胜的概率为,已知在前3局中小明胜2局,小红胜1局.若不存在平局,请你估计小明最终赢得比赛的概率.参考数据(其中)
1845 0.37 0.55
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
19.垃圾是人类日常生活和生产中产生的废弃物,由于排出量大,成分复杂多样,且具有污染性,所以需要无害化 减量化处理.某市为调查产生的垃圾数量,采用简单随机抽样的方法抽取20个县城进行了分析,得到样本数据,其中和分别表示第个县城的人口(单位:万人)和该县年垃圾产生总量(单位:吨),并计算得,,,,.
(1)请用相关系数说明该组数据中与之间的关系可用线性回归模型进行拟合;
(2)求关于的线性回归方程,用所求回归方程预测该市10万人口的县城年垃圾产生总量约为多少吨?
参考公式:相关系数,对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为,.
20.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
附:
0.050 0.010 0.001
k 3.841 6.635 10.828
(北京)股份有限公司
21世纪教育网(www.21cnjy.com)