4.3 统计模型
4.3.1 一元线性回归模型
基础过关练
题组一 变量间的相关关系
1.(多选题)对于任意给定的两个变量的统计数据,下列说法错误的是( )
A.一定可以分析出两个变量之间的关系
B.一定可以用一条直线近似地表示两者之间的关系
C.一定可以作出散点图
D.一定可以用确定的表达式表示两者之间的关系
2.观察下列散点图,则①正相关,②负相关,③不相关与图中的甲、乙、丙三个散点图相对应的是( )
A.①②③ B.②①③
C.①③② D.③①②
3.下表给出了5组数据,选出4组数据使得x与y的线性相关程度最大,且保留第1组数据(-5,-3),则在余下的4组数据中应去掉( )
第i组 1 2 3 4 5
xi -5 -4 -3 -2 4
yi -3 -2 4 -1 6
A.第2组数据 B.第3组数据
C.第4组数据 D.第5组数据
题组二 回归直线方程及其应用
4.根据表中的数据,用最小二乘法得到y关于x的回归直线方程为=14x-14,则表中n的值为( )
x 2 3 4 5 6
y 20 n 40 60 70
A.15.5 B.20 C.20.5 D.25
5.已知变量x和y的统计数据如下表:
x 6 7 8 9 10
y 3.5 4 5 5.5 7
如果由表中数据可得回归直线方程为,那么,当x=10时,残差为 .(注:残差=观测值-预测值)
6.对有关数据的分析可知,每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的抗压强度y(单位:kg/cm2)之间具有线性相关关系,其回归直线方程为=0.30x+9.99.根据建设项目的需要,28天后混凝土的抗压强度不得低于89.7 kg/cm2,则每立方米混凝土的水泥用量最少应为 kg.
7.销售费用预算是以销售收入预算为基础,通过分析销售收入、销售利润和销售费用的关系,力求实现销售费用的最有效使用.根据往年的相关数据显示,某高新技术企业的年销售费用占年销售收入的8%~10%为合理区间,当年销售费用超出年销售收入的10%时,说明企业的销售环节出现一定的问题,需要加强销售管理.该企业的年销售费用x(单位:千万元)和年销售收入y(单位:千万元)的相关数据如下表所示:
2018 2019 2020 2021 2022 2023
x 3 5 6 8 9 11
y 31 50 54 86 85 114
(1)通过数据分析,该企业的年销售费用x与年销售收入y之间符合线性相关关系,求出回归直线方程;
(2)若该企业2024年的年销售费用的预算为12千万元,试预测2024年的年销售收入,并判断2024年的年销售费用的预算是否在合理区间内.(精确到0.01千万元)
参考数据:xiyi=3 374.
参考公式:中,.
8.千百年来,人们一直在通过不同的方式传递信息.在古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛应用;第二次工业革命后,科技的进步带动了电讯事业的发展,电报、电话的发明让通信领域发生了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”变为现实.现在,5G的到来给人们的生活带来了颠覆性的变革.某科技创新公司基于领先技术的支持,5G经济收入在短期内逐月攀升,该创新公司在1月份至5月份的5G经济收入y(单位:百万元)关于月份x的数据如下表:
时间x/月份 1 2 3 4 5
收入y/百万元 10 15 19 23 28
(1)根据上表中的数据,求出y关于x的回归直线方程,并预测该公司6月份的5G经济收入;
(2)从这5个月中随机抽取3个月,记月收入超过15百万元的月份个数为X,求X的分布列和数学期望.
参考公式:回归直线方程中,.
题组三 相关系数
9.对四组数据进行统计,获得以下散点图,关于其相关系数的比较正确的是( )
A.r2C.r410.为了比较甲、乙、丙、丁四组数据的线性相关性强弱,某同学分别计算了甲、乙、丙、丁四组数据的线性相关系数,求得的数值依次为-0.98,-0.27,0.36,0.93,则这四组数据中线性相关性最强的是 组数据.
11.人口结构的变化,能明显影响住房需求.当一个地区青壮年人口占比高时,住房需求就会增加,而当一个地区老龄化严重时,住房需求就会下降.某机构随机选取了某个地区的10个城市,统计了每个城市的老龄化率x和空置率y,如下表所示:
城市 1 2 3 4 5 6 7 8 9 10
老龄 化率x 0.17 0.2 0.18 0.05 0.21 0.09 0.19 0.3 0.17 0.24
空置 率y 0.06 0.13 0.09 0.05 0.09 0.08 0.11 0.15 0.16 0.28
(1)若老龄化率不低于0.2,则该城市为超级老龄化城市,根据表中数据,估计该地区城市为超级老龄化城市的概率;
(2)估计该地区城市的老龄化率x和空置率y的相关系数.(结果精确到0.01)
参考公式:相关系数r=.
参考数据:≈0.04,≈0.04,xiyi=0.241 3,yi=1.2.
题组四 非线性回归分析
12.某工厂每日生产一种产品x(x≥1)吨,每日生产的该产品当日销售完毕,日销售额为y万元,产品价格随着产量的变化而变化,经过一段时间的产销,得到了x,y的一组统计数据,如下表:
日产量x/吨 1 2 3 4 5
日销售额y/万元 5 12 16 19 21
(1)请判断y=bx+a与y=dln x+c中哪个模型更适合刻画x,y之间的关系,并从函数增长趋势方面给出简单的理由;
(2)根据你的判断及下面的公式和数据,求出y关于x的回归方程,并估计当日产量为6吨时,日销售额是多少.(结果保留整数)
参考公式:回归直线方程中,.
参考数据:≈0.96,5ln 1+12ln 2+16ln 3+19ln 4+21ln 5≈86,ln 6≈1.8,(ln 1)2+(ln 2)2+(ln 3)2+(ln 4)2+(ln 5)2≈6.2.
能力提升练
题组一 回归直线方程及其应用
1.已知x,y的对应值如下表所示:
x 0 2 4 6 8
y 1 m+1 2m+1 3m+3 11
y与x具有较好的线性相关关系,可用回归直线方程=1.3x+0.6近似刻画,则在y的取值中任取2个均不大于9的概率为( )
A.
2.(多选题)已知由样本数据点集合{(xi,yi)|i=1,2,3,…,n}求得回归直线方程为=1.5x+0.5,且=3,现发现数据点(1.2,2.2)和(4.8,7.8)误差较大,去除后重新求得回归直线的斜率为1.2,则( )
A.变量x与y具有正相关关系
B.去除后y的估计值增加速度变快
C.去除后与去除前均值不变
D.去除后的回归直线方程为=1.2x+1.4
3.某二手汽车经销商对其所经营的某型号二手汽车的使用年数x(0使用年数x 2 4 6 8 10
销售价格y/万元 16 13 9 7 5
(1)根据表中数据,用最小二乘法求y关于x的回归直线方程;
(2)已知每辆该型号汽车的收购价格w(万元)与使用年数x(0附:回归直线方程中,.
4.大气污染物PM2.5(大气中直径小于或等于2.5 μm的颗粒物)的浓度超过一定的限度会影响人的身体健康.为了研究PM2.5的浓度受车流量影响的程度,某校数学建模社团选择了学校附近5个监测点,统计每个监测点24 h内的车流量x(单位:千辆),同时在低空相同的高度测定每个监测点该时间段内的PM2.5的平均浓度y(单位:μg/m3),得到的数据如表所示:
监测点编号 1 2 3 4 5
x 1.3 1.2 1.6 1.0 0.9
y 66 72 113 34 35
(1)建立y关于x的一元线性回归模型,并用相关系数加以说明(一般地,相关系数的绝对值在0.8以上(含0.8)认为线性相关性较强,否则认为线性相关性较弱);
(2)我国规定空气中PM2.5的浓度安全标准为24 h平均浓度为75 μg/m3,该地为使PM2.524 h平均浓度不超过68.6 μg/m3,拟对车流量作适当控制,请你根据本题数据估计车流量控制的最大值;
(3)从5个监测点中抽取3个,记PM2.5的平均浓度不超过68.6 μg/m3的个数为X,求X的分布列和数学期望.
参考公式:回归直线方程中,;相关系数r=
题组二 非线性回归分析
5.为研究某池塘中水生植物的覆盖水塘面积x(单位:dm2)与水生植物的株数y(单位:株)之间的相关关系,收集了4组数据,用模型y=cekx(c>0)去拟合x与y的关系,设z=ln y,x与z的数据如表格所示,得到x关于z的回归直线方程为,则=( )
x 3 4 6 7
z 2 2.5 4.5 7
A.-2 B.-1 C.e-2 D.e-1
6.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,于是对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到如图所示的散点图及一些统计量的值.
46.6 563 6.8 289.8 1.6
1 469 108.8
注:表中wi=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适合作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与年宣传费x,年销售量y之间的关系为z=0.2y-x,根据(2)的结果回答下列问题:
①当年宣传费x=49时,年销售量及年利润的预测值是多少
②当年宣传费x为何值时,年利润的预测值最大
附:回归直线方程u中,.
7.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x/千件 1 2 3 4 5 6 7
y/元 6 11 21 34 66 101 196
根据以上数据,绘制如图所示的散点图.
观察散点图,可知两个变量不具有线性相关关系,现考虑用对数函数模型y=a+bln x和指数函数模型y=c·dx分别对两个变量的关系进行拟合.
(1)根据散点图判断,y=a+bln x与y=c·dx(c,d均为大于零的常数)哪一个适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中的数据,建立y关于x的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123 470元,请估计最多能生产多少千件产品.
参考数据:
100.54
4 62.14 1.54 140 2 535 50.12 3.47
其中vi=lg yi,.
参考公式:回归直线方程u中,.
答案与分层梯度式解析
4.3 统计模型
4.3.1 一元线性回归模型
基础过关练
1.ABD 2.C 3.B 4.B 9.B
1.ABD 给出两个变量的统计数据,总可以作出相应的散点图,但不一定能分析出两个变量之间的关系,更不一定符合线性相关,即不一定能用一条直线近似地表示两者之间的关系,故A、B中说法不正确,C中说法正确.两个变量之间不一定具有函数关系,故D中说法不正确.故选ABD.
2.C
3.B 画出散点图如图所示,
由图可知,应去掉第3组数据(-3,4),故选B.
4.B 由题表中的数据计算可得,,
因为回归直线过点,
所以=14×4-14,解得n=20.
故选B.
5.答案 0.3
解析 =5,
所以=5-0.85×8=-1.8,
所以=0.85x-1.8,
所以当x=10时,=0.85×10-1.8=6.7,
所以残差为7-6.7=0.3.
6.答案 265.7
解析 由题意,得0.30x+9.99≥89.7,解得x≥265.7,
故每立方米混凝土的水泥用量最少应为265.7 kg.
7.解析 (1)由已知得,=70.
又xiyi=3 374,=336,
所以,
所以,
所以该企业的年销售费用x与年销售收入y之间的回归直线方程为.
(2)2024年的年销售收入的预测值≈121.67(千万元).因为12÷121.67×100%≈9.9%,所以2024年的年销售费用的预算在合理区间内.
8.解析 (1)由题意得,
=19,
=12+22+32+42+52=55,
=10+30+57+92+140=329,
所以,
,
故y关于x的回归直线方程为.
当x=6时,,
所以预测该公司6月份的5G经济收入为百万元.
(2)这5个月中,月收入超过15百万元的月份有3个,
所以X的所有可能取值为1,2,3,
P(X=1)=,
所以X的分布列为
X 1 2 3
P
所以E(X)=1×.
9.B 由题中的散点图可以看出,图1和图3是正相关,则相关系数大于0,即r1>0,r3>0;图2和图4是负相关,则相关系数小于0,即r2<0,r4<0.又图3和图4中的点相对于图1和图2中的点更加集中,所以r3更接近于1,r4更接近于-1,所以r410.答案 甲
解析 因为|r|值越接近1,随机变量之间的线性相关程度越强,且|-0.98|>0.93>0.36>|-0.27|,
所以甲组数据的线性相关性最强.
11.解析 (1)由题表中的数据可知,调查的10个城市中,老龄化率不低于0.2的有4个,
所以估计该地区城市为超级老龄化城市的概率为=0.4.
(2)由题表中的数据得,=0.12,
则r=
≈
=≈0.63.
故该地区城市的老龄化率x和空置率y的相关系数约为0.63.
12.解析 (1)y=dln x+c更适合刻画x,y之间的关系.理由:由题表中的数据可知,x的值每增加1,函数值y的增加量分别为7,4,3,2,增加得越来越缓慢,符合对数函数模型的增长规律,与一元线性回归模型的均匀增长存在较大差异,故y=dln x+c更适合刻画x,y之间的关系.
(2)令z=ln x,
由题意得=14.6,
所以≈=10,
≈14.6-10×0.96=5,
所以y关于z的回归直线方程为=10z+5,
所以y关于x的回归方程为=10ln x+5.
当x=6时,=10ln 6+5≈10×1.8+5=23.
估计当日产量为6吨时,日销售额为23万元.
能力提升练
1.B 2.ACD 5.C
1.B 由题表得=4,
,
因为回归直线一定过点(),
所以1.3×4+0.6=,解得m=2,
所以y的取值分别为1,3,5,9,11,
从这5个数中任取2个均不大于9的概率P=.
2.ACD 由y关于x的回归直线方程为=1.5x+0.5,知=1.5>0,∴变量x与y具有正相关关系,故A正确;∵1.2<1.5,∴去除后y的估计值增加速度变慢,故B错误;去除前的均值=3,去除的两个数据点的横坐标的平均数为3,则去除后与去除前均值不变,由回归直线恒过样本点的中心,可得去除前+0.5=1.5×3+0.5=5,而去除的两个数据点的纵坐标的平均数为5,则去除后与去除前均值不变,故C正确;设去除后的回归直线方程为,把去除后样本点的中心(3,5)代入,得5=1.2×3+=1.4,∴去除后的回归直线方程为=1.2x+1.4,故D正确.故选ACD.
3.解析 (1)由题表中的数据得,xiyi=2×16+4×13+6×9+8×7+10×5=244,
所以=10+1.4×6=18.4,
所以y关于x的回归直线方程为=-1.4x+18.4.
(2)z=
在z=-0.05x2+0.3x+1.3(0在z=0.05x+0.8(6显然1.75>1.3,
所以当x=3时,利润z最大,且最大利润是1.75万元.
4.解析 (1)由题表得=1.2,
=64,
xiyi=1.3×66+1.2×72+1.6×113+1.0×34+0.9×35=418.5,
=1.32+1.22+1.62+1.02+0.92=7.5,
=662+722+1132+342+352=24 690,
所以=115,
=64-115×1.2=-74,
所以=115x-74.
r=
=≈0.97.
因为|0.97|>0.8,
所以y与x的线性相关性较强.
(2)令115x-74≤68.6,得x≤1.24,
故估计车流量控制的最大值为1.24.
(3)结合题表知,5个监测点中PM2.5的平均浓度不超过68.6 μg/m3的有3个,所以X的所有可能取值为1,2,3.
P(X=1)=,
P(X=3)=.
故X的分布列为
X 1 2 3
P
所以E(X)=1×.
5.C 由已知可得,=4,所以4=1.2×5+,解得=-2,所以=1.2x-2,由z=ln y,得ln =1.2x-2,所以=e1.2x-2=e-2·e1.2x,则=e-2.故选C.
6.解析 (1)由题中散点图知各点呈非线性递增趋势,所以y=c+d适合作为年销售量y关于年宣传费x的回归方程类型.
(2)由wi=,得y=c+dw,
则=68,
=563-68×6.8=100.6,
所以.
(3)①当x=49时,=576.6,
=0.2×576.6-49=66.32.
②由题意得,-6.8)2+66.36,
当=6.8,即x=46.24时,年利润的预测值最大.
7.解析 (1)根据题中的散点图可知,y=c·dx适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型.
(2)对y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d.由lg y=v,得v=lg c+xlg d.
∵=50.12,
∴lg =0.25,
lg lg =1.54-4×0.25=0.54,
∴=0.54+0.25x,∴lg =0.54+0.25x,
∴=100.54+0.25x=3.47×100.25x.
(3)设生产了x千件该产品,生产总成本为g(x)元,则g(x)=3.47×100.25x+x×10×1 000.
易知g(x)=3.47×100.25x+10 000x在其定义域内单调递增,且g(12)=3.47×103+120 000=123 470,
所以估计最多能生产12千件产品.
23(共25张PPT)
4.3 统计模型
知识点 1 相关关系
知识 清单破
4.3.1 一元线性回归模型
1.相关关系:两个变量之间有一定的关系,但没有达到可以互相决定的程度,它们之间的关系
带有一定的随机性,这种关系称为相关关系.
2.散点图
将成对数据用平面直角坐标系中的点表示出来,由这些点组成的统计图称为散点图.
3.线性相关
如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地
用一次函数来刻画,则称x与y线性相关.如果一个变量增大,另一个变量大体上也增大,则称这
两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.
知识点 2 回归直线方程
1.回归直线方程
一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每
一个已知的xi,由直线方程可以得到一个估计值 =bxi+a,如果一次函数 = x+ 能使残差平方
和即 (yi- )2取得最小值,则 = x+ 称为y关于x的回归直线方程(对应的直线称为回归直线).
因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
在回归直线方程 = x+ 中, = = , = - ,其中, 称为回归系数,实
际上也就是回归直线的斜率.
2.回归直线方程的性质
(1)回归直线一定过点( , ).
(2)y与x正相关的充要条件是 >0;y与x负相关的充要条件是 <0.
(3) 的实际意义:当x增大一个单位时, 增大 个单位.
知识点 3 相关系数
1.对于变量x与y的成对数据(xi,yi),i=1,2,3,…,n,一般用r=
= 来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为
相关系数).
2.相关系数r的性质
(1)|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0.
(2)|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即
方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回
归直线方程越有价值.
(3)|r|=1 的充要条件是成对数据构成的点都在回归直线上.
如果具有相关关系的两个变量x,y不是线性相关关系,那么y与x的关系称为非线性相关关
系,所得到的方程称为非线性回归方程.
一般地,非线性回归方程的曲线类型可以通过作出散点图进行猜测,而回归方程有时可以通
过变量替换后,借助求回归直线方程的过程确定.
知识点 4 非线性回归
知识辨析
判断正误,正确的画“√”,错误的画“ ”.
1.若两个变量线性相关,则各观测点落在一条直线上. ( )
2.回归方程中,由x的值得出的y值是准确值.( )
3.回归直线一定过某一对样本数据确定的点. ( )
4.当r=0时,成对数据间没有任何关系. ( )
若两个变量线性相关,则它们之间的关系可近似地用一次函数来刻画,各观测点不一定
全部落在一条直线上.
提示
当r=0时,只表明成对数据间没有线性相关关系,但不排除它们之间有其他关系.
提示
5.若r1=-0.95,r2=0.85,则体现两变量相关关系较强的是r2. ( )
6.当变量x的取值依次为3,4,5,6,7时,变量y对应的值依次为4.0,2.5,-0.5,-1,-2,则可知变量x和y负
相关. ( )
7.对于散点图中的点没有均匀分布在某条直线附近或毫无规则可言的两个变量,用最小二乘
法求不出对应的回归直线方程.( )
当|r|越接近1时,成对数据的线性相关程度越强,所以体现两变量相关关系较强的是r1.
提示
√
判断两个变量相关性的方法
(1)利用散点图判断:通过散点图观察点的分布是否存在一定的规律,若点大致在一条直线附
近摆动,则对应变量线性相关,否则不具有线性相关关系.
一般地,如果变量x和y正相关,那么关于均值平移后的大多数散点将分布在第一、第三象限,
对应的成对数据同号的居多;如果变量x和y负相关,那么关于均值平移后的大多数散点将分
布在第二、第四象限,对应的成对数据异号的居多.
(2)利用相关系数判断:相关系数r是从数值上来判断变量间的线性相关程度的量,是定量分析
法.|r|刻画了样本点集中于某条直线的程度.
|r|越接近1,散点图中样本点的分布越接近一条直线,两个变量的线性相关程度越强.
讲解分析
疑难 1 两个变量相关性的判断
疑难 情境破
典例 某农科所对冬季昼夜温差(最高温度与最低温度的差)大小与某反季节大豆新品种一天
内发芽数之间的关系进行了分析研究,他们分别记录了12月1日至12月6日每天昼夜的最高、
最低温度(如图甲),以及实验室每天每100颗种子中的发芽数情况(如图乙).
图甲 图乙
(1)请画出发芽数y与温差x的散点图;
(2)判断(1)中的两个变量是否线性相关,计算相关系数,并刻画它们的相关程度.
参考数据:
参考公式:相关系数r= (当|r|>0.75时,认为两个变量的线性相关程度较强).
解析 (1)散点图如图所示.
(2)r= ≈ ≈0.952.
由相关系数r≈0.952>0.75,可以推断发芽数与温差这两个变量正相关,且线性相关程度较强.
规律总结
判断两个变量之间的线性相关程度一般用散点图,但在作图中,由于存在误差,有时很难判断
这些点是否分布在一条直线附近,此时可以利用相关系数r来判断.
讲解分析
疑难 2 回归直线方程的求解与应用
1.求回归直线方程中系数的方法
(1)公式法:利用公式,求出 , .
(2)待定系数法:利用回归直线过样本点的中心( , )求系数.
2.回归直线方程的应用
(1)利用回归直线方程进行预测:把回归直线方程看作一次函数的解析式,求函数值.
(2)利用回归直线判断正、负相关性:决定正相关还是负相关的是回归系数 .
典例 COMS温度传感器(集成温度传感器)是一种采用大规模数字集成电路技术的温度传感
器,集成了温度传感电路和信号处理电路,可检测芯片温度和环境温度,具有低成本、低功
耗、高精度和线性度强的优点.下表是通过对某型号COMS高精度温度传感器IC的芯片温度
与输出电压进行初步统计得出的相关数据:
芯片温度t/℃ -20 20 40 80 100
输出电压 测量值U/V 2.49 2.07 1.88 1.45 1.31
(1)已知输出电压U与芯片温度t之间存在线性相关关系,求出其回归直线方程;(精确到小数点
后两位)
(2)已知输出电压实际观测值为Ui,估计值(预测值)为 ,σ= .以上述数据和(1)中
的回归直线方程为依据,若满足|Ui- |<3σ,则可判断该COMS高精度温度传感器IC工作正常;
若不满足,则可判断其工作不正常.现某该型号温度传感器在芯片温度为60 ℃时,输出电压为
1.60 V,判断该温度传感器工作是否正常.
参考数据: , =18 800.
参考公式:对于一组数据(t1,U1),(t2,U2),…,(tn,Un),其回归直线U=a+bt的斜率和截距的最小二乘
估计分别为 = , = - .
解析 (1)由题表得 = =44, = =1.84,
∴ = = ≈-0.01, ≈1.84-(-0.01)×44=2.28,
∴输出电压U关于芯片温度t的回归直线方程为 =-0.01t+2.28.
(2)由(1)及题表中数据可得,
当t=-20时, =2.48,U1- =0.01;
当t=20时, =2.08,U2- =-0.01;
当t=40时, =1.88,U3- =0;
当t=80时, =1.48,U4- =-0.03;
当t=100时, =1.28,U5- =0.03.
∴σ=
=
=0.02.
当t=60时, =-0.01×60+2.28=1.68,|U- |=|1.60-1.68|=0.08>3×0.02=0.06,
∴该温度传感器工作不正常.
讲解分析
疑难 3 非线性回归
1.建立非线性回归模型的基本步骤
(1)确定研究对象,明确涉及的变量;
(2)画出确定好的变量间的散点图,观察它们之间的关系(是否存在非线性关系);
(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函
数模型、指数函数模型、对数函数模型等);
(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;
(5)按照公式计算回归直线方程中的参数,得到回归直线方程;
(6)消去新元,得到非线性回归方程.
2.常见的非线性回归方程的转换
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
y=axb c=ln a, u=c+bv
y=aebx c=ln a, u=c+bx
y=a c=ln a, u=c+bv
曲线方程 曲线(曲线的一部分) 变换公式 变换后的线性函数
y=a+bln x v=ln x y=a+bv
典例 混凝土具有原材料丰富、抗压强度高、耐久性好等特点,是目前使用量最大的土木建
筑材料.抗压强度是混凝土质量控制的重要技术参数,也是实际工程对混凝土要求的基本指
标.为了解某型号某批次混凝土的抗压强度(单位:MPa)随龄期(单位:天)的发展规律,质检部门
在标准试验条件下记录了10组混凝土试件在龄期xi(i=1,2,…,10)分别为2,3,4,5,7,9,12,14,17,21
时的抗压强度yi的值,并对数据进行了初步处理,得到散点图及一些统计量的值.
(xi- )2 (wi- )2
9.4 29.7 2 370.4 5.5
(xi- )(yi- ) (wi- )(yi- ) 439.2 55 表中wi=ln xi, = wi.
(1)根据散点图判断y=a+bx与y=c+dln x哪一个适宜作为抗压强度y关于龄期x的回归方程类型,
根据判断结果和表中数据,建立y关于x的回归方程;
(2)工程中常把龄期为28天的混凝土试件的抗压强度f28视作混凝土抗压强度标准值.已知该型
号混凝土设置的最低抗压强度标准值为40 MPa.
①试预测该批次混凝土是否达标;
②由于抗压强度标准值需要较长时间才能评定,早期预测在工程质量控制中具有重要的意
义.经验表明,该型号混凝土第7天的抗压强度f7与第28天的抗压强度f28具有线性相关关系f28=
1.2f7+7,试估计在早期质量控制中,龄期为7天的混凝土试件需达到的抗压强度.
参考数据:ln 2≈0.69,ln 7≈1.95.
解析 (1)由题中散点图可以判断,y=c+dln x适宜作为抗压强度y关于龄期x的回归方程类型.
令w=ln x,建立y关于w的回归直线方程.
由于 = = =10,
= - =29.7-10×2=9.7,
所以y关于w的回归直线方程为 =9.7+10w,
因此y关于x的回归方程为 =9.7+10ln x.
(2)①由(1)知,当龄期为28天,即x=28时,抗压强度y的估计值 =9.7+10ln 28=9.7+10×(2ln 2+ln 7)
≈43.因为43>40,所以预测该批次混凝土达标.
②令f28=1.2f7+7≥40,得f7≥27.5.
所以估计在早期质量控制中,龄期为7天的混凝土试件需达到的抗压强度为27.5 MPa.