第3课时 一元线性回归模型及其应用
[考试要求] 1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
考点一 成对数据的相关性
1.变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关或曲线相关.
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
r=
=.
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[-1,1];
②当r>0时,成对样本数据正相关;
③当r<0时,成对样本数据负相关;
④当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
提醒:当两个变量的样本相关系数|r|=1时,两个变量呈函数关系.
[典例1] (1)(2024·天津卷)下列图中,线性相关系数最大的是( )
A B
C D
(2)(2022·全国乙卷节选)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,==1.615 8,=0.247 4.
①估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
②求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
附:样本相关系数r=≈1.377.
(1)A [观察题干图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,|r|最大.故选A.]
(2)[解] ①样本中10棵这种树木的根部横截面积的平均值==0.06,
样本中10棵这种树木的材积量的平均值==0.39.
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
②r=
=
=
=≈≈0.97.
反思领悟 判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:r>0时,正相关;r<0时,负相关.
(3)经验回归方程=x+中:>0时,正相关;<0时,负相关.
巩固迁移1 (1)(2025·凉山州模拟)调查某校高三学生的身高x和体重y得到如图所示的散点图,其中身高x和体重y的样本相关系数r=0.825 5,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重正相关
C.学生身高和体重负相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.825 5
(2)(2024·福建一模)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.1
C.- D.
(1)B (2)A [(1)由散点图可知,散点的分布集中在一条直线附近,所以学生身高和体重具有相关性,A不正确;
又身高x和体重y的样本相关系数为r=0.825 5,样本相关系数r>0,
所以学生身高和体重呈正相关,B正确,C不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的样本相关系数不一定是0.825 5,D不正确.故选B.
(2)∵这组样本数据的所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,
∴这组样本数据完全相关,
即说明这组数据的样本完全负相关,其样本相关系数是-1.故选A.]
考点二 回归模型
一元线性回归模型与最小二乘法
(1) 一元线性回归模型
称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
=,=.
[常用结论]
(1)经验回归直线过点().
(2)求时,常用公式=.
一元线性回归模型
[典例2] 某市航空公司为了解每年航班正点率x%对每年乘客投诉次数y(单位:次)的影响,对近8年(2017年~2024年)每年航班正点率x%和每年乘客投诉次数y的数据作了初步处理,得到下面的一些统计量的值.
)2
600 592 43 837.2 93.8
(1)求y关于x的经验回归方程;
(2)该市航空公司预计2026年航班正点率为84%,利用(1)中的经验回归方程,估算2026年乘客对该市航空公司投诉的次数.
[解] (1)==74,
则===-6,
所以==74+6×75=524,
所以=-6x+524.
(2)当x=84时,=20,所以估算2026年乘客对该市航空公司投诉的次数为20次.
反思领悟 (1)求经验回归方程的步骤
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
巩固迁移2 某商家经销某种玩具,统计了最近5个月销量,如下表所示:
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
若y与x线性相关,且经验回归方程为=-0.6x+,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关
B.当x=5时,残差为0.2
C.可以预测当x=6时,销量约为2.1万只
D.经验回归方程=-0.6x+中=5.7
B [对于选项A,从数据看y随x的增大而减小,所以变量y与x负相关,故A正确;
对于选项BD,由表中数据知==3.9,
所以样本点中心为(3,3.9),将样本点中心(3,3.9)代入=-0.6x+中得=3.9+1.8=5.7,
所以经验回归方程为=-0.6x+5.7,
所以当x=5时,=-0.6×5+5.7=2.7,=2.5-2.7=-0.2,故B错误,D正确;
对于选项C,当x=6时,销量约为=-0.6×6+5.7=2.1(万只),故C正确.
故选B.]
非线性回归模型
[典例3] (2025·无锡新吴区模拟)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2020年至2024年的利润(单位:亿元),得到如图所示的散点图.其中2020年至2024年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,y=a+bx和y=c+dx2哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的经验回归方程;
(3)根据(2)的结果,估计2025年的企业利润.
参考公式及数据:
=,=-,
=55,=979,=390,=1 221,
=4 607.9.
[解] (1)由散点图可知,y=c+dx2适宜作为企业利润y关于年份代码x的经验回归方程类型.
(2)由题意得:==×390=78,
====0.85,
=-×=78-0.85×11=68.65,
所以y关于x的经验回归方程为=68.65+0.85x2.
(3)在(2)中求得经验回归方程=68.65+0.85x2中,
令x=6,得=68.65+0.85×62=99.25,
所以估计2025年的企业利润为99.25亿元.
反思领悟 本例(1)由散点图直接得结论;本例(2)通过整体代换思想把x2看作x利用最小二乘法求出与的值,可得y关于x的经验回归方程;本例(3)利用(2)中求得的经验回归方程,取x=6求解y值即可.
巩固迁移3 汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎面磨损.某实验室通过实验测得行驶里程与某品牌轮胎凹槽深度的数据,建立了如下回归模型y=c1ec2x,通过实验数据分析与计算得到如下结论:①c2=-0.18;②=10,令u=ln y,=0.35,则经验回归方程应为____________.
=e2.15-0.18x [因为回归模型y=c1ec2x,且c2=-0.18,则y=c1e-0.18x,两边同时取对数,
可得ln y=ln (c1e-0.18x)=ln c1-0.18x,
令u=ln y,此时u=ln c1-0.18x,
因为=0.35,
所以ln c1=0.35+0.18×10=2.15,即c1=e2.15,
则=e2.15·e-0.18x=e2.15-0.18x.]
考点三 回归效果分析
刻画回归效果的方式
(1)残差图法
在残差图中,残差比较均匀地分布在以横轴为对称轴的水平的带状区域中,说明满足一元线性回归模型的假设,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值所得的差称为残差.
(3)利用R2刻画拟合效果
R2=1-,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
[典例4] (2025·湖南师大附中模拟)某网店经销某商品,为了解该商品的月销量y(单位:千件)与售价x(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到下表:
x 5 6 7 8 9
y 8 6 4.5 3.5 3
根据表中数据可得经验回归方程=-1.25x+13.75,以下说法正确的是( )
A.x,y具有负相关关系,样本相关系数r=-1.25
B.x每增加一个单位,y平均减少13.75个单位
C.第二个样本点对应的残差2=0.25
D.第三个样本点对应的残差3=-0.5
D [对于A选项,样本相关系数绝对值不大于1,A不正确;
对于B选项,由经验回归方程知,x每增加一个单位,y平均减少 1.25个单位,B不正确;
对于C选项,第二个样本点对应的残差2=6-(-1.25×6+13.75)=-0.25,C不正确;
对于D选项,第三个样本点对应的残差3=4.5-(-1.25×7+13.75)=-0.5,D正确.]
反思领悟 检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
巩固迁移4 如图是某企业2018年至2024年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2018~2024.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请建立y关于t的经验回归方程,并预测2025年该企业的污水净化量;
(2)请用决定系数说明经验回归方程预报的效果.
参考数据:=54,)(yi-)=21,≈3.74,=.
[解] (1)由折线图中的数据得=54,
=
=
=.
所以==54-×4=51,所以y关于t的经验回归方程为=t+=t+51.将2025年对应的年份代码t=8代入得=×8+51=57,所以预测2025年该企业污水净化量约为57吨.
(2)因为R2=1-=1-=0.875,与1接近,
说明经验回归方程预报的效果是良好的.
1.(多选)在如图所示的散点图中,若去掉点P,则下列说法错误的是( )
A.样本相关系数r变大
B.变量y与变量x的相关程度变强
C.变量y与变量x呈现正相关关系
D.变量y与变量x的相关程度变弱
ACD [由散点图知,变量y与变量x呈现负相关关系,即r<0,故C错误.去掉点P后,变量y与变量x的线性相关程度变强,|r|更接近1,所以r变小,故A错误,B正确,D错误.故选ACD.]
2.(人教A版选择性必修第三册P138复习参考题8T2)根据变量Y和x的成对样本数据,用一元线性回归模型得到经验回归模型=x+,对应的残差如图所示.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的E(e)=0的假设
C.不满足一元线性回归模型的D(e)=σ2的假设
D.不满足一元线性回归模型的E(e)=0和D(e)=σ2的假设
C [用一元线性回归模型得到经验回归模型=x+,根据对应的残差图,残差的均值E(e)=0可能成立,但明显残差图的x轴上方的数据更分散,D(e)=σ2不满足一元线性回归模型,正确的只有选项C.]
3.(人教A版选择性必修第三册P113练习T2改编)假如女儿身高y(单位:cm)关于父亲身高x(单位:cm)的经验回归方程为=0.81x+25.82.已知父亲身高为175 cm,则估计女儿的身高是________cm.(结果精确到整数)
168 [当x=175时,=0.81x+25.82=0.81×175+25.82≈168.]
4.已知x,y的取值如下表所示,从散点图分析可知y与x线性相关,如果经验回归方程为=2.5x+2,则实数a的值为________.
x 2 3 4 5 6
y 6.5 10 11.5 a 18.5
13.5 [由题意可知,==4,
因为经验回归直线一定过样本点中心(),
所以=2.5×4+2=12,
所以×(6.5+10+11.5+a+18.5)=12,
解得a=13.5.]
【教用·备选题】 1.(2025·四川成都模拟)某老师为了了解数学学习成绩得分y(单位:分)与每天数学学习时间x(单位:分钟)是否存在线性关系,搜集了100组数据,并据此求得y关于x的经验回归方程为=x+56.若一位同学每天数学学习时间约80分钟,则可估计这位同学数学成绩为( ) A.106 B.122 C.136 D.140 C [由题设可得==112,所以112=×56+56,故=1,所以=x+56, 故当x=80时,=80+56=136.故选C.] 2.对四组数据进行统计,获得以下散点图,关于其样本相关系数的比较,正确的是( ) A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3 C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3 A [由给出的四组数据的散点图可以看出, 题图1和题图3是正相关,样本相关系数大于0, 题图2和题图4是负相关,样本相关系数小于0, 题图1和题图2的点相对更加集中,所以相关性要强,所以r1接近于1,r2接近于-1, 由此可得r2<r4<0<r3<r1.故选A.] 3.某校对学生记忆力x和判断力y进行统计分析,所得数据如表: 记忆力x25689判断力y78101218
则y关于x的经验回归方程为( ) (附:= ,=-) A.=-1.4x+19.4 B.=1.4x+2.6 C.=1.4x-2.6 D.=-1.4x-19.4 B [由题表中数据知,随着x的增大,y增大,所以x与y正相关,排除AD,又==11,由经验回归直线过样本点中心(6,11),代入验证知B项正确.故选B.] 4.(2024·济宁期末)已知两个变量x和y之间存在线性相关关系,某兴趣小组收集了一组样本数据,并利用最小二乘法求得的经验回归方程是y=0.28x+0.16,其样本相关系数是r1,由于某种原因,其中一个数据丢失,将其记为m,具体数据如下表所示: x12345y0.50.6m1.41.5
若去掉数据(3,m)后,剩下的数据也成线性相关关系,其样本相关系数是r2,则( ) A.r1=r2 B.r1>r2 C.r1<r2 D.r1,r2的大小关系无法确定 A [由题表可知,=×(1+2+3+4+5)=3, 因为经验回归直线y=0.28x+0.16过点(=0.28×3+0.16=1, 所以m=5×1-0.5-0.6-1.4-1.5=1, 则去掉(3,1)之前, r1= =, 因为(3,1)为样本点中心,所以去掉(3,1)后,不变, 则r2= =, 所以r1=r2.故选A.] 5.(2025·安徽合肥联考模拟)为了反映城市的人口数量x与就业压力指数y之间的变量关系,研究人员选择使用非线性回归模型y=·对所测数据进行拟合,并设z=ln y,得到的数据如表所示,则c=________. x46810z2c56
3 [==,依题意,z=ln y=ln =x-, 而经验回归直线=x-过点, 故=, 解得c=3.] 6.(2024·佛山顺德区月考)现调查某地区某种野生动物的数量,将该地区分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样本,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi,yi分别表示第i个样本的植物覆盖面积(单位:公顷)和这种野生动物的数量,构造向量a=(x1-,x2-,…,x20-),b=(y1-,y2-,…,y20-),其中==,并计算得=60,=1 200,=4 400,|a|=9,|b|=100,由人教A版选择性必修第三册教材中的知识,我们知道n对数据的样本相关系数r=cos 〈a,b〉,则上述数据(xi,yi)(i=1,2,…,20)的样本相关系数r=________. [因为=60,=1 200,所以=60, 根据向量夹角公式,得r=cos 〈a,b〉=, 可得a·b=), 所以) =) = = =4 400-20×3×60=800, 所以r=cos 〈a,b〉===.]
课后习题(六十九) 一元线性回归模型及其应用
1.(人教A版选择性必修第三册P103习题8.1T1改编)已知两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系依次是( )
A.①②③ B.②③①
C.②①③ D.①③②
D [第一个散点图中的点是从左下角区域分布到右上角区域,是正相关;第三个散点图中的点是从左上角区域分布到右下角区域,是负相关;第二个散点图中的点的分布没有什么规律,是不相关.]
2.(人教B版选择性必修第二册P115练习B T2改编)某冷饮店日盈利y(单位:百元)与当天气温x(单位:℃)之间有如下数据:
x/℃ 15 20 25 30 35
y/百元 1 2 2 4 5
已知y与x之间具有线性相关关系,则y与x的经验回归方程是( )
A.=0.2x-2 B.=0.2x-2.2
C.=0.2x+2 D.=0.2x+2.2
B [经验回归直线必过样本点中心,由题意得==25,
==2.8,结合选项可知,2.8=0.2×25-2.2,即y与x的经验回归方程是=0.2x-2.2.故选B.]
3.(多选)(人教A版选择性必修第三册P120习题8.2T2改编)已知变量x,y的取值情况如表所示,画出散点图分析可知y与x线性相关,如果经验回归方程为=0.95x+2.5,则下列说法正确的是( )
x 0 1 2 3 4
y 2.3 4.3 4.4 4.8 m
A.m的值为6.2
B.经验回归直线必过点(2,4.4)
C.样本点(4,m)处的残差为0.1
D.将此表中的数据(2,4.4)去掉后,样本相关系数r不变
ABD [由题意可知,=×(0+1+2+3+4)=2,=×(2.3+4.3+4.4+4.8+m)=×(15.8+m),所以样本点中心为,将代入=0.95x+2.5,可得=0.95×2+2.5,解得m=6.2,故A正确;由m=6.2,得样本点中心为(2,4.4),所以经验回归直线必过点(2,4.4),故B正确;当x=4时,=0.95×4+2.5=6.3,由m=6.2,得样本点(4,6.2)处的残差为6.2-6.3=-0.1,故C错误;因为=4.4-4.4=0,由样本相关系数的公式知,r=,所以将此表中的数据(2,4.4)去掉后,样本相关系数r不变,故D正确.故选ABD.]
4.(苏教版选择性必修第二册P187本章测试T6改编)动力电池作为新能源汽车的核心部件,在新能源整车成本中占比较高,而碳酸锂又是动力电池的核心原料.从2020年底开始,碳酸锂的价格一路水涨船高.如下表所示是2024年某企业前5个月碳酸锂的价格与月份的统计数据:
月份代码x 1 2 3 4 5
碳酸锂价格y(万元/kg) 0.5 0.6 1 m 1.5
根据表中数据,得出y关于x的经验回归方程为=0.28x+,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则m=________.
1.4 [由题意,样本点(5,1.5)处的残差为-0.06,则1.5-(0.28×5+)=-0.06,解得=0.16.
由题表数据可得,=×(1+2+3+4+5)=3,
=×(0.5+0.6+1+m+1.5)=,
则=0.28×3+0.16,解得m=1.4.]
5.(2025·成都模拟)对变量x,y有观测数据(xi,yi)(i∈N*),得散点图1;对变量u,v有观测数据(ui,vi)(i∈N*),得散点图2.r1表示变量x,y之间的样本相关系数,r2表示变量u,v之间的样本相关系数,则下列说法正确的是( )
A.变量x与y呈现正相关,且|r1|<|r2|
B.变量x与y呈现负相关,且|r1|>|r2|
C.变量x与y呈现正相关,且|r1|>|r2|
D.变量x与y呈现负相关,且|r1|<|r2|
C [根据题设,变量x,y的散点图中,
y随着x的增大而增大,所以y与x呈现正相关;
再分别观察两个散点图,变量x和y的散点图相对于变量u 和v的散点图而言,点更加集中,相关性更好,所以|r1|>|r2|.
故选C.]
6.(2024·重庆长寿区期末)设某中学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.84x-86.71.若该中学女生的平均身高为160 cm,则该中学女生的平均体重的估计值是( )
A.47.69 kg B.48.69 kg
C.57.69 kg D.58.69 kg
A [经验回归方程为=0.84x-86.71,令x=160,得y=0.84×160-86.71=47.69,
所以该中学女生的平均体重的估计值是47.69 kg.故选A.]
7.(2024·内江东兴区月考)相关变量的样本数据如下表,
x 1 2 3 4 5 6 7
y 2.9 3.3 3.6 4.4 4.8 a 5.9
经回归分析可得y与x线性相关,并由最小二乘法求得经验回归方程为=0.5x+2.3,下列说法正确的是( )
A.x增加1时,y一定增加2.3
B.变量x与y负相关
C.当y为6.3时,x一定是8
D.a=5.2
D [根据经验回归方程=0.5x+2.3知,x增加1时,估计y增加0.5,故A错误;
由=0.5x+2.3知,变量x与y正相关,故B错误;
y=6.3时,0.5x+2.3=6.3,解得x=8,估计x的值为8,故C错误;
=×(1+2+3+4+5+6+7)=4,=×(2.9+3.3+3.6+4.4+4.8+a+5.9)=,
代入经验回归方程中,则=0.5×4+2.3,解得a=5.2,故D正确.
故选D.]
8.(2024·泰安期末)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽试验,由试验数据(xi,yi)(i=1,2,…,20),得到下面的散点图.由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a-bx B.y=a+b
C.y=a+bex-2 D.y=
B [由散点图知,各个点在一条曲线附近,随着温度的升高,发芽率逐渐增大,而增长速度越来越慢,
对于A,y=a-bx的图象是直线,不符合题意;
对于B,当b>0时,y=a+b是增函数,增长速度越来越慢,适合作为发芽率y和温度x的回归方程类型,符合题意;
对于C,当b>0时,y=a+bex-2是增函数,增长速度越来越快,不符合题意;
对于D,y=a+是减函数,不符合题意.
故选B.]
9.(多选)(2024·长沙适应性考试)自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到海拔6千米~15千米的大气压散点图,根据一元线性回归模型得到经验回归方程为1=-4.0x+68.5,决定系数为=0.99;根据非线性回归模型得到经验回归方程为2=132.9e-0.163x,决定系数为=0.99,则下列说法正确的是( )
A.由散点图可知,大气压与海拔负相关
B.由方程1=-4.0x+68.5可知,海拔每升高1千米,大气压必定降低4.0 kPa
C.由方程1=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程=132.9e-0.163x的预报效果更好
ACD [对于A,由题图知,海拔越高,大气压越小,所以大气压与海拔负相关,故A正确;
对于B,经验回归直线得到的数据为估计值,而非精确值,故B错误;
对于C,当x=11时,1=-4.0×11+68.5=24.5,又由散点图知观测值为22.6,所以样本点(11,22.6)的残差为22.6-24.5=-1.9,故C正确;
对于D,随着海拔的增加,大气压越来越小,但不可能为负数,因此方程2=132.9e-0.163x的预报效果更好,故D正确.故选ACD.]
10.(2025·重庆沙坪坝区校级模拟)已知成对样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2)中x1,x2,…,xn不全相等,且所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组成对样本数据的样本相关系数r=________,其决定系数R2=________.
-1 1 [因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,
所以这组样本数据完全负相关,所以r=-1,R2=1.]
11.(2025·武汉模拟)随着科技发展的日新月异,人工智能融入了各个行业,促进了社会的快速发展.其中利用人工智能生成的虚拟角色因为拥有更低的人工成本,正逐步取代传统的真人直播带货.某公司使用虚拟角色直播带货销售金额得到逐步提升,以下为该公司自2024年8月使用虚拟角色直播带货后的销售金额情况统计.
年月 2024年 8月 2024年 9月 2024年 10月 2024年 11月 2024年 12月 2025年 1月
月份编号x 1 2 3 4 5 6
销售金额y/万元 15.4 25.4 35.4 85.4 155.4 195.4
若y与x的相关关系拟用线性回归模型表示,回答如下问题:
(1)试求变量y与x的样本相关系数r(结果精确到0.01);
(2)试求y关于x的经验回归方程,并据此预测2025年2月份该公司的销售金额.
附:经验回归方程=x+,其中=,=-,
样本相关系数r=.
参考数据:=2 463.4,=20.
[解] (1)=×(1+2+3+4+5+6)=3.5,
=×(15.4+25.4+35.4+85.4+155.4+195.4)=85.4,
=17.5,
r=
=
=≈0.96.
(2)由题意=≈38.3,
==85.4-3.5×38.3=-48.65,
所以y关于x的经验回归方程为=38.3x-48.65,
所以预测2025年2月份该公司的销售金额为=38.3×7-48.65=219.45(万元).
1/1第3课时 一元线性回归模型及其应用
[考试要求] 1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
考点一 成对数据的相关性
1.变量的相关关系
两个变量______,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为__相关和__相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现____的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现____的趋势.
(2)按变量间是否有线性特征分为____相关和______相关或曲线相关.
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在________附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是____相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
r=___________=___________.
(3)样本相关系数r的性质
①样本相关系数r的取值范围为____________;
②当r>0时,成对样本数据__相关;
③当r<0时,成对样本数据__相关;
④当|r|越接近__时,成对样本数据的线性相关程度越强;
当|r|越接近__时,成对样本数据的线性相关程度越弱.
提醒:当两个变量的样本相关系数|r|=1时,两个变量呈函数关系.
[典例1] (1)(2024·天津卷)下列图中,线性相关系数最大的是( )
A B
C D
(2)(2022·全国乙卷节选)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,==1.615 8,=0.247 4.
①估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
②求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
附:样本相关系数r=≈1.377.
[听课记录]
反思领悟 判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)样本相关系数:r>0时,正相关;r<0时,负相关.
(3)经验回归方程=x+中:>0时,正相关;<0时,负相关.
巩固迁移1 (1)(2025·凉山州模拟)调查某校高三学生的身高x和体重y得到如图所示的散点图,其中身高x和体重y的样本相关系数r=0.825 5,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重正相关
C.学生身高和体重负相关
D.若从样本中抽取一部分,则这部分的样本相关系数一定是0.825 5
(2)(2024·福建一模)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.1
C.- D.
考点二 回归模型
一元线性回归模型与最小二乘法
(1) 一元线性回归模型
称为Y关于x的一元线性回归模型.其中,Y称为______或响应变量,x称为自变量或________,__称为截距参数,__称为斜率参数;e是__与________之间的随机误差.如果e=__,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中
=,=.
[常用结论]
(1)经验回归直线过点().
(2)求时,常用公式=.
一元线性回归模型
[典例2] 某市航空公司为了解每年航班正点率x%对每年乘客投诉次数y(单位:次)的影响,对近8年(2017年~2024年)每年航班正点率x%和每年乘客投诉次数y的数据作了初步处理,得到下面的一些统计量的值.
)2
600 592 43 837.2 93.8
(1)求y关于x的经验回归方程;
(2)该市航空公司预计2026年航班正点率为84%,利用(1)中的经验回归方程,估算2026年乘客对该市航空公司投诉的次数.
[听课记录]
反思领悟 (1)求经验回归方程的步骤
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
巩固迁移2 某商家经销某种玩具,统计了最近5个月销量,如下表所示:
时间x 1 2 3 4 5
销售量y/万只 5 4.5 4 3.5 2.5
若y与x线性相关,且经验回归方程为=-0.6x+,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关
B.当x=5时,残差为0.2
C.可以预测当x=6时,销量约为2.1万只
D.经验回归方程=-0.6x+中=5.7
非线性回归模型
[典例3] (2025·无锡新吴区模拟)近年来,我国众多新能源汽车制造企业迅速崛起.某企业着力推进技术革新,利润稳步提高.统计该企业2020年至2024年的利润(单位:亿元),得到如图所示的散点图.其中2020年至2024年对应的年份代码依次为1,2,3,4,5.
(1)根据散点图判断,y=a+bx和y=c+dx2哪一个适宜作为企业利润y(单位:亿元)关于年份代码x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)中的判断结果,建立y关于x的经验回归方程;
(3)根据(2)的结果,估计2025年的企业利润.
参考公式及数据:
=,=-,
=55,=979,=390,=1 221,
=4 607.9.
[听课记录]
反思领悟 本例(1)由散点图直接得结论;本例(2)通过整体代换思想把x2看作x利用最小二乘法求出与的值,可得y关于x的经验回归方程;本例(3)利用(2)中求得的经验回归方程,取x=6求解y值即可.
巩固迁移3 汽车轮胎凹槽深度是影响汽车刹车的因素,汽车行驶会导致轮胎面磨损.某实验室通过实验测得行驶里程与某品牌轮胎凹槽深度的数据,建立了如下回归模型y=c1ec2x,通过实验数据分析与计算得到如下结论:①c2=-0.18;②=10,令u=ln y,=0.35,则经验回归方程应为____________.
考点三 回归效果分析
刻画回归效果的方式
(1)残差图法
在残差图中,残差比较均匀地分布在以横轴为对称轴的水平的带状区域中,说明满足一元线性回归模型的假设,这样的带状区域的宽度越__,说明模型拟合精度越高.
(2)残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去______所得的差称为残差.
(3)利用R2刻画拟合效果
R2=1-,R2越大,模型的拟合效果越__,R2越小,模型的拟合效果越__.
[典例4] (2025·湖南师大附中模拟)某网店经销某商品,为了解该商品的月销量y(单位:千件)与售价x(单位:元/件)之间的关系,收集5组数据进行了初步处理,得到下表:
x 5 6 7 8 9
y 8 6 4.5 3.5 3
根据表中数据可得经验回归方程=-1.25x+13.75,以下说法正确的是( )
A.x,y具有负相关关系,样本相关系数r=-1.25
B.x每增加一个单位,y平均减少13.75个单位
C.第二个样本点对应的残差2=0.25
D.第三个样本点对应的残差3=-0.5
[听课记录]
反思领悟 检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
巩固迁移4 如图是某企业2018年至2024年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2018~2024.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请建立y关于t的经验回归方程,并预测2025年该企业的污水净化量;
(2)请用决定系数说明经验回归方程预报的效果.
参考数据:=54,)(yi-)=21,≈3.74,=.
1.(多选)在如图所示的散点图中,若去掉点P,则下列说法错误的是( )
A.样本相关系数r变大
B.变量y与变量x的相关程度变强
C.变量y与变量x呈现正相关关系
D.变量y与变量x的相关程度变弱
2.(人教A版选择性必修第三册P138复习参考题8T2)根据变量Y和x的成对样本数据,用一元线性回归模型得到经验回归模型=x+,对应的残差如图所示.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的E(e)=0的假设
C.不满足一元线性回归模型的D(e)=σ2的假设
D.不满足一元线性回归模型的E(e)=0和D(e)=σ2的假设
3.(人教A版选择性必修第三册P113练习T2改编)假如女儿身高y(单位:cm)关于父亲身高x(单位:cm)的经验回归方程为=0.81x+25.82.已知父亲身高为175 cm,则估计女儿的身高是________cm.(结果精确到整数)
4.已知x,y的取值如下表所示,从散点图分析可知y与x线性相关,如果经验回归方程为=2.5x+2,则实数a的值为________.
x 2 3 4 5 6
y 6.5 10 11.5 a 18.5
1/1