第三节 变量间的相关关系及回归模型
1.根据如表样本数据:
x 2 3 4 5 6
y 4 2.5 -0.5 -2 -3
得到的经验回归方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
3.〔多选〕(2024·武昌质量检测)下列说法正确的是( )
A.将一组数据的每一个数减去同一个数后,新数据的方差与原数据方差相同
B.经验回归直线=x+一定过样本点中心(,)
C.样本相关系数r越大,两个变量的线性相关性越强
D.在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好
4.〔多选〕(2025·唐山一模)为研究光照时长x(小时)和种子发芽数量y(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图所示,并进行线性回归分析,若去掉点P后,下列说法正确的是( )
A.样本相关系数r变小 B.经验回归方程斜率变大
C.残差平方和变小 D.决定系数R2变小
5.已知两变量x与y的经验回归方程为=2x+1,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.2),则残差平方和是 .
6.下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的统计表.
x 2 3 4 5 6
y 3.4 4.2 5.1 5.5 6.8
由表可得经验回归方程为=0.81x+,若规定:维修费用y不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为 .
7.为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导,根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下:
x(千克) 2 4 5 6 8
y(千克) 300 400 400 400 500
(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用经验回归模型拟合);
(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?(≈3.16)
8.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为=.
x 1 2 3 4
y e2 e3 e5 e6
若=e13,则x=( )
A.6 B.7
C.8 D.9
9.(创新考法)〔多选〕在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图样本点均位于第一象限,则可以根据上述方法进行回归分析的模型有( )
A.y=c1x2+c2x B.y=
C.y=c1 D.y=c1+ln(x+c2)
10.〔多选〕自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到的海拔6千米~15千米的大气压强散点图,根据一元线性回归模型得到经验回归方程为=-4.0x+68.5,决定系数为=0.99;根据非线性回归模型得到经验回归方程为=132.9e-0.163x,决定系数为=0.99,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程=-4.0x+68.5可知,海拔每升高1千米,大气压强必定降低4.0 kPa
C.由方程=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程=132.9e-0.163x的预报效果更好
11.某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参数).令xi=ln Wi,yi=ln fi,计算得=8,=5,=214.由最小二乘法得经验回归方程为=x+7.4,则k的值为 ;为判断拟合效果,通过经验回归方程求得预测值(i=1,2,…,8),若残差平方和(yi-)2≈0.28,则决定系数R2≈ .
12.一企业生产某种产品,通过加大技术创新投入降低了每件产品成本.为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到散点图如图所示,并计算得:=6.8,=70,=3,=1.6,=350.
(1)根据散点图可知,可用函数模型y=+α拟合y与x的关系,试建立y关于x的回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系为m=-+++100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润的预报值最大?(注:年利润=年销售额-年投入成本)
第三节 变量间的相关关系及回归模型
1.B 由表中的数据可得,变量y随着x的增大而减小,则<0,==4,
==0.2,又经验回归方程=x+经过样本点中心(4,0.2),可得 >0.
2.D r的绝对值越接近1,m越小,线性相关性越强.
3.ABD 对A:由方差的性质可知,将一组数据的每一个数减去同一个数后,新数据的方差与原数据方差相同,故A正确;对B:由=-,故经验回归直线=x+一定过样本点中心(,),故B正确;对C:样本相关系数|r|越大,两个变量的线性相关性越强,故C错误;对D:在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的拟合效果越好,故D正确.故选A、B、D.
4.BC 由图可知:P较其他的点偏离直线最大,所以去掉点P后,回归效果更好.对于A,样本相关系数|r|越接近于1,线性相关性越强,因为散点图是递增的趋势,所以去掉点P后,样本相关系数r变大,故A错误;对于B,由经验回归方程的实际意义,要使残差平方和最小,去掉点P后,回归直线靠近y轴位置需要向下移动,但靠近最右侧两个点的位置变化不大,经验回归方程斜率变大,故B正确;对于C,残差平方和越大,拟合效果越差,所以去掉点P后,残差平方和变小,故C正确;对于D,决定系数R2越接近于1,拟合效果越好,所以去掉点P后,决定系数R2变大,故D错误.故选B、C.
5.0.06 解析:因为=2x+1,所以当x=2时,=5,=-0.1;当x=3时,=7,=0.1;当x=4时,=9,=0.2.所以残差平方和为++=0.01+0.01+0.04=0.06.
6.10 解析:由表格,得=×(2+3+4+5+6)=4,=×(3.4+4.2+5.1+5.5+6.8)=5,因为经验回归直线恒过点(,),所以5=0.81×4+,解得=1.76,所以经验回归方程为=0.81x+1.76,由y≤10,得0.81x+1.76≤10,解得x≤≈10.17,由于x∈N*,所以据此模型预测,该设备使用年限的最大值约为10.
7.解:(1)由已知数据可得==5,
==400,
所以(xi-)(yi-)=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,
==2,
=
=100,
所以样本相关系数
r=
==≈0.95>0.75.
所以可用经验回归模型拟合y与x的关系.
(2)===30,
=400-5×30=250,
所以经验回归方程为=30x+250.
当x=15时,=30×15+250=700,
即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克.
8.B 由=,得ln =x-1,令z=ln y,则=x-1,由题意知,==2.5,==4,因为(,)满足=x-1,所以4=×2.5-1,解得=2,所以=2x-1,所以=e2x-1,令e2x-1=e13,解得x=7.
9.ABD 对于A,y=c1x2+c2x,可变形为=c1x+c2,令u=,则有u=c1x+c2,故选项A正确;对于B,y==1+,故y-1=,所以==x+,令v=,则有v=x+,故选项B正确;对于C,y=c1,则ln y=ln c1+x+c2,令n=ln y,则有n=x+ln c1+c2,此时的斜率为常数1,与最小二乘法不符合,故选项C错误;对于D,y=c1+ln(x+c2),则y-c1=ln(x+c2),所以=x+c2,故ey=(x+c2),令m=ey,则有m=(x+c2)=x+c2,故选项D正确.故选A、B、D.
10.ACD 对于A,由题图知,海拔高度越高,大气压强越小,所以大气压强与海拔高度负相关,故A正确;对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误;对于C,当x=11时,=-4.0×11+68.5=24.5,又由散点图知观测值为22.6,所以样本点(11,22.6)的残差为22.6-24.5=-1.9,故C正确;对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程=132.9e-0.163x的预报效果更好,故D正确.
11.-0.3 0.98 解析:f=cWk两边取对数可得ln f=ln c+kln W,因为xi=ln Wi,yi=ln fi,经验回归直线=x+7.4必过样本点的中心(,),所以5=8+7.4,解得=-0.3,所以k=-0.3,R2=1-=1-≈1-=0.98.
12.解:(1)令u=,则y关于u的经验回归方程为=+u,
依题意,得===200,
=-=70-200×0.3=10,
则=10+200u,
所以y关于x的回归方程为=10+.
(2)由y=10+,得x=,
年利润M=m-x-10
=-+++100--10=-·(y-20)2+90.8
当y=20时,年利润M取得最大值,
此时,x===20,
所以当年技术创新投入20千万元时,年利润的预报值最大.
3 / 3第三节 变量间的相关关系及回归模型
课标要求
1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
4.针对实际问题,会用一元线性回归模型进行预测.
1.变量的相关关系
(1)相关关系:若两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系;
(2)相关关系的分类:①从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量 ;
②当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量 ;
提醒 注意相关关系与函数关系的区别:函数关系是一种确定的关系,而相关关系是一种非确定的关系.(3)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,就称这两个变量线性相关.
2.样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn),若x与y存在线性相关关系,可用样本相关系数r定量分析它们的相关程度的强弱.
(1)样本相关系数r=;
(2)样本相关系数r的性质
①当r>0时,称成对样本数据 相关;当r<0时,称成对样本数据 相关;当r=0时,称成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为 .当|r|越接近1时,成对样本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线性相关程度越 .
3.一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线;
(2)经验回归方程为=x+,其中==,=-;
(3)通过求Q=(yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
4.判断回归模型的拟合效果
由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程=x+,其中y叫做观测值,叫做预测值,残差=y-.相对于样本点(xi,yi)的随机误差=yi-=yi-(xi+).
(1)残差分析法
①作残差图:作图时纵坐标为 ,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图;
②残差分析:(ⅰ)定型分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.(ⅱ)定量分析:利用残差平方和,残差平方和越小,模型的拟合效果越好.
(2)决定系数 (R2)法:R2=1-.R2的值越趋近于1,模型的拟合效果越好.
1.观察散点图判断成对样本数据的相关性
根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.如果散点图中变量的对应点分布在某条曲线的周围,那么这两个变量具有相关性;如果变量的对应点分布没有规律,那么这两个变量不具有相关性.
2.经验回归方程的性质
(1)经验回归直线一定过点(,);
(2)y与x正相关的充要条件是>0,y与x负相关的充要条件是<0;
(3)当x增大一个单位时,增大个单位.
1.判断正误.(正确的画“√”,错误的画“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.( )
(3)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
2.(人A选三P103习题1题改编)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右反映的变量间的相关关系分别是( )
A.①②③ B.②③①
C.②①③ D.①③②
3.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是( )
A.-0.82 B.0.78 C.-0.69 D.-0.87
4.(人A选三P113例题改编)在对两个变量x,y进行回归分析时有下列步骤:①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.则下列操作顺序正确的是( )
A.①②④③ B.③②④①
C.②③①④ D.②④③①
5.已知x,y的取值如下表,已知y与x具有线性相关关系,且经验回归方程为=0.95x+,则= .
x 0 1 3 4
y 2.2 4.3 4.8 6.7
成对数据的相关性
(师生共研过关)
(2022·全国乙卷理19题)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r=,≈1.377.
解题技法
样本相关系数r的统计含义及应用
(1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关;
(2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用经验回归方程进行分析和预测;
(3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.
1.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
2.对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
回归模型
(定向精析突破)
考向1 线性回归分析
(2025·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2018~2022年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 2018年 2019年 2020年 2021年 2022年
年份 代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2018~2022年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2025年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为:=,=-.
样本相关系数r=,≈6.
解题技法
线性回归分析问题的解题策略
(1)利用公式,求出回归系数;
(2)利用经验回归直线过样本点的中心求系数;
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
考向2 非线性回归分析
(2024·温州二模)红旗淀粉厂2025年之前只生产食品淀粉,下表为年投入资金x(万元)与年收益y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出回归方程;
(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2025年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:
yi ln xi (ln xi)2 yiln xi
161 29 20 400 109 603
ln 2≈0.7,ln 5≈1.6.
解题技法
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.
“绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以下表格和散点图反映了近几年某新能源汽车的年销售量情况.
年份 2020 2021 2022 2023 2024
年份代码x 1 2 3 4 5
某新能源汽车 年销售量y/万辆 1.5 5.9 17.7 32.9 55.6
(1)请根据散点图判断,y=bx+a与y=cx2+d中哪一个更适宜作为年销售量y关于年份代码x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并预测2025年该新能源汽车的年销售量.(精确到0.1)
参考数据:=22.72,(wi-)2=374,(wi-)(yi-)=851.2(其中wi=).
刻画拟合效果
(师生共研过关)
假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
若由最小二乘法计算得经验回归方程为=0.29x+34.7.
(1)计算各组残差,并计算残差平方和;
(2)求R2,并说明回归模型拟合效果的好坏.
参考数据:(yi-)2=50.18.
解题技法
刻画拟合效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适;(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好;(3)决定系数法:R2=1-越接近1,表明模型的拟合效果越好.
1.在一元线性回归模型Y=bx+a+e 中,下列说法正确的是( )
A.Y=bx+a+e 是一次函数
B.响应变量Y是由解释变量x唯一确定的
C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生
D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生
2.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如下表所示:
月份 1 2 3 4
物流成本x 83 83.5 80 86.5
利润y 114 116 106 122
残差=yi- 0.2 0.6 1.8 -3
月份 5 6 7 8
物流成本x 89 84.5 79 86.5
利润y 132 114 m 132
残差=yi- -1 -4.6 -1
根据最小二乘法求得经验回归方程为=3.2x-151.8.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型=3.2x-151.8的决定系数R2(精确到0.000 1);若根据非线性经验回归方程y=267.76ln x-1 069.2求得解释变量(物流成本)对于响应变量(利润)的决定系数=0.905 7,请说明以上两种模型哪种模型拟合效果更好?
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的经验回归方程.
附(修正前的参考数据):xiyi=78 880,=56 528,=84,(yi-)2=904.
第三节 变量间的相关关系及回归模型
【知识·逐点夯实】
知识梳理夯基
1.(2)①正相关 ②负相关 (3)一条直线
2.(2)①正 负 ②[-1,1] 强 弱
4.(1)①残差
对点自测诊断
1.(1)√ (2)√ (3)× (4)√
2.D 3.D 4.D 5.2.6
【考点·分类突破】
考点1
【例1】 解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量
===0.39.
(2)(xi-)(yi-)=xiyi-10=0.013 4,
(xi-)2=-10()2=0.002,
(yi-)2=-10()2=0.094 8,
所以==≈0.01×1.377=0.013 77,
所以样本相关系数
r=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
跟踪训练
1.C 因为=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设=y+,>0,则=y+=-0.1x++,故x与z负相关.
2.A 由散点图知图1与图3是正相关,故r1>0,r3>0,图2与图4是负相关,故r2<0,r4<0,且图1与图2的样本点集中在一条直线附近,因此r2<r4<0<r3<r1.
考点2
【例2】 解:(1)由已知可得,==3,==5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
(xi-)(yi-)=-5.9,=,=,
r==≈≈-0.98.
(2)由(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
===-0.59,
=-=5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=8,则=-0.59×8+6.87=2.15,预测2025年的酸雨区面积占国土面积的百分比为2.15%.
【例3】 解:(1)=
=
==5,
=-·=-5×=2,
所以回归方程为=5ln x+2.
(2)设2025年该企业投入食品淀粉生产x万元.
预计收益为y万元,则y=5ln x+2+(200-x)·,0<x<200, ①
所以y'=-=,
令y'=0得x=50,
当0<x<50时,y'>0,函数①单调递增,
当50<x<200时,y'<0,函数①单调递减,
所以ymax=5ln 50+2+15=5(2ln 5+ln 2)+17≈36.5(万元),
所以年收益的最大值为36.5万元.
跟踪训练
解:(1)根据散点图可知,y=cx2+d更适宜作为年销售量y关于年份代码x的回归方程类型.
(2)令w=x2,则=w+.
易知=11,==≈2.28,
=-≈22.72-2.28×11=-2.36,
所以=2.28w-2.36,
所以y关于x的经验回归方程为=2.28x2-2.36.
令x=6,得=79.72≈79.7.
故预测2025年该新能源汽车的年销售量为79.7万辆.
考点3
【例4】 解:(1)由=0.29xi+34.7,
可以算得=yi-分别为=0.35,=0.718,=-0.5,=-2.214,=1.624,
所以残差平方和为()2≈8.43.
(2)(yi-)2=50.18,
故R2=1-≈1-≈0.832.
所以回归模型的拟合效果较好.
跟踪训练
1.C 对于A,一元线性回归模型Y=bx+a+e 中,方程表示的不是确定性关系,因此不是一次函数,所以A错误;对于B,响应变量Y不是由解释变量x唯一确定的,所以B错误;对于C,响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生,所以C正确;对于D,随机误差是不能避免的,只能将误差缩小,所以D错误.
2.解:(1)因为=3.2x-151.8,=84,
所以=3.2×84-151.8=117,
114+116+106+122+132+114+m+132=117×8,解得m=100,
8月份对应的残差值=132-3.2×86.5+151.8=7.
(2)由已知得(yi-)2=0.22+0.62+1.82+(-3)2+(-1)2+(-4.6)2+(-1)2+72=84.8,
R2=1-=1-≈0.906 2>,
所以=3.2x-151.8的拟合效果更好.
(3)由(1)可知,第八组数据的利润应为116万元,
此时xiyi=78 880-86.5×16=77 496,又=56 528,=84,=117-=115,
所以===2.7,
所以=115-2.7×84=-111.8,
所以修正数据后,新的经验回归方程为=2.7x-111.8.
7 / 7(共83张PPT)
第三节 变量间的相关关系及回归模型
高中总复习·数学
课标要求
1. 结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化
数据向量夹角的关系.
2. 结合实例,会通过相关系数比较多组成对数据的相关性.
3. 结合具体实例,了解一元线性回归模型的含义,了解模型参数的统
计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘
估计方法.
4. 针对实际问题,会用一元线性回归模型进行预测.
目 录
CONTENTS
知识·逐点夯实
01.
考点·分类突破
02.
课时·跟踪检测
03.
PART 01
知识·逐点夯实
必备知识 | 课前自修
1. 变量的相关关系
(1)相关关系:若两个变量有关系,但又没有确切到可由其中的一个去
精确地决定另一个的程度,这种关系称为相关关系;
(2)相关关系的分类:①从整体上看,当一个变量的值增加时,另一个
变量的相应值也呈现增加的趋势,就称这两个变量 ;
②当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这
两个变量 ;
提醒 注意相关关系与函数关系的区别:函数关系是一种确定的关系,
而相关关系是一种非确定的关系.
(3)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,就称这两个变量线性相关.
正相关
负相关
一条直线
2. 样本相关系数
对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),
(x2,y2),…,(xn,yn),若x与y存在线性相关关系,可用样本相关
系数r定量分析它们的相关程度的强弱.
(1)样本相关系数r= ;
①当r>0时,称成对样本数据 相关;当r<0时,称成对样本数
据 相关;当r=0时,称成对样本数据间没有线性相关关系;
②样本相关系数r的取值范围为 .当|r|越接近1时,成对样
本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线
性相关程度越 .
正
负
[-1,1]
强
弱
(2)样本相关系数r的性质
3. 一元线性回归模型
(1)经验回归直线:从散点图上看,如果这些点从整体上看大致分布在
通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这
条直线叫做经验回归直线;
(2)经验回归方程为 = x+ ,其中 = =
, = - ;
(3)通过求Q= (yi-bxi-a)2的最小值而得到经验回归直线的方
法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做
最小二乘法.
4. 判断回归模型的拟合效果
由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验
回归方程 = x+ ,其中y叫做观测值, 叫做预测值,残差 =y-
.相对于样本点(xi,yi)的随机误差 =yi- =yi-( xi+ ).
(1)残差分析法
②残差分析:(ⅰ)定型分析:残差点比较均匀地落在水平的带状区域中,
说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精
度越高,经验回归方程的预报精度越高.(ⅱ)定量分析:利用残差平方
和,残差平方和越小,模型的拟合效果越好.
①作残差图:作图时纵坐标为 ,横坐标可以选为样本编号,或xi
数据,或yi数据,这样作出的图形称为残差图;
残差
(2)决定系数 (R2)法:R2=1- .R2的值
越趋近于1,模型的拟合效果越好.
1. 观察散点图判断成对样本数据的相关性
根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得
出结论.如果散点图中变量的对应点分布在某条曲线的周围,那么这两个
变量具有相关性;如果变量的对应点分布没有规律,那么这两个变量不具
有相关性.
2. 经验回归方程的性质
(1)经验回归直线一定过点( , );
(2)y与x正相关的充要条件是 >0,y与x负相关的充要条件是 <0;
(3)当x增大一个单位时, 增大 个单位.
1. 判断正误.(正确的画“√”,错误的画“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关
关系. ( √ )
(2)散点图是判断两个变量相关关系的一种重要方法和手段.
( √ )
(3)经验回归直线 = x+ 至少经过点(x1,y1),(x2,y2),…,
(xn,yn)中的一个点. ( × )
(4)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越
强. ( √ )
√
√
×
√
2. (人A选三P103习题1题改编)两个变量的相关关系有①正相关,②负
相关,③不相关,则下列散点图从左到右反映的变量间的相关关系分别是
( )
A. ①②③ B. ②③①
C. ②①③ D. ①③②
解析: 第一个散点图中的点是从左下角区域分布到右上角区域,则是
正相关;第三个散点图中的点是从左上角区域分布到右下角区域,则是负
相关;第二个散点图中的点的分布没有什么规律,则是不相关,所以应该
是①③②.
√
3. 对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系
数r如下,则线性相关性最强的是( )
A. -0.82 B. 0.78
C. -0.69 D. -0.87
解析: 由样本相关系数的绝对值越大,变量间的线性相关性越强知,
各选项中r=-0.87的绝对值最大.
√
4. (人A选三P113例题改编)在对两个变量x,y进行回归分析时有下列步
骤:①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=
1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.则下
列操作顺序正确的是( )
A. ①②④③ B. ③②④①
C. ②③①④ D. ②④③①
解析: 根据回归分析的思想,可知对两个变量x,y进行回归分析时,
应先收集数据(xi,yi),然后绘制散点图,再求经验回归方程,最后对
所求的经验回归方程作出解释.
√
5. 已知x,y的取值如下表,已知y与x具有线性相关关系,且经验回归方
程为 =0.95x+ ,则 = .
x 0 1 3 4
y 2.2 4.3 4.8 6.7
解析:∵经验回归直线必过样本点的中心( , ),又 =2, =4.5,
∴代入经验回归方程,得 =2.6.
2.6
PART 02
考点·分类突破
精选考点 | 课堂演练
成对数据的相关性(师生共研过关)
(2022·全国乙卷理19题)某地经过多年的环境治理,已将荒山改造
成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种
树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),
得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得 =0.038, =1.615 8, xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
解: 估计该林区这种树木平均一棵的根部横截面积 = = =0.06,
估计该林区这种树木平均一棵的材积量
= = =0.39.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确
到0.01);
解: (xi- )(yi- )= xiyi-10 =0.013 4,
(xi- )2= -10( )2=0.002,
(yi- )2= -10( )2=0.094 8,
所以 = =
≈0.01×1.377=0.013 77,
所以样本相关系数
r= ≈ ≈0.97.
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树
木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似
成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r= , ≈1.377.
解: 设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该
种树木的材积量与其根部横截面积近似成正比,所以 = ,
所以Y= =1 209,即该林区这种树木的总材积量的估计值为1 209m3.
解题技法
样本相关系数r的统计含义及应用
(1)由r的正、负可判断成对样本数据中两相关变量是正相关还是负
相关;
(2)可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关
性,进而可知能否用经验回归方程进行分析和预测;
(3)当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义.
1. 已知变量x和y满足关系 =-0.1x+1,变量y与z正相关.下列结论中
正确的是( )
A. x与y正相关,x与z负相关
B. x与y正相关,x与z正相关
C. x与y负相关,x与z负相关
D. x与y负相关,x与z正相关
解析: 因为 =-0.1x+1的斜率小于0,故x与y负相关.因为y与z正
相关,可设 = y+ , >0,则 = y+ =-0.1 x+ + ,故x
与z负相关.
√
2. 对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的
比较,正确的是( )
A. r2<r4<0<r3<r1 B. r4<r2<0<r1<r3
C. r4<r2<0<r3<r1 D. r2<r4<0<r1<r3
√
解析: 由散点图知图1与图3是正相关,故r1>0,r3>0,图2与图4是负
相关,故r2<0,r4<0,且图1与图2的样本点集中在一条直线附近,因此
r2<r4<0<r3<r1.
回归模型(定向精析突破)
考向1 线性回归分析
(2025·郑州第三次质量检测)按照《中华人民共和国环境保护法》
的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国
生态环境状况公报》,并向社会公开发布.下表是2018~2022年五年《中
国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 2018年 2019年 2020年 2021年 2022年
年份代码xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2018~2022年年份代码xi与yi的样本相关系数(精确到0.01);
解: 由已知可得, = =3, = =5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
(xi- )(yi- )=-5.9, = ,
= ,
r= = ≈ ≈-0.98.
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回
归模型进行描述,并求出y关于x的经验回归方程;
解: 由(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所
以y与x之间具有极强的线性相关关系,可用线性回归模型进行描述.
= = =-0.59,
= - =5.1-(-0.59)×3=6.87,
所求经验回归方程为 =-0.59x+6.87.
(3)预测2025年的酸雨区面积占国土面积的百分比.
附:回归直线的斜率和截距的最小二乘法估计公式分别为: =
, = - .
样本相关系数r= , ≈6.
解: 令x=8,则 =-0.59×8+6.87=2.15,预测2025年的酸雨区
面积占国土面积的百分比为2.15%.
解题技法
线性回归分析问题的解题策略
(1)利用公式,求出回归系数 ;
(2)利用经验回归直线过样本点的中心求系数 ;
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变
量x的值代入,得到预测变量 的值.
考向2 非线性回归分析
(2024·温州二模)红旗淀粉厂2025年之前只生产食品淀粉,下表为
年投入资金x(万元)与年收益y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,
求出回归方程;
解: ==
= =5,
= - · = -5× =2,
所以回归方程为 =5ln x+2.
(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一
种药用淀粉,预计其收益为投入的10%.2025年该企业计划投入200万元用
于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:
yi ln xi (ln xi)2 yiln xi
161 29 20 400 109 603
ln 2≈0.7,ln 5≈1.6.
解: 设2025年该企业投入食品淀粉生产x万元.
预计收益为y万元,则y=5ln x+2+(200-x)· ,0<x<200, ①
所以y'= - = ,
令y'=0得x=50,
当0<x<50时,y'>0,函数①单调递增,
当50<x<200时,y'<0,函数①单调递减,
所以ymax=5ln 50+2+15=5(2ln 5+ln 2)+17≈36.5(万元),
所以年收益的最大值为36.5万元.
解题技法
有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知
数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数
等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的
变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问
题,使之得到解决.
“绿水青山就是金山银山”的理念推动了新能源汽车产业的迅速发展.以
下表格和散点图反映了近几年某新能源汽车的年销售量情况.
年份 2020 2021 2022 2023 2024
年份代码x 1 2 3 4 5
某新能源汽车 年销售量y/万辆 1.5 5.9 17.7 32.9 55.6
(1)请根据散点图判断,y=bx+a与y=cx2+d中哪一个更适宜作为年
销售量y关于年份代码x的回归方程类型;(给出判断即可,不必说明
理由)
解: 根据散点图可知,y=cx2+d更适宜作为年销售量y关于年份代码x的回归方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程,并
预测2025年该新能源汽车的年销售量.(精确到0.1)
参考数据: =22.72, (wi- )2=374, (wi- )(yi- )
=851.2(其中wi= ).
解: 令w=x2,则 = w+ .
易知 =11, = =
≈2.28,
= - ≈22.72-2.28×11=-2.36,所以 =2.28w-2.36,
所以y关于x的经验回归方程为 =2.28x2-2.36.
令x=6,得 =79.72≈79.7.
故预测2025年该新能源汽车的年销售量为79.7万辆.
刻画拟合效果(师生共研过关)
假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组
数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
若由最小二乘法计算得经验回归方程为 =0.29x+34.7.
(1)计算各组残差,并计算残差平方和;
解: 由 =0.29xi+34.7,
可以算得 =yi- 分别为 =0.35, =0.718, =-0.5, =-
2.214, =1.624,
所以残差平方和为 ( )2≈8.43.
解: (yi- )2=50.18,
故R2=1- ≈1- ≈0.832.
所以回归模型的拟合效果较好.
(2)求R2,并说明回归模型拟合效果的好坏.
参考数据: (yi- )2=50.18.
解题技法
刻画拟合效果的三种方法
(1)残差图法:残差点比较均匀地落在水平的带状区域内说明选用的模
型比较合适;
(2)残差平方和法:残差平方和 (yi- )2越小,模型的拟合效
果越好;
(3)决定系数法:R2=1- 越接近1,表明模型的拟合效
果越好.
1. 在一元线性回归模型Y=bx+a+e 中,下列说法正确的是( )
A. Y=bx+a+e 是一次函数
B. 响应变量Y是由解释变量x唯一确定的
C. 响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,
这些因素会导致随机误差e的产生
D. 随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e
的产生
√
解析: 对于A,一元线性回归模型Y=bx+a+e 中,方程表示的不是
确定性关系,因此不是一次函数,所以A错误;对于B,响应变量Y不是由
解释变量x唯一确定的,所以B错误;对于C,响应变量Y除了受解释变量
x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产
生,所以C正确;对于D,随机误差是不能避免的,只能将误差缩小,所以
D错误.
2. 现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因
素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如
下表所示:
月份 1 2 3 4
物流成本x 83 83.5 80 86.5
利润y 114 116 106 122
残差 =yi- 0.2 0.6 1.8 -3
月份 5 6 7 8
物流成本x 89 84.5 79 86.5
利润y 132 114 m 132
残差 =yi- -1 -4.6 -1
根据最小二乘法求得经验回归方程为 =3.2x-151.8.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值 ;
解: 因为 =3.2x-151.8, =84,
所以 =3.2×84-151.8=117,
114+116+106+122+132+114+m+132=117×8,解得m=100,
8月份对应的残差值 =132-3.2×86.5+151.8=7.
解: 由已知得 (yi- )2=0.22+0.62+1.82+(-3)2+(-
1)2+(-4.6)2+(-1)2+72=84.8,
R2=1- =1- ≈0.906 2> ,
所以 =3.2x-151.8的拟合效果更好.
(2)请先求出线性回归模型 =3.2x-151.8的决定系数R2(精确到
0.000 1);若根据非线性经验回归方程y=267.76ln x-1 069.2求得解释
变量(物流成本)对于响应变量(利润)的决定系数 =0.905 7,请说
明以上两种模型哪种模型拟合效果更好?
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实
后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,
求出新的经验回归方程.
附(修正前的参考数据): xiyi=78 880, =56 528, =84,
(yi- )2=904.
解: 由(1)可知,第八组数据的利润应为116万元,
此时 xiyi=78 880-86.5×16=77 496,又 =56 528, =84, =
117- =115,
所以 = = =2.7,
所以 =115-2.7×84=-111.8,
所以修正数据后,新的经验回归方程为 =2.7x-111.8.
PART 03
课时·跟踪检测
关键能力 | 课后练习
1. 根据如表样本数据:
x 2 3 4 5 6
y 4 2.5 -0.5 -2 -3
得到的经验回归方程为 = x+ ,则( )
A. >0, >0 B. >0, <0
C. <0, >0 D. <0, <0
√
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
20
22
23
24
25
解析: 由表中的数据可得,变量y随着x的增大而减小,则 <0, =
=4,
= =0.2,又经验回归方程 = x+ 经过样本点中心
(4,0.2),可得 >0.
2. 甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,
并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性( )
A. 甲 B. 乙
C. 丙 D. 丁
解析: r的绝对值越接近1,m越小,线性相关性越强.
√
3. 〔多选〕(2024·武昌质量检测)下列说法正确的是( )
A. 将一组数据的每一个数减去同一个数后,新数据的方差与原数据方差
相同
B. 经验回归直线 = x+ 一定过样本点中心( , )
C. 样本相关系数r越大,两个变量的线性相关性越强
D. 在残差的散点图中,残差分布的水平带状区域的宽度越窄,其模型的
拟合效果越好
√
√
√
解析: 对A:由方差的性质可知,将一组数据的每一个数减去同一
个数后,新数据的方差与原数据方差相同,故A正确;对B:由 = -
,故经验回归直线 = x+ 一定过样本点中心( , ),故B正
确;对C:样本相关系数|r|越大,两个变量的线性相关性越强,故C错
误;对D:在残差的散点图中,残差分布的水平带状区域的宽度越窄,其
模型的拟合效果越好,故D正确.故选A、B、D.
4. 〔多选〕(2025·唐山一模)为研究光照时长x(小时)和种子发芽数量
y(颗)之间的关系,某课题研究小组采集了10组数据,绘制散点图如图
所示,并进行线性回归分析,若去掉点P后,下列说法正确的是( )
A. 样本相关系数r变小
B. 经验回归方程斜率变大
C. 残差平方和变小
D. 决定系数R2变小
√
√
解析: 由图可知:P较其他的点偏离直线最大,所以去掉点P后,回
归效果更好.对于A,样本相关系数|r|越接近于1,线性相关性越强,因
为散点图是递增的趋势,所以去掉点P后,样本相关系数r变大,故A错
误;对于B,由经验回归方程的实际意义,要使残差平方和最小,去掉点
P后,回归直线靠近y轴位置需要向下移动,但靠近最右侧两个点的位置变
化不大,经验回归方程斜率变大,故B正确;对于C,残差平方和越大,拟
合效果越差,所以去掉点P后,残差平方和变小,故C正确;对于D,决定
系数R2越接近于1,拟合效果越好,所以去掉点P后,决定系数R2变大,
故D错误.故选B、C.
5. 已知两变量x与y的经验回归方程为 =2x+1,而试验得到一组数据是
(2,4.9),(3,7.1),(4,9.2),则残差平方和是 .
解析:因为 =2x+1,所以当x=2时, =5, =-0.1;当x=3时,
=7, =0.1;当x=4时, =9, =0.2.所以残差平方和为 +
+ =0.01+0.01+0.04=0.06.
0.06
6. 下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y
(单位:万元)的统计表.
x 2 3 4 5 6
y 3.4 4.2 5.1 5.5 6.8
由表可得经验回归方程为 =0.81x+ ,若规定:维修费用y不超过10万
元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年
限的最大值约为 .
10
解析:由表格,得 = ×(2+3+4+5+6)=4, = ×(3.4+4.2+
5.1+5.5+6.8)=5,因为经验回归直线恒过点( , ),所以5=
0.81×4+ ,解得 =1.76,所以经验回归方程为 =0.81x+1.76,由
y≤10,得0.81x+1.76≤10,解得x≤ ≈10.17,由于x∈N*,所以据此
模型预测,该设备使用年限的最大值约为10.
7. 为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专
家进行技术指导,根据统计,该田园综合体西红柿亩产量的增加量y(千
克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下:
x(千克) 2 4 5 6 8
y(千克) 300 400 400 400 500
(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本
相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用经验
回归模型拟合);
解: 由已知数据可得 = =5,
= =400,
所以 (xi- )(yi- )=(-3)×(-100)+(-1)×0+0×0
+1×0+3×100=600,
= =2 ,
= =100 ,
所以样本相关系数r=
= = ≈0.95>0.75.
所以可用经验回归模型拟合y与x的关系.
(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为15千克
时,西红柿亩产量的增加量约为多少千克?( ≈3.16)
解: = = =30, =400-5×30=250,所
以经验回归方程为 =30x+250.
当x=15时, =30×15+250=700,
即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700
千克.
8. 已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归
方程为 = .
x 1 2 3 4
y e2 e3 e5 e6
若 =e13,则x=( )
A. 6 B. 7 C. 8 D. 9
√
解析: 由 = ,得ln = x-1,令z=ln y,则 = x-1,由
题意知, = =2.5, = =4,因为( , )满足 =
x-1,所以4= ×2.5-1,解得 =2,所以 =2x-1,所以 =e2x-1,
令e2x-1=e13,解得x=7.
9. (创新考法)〔多选〕在对具有相关关系的两个变量进行回归分析时,
若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,
引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分
析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,
且散点图样本点均位于第一象限,则可以根据上述方法进行回归分析的模
型有( )
A. y=c1x2+c2x B. y=
C. y=c1 D. y=c1+ln(x+c2)
√
√
√
解析: 对于A,y=c1x2+c2x,可变形为 =c1x+c2,令u= ,
则有u=c1x+c2,故选项A正确;对于B,y= =1+ ,故y-1
= ,所以 = = x+ ,令v= ,则有v= x
+ ,故选项B正确;对于C,y=c1 ,则ln y=ln c1+x+c2,令
n=ln y,则有n=x+ln c1+c2,此时的斜率为常数1,与最小二乘法不符
合,故选项C错误;对于D,y=c1+ln(x+c2),则y-c1=ln(x+
c2),所以 =x+c2,故ey= (x+c2),令m=ey,则有m=
(x+c2)= x+c2 ,故选项D正确.故选A、B、D.
10. 〔多选〕自然环境中,大气压受到各种因素
的影响,如温度、湿度、风速和海拔等方面的改
变,都将导致大气压发生相应的变化,其中以海
拔的影响最为显著.如图是根据一组观测数据得
到的海拔6千米~15千米的大气压强散点图,根
据一元线性回归模型得到经验回归方程为 =-4.0x+68.5,决定系数为 =0.99;根据非线性回归模型得到经验回归方程为 =132.9e-0.163x,决定系数为 =0.99,则下列说法正确的是( )
A. 由散点图可知,大气压强与海拔高度负相关
B. 由方程 =-4.0x+68.5可知,海拔每升高1千米,大气压强必定降低
4.0 kPa
C. 由方程 =-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D. 对比两个回归模型,结合实际情况,方程 =132.9e-0.163x的预报效
果更好
√
√
√
解析: 对于A,由题图知,海拔高度越高,大气压强越小,所以大
气压强与海拔高度负相关,故A正确;对于B,经验回归方程得到的数据为
估计值,而非精确值,故B错误;对于C,当x=11时, =-4.0×11+
68.5=24.5,又由散点图知观测值为22.6,所以样本点(11,22.6)的残
差为22.6-24.5=-1.9,故C正确;对于D,随着海拔高度的增加,大气
压强越来越小,但不可能为负数,因此方程 =132.9e-0.163x的预报效果
更好,故D正确.
11. 某校数学建模兴趣小组收集了一组恒温动物体重W(单位:克)与脉
搏率f(单位:心跳次数/分钟)的对应数据(Wi,fi)(i=1,2,…,
8),根据生物学常识和散点图得出f与W近似满足f=cWk(c,k为参
数).令xi=ln Wi,yi=ln fi,计算得 =8, =5, =214.由最小二
乘法得经验回归方程为 = x+7.4,则k的值为 ;为判断拟合
效果,通过经验回归方程求得预测值 (i=1,2,…,8),若残差平方
和 (yi- )2≈0.28,则决定系数R2≈ .
-0.3
0.98
解析:f=cWk两边取对数可得ln f=ln c+kln W,因为xi=ln Wi,yi=ln
fi,经验回归直线 = x+7.4必过样本点的中心( , ),所以5=8
+7.4,解得 =-0.3,所以k=-0.3,R2=1-
=1- ≈1- =0.98.
12. 一企业生产某种产品,通过加大技术创新投入降低了每件产品成本.为
了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)
的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,
3,…,10)的数据进行分析,得到散点图如图所示,并计算得: =
6.8, =70, =3, =1.6, =350.
(1)根据散点图可知,可用函数模型y= +α拟合y与x的关系,试建
立y关于x的回归方程;
解: 令u= ,则y关于u的经验回归方程
为 = + u,
依题意,得 = = =200,
= - =70-200×0.3=10,则 =10+200u,
所以y关于x的回归方程为 =10+ .
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y的关系
为m=- + + +100.该企业的年投入成本除了年技术创新投
入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新
投入x为何值时,年利润的预报值最大?(注:年利润=年销售额-年投
入成本)
解: 由y=10+ ,得x= ,
年利润M=m-x-10
=- + + +100- -10=
- ·(y-20)2+90.8
当y=20时,年利润M取得最大值,
此时,x= = =20,所以当年技术创新投入20千万元时,年利润的预报值最大.
THANKS
演示完毕 感谢观看