9.1.2 线性回归方程(强基课——梯度进阶式教学)
课时目标
1.结合具体实例,了解线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握线性回归模型参数的最小二乘法.
2.针对实际问题,会用线性回归模型进行预测.
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x确定,在此,我们将两者之间的关系表示为y=a+bx+ε,其中 是确定性函数, 称为随机误差.
2.随机误差产生的主要原因
(1)所用的 不恰当引起的误差;
(2)忽略了 ;
(3)存在 误差.
3.线性回归模型中a,b值的求法
将y= 称为线性回归模型.
a,b的估计值为,,则
其中=xi,=yi.
4.回归直线和线性回归方程
直线=+x称为回归直线,此直线方程称为线性回归方程,其中称为 ,称为 ,称为 .
[基点训练]
1.判断正误(正确的划“√”,错误的划“×”)
(1)在线性回归模型中,ε是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )
(2)用最小二乘法求出的可能是正的,也可能是负的. ( )
(3)随机误差平方和越大,线性回归模型的拟合效果越好. ( )
(4)线性回归方程=x+必过点(,). ( )
2.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5,6)的线性回归方程为=2x+3,若xi=30,则yi= ( )
A.11 B.13
C.63 D.78
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是 ( )
A.年龄为37岁的人体脂肪含量一定为20.90
B.年龄为37岁的人体脂肪含量约为21.01
C.年龄为37岁的人群中的人体脂肪含量平均为20.90
D.年龄为37岁的人群中的大部分人的人体脂肪含量约为31.5
题型(一) 回归方程与样本中心
[例1] 为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为=x+.已知xi=225,yi=1 600,=4,该班某学生的脚长为24,据此估计其身高为 ( )
A.162 B.166
C.170 D.174
听课记录:
[思维建模]已知线性回归方程=x+,有以下结论
(1)表示x每增加1个单位,y的平均变化量,>0为正相关,<0为负相关.
(2)回归直线过样本中心点(,),其他测量值不一定满足方程.
(3)由方程得到的值为预测值,有一定的偏差,但有一定的指导作用.
[针对训练]
1.已知变量x和y的统计数据如表:
x 1 2 3 4 5
y 6 6 7 8 8
根据上表可得线性回归方程为=0.6x+,据此可以预测当x=8时,= ( )
A.8.5 B.9
C.9.5 D.10
2.[多选]根据某班学生的物理成绩y,数学成绩x,得到y与x具备线性相关关系,并求得其线性回归方程为=22.05+0.625x,则下列说法正确的是 ( )
A.x与y正相关,说明数学成绩优秀对物理的学习有一定的促进作用
B.某同学数学考了96分,可以预测他的物理成绩约为82分
C.某同学数学因为其他原因没考,则他物理能考22.05分
D.数学每提高1分,物理大约会提高0.625分
题型(二) 求线性回归方程
[例2] 全球新能源汽车产量呈上升趋势.以下为2018~2023年全球新能源汽车的销售量情况统计.
年份 2018 2019 2020 2021 2022 2023
年份编号x 1 2 3 4 5 6
销售量y/ 百万辆 2.02 2.21 3.13 6.70 10.80 14.14
若y与x的相关关系拟用线性回归模型表示,回答如下问题:
(1)求变量y与x的相关系数r(结果精确到0.01);
(2)求y关于x的线性回归方程,并据此预测2025年全球新能源汽车的销售量.
参考数据:xiyi=181.30,=380.231,≈4.2, ≈11.2.
听课记录:
[思维建模]
1.求线性回归方程的基本步骤
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算:xiyi;
(3)代入公式求出=x+中参数,的值;
(4)写出线性回归方程并对实际问题作出估计.
[注意] 只有在散点图大致呈线性相关关系时,求出的线性回归方程才有实际意义,否则求出的线性回归方程毫无意义.
2.使用线性回归方程进行预测时,需注意以下问题
(1)线性回归方程只适用于所研究的样本的总体.
(2)线性回归方程一般都有时效性.
(3)自变量的取值不能离样本数据的范围太远,一般自变量的取值在样本数据范围内.
[针对训练]
3.市场调查员小王统计了某款拖把的销售单价x(单位:元)与月销量y(单位:个)之间的一组数据如下表所示:
单价x/元 18 19 20 21 22
月销量y/个 570 520 420 320 270
(1)根据以往经验,y与x具有线性相关关系,求y关于x的线性回归方程;
(2)若这款拖把的进货价为14元/个,根据(1)中回归方程,求该拖把月利润最大时拖把的单价为多少元.(结果精确到0.1元)
题型(三) 求非线性回归方程
[例3] 某大型现代化农场在种植某种大棚有机无公害的蔬菜时,为创造更大价值,提高亩产量,积极开展技术创新活动,该农场采用了延长光照时间的方案,选取了20间大棚(每间一亩)进行试点,得到各间大棚产量数据并绘制成散点图.光照时长为x(单位:小时),大棚蔬菜产量为y(单位:千斤/每亩),记w=ln x.
(1)根据散点图判断,y=a+bx与y=c+dln x,哪一个适宜作为大棚蔬菜产量y关于光照时长x的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(结果保留小数点后两位);
(3)根据实际种植情况,发现上述回归方程在光照时长位于6~14小时内拟合程度良好,利用(2)中所求方程估计当光照时长为e2小时时(e为自然对数的底数),大棚蔬菜亩产量约为多少.
参考数据:
听课记录:
[思维建模] 非线性回归问题的解题步骤
(1)根据原始数据作出散点图;
(2)根据散点图选择恰当的拟合函数;
(3)作恰当的变换,将其转化成线性回归方程求解;
(4)在上面的基础上通过相应的变换,即可得非线性回归方程.
[针对训练]
4.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
参考数据(z=ln y)
5 215 17 713 714 27 81.3 3.6
(1)根据散点图判断,y=bx+a与y=cedx(其中e=2.718…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型;(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
9.1.2 线性回归方程
课前环节
1.a+bx ε 2.(1)确定性函数 (2)某些因素的影响 (3)观测 3.a+bx+ε - 4.回归截距 回归系数 回归值
[基点训练]
1.(1)× (2)√ (3)× (4)√
2. 选D 依题意,因为xi=30,所以==5,因为线性回归方程=2x+3一定过点(),所以=2+3=2×5+3=13,所以yi=6×13=78.
3.选C 当x=37时,=0.577×37-0.448=20.901≈20.90,
由此估计,年龄为37岁的人群中的人体脂肪含量平均为20.90.
课堂环节
[题型(一)]
[例1] 选B 根据题意,得=xi=×225=22.5,=yi=×1 600=160,=4,由(22.5,160)在=x+上,得160=4×22.5+,即=70,故=4x+70,令x=24,得=4×24+70=166,即该学生身高约为166 cm.
[针对训练]
1.选D ==3,==7,则7=0.6×3+,∴=5.2,∴=0.6x+5.2,∴当x=8时,预测=0.6×8+5.2=10.故选D.
2.选ABD 因为=22.05+0.625x,0.625>0,所以x与y正相关,A正确;将x=96代入方程,得约为82,B正确;用数学成绩预测物理成绩时,应用正常情况下的数学成绩,故C错误;由的意义易知D正确.
[题型(二)]
[例2] 解: (1)因为==3.5,
==6.5,
所以-6=1+4+9+16+25+36-6×12.25=17.5, -6=380.231-6×6.52=126.731,
所以r=
=≈≈0.95.
(2)由题意得===2.56,
所以=-=6.5-3.5×2.56=-2.46,
得y关于x的线性回归方程为=2.56x-2.46,
所以可以预测2025年全球新能源汽车的销售量为2.56×8-2.46=18.02百万辆.
[针对训练]
3.解: (1)由表中数据得=×(18+19+20+21+22)=20,=×(570+520+420+320+270)=420,
∴==
==-80,
∴=-=420+80×20=2 020,
故y关于x的线性回归方程为=-80x+2 020.
(2)设每月的总利润为Q,则Q(x)=(-80x+2 020)(x-14)=-80x2+3 140x-28 280,
∵抛物线y=Q(x)的对称轴方程为x==19.625≈19.6,
∴该拖把月利润最大时,拖把的单价约为19.6元.
[题型(三)]
[例3] 解:(1)根据散点图,开始的点在某条直线旁,但后面的点会越来越偏离这条直线,因此y=c+dln x更适宜作为大棚蔬菜产量y关于光照时长x的回归方程类型.
(2)记w=ln x,则y=c+dw,===5.12,===2.6,
==≈3.26,=-=5.12-3.26×2.6≈-3.36,
所以=3.26w-3.36,
即=3.26ln x-3.36.
(3)当x=e2时,=3.26ln e2-3.36=3.16,即大棚蔬菜亩产量约为3.16千斤.
[针对训练]
4.解: (1)由散点图可以判断,随温度升高,产卵数增长速度变快,符合指数函数模型的增长,所以y=cedx更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将y=cedx两边同时取自然对数,可得ln y=ln c+dx,令z=ln y,
由题中的数据可得,xizi-7 =33.6,-7=112,所以===0.3,
则ln c=-=3.6-0.3×27=-4.5,
所以z关于x的线性回归方程为z=0.3x-4.5,故y关于x的回归方程为y=e0.3x-4.5.
6 / 7(共62张PPT)
9.1.2
线性回归方程
(强基课——梯度进阶式教学)
课时目标
1.结合具体实例,了解线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握线性回归模型参数的最小二乘法.
2.针对实际问题,会用线性回归模型进行预测.
CONTENTS
目录
1
2
3
课前环节/预知教材·自主落实主干基础
课堂环节/题点研究·迁移应用融会贯通
课时跟踪检测
课前环节/预知教材·自主落实主干基础
1.随机误差
具有线性相关关系的两个变量的取值x,y,y的值不能由x确定,在此,我们将两者之间的关系表示为y=a+bx+ε,其中 是确定性函数,
称为随机误差.
2.随机误差产生的主要原因
(1)所用的 不恰当引起的误差;
(2)忽略了 ;
(3)存在 误差.
a+bx
某些因素的影响
确定性函数
ε
观测
3.线性回归模型中a,b值的求法
将y= 称为线性回归模型.
a,b的估计值为,则
其中= xi,= yi.
a+bx+ε
4.回归直线和线性回归方程
直线=+x称为回归直线,此直线方程称为线性回归方程,其中称为 ,称为 ,称为 .
回归截距
回归系数
回归值
1.判断正误(正确的划“√”,错误的划“×”)
(1)在线性回归模型中,ε是bx+a预报真实值y的随机误差,它是一个可观测的量. ( )
(2)用最小二乘法求出的可能是正的,也可能是负的. ( )
(3)随机误差平方和越大,线性回归模型的拟合效果越好. ( )
(4)线性回归方程=x+必过点(). ( )
基点训练
×
√
×
√
2.用最小二乘法得到一组数据(xi,yi)(i=1,2,3,4,5,6)的线性回归方程为=2x+3,若 xi=30,则 yi=( )
A.11 B.13 C.63 D.78
解析:依题意,因为 xi=30,所以==5,
因为线性回归方程=2x+3一定过点(),
所以=2+3=2×5+3=13,
所以 yi=6×13=78.
√
3.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel软件计算得=0.577x-0.448(x为人的年龄,y为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )
A.年龄为37岁的人体脂肪含量一定为20.90
B.年龄为37岁的人体脂肪含量约为21.01
C.年龄为37岁的人群中的人体脂肪含量平均为20.90
D.年龄为37岁的人群中的大部分人的人体脂肪含量约为31.5
√
解析:当x=37时,=0.577×37-0.448=20.901≈20.90,由此估计,年龄为37岁的人群中的人体脂肪含量平均为20.90.
课堂环节/题点研究·迁移应用融会贯通
题型(一) 回归方程与样本中心
[例1] 为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为=x+.已知 xi=225,
yi=1 600,=4,该班某学生的脚长为24,据此估计其身高为( )
A.162 B.166
C.170 D.174
√
解析:根据题意,得= xi=×225=22.5,
= yi=×1 600=160,=4,由(22.5,160)在=x+上,
得160=4×22.5+,即=70,
故=4x+70,令x=24,得=4×24+70=166,
即该学生身高约为166 cm.
[思维建模]
已知线性回归方程=x+,有以下结论
(1)表示x每增加1个单位,y的平均变化量,>0为正相关,<0为负相关.
(2)回归直线过样本中心点(),其他测量值不一定满足方程.
(3)由方程得到的值为预测值,有一定的偏差,但有一定的指导作用.
针对训练
1.已知变量x和y的统计数据如表:
根据上表可得线性回归方程为=0.6x+,据此可以预测当x=8时,=( )
A.8.5 B.9
C.9.5 D.10
√
x 1 2 3 4 5
y 6 6 7 8 8
解析:==3,==7,则7=0.6×3+,∴=5.2,∴=0.6x+5.2,∴当x=8时,预测=0.6×8+5.2=10.故选D.
2.[多选]根据某班学生的物理成绩y,数学成绩x,得到y与x具备线性相关关系,并求得其线性回归方程为=22.05+0.625x,则下列说法正确的是( )
A.x与y正相关,说明数学成绩优秀对物理的学习有一定的促进作用
B.某同学数学考了96分,可以预测他的物理成绩约为82分
C.某同学数学因为其他原因没考,则他物理能考22.05分
D.数学每提高1分,物理大约会提高0.625分
√
√
√
解析:因为=22.05+0.625x,0.625>0,所以x与y正相关,A正确;
将x=96代入方程,得约为82,B正确;用数学成绩预测物理成绩时,应用正常情况下的数学成绩,故C错误;由的意义易知D正确.
题型(二) 求线性回归方程
[例2] 全球新能源汽车产量呈上升趋势.以下为2018~2023年全球新能源汽车的销售量情况统计.
若y与x的相关关系拟用线性回归模型表示,回答如下问题:
年份 2018 2019 2020 2021 2022 2023
年份编号x 1 2 3 4 5 6
销售量y/ 百万辆 2.02 2.21 3.13 6.70 10.80 14.14
(1)求变量y与x的相关系数r(结果精确到0.01);
参考数据: xiyi=181.30, =380.231,≈4.2, ≈11.2.
解:因为==3.5,==6.5,
所以 -6=1+4+9+16+25+36-6×12.25=17.5, -6=
380.231-6×6.52=126.731,所以r=
=≈≈0.95.
(2)求y关于x的线性回归方程,并据此预测2025年全球新能源汽车的销售量.
解:由题意得= ==2.56,
所以=-=6.5-3.5×2.56=-2.46,
得y关于x的线性回归方程为=2.56x-2.46,
所以可以预测2025年全球新能源汽车的销售量为2.56×8-2.46=18.02百万辆.
[思维建模]
1.求线性回归方程的基本步骤
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算: xiyi;
(3)代入公式求出=x+中参数的值;
(4)写出线性回归方程并对实际问题作出估计.
[注意] 只有在散点图大致呈线性相关关系时,求出的线性回归方程才有实际意义,否则求出的线性回归方程毫无意义.
2.使用线性回归方程进行预测时,需注意以下问题
(1)线性回归方程只适用于所研究的样本的总体.
(2)线性回归方程一般都有时效性.
(3)自变量的取值不能离样本数据的范围太远,一般自变量的取值在样本数据范围内.
针对训练
3.市场调查员小王统计了某款拖把的销售单价x(单位:元)与月销量y(单位:个)之间的一组数据如下表所示:
(1)根据以往经验,y与x具有线性相关关系,求y关于x的线性回归方程;
单价x/元 18 19 20 21 22
月销量y/个 570 520 420 320 270
解:由表中数据得=×(18+19+20+21+22)=20,=×(570+520+420+320+270)=420,
∴= ===-80,
∴=-=420+80×20=2 020,
故y关于x的线性回归方程为=-80x+2 020.
(2)若这款拖把的进货价为14元/个,根据(1)中回归方程,求该拖把月利润最大时拖把的单价为多少元.(结果精确到0.1元)
解:设每月的总利润为Q,则Q(x)=(-80x+2 020)(x-14)=-80x2+3 140x-28 280,∵抛物线y=Q(x)的对称轴方程为x==19.625≈19.6,
∴该拖把月利润最大时,拖把的单价约为19.6元.
题型(三) 求非线性回归方程
[例3] 某大型现代化农场在种植某种大棚有机无公害的蔬菜时,为创造更大价值,提高亩产量,积极开展技术创新活动,该农场采用了延长光照时间的方案,选取了20间大棚(每间一亩)进行试点,得到各间大棚产量数据并绘制成散点图.光照时长为x(单位:小时),大棚蔬菜产量为y(单位:千斤/每亩),记w=ln x.
(1)根据散点图判断,y=a+bx与y=c+dln x,哪一个适宜作为大棚蔬菜产量y关于光照时长x的回归方程类型(给出判断即可,不必说明理由);
参考数据:
解:根据散点图,开始的点在某条直线旁,但后面的点会越来越偏离这条直线,因此y=c+dln x更适宜作为大棚蔬菜产量y关于光照时长x的回归方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(结果保留小数点后两位);
解:记w=ln x,则y=c+dw,= ==5.12,
= ==2.6,
= =≈3.26,
=-=5.12-3.26×2.6≈-3.36,所以=3.26w-3.36,即=3.26ln x-3.36.
(3)根据实际种植情况,发现上述回归方程在光照时长位于6~14小时内拟合程度良好,利用(2)中所求方程估计当光照时长为e2小时时(e为自然对数的底数),大棚蔬菜亩产量约为多少.
解:当x=e2时,=3.26ln e2-3.36=3.16,
即大棚蔬菜亩产量约为3.16千斤.
[思维建模]
非线性回归问题的解题步骤
(1)根据原始数据作出散点图;
(2)根据散点图选择恰当的拟合函数;
(3)作恰当的变换,将其转化成线性回归方程求解;
(4)在上面的基础上通过相应的变换,即可得非线性回归方程.
针对训练
4.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,y=bx+a与y=cedx(其中e=2.718…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型;(给出判断即可,不必说明理由)
解:由散点图可以判断,随温度升高,产卵数增长速度变快,符合指数函数模型的增长,所以y=cedx更适宜作为平均产卵数y关于平均温度x的回归方程类型.
参考数据(z=ln y)
5 215 17 713 714 27 81.3 3.6
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
解:将y=cedx两边同时取自然对数,可得ln y=ln c+dx,令z=ln y,
由题中的数据可得, xizi-7 =33.6, -7=112,
所以= ==0.3,
则ln c=-=3.6-0.3×27=-4.5,所以z关于x的线性回归方程为z=0.3x-4.5,故y关于x的回归方程为y=e0.3x-4.5.
课时跟踪检测
1
3
4
5
6
7
8
9
2
A级——综合提能
1.船员人数y关于船的吨位x的线性回归方程是=95+0.06x.如果两艘轮船吨位相差1 000吨,则船员平均人数相差( )
A.40 B.57
C.60 D.95
解析:由于船员人数y关于船的吨位x的线性回归方程是=95+0.06x,
两艘轮船吨位相差1 000吨,所以船员平均人数的差值是
0.06×1 000=60.
√
1
5
6
7
8
9
2
3
4
2.已知一组数据(xi,yi)(i=1,2,…,20)满足线性关系,且线性回归方程为=10x+30,若=3,则 yi=( )
A.30 B.60
C.630 D.1 200
解析:易知样本数据的中心点()在线性回归方程=10x+30上,
易知= xi=3,所以=10×3+30=60,即==60,
可得 yii=1 200.
√
1
5
6
7
8
9
3
4
2
3.某地区为研究居民用电量y(单位:度)与气温x(单位:℃)之间的关系,随机统计了某4天的用电量与当天的气温,并得到了如下数据:
由表中数据得到的线性回归方程为=x+,若=-1.6,则的值为( )
A.27 B.29 C.34 D.36
解析:由已知==7.5,==17,所以17=-1.6×7.5+,
解得=29.
√
气温x/℃ 3 6 9 12
用电量y/度 24 20 14 10
1
5
6
7
8
9
3
4
2
4.某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1 030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期亩产为 千克.
附:用最小二乘法求得线性回归方程为=x+,
其中= ,=-.
1 384
1
5
6
7
8
9
3
4
2
解析:设父代产量为xi(i=1,2,3),子代产量为yi(i=1,2,3),
则=×(760+810+860)=810,=×(810+860+1 030)=900,
所以 (xi-)(yi-)=(-50)×(-90)+0×(-40)+50×130=11 000,
=(760-810)2+(810-810)2+(860-810)2=5 000,
所以= ==2.2,
=-=900-2.2×810=-882,
1
5
6
7
8
9
3
4
2
则线性回归方程为=2.2x-882.
当x=1 030时,=1 030×2.2-882=1 384,
所以预测第五期亩产为1 384千克.
1
5
6
7
8
9
3
4
2
5.已知变量x与y的一组样本数据(x1,y1),(x2,y2), …,(x6,y6)满足x1x2x3x4x5x6=e24.6,y1y2y3y4y5y6=e18.3,对各样本数据求对数,再利用线性回归分析的方法得到ln y=1+bln x.若变量z=2y-0.5x,则当z的预测值最大时,变量x的取值约为 .(e2≈7.4,结果保留1位小数)
29.6
1
5
6
7
8
9
3
4
2
解析:由已知可得ln x1+ln x2+ln x3+ln x4+ln x5+ln x6=24.6,
所以×(ln x1+ln x2+ln x3+ln x4+ln x5+ln x6)=4.1,
同理×(ln y1+ln y2+ln y3+ln y4+ln y5+ln y6)=3.05,
代入ln y=1+bln x,得3.05=1+4.1b,所以b=0.5,所以y=e,
则z=2e-0.5x,令t=,则z(t)=-0.5t2+2et=-(t-2e)2+2e2,当t=2e时,
z取最大值,此时x=4e2≈29.6.
1
5
6
7
8
9
3
4
2
6.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
(1)计算y与x的相关系数r(保留三位小数);
年份x 2019 2020 2021 2022 2023
新能源汽车的 购买数量y(万辆) 0.40 0.70 1.10 1.50 1.80
1
5
6
7
8
9
3
4
2
参考公式r= ,= ,
=-.
参考数据:≈3.605 6, (xi-)(yi-)=3.6.
1
5
6
7
8
9
3
4
2
解:==2 021,
==1.10,
=(-2)2+(-1)2+02+12+22=10,
=(-0.7)2+(-0.4)2+02+0.42+0.72=1.3,
r= =≈≈0.998.
1
5
6
7
8
9
3
4
2
(2)求y关于x的线性回归方程,并预测该地区2025年新能源汽车的购买数量.
解:由(1)知= ==0.36,
=-=1.1-0.36×2 021=-726.46,
所以y关于x的线性回归方程是=0.36x-726.46,
当x=2 025时,=0.36×2 025-726.46=2.54(万辆),
所以预测该地区2025年新能源汽车的购买数量约为2.54万辆.
1
5
6
7
8
9
3
4
2
7.随着科技的发展,手机的功能已经非常强大,各类APP让用户的生活质量得到极大提升的同时,也带来了一些问题,如有不少青少年沉迷于手机游戏,对青少年健康成长带来不小的影响.为了引导青少年抵制不良游戏,适度参与益智游戏,某游戏公司开发了一款益智游戏,在内测时收集了玩家对每一关的平均过关时间,如表:
关卡x 1 2 3 4 5 6
平均过关 时间y(秒) 51 79 121 130 237 353
1
5
6
7
8
9
3
4
2
(1)通过散点图分析,可用模型y=ea+bx拟合y与x的关系,试求y关于x的回归方程(系数a,b精确到0.01) ;
参考公式:对于一组数据(xi,yi)(i=1,2,3, …,n),其线性回归方程
=x+的斜率和截距的最小二乘估计公式分别为= ,
=-.
1
5
6
7
8
9
3
4
2
参考数据:
ui =29.299, xi ui =109.066,其中ui=ln yi.
y 51 79 121 130 237 353
ln y 3.932 4.369 4.796 4.868 5.468 5.866
1
5
6
7
8
9
3
4
2
解:令ln y=u,由y=ea+bx,得ln y=a+bx,即u=a+bx,
==3.5,= =≈4.883,
=12+22+32+42+52+62=91,
所以= ≈≈0.373,
所以=-≈4.883-0.373×3.5=3.577 5,故≈0.37,≈3.58,
所以=e3.58+0.37x.
1
5
6
7
8
9
3
4
2
(2)从表中6关过关时间中随机抽取2个,求这两个过关时间均低于6关过关时间的平均数的概率.
解:=≈161.8,由题意知,过关时间低于161.8秒的为第1,2,3,4关,记作a,b,c,d,
超过161.8秒的为第5,6关,记作A,B,从中任取两个的样本点有ab,ac,ad,aA,aB,bc,bd,bA,bB,cd,cA,cB,dA,dB,AB,共15个.其中均低于161.8秒的有ab,ac,ad,bc,bd,cd,共6个,故所求概率P==.
1
5
6
7
8
9
3
4
2
B级——应用创新
8.[多选]下列说法正确的是( )
A.若随机变量X服从两点分布,且P(X=0)=,则E(X)=
B.某人在10次射击中,击中目标次数为X,X~B(10,0.7),当X=7时概率最大
C.在线性回归方程=-0.3x+10中,当自变量每增加1个单位时,因变量将平均减少0.3个单位
D.设随机变量X~B(n,p),若D(X)≤3恒成立,则n的最大值为12
√
√
√
1
5
6
7
8
9
3
4
2
解析:对于A,因为随机变量X服从两点分布且P(X=0)=,所以P(X=1)=,所以E(X)=0×+1×=,故A错误.对于B,P(X=k)=·0.7k·0.310-k,
由
得解得6.7≤k≤7.7,
所以k=7,即当X=7时概率最大,故B正确.
1
5
6
7
8
9
3
4
2
对于C,在线性回归方程=-0.3x+10中,当自变量每增加1个单位时,因变量将平均减少0.3个单位,故C正确.对于D,因为随机变量X~B(n,p),D(X)≤3恒成立,所以D(X)=np(1-p)≤3恒成立,所以np(1-p)=n(p-p2)=-n+≤≤3,所以n≤12,故D正确.故选BCD.
1
5
6
7
8
9
3
4
2
9.设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如表所示:
作出这组数据的散点图发现:y(cm)与x(天)之间近似满足关系式y=b+a,其中a,b均为大于0的常数.
(1)试借助线性回归模型,根据所给数据,用最小二乘法对a,b作出估计,并求出y关于x的回归方程;
第x天 1 4 9 16 25 36 49
高度y/cm 0 4 7 9 11 12 13
1
5
6
7
8
9
3
4
2
附:对于一组数据(v1,μ1),(v2,μ2), …,(vn,μn),其线性回归方程=+v的斜率和截距的最小二乘估计分别为
= ,=-.
1
5
6
7
8
9
3
4
2
解:令μ=,则y=bμ+a,根据已知数据表得
则==4,==8,
可得 μiyi=1×0+2×4+3×7+4×9+5×11+6×12+7×13=283,
x 1 4 9 16 25 36 49
μ= 1 2 3 4 5 6 7
y 0 4 7 9 11 12 13
1
5
6
7
8
9
3
4
2
=1+4+9+16+25+36+49=140,
所以= ==,
因为线性回归方程=μ+过点(),则=-=-,
所以y关于x的回归方程为=-.
1
5
6
7
8
9
3
4
2
(2)在作出的这组数据的散点图中,甲同学随机圈取了其中的4个点,记这4个点中幼苗的高度大于的点的个数为ξ,其中为表格中所给的幼苗高度的平均数,试求随机变量ξ的分布列和数学期望.
解:由题意可知7天中幼苗高度大于=8的有4天,小于等于8的有3天,
从散点图中任取4个点,即从这7天中任取4天,
所以这4个点中幼苗的高度大于的点的个数ξ的可能取值为1,2,3,4,
则P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,P(ξ=4)==,
1
5
6
7
8
9
3
4
2
所以随机变量ξ的概率分布为
E(ξ)=1×+2×+3×+4×=.
ξ 1 2 3 4
P课时跟踪检测(三十七) 线性回归方程
A级——综合提能
1.船员人数y关于船的吨位x的线性回归方程是=95+0.06x.如果两艘轮船吨位相差1 000吨,则船员平均人数相差 ( )
A.40 B.57
C.60 D.95
2.已知一组数据(xi,yi)(i=1,2,…,20)满足线性关系,且线性回归方程为=10x+30,若=3,则yi= ( )
A.30 B.60
C.630 D.1 200
3.某地区为研究居民用电量y(单位:度)与气温x(单位:℃)之间的关系,随机统计了某4天的用电量与当天的气温,并得到了如下数据:
气温x/℃ 3 6 9 12
用电量y/度 24 20 14 10
由表中数据得到的线性回归方程为=x+,若=-1.6,则的值为 ( )
A.27 B.29
C.34 D.36
4.某地种植超级杂交稻,产量从第一期大面积亩产760千克,到第二期亩产810千克,第三期亩产860千克,第四期亩产1 030千克.将第一期视为第二期的父代,第二期视为第三期的父代,或第一期视为第三期的祖父代,并且认为子代的产量与父代的产量有关,请用线性回归分析的方法预测第五期亩产为 千克.
附:用最小二乘法求得线性回归方程为=x+,其中=,=-.
5.已知变量x与y的一组样本数据(x1,y1),(x2,y2),…,(x6,y6)满足x1x2x3x4x5x6=e24.6,y1y2y3y4y5y6=e18.3,对各样本数据求对数,再利用线性回归分析的方法得到ln y=1+bln x.若变量z=2y-0.5x,则当z的预测值最大时,变量x的取值约为 .(e2≈7.4,结果保留1位小数)
6.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
年份x 2019 2020 2021 2022 2023
新能源汽车的 购买数量y(万辆) 0.40 0.70 1.10 1.50 1.80
(1)计算y与x的相关系数r(保留三位小数);
(2)求y关于x的线性回归方程,并预测该地区2025年新能源汽车的购买数量.
参考公式r,=,=-.
参考数据:≈3.605 6,(xi-)(yi-)=3.6.
7.随着科技的发展,手机的功能已经非常强大,各类APP让用户的生活质量得到极大提升的同时,也带来了一些问题,如有不少青少年沉迷于手机游戏,对青少年健康成长带来不小的影响.为了引导青少年抵制不良游戏,适度参与益智游戏,某游戏公司开发了一款益智游戏,在内测时收集了玩家对每一关的平均过关时间,如表:
关卡x 1 2 3 4 5 6
平均过关 时间y(秒) 51 79 121 130 237 353
(1)通过散点图分析,可用模型y=ea+bx拟合y与x的关系,试求y关于x的回归方程(系数a,b精确到0.01);
(2)从表中6关过关时间中随机抽取2个,求这两个过关时间均低于6关过关时间的平均数的概率.
参考公式:对于一组数据(xi,yi)(i=1,2,3, …,n),其线性回归方程=x+的斜率和截距的最小二乘估计公式分别为=,=-.
参考数据:
y 51 79 121 130 237 353
ln y 3.932 4.369 4.796 4.868 5.468 5.866
ui=29.299,xiui=109.066,其中ui=ln yi.
B级——应用创新
8.[多选]下列说法正确的是 ( )
A.若随机变量X服从两点分布,且P(X=0)=,则E(X)=
B.某人在10次射击中,击中目标次数为X,X~B(10,0.7),当X=7时概率最大
C.在线性回归方程=-0.3x+10中,当自变量每增加1个单位时,因变量将平均减少0.3个单位
D.设随机变量X~B(n,p),若D(X)≤3恒成立,则n的最大值为12
9.设某幼苗从观察之日起,第x天的高度为y cm,测得的一些数据如表所示:
第x天 1 4 9 16 25 36 49
高度y/cm 0 4 7 9 11 12 13
作出这组数据的散点图发现:y(cm)与x(天)之间近似满足关系式y=b+a,其中a,b均为大于0的常数.
(1)试借助线性回归模型,根据所给数据,用最小二乘法对a,b作出估计,并求出y关于x的回归方程;
(2)在作出的这组数据的散点图中,甲同学随机圈取了其中的4个点,记这4个点中幼苗的高度大于的点的个数为ξ,其中为表格中所给的幼苗高度的平均数,试求随机变量ξ的分布列和数学期望.
附:对于一组数据(v1,μ1),(v2,μ2), …,(vn,μn),其线性回归方程=+v的斜率和截距的最小二乘估计分别为=,=-.
课时跟踪检测(三十七)
1.选C 由于船员人数y关于船的吨位x的线性回归方程是=95+0.06x,两艘轮船吨位相差1 000吨,所以船员平均人数的差值是0.06×1 000=60.
2. 选D 易知样本数据的中心点()在线性回归方程=10x+30上,易知=xi=3,所以=10×3+30=60,即==60,可得yii=1 200.
3.选B 由已知==7.5,==17,所以17=-1.6×7.5+,解得=29.
4.解析: 设父代产量为xi(i=1,2,3),子代产量为yi(i=1,2,3),
则=×(760+810+860)=810,=×(810+860+1 030)=900,
所以(xi-)(yi-)=(-50)×(-90)+0×(-40)+50×130=11 000,
=(760-810)2+(810-810)2+(860-810)2=5 000,
所以===2.2,=-=900-2.2×810=-882,
则线性回归方程为=2.2x-882.
当x=1 030时,=1 030×2.2-882=1 384,
所以预测第五期亩产为1 384千克.
答案:1 384
5.解析:由已知可得ln x1+ln x2+ln x3+ln x4+ln x5+ln x6=24.6,所以×(ln x1+ln x2+ln x3+ln x4+ln x5+ln x6)=4.1,同理×(ln y1+ln y2+ln y3+ln y4+ln y5+ln y6)=3.05,代入ln y=1+bln x,得3.05=1+4.1b,所以b=0.5,所以y=e,则z=2e-0.5x,令t=,则z(t)=-0.5t2+2et=-(t-2e)2+2e2,当t=2e时,z取最大值,此时x=4e2≈29.6.
答案:29.6
6.解: (1)==2 021,==1.10,
=(-2)2+(-1)2+02+12+22=10,
=(-0.7)2+(-0.4)2+02+0.42+0.72=1.3,
r==≈≈0.998.
(2)由(1)知===0.36,
=-=1.1-0.36×2 021=-726.46,
所以y关于x的线性回归方程是=0.36x-726.46,
当x=2 025时,=0.36×2 025-726.46=2.54(万辆),
所以预测该地区2025年新能源汽车的购买数量约为2.54万辆.
7.解: (1)令ln y=u,由y=ea+bx,得ln y=a+bx,即u=a+bx,
==3.5,==≈4.883, x =12+22+32+42+52+62=91,
所以=≈≈0.373,
所以=-≈4.883-0.373×3.5=3.577 5,故≈0.37,≈3.58,
所以=e3.58+0.37x.
(2)=≈161.8,
由题意知,过关时间低于161.8秒的为第1,2,3,4关,记作a,b,c,d,
超过161.8秒的为第5,6关,记作A,B,从中任取两个的样本点有ab,ac,ad,aA,aB,bc,bd,bA,bB,cd,cA,cB,dA,dB,AB,共15个.其中均低于161.8秒的有ab,ac,ad,bc,bd,cd,共6个,故所求概率P==.
8.选BCD 对于A,因为随机变量X服从两点分布且P(X=0)=,所以P(X=1)=,所以E(X)=0×+1×=,故A错误.对于B,P(X=k)=·0.7k·0.310-k,
由得
解得6.7≤k≤7.7,所以k=7,即当X=7时概率最大,故B正确.对于C,在线性回归方程=-0.3x+10中,当自变量每增加1个单位时,因变量将平均减少0.3个单位,故C正确.对于D,因为随机变量X~B(n,p),D(X)≤3恒成立,所以D(X)=np(1-p)≤3恒成立,所以np(1-p)=n(p-p2)=-n+≤≤3,所以n≤12,故D正确.故选BCD.
9.解: (1)令μ=,则y=bμ+a,根据已知数据表得
x 1 4 9 16 25 36 49
μ= 1 2 3 4 5 6 7
y 0 4 7 9 11 12 13
则==4,==8,
可得μiyi=1×0+2×4+3×7+4×9+5×11+6×12+7×13=283,
=1+4+9+16+25+36+49=140,
所以===,
因为线性回归方程=μ+过点(),则=-=-,
所以y关于x的回归方程为=-.
(2)由题意可知7天中幼苗高度大于=8的有4天,小于等于8的有3天,
从散点图中任取4个点,即从这7天中任取4天,
所以这4个点中幼苗的高度大于的点的个数ξ的可能取值为1,2,3,4,则
P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,P(ξ=4)==,
所以随机变量ξ的概率分布为
ξ 1 2 3 4
P
E(ξ)=1×+2×+3×+4×=.
4 / 4