(共85张PPT)
8.2 一元线性回归模型及其应用
第1课时 一元线性回归模型及
最小二乘估计
探究点一 求经验回归方程
探究点二 线性回归分析
【学习目标】
1.能根据给出的经验回归方程系数公式建立经验回归方程.
2.了解随机误差、残差、残差图的概念.
3.会通过分析残差判断线性回归模型的拟合效果.
知识点一 一元线性回归模型
我们称为关于 的______________模型.其中,
称为________或__________,称为________或__________;和
为模型的未知参数,称为______参数,称为______参数;是 与
之间的__________.
一元线性回归
因变量
响应变量
自变量
解释变量
截距
斜率
随机误差
【诊断分析】
判断正误.(请在括号中打“√”或“×”)
(1)随机误差是一个随机变量,产生的原因是多方面的.( )
√
(2)在一元线性回归模型中,是与真实值 的随机误差,它是
一个可观测的量.( )
×
知识点二 经验回归方程与最小二乘法
1.经验回归方程
定义:对于一组具有线性相关关系的成对样本数据 ,
, , ,由最小二乘法得
, .
将称为关于 的经验回归方程,也称经验回归函数或经
验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法
叫作____________,求得的,叫作, 的______________.
注意:在经验回归直线中,是斜率, 是截距.一般地,
当时,说明两个变量正相关,它的意义是当 每增大一个单位
时,平均增大个单位;当 时,说明两个变量负相关,它的意
义是当每增大一个单位时,平均减小 个单位.
最小二乘法
最小二乘估计
2.残差与残差分析
(1)残差:对于响应变量 ,通过观测得到的数据称为观测值,通过
经验回归方程得到的___称为预测值,________减去________称为残差.
(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可
以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数
据等,这方面工作称为残差分析.其步骤为:计算残差 画出残差图
→在残差图中分析残差特性.
观测值
预测值
3.决定系数
(1)的计算公式: .
(2)与模型拟合效果的关系: 越大,表示残差平方和______,
即模型的拟合效果______; 越小,表示残差平方和______,即模
型的拟合效果______. 越接近1,拟合效果越好.
越小
越好
越大
越差
【诊断分析】
判断正误.(请在括号中打“√”或“×”)
(1)通过经验回归方程求出的 是精确值.( )
×
(2)用最小二乘法求出的 可能是正的,也可能是负的.( )
√
(3)经验回归直线一定经过点 .( )
√
(4)残差平方和越大,线性回归模型的拟合效果越好.( )
×
探究点一 求经验回归方程
例1 [2024·遵义高二期中] 某地2019年至2023年五年中新能源汽车保
有量如下表.
年份 2019 2020 2021 2022 2023
1 2 3 4 5
18 20 23 25 29
(1)请用样本相关系数说明与 的线性相关程度;
附:样本相关系数 , .
解:因为 ,,
所以 ,
,
,
所以样本相关系数 .
因为 的值越接近1,随机变量之间的线性相关程度越强,
所以与 的线性相关程度较强.
(2)求关于的经验回归方程 ,并预测2025年该地新能
源汽车保有量.
附:在经验回归方程中, ,
.
解:因为, ,
,
,
所以, ,所以
经验回归方程为 .
当时, ,
所以预测2025年该地新能源汽车保有量为33.8万辆.
变式 某种鱼苗育种基地,饲养员每隔两天观察并统计育种池内鱼苗
的尾数,统计结果如下表:
2 4 6 8 10
72 140 212 284 340
(1)若与之间具有线性相关关系,求关于 的经验回归方程;
附:样本数据的经验回归直线 的斜
率和截距的最小二乘估计分别为, .
参考数据:,, .
解:由题可得 ,
代入公式得 ,
,
则关于的经验回归方程为 .
(2)根据(1)中所求的经验回归方程,估计第30天时育种池内鱼
苗的尾数(结果保留整数).
解:当时, ,
估计第30天时育种池内有鱼苗1026尾.
[素养小结]
求经验回归方程的基本步骤
(1)作出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算,,, ;
(3)代入公式求出中参数, 的值;
(4)写出经验回归方程并对实际问题作出估计.
探究点二 线性回归分析
例2(1) 某同学用收集到的6组数据 制作成如
图所示的散点图(点旁边的数据为该点坐标),并由最小二乘法计
算得到经验回归直线,样本相关系数为 ,决定系
数为,经过残差分析确定点 为“离群点”(对应残差过大的点),
把它去掉后,再用剩下的5组数据计算得到经验
回归直线,样本相关系数为,
决定系数为 .下列结论不正确的是( )
A., B., C. D.
[解析] 与正相关,故A,B中结论均正确;
,故C中结论正确;
,故D中结论不正确.故选D.
√
(2)假定每亩小麦基本苗数(万株)与成熟期有效穗数 (万个)
之间存在相关关系,今测得5组数据如下:
15.0 25.8 30.0 36.6 44.4
39.4 42.9 42.9 43.1 49.2
①以为解释变量, 为响应变量,作出散点图;
解:散点图如下.
②求关于的经验回归方程和 保留两位小数),当基
本苗数为56.7万株时,预测成熟期有效穗数;
解:由①中散点图看出,散点大致分布在一条直线的附近,与 有比
较好的线性相关关系,因此可以用经验回归方程刻画它们之间的关系.
由表中数据,得,, ,
,, ,则
, ,
故所求的经验回归方程为.
当 时, ,故估计成熟期有
效穗数为51.143万个.
③计算②中得到的经验回归方程的残差平方和(结果保留两位小数);
解:由,得残差 ,则5组数据的残差分别为
,,,, ,则
残差平方和为 .
④计算②中得到的经验回归方程的决定系数 (结果保留两位小
数),并判断该经验回归方程的拟合效果.
解:,故 ,由此判断拟合
效果比较好.
变式 关于与 有如下数据:
2 4 5 6 8
30 40 60 50 70
有如下的两个经验回归方程:(1) ;(2) .
试比较哪一个拟合效果更好.
解:由经验回归方程(1)可得与 的数据如下表:
10 0.5
10 0 20
,
,
.
由经验回归方程(2)可得与 的数据如下表:
8
10 0 20
,
,
.
,,,, 经验回归方
程(1)的拟合效果好于经验回归方程(2)的拟合效果.
回归这一术语最早来源于生物遗传学,由高尔顿
引入.1870年,高尔顿在研究人类身长的遗传时发现:高个子父母的
子女,其身长有低于他们父母身长的趋势;相反,矮个子父母的子女,
其身长却往往有高于他们父母身长的趋势,从人口全局来看,高个子
的人“回归”于一般人身长的期望值,而矮个子的人则进行相反的
“回归”.这是统计学上“回归”的最初涵义.1886年,高尔顿在论文
“在遗传的身长中向中等身长的回归”中,正式提出了“回归”概念.
高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定.现在我们
所关心的已不是这个问题,而是想知道在已知父亲身高的情况下,
儿子的身高的平均变化如何.换句话说,就是已知父亲身高来预测儿
子的平均身高.
1.产生随机误差 的原因
(1)用线性回归模型作为真实模型的近似所引起的误差.
(2)忽略了某些因素的影响.例如体重不仅受身高的影响,还会受遗
传基因、饮食习惯、生长环境等其他因素的影响.
(3)观测误差.由于测量工具等原因,导致 的观测值产生误差.
2.求经验回归方程的原理——最小二乘法
设,的一组观测值为 ,且经验回归方程为
.
(1)当取值时,的观测值为 ,对应通过经验回归
方程得到的.取,差 刻画了实际观测
值与经验回归直线上相应点的纵坐标之间的偏离程度.我们希望
与的 个偏差构成的总偏差越小越好,这才说明所求的直线是最贴近
已知点的.
(2)这个总偏差不能用个偏差之和 来表示,通常是用偏
差的平方和,即 作为总偏差,并使之达到最小,
从而得到经验回归方程.
3.刻画回归效果的方式
(1)残差图法
作图时纵坐标为残差,横坐标可以选为样本编号、身高数据、体重
估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水
平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和 ,残差平方和越小,模型拟合效果越好,残
差平方和越大,模型拟合效果越差.
(3)利用 刻画回归效果
决定系数 是度量模型拟合效果的一种指标,在线性模型中,它代
表解释变量刻画预报变量的能力.
,越大,即模型拟合效果越好, 越小,即模
型拟合效果越差.
(4)辨析决定系数与样本相关系数
在含有一个解释变量的线性回归模型中,决定系数 恰好等于样本相
关系数的平方.在线性回归模型中,有,因此 和两个变量
的样本相关系数都能刻画用线性回归模型拟合数据的效果. 越大,
就越大,线性回归模型拟合数据的效果就越好.如当 时,
;当时,.通常当 时,认为线性回
归模型对该组数据是很有效的.
回归方程的应用:
(1)正确理解计算, 的公式和准确的计算是求经验回归方程的关键.
(2)经验回归直线必过点 .
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确
定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过经
验回归方程来估计和预测.
1.残差的分析
例1(1) 已知一组样本数据,, , ,根据
这组数据的散点图分析与 之间的线性相关关系,若求得其经验回
归方程为,则在样本点 处的残差为( )
A.38.1 B.22.6 C. D.91.1
[解析] 当时, ,所以残差为
.故选C.
√
(2)红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有
关.现收集了7组观测数据.用4种模型分别进行拟合.由此得到相应的经
验回归方程并进行残差分析,进一步得到如图所示的4幅残差图,根
据残差图,拟合效果最好的模型是( )
A.模型一 B.模型二 C.模型三 D.模型四
√
模型二的残差图
[解析] 当残差点比较均匀地落在水平的带状区域中,说明选用的模
型比较合适,
这样的带状区域的宽度越窄,说明拟合精度越好,拟合效果越好,
对比4个残差图,可知模型四的图对应的带状区域的宽度最窄.故选D.
2.求经验回归方程
例2 某种产品的价格(单位:万元/吨)与需求量 (单位:吨)之
间的对应数据如下表所示.
12 11 10 9 8
5 6 8 10 11
(1)已知可用线性回归模型拟合与的关系,求关于 的经验回
归方程.
解:设关于的经验回归方程为 ,由题意得
,
.
, ,
, ,
关于的经验回归方程为 .
(2)请预测当该产品定价为6万元时需求量能否超过15吨?并说明
理由.
解:当时,代入,可得 ,
故当该产品定价为6万元时,需求量不超过15吨.
练习册
一、选择题
1.下列四个残差图中回归模型的拟合效果最好的是( )
A. B.
C. D.
√
[解析] 选项A与B中的残差图都是水平带状分布,并且选项B的残差
图中散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效
果最好,故选B.
2.已知,的取值如下表所示,若与 线性相关,且经验回归方程为
,则 ( )
0 1 3 4
2.2 4.3 4.8 6.7
A.2.2 B.2.6 C.2.8 D.2.9
[解析] 由所给的数据可以得到 ,,
又点在经验回归直线 上,
所以,解得 .故选B.
√
3.甲、乙、丙、丁四位同学各自对, 两变量的线性相关性做试验,并
分别求得样本相关系数与残差平方和 如表:
甲 乙 丙 丁
0.82 0.78 0.69 0.85
106 115 124 103
则试验结果体现, 两变量具有更强的线性相关性的是( )
A.甲 B.乙 C.丙 D.丁
[解析] 由表中数据可得丁的样本相关系数最大,更接近1,残差平方和
最小,故丁同学的试验结果体现A,B两变量具有更强的线性相关性.
√
4.[2024·岳阳一中高二月考]已知变量, 的部分数据如下表,由表中
数据得关于的经验回归方程为 ,现有一测量数据为
,若该数据的残差为,则 ( )
21 23 25 27
15 18 19 20
A.25.6 B.28 C.29.2 D.24.4
√
[解析] 由题意可知,, ,
将代入,得,解得 ,
所以,
当时, ,
则,解得 .故选B.
5.为了研究某班学生的脚长(单位:)和身高(单位: )的
关系,从该班随机抽取10名学生,根据测量数据可得出与 之间有
较强的线性相关关系,设其经验回归方程为 .已知
,, ,该班某学生的脚长为24,据此
估计该学生的身高为( )
A. B. C. D.
√
[解析] 根据题意,得 ,
,,
由 在直线上,得,
解得,故 ,
令,可得 ,即估计该学生的身高为
.故选B.
6.已知与及 与的成对数据如下,且关于 的经验回归方程为
,则 关于 的经验回归方程为( )
1 2 3 4 5
2 3 4 5 7
A. B.
C. D.
√
[解析] 由题表可知,,,
由,知 关于的经验回归方程中的系数
,,
关于 的经验回归方程中的系数 ,
, 关于 的经验回
归方程为 .故选D.
7.某部门统计了某地区今年前七个月的在线外卖规模如下表:
1 2 3 4 5 6 7
11 13 18 ★ 28 ★ 35
其中4,6两个月的在线外卖规模数据模糊,但这七个月在线外卖规
模数据的平均数为23.若关于的经验回归方程为 ,且7月
的残差为,则 ( )
A.1.0 B.2.0 C.3.0 D.4.0
√
[解析] 依题意,, ,
于是得,
当时, ,即,
联立①②解得,,所以 . 故选B.
8.(多选题)对两个变量和 进行回归分析,则下列说法正确的是
( )
A.在比较两个回归模型的拟合程度时,决定系数 越大,拟合效果
越好
B.若变量和具有线性相关关系,则经验回归直线 至少
经过样本点中的其中一个点
C.建立两个回归模型,模型1的样本相关系数 ,模型2的样
本相关系数 ,则模型1的线性相关程度更强
D.残差图中的点均匀地分布在一条水平的带状区域内,该带状区域
宽度越窄,模型的拟合效果越好
√
√
√
[解析] 对于A,在比较两个回归模型的拟合程度时,决定系数 越大,
拟合效果越好,故A正确;
对于B,经验回归直线 可以不经过样本点中的任意一个点,
故B错误;
对于C,因为 ,所以模型1的线性相关程度更强,故C正确;
对于D,残差图中的点均匀地分布在一条水平的带状区域内,该带状
区域宽度越窄,模型的拟合效果越好,故D正确.故选 .
9.(多选题)某企业节能降耗技术改造后,在生产某产品过程中记录
的产量(吨)与相应的生产能耗 (吨)的几组对应数据如下表,
现发现表中有个数据看不清,已知经验回归方程为 ,
则下列说法正确的是( )
2 3 4 5 6
19 25 ★ 38 44
A.看不清的数据为34
B.经验回归直线 必经过点(4,★)
C.经验回归方程中的系数6.3的含义是产量每增加1吨,相应的生产能
耗实际增加6.3吨
D.据此模型预测产量为7吨时,相应的生产能耗为50.9吨
√
√
[解析] 设看不清的数据为 ,经计算得 ,
,代入经验回归方程
中,得,解得 ,所以
,所以看不清的数据为34,A正确;
经验回归直线必经过点 ,B错误;
经验回归方程中的系数6.3的含义是产量每增加1吨,相应的生产能耗
预测增加6.3吨,C错误;
当时, ,所以据此模型预测产量为7吨
时,相应的生产能耗为50.9吨,D正确.故选 .
二、填空题
10.据统计,某市各大高校近几年的考研报考总人数如下表所示:
年份 2018 2019 2020 2021 2022
1 2 3 4 5
1.1 1.6 2 2.5
根据表中数据,可求得关于的经验回归方程为 ,
则 的值为____.
2.8
[解析] ,,
经验回归直线过点,
,解得 .
11.已知方程 是根据女大学生的身高预报她的体重
的经验回归方程,其中的单位是,的单位是 ,那么针对某样
本点 的残差是_______.
[解析] 把代入 ,得
,所以残差
.
12.某工厂为研究某种产品的产量(吨)与所需某种原材料的质量
(吨)的相关性,在生产过程中收集4组对应数据,如表所示.
3 4 5 6
2.5 3 4
根据表中数据,得出关于的经验回归方程为 ,据此计
算出在散点处的残差为,则表中 的值为____.
4.5
[解析] 在散点处的残差为 ,
,解得, 经验回归方程为
.
又, ,
,解得 .
三、解答题
13.某田径协会组织开展竞走的步长(单位:)和步频
(单位: )之间的关系的课题研究,得到相应的试验数据:
0.28 0.29 0.30 0.31 0.32
90 95 99 103 117
根据表中数据,得到和近似为线性相关关系,求出关于 的经验
回归方程,并估计步频为 时的步长.
参考数据:, .
解:, ,
,,所以 关
于的经验回归方程为 .
当时, ,所以估计步频为
时的步长为 .
14.[2024·武汉武钢三中高二月考] 直播带货是扶贫助农的一种新模
式,这种模式是利用主流媒体的公信力,聚合销售主播的力量助力
打通农产品产销链条,切实助力农民增收.某网络平台助力赣南某县
脐橙的销售,下表统计了该平台2024年1月1日至5日直播销售脐橙的
箱数(其中脐橙每箱 ):
日期 1 2 3 4 5
60 56 58 57 54
5 9 7 10 9
(1)求样本相关系数(精确度为),并判断销售量 与脐橙的
售价是否有较强的线性相关关系(当 时,可以认为两
个变量有较强的线性相关关系;否则,没有较强的线性相关关系).
解:由已知数据可得, ,
,
,
附:对于一组数据 ,样本相关系数
. 参考数据: .
,
所以样本相关系数 ,
因为,所以与 有较强的线性相关关系.
(2)建立关于 的经验回归方程,并估计当售价为50元/箱时,该
脐橙的销售量为多少千箱?
附:对于一组数据 ,其经验回归直线
的斜率和截距的最小二乘估计分别为, .
解:因为 ,
,
所以关于的经验回归方程为 ,
当时, ,
故估计当售价为50元/箱时,该脐橙的销售量为12.9千箱.
(3)若脐橙的成本为 元/箱,不考虑其他费用,由(2)
中结论,当脐橙售价为多少时,可使得直播销售脐橙获利最大?
(该结果保留整数)
解:设直播销售脐橙的利润为 元,则
,
当时, 取得最大值,
即当商品售价为54元/箱时,可使得直播销售脐橙获利最大.
15.随着时代的不断发展,社会对高素质人才的需求不断扩大,我国
本科毕业生中考研人数也不断攀升.某中学数学兴趣小组统计了本省5
所大学2022年的毕业生人数及考研人数,收集到的数据如下表所示.
7 6 5 4 3
2.5 2.3 1.8 1.9 1.5
(1)建立关于 的经验回归方程;
解:由表可知 ,
,
,
,
所以 ,
,
故关于的经验回归方程为 .
(2)该小组又利用上表数据建立了关于 的经验回归方程,并把这
两条拟合直线画在同一坐标系中,横坐标、纵坐标 的意义与2022年
毕业生人数和考研人数一致,请比较关于 的经验回归方程表示的
直线的斜率与关于的经验回归方程表示的直线的斜率 的大小.
解:由题意知,,,其中 ,
所以(其中为和的样本相关系数),即 .
下面证明,若,则 恒
成立,而 ,
所以,故 .8.2 一元线性回归模型及其应用
第1课时 一元线性回归模型及最小二乘估计
1.B [解析] 选项A与B中的残差图都是水平带状分布,并且选项B的残差图中散点分布集中,在更狭窄的范围内,所以B中回归模型的拟合效果最好,故选B.
2.B [解析] 由所给的数据可以得到==2,==4.5,又点(,)在经验回归直线=0.95x+上,所以4.5=0.95×2+,解得=2.6.故选B.
3.D [解析] 由表中数据可得丁的样本相关系数最大,更接近1,残差平方和m最小,故丁同学的试验结果体现A,B两变量具有更强的线性相关性.
4.B [解析] 由题意可知,==24,==18,将(24,18)代入=0.8x+,得18=0.8×24+,解得=-1.2,所以=0.8x-1.2,当x=35时,=0.8×35-1.2=26.8,则n-26.8=1.2,解得n=28.故选B.
5.B [解析] 根据题意,得=xi=×225=22.5,=yi=×1600=160,=4,由(22.5,160)在直线=x+上,得160=4×22.5+,解得=70,故=4x+70,令x=24,可得=4×24+70=166,即估计该学生的身高为166 cm.故选B.
6.D [解析] 由题表可知,=10,=10,由=1.2x+0.6,知y关于x的经验回归方程中的系数==1.2,=- =0.6,∴μ关于ν的经验回归方程中的系数==·=1.2,=- =10-1.2×10=10=6,∴μ关于ν的经验回归方程为=1.2ν+6.故选D.
7.B [解析] 依题意,=×(1+2+3+4+5+6+7)=4,=23,于是得4+=23①,当x=7时,35-(7+)=-0.6,即7+=35.6②,联立①②解得=6.2,=4.2,所以-=2.0.故选B.
8.ACD [解析] 对于A,在比较两个回归模型的拟合程度时,决定系数R2越大,拟合效果越好,故A正确;对于B,经验回归直线=x+可以不经过样本点中的任意一个点,故B错误;对于C,因为|r1|>|r2|,所以模型1的线性相关程度更强,故C正确;对于D,残差图中的点均匀地分布在一条水平的带状区域内,该带状区域宽度越窄,模型的拟合效果越好,故D正确.故选ACD.
9.AD [解析] 设看不清的数据为a,经计算得=×(2+3+4+5+6)=4,=×(19+25+a+38+44)= ,代入经验回归方程=6.3x+6.8中,得=6.3×4+6.8,解得a=34,所以=32,所以看不清的数据为34,A正确;经验回归直线=6.3x+6.8必经过点(4,32),B错误;经验回归方程中的系数6.3的含义是产量每增加1吨,相应的生产能耗预测增加6.3吨,C错误;当x=7时,=6.3×7+6.8=50.9,所以据此模型预测产量为7吨时,相应的生产能耗为50.9吨,D正确.故选AD.
10.2.8 [解析] ==3,=
=,∵经验回归直线=0.43x+0.71过点(,),∴=0.43×3+0.71,解得m=2.8.
11.-0.29 [解析] 把x=160代入=0.85x-82.71,得=0.85×160-82.71=53.29,所以残差=y-=53-53.29=-0.29.
12.4.5 [解析] ∵在散点(4,3)处的残差为-0.15,∴3-(0.7×4+)=-0.15,解得=0.35,∴经验回归方程为=0.7x+0.35.又==4.5,==,∴=0.7×4.5+0.35,解得m=4.5.
13.解:=xi=0.3,=yi=100.8,
==620,=100.8-620×0.3=-85.2,所以y关于x的经验回归方程为=620x-85.2.
当x=0.27时,=620×0.27-85.2=82.2,所以估计步频为0.27 s时的步长为82.2 cm.
14.解:(1)由已知数据可得==57,==8,=
=2,
==4,
(xi-)(yi-)=3×(-3)+(-1)×1+1×(-1)+0×2+(-3)×1=-14,
所以样本相关系数r==≈-0.78,因为|r|≈0.78>0.75,所以y与x有较强的线性相关关系.
(2)因为===-0.7,
=-=8-(-0.7)×57=47.9,
所以y关于x的经验回归方程为=-0.7x+47.9,
当x=50时,=-0.7×50+47.9=12.9,
故估计当售价为50元/箱时,该脐橙的销售量为12.9千箱.
(3)设直播销售脐橙的利润为Z元,则Z=1000(x-0.5x-20)(-0.7x+47.9)=50(-7x2+759x-19 160),当x=≈54时,Z取得最大值,
即当商品售价为54元/箱时,可使得直播销售脐橙获利最大.
15.解:(1)由表可知=×(7+6+5+4+3)=5,=×(2.5+2.3+1.8+1.9+1.5)=2,xiyi=7×2.5+6×2.3+5×1.8+4×1.9+3×1.5=52.4,=72+62+52+42+32=135,
所以===0.24,=-=2-0.24×5=0.8,
故y关于x的经验回归方程为=0.24x+0.8.
(2)由题意知,k1=,k2=,其中'=,
所以='=r2≤1(其中r为x和y的样本相关系数),即k1≤k2.
下面证明k1≠k2,若k1=k2,则yi=0.24xi+0.8(i=1,2,3,4,5)恒成立,而2.5≠0.24×7+0.8,
所以k1≠k2,故k1第1课时 一元线性回归模型及最小二乘估计
【课前预习】
知识点一
一元线性回归 因变量 响应变量 自变量 解释变量
截距 斜率 随机误差
诊断分析
(1)√ (2)×
知识点二
1.最小二乘法 最小二乘估计 2.(1) 观测值 预测值
3.(2)越小 越好 越大 越差
诊断分析
(1)× (2)√ (3)√ (4)×
【课中探究】
例1 解:(1)因为==3,==23,所以(xi-)(yi-)=(1-3)×(18-23)+(2-3)×(20-23)+(3-3)×(23-23)+(4-3)×(25-23)+(5-3)×(29-23)=27,
(xi-)2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,(yi-)2=(18-23)2+(20-23)2+(23-23)2+(25-23)2+(29-23)2=74,
所以样本相关系数r=≈0.99.
因为|r|的值越接近1,随机变量之间的线性相关程度越强,
所以y与x的线性相关程度较强.
(2)因为=3,=23,
xiyi=1×18+2×20+3×23+4×25+5×29=372,
=12+22+32+42+52=55,
所以===2.7,=-=14.9,所以经验回归方程为=2.7x+14.9.
当x=7时,=2.7×7+14.9=33.8,
所以预测2025年该地新能源汽车保有量为33.8万辆.
变式 解:(1)由题可得=×(2+4+6+8+10)=6,
代入公式得===34,∴=-=209.6-34×6=5.6,
则y关于x的经验回归方程为=34x+5.6.
(2)当x=30时,=34×30+5.6=1025.6≈1026,
∴估计第30天时育种池内有鱼苗1026尾.
例2 (1)D [解析] y与x正相关,故A,B中结论均正确;>,故C中结论正确;<,故D中结论不正确.故选D.
(2)解:①散点图如下.
②由①中散点图看出,散点大致分布在一条直线的附近,y与x有比较好的线性相关关系,因此可以用经验回归方程刻画它们之间的关系.
由表中数据,得=30.36,=43.5,=5101.56, =1320.66,=921.729 6,xiyi=6746.76,则=≈0.29,=- ≈34.70,故所求的经验回归方程为=0.29x+34.70.当x=56.7时,=0.29×56.7+34.70=51.143,故估计成熟期有效穗数为51.143万个.
③由=xi+,得残差=yi-,则5组数据的残差分别为=0.35,=0.718,=-0.5,=-2.214,=1.624,则残差平方和为≈8.43.
④(yi-)2=50.18,故R2≈1-≈0.832,由此判断拟合效果比较好.
变式 解:由经验回归方程(1)可得yi-与yi-的数据如下表:
yi- -0.5 -3.5 10 -6.5 0.5
yi- -20 -10 10 0 20
∴(yi-)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,(yi-)2=(-20)2+(-10)2+102+02+202=1000,∴=1-=1-=0.845.
由经验回归方程(2)可得yi-与yi-的数据如下表:
yi- -1 -5 8 -9 -3
yi- -20 -10 10 0 20
∴(yi-)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,(yi-)2=(-20)2+(-10)2+102+02+202=1000,∴=1-=1-=0.82.
∵=0.845,=0.82,0.845>0.82,∴>,∴经验回归方程(1)的拟合效果好于经验回归方程(2)的拟合效果.8.2 一元线性回归模型及其应用
第1课时 一元线性回归模型及最小二乘估计
【学习目标】
1.能根据给出的经验回归方程系数公式建立经验回归方程.
2.了解随机误差、残差、残差图的概念.
3.会通过分析残差判断线性回归模型的拟合效果.
◆ 知识点一 一元线性回归模型
我们称为Y关于x的 模型.其中,Y称为 或 ,x称为 或 ;a和b为模型的未知参数,a称为 参数,b称为 参数;e是Y与bx+a之间的 .
【诊断分析】 判断正误.(请在括号中打“√”或“×”)
(1)随机误差是一个随机变量,产生的原因是多方面的. ( )
(2)在一元线性回归模型中,e是bx+a与真实值y的随机误差,它是一个可观测的量. ( )
◆ 知识点二 经验回归方程与最小二乘法
1.经验回归方程
定义:对于一组具有线性相关关系的成对样本数据(x1,y1),(x2,y2),…,(xn,yn),由最小二乘法得==,=-.
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫作 ,求得的,叫作b,a的 .
注意:在经验回归直线=x+中,是斜率,是截距.一般地,当>0时,说明两个变量正相关,它的意义是当x每增大一个单位时,y平均增大个单位;当<0时,说明两个变量负相关,它的意义是当x每增大一个单位时,y平均减小||个单位.
2.残差与残差分析
(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值, 减去 称为残差.
(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.其步骤为:计算残差→画出残差图→在残差图中分析残差特性.
3.决定系数R2
(1)R2的计算公式:R2=1-.
(2)R2与模型拟合效果的关系:R2越大,表示残差平方和 ,即模型的拟合效果 ;R2越小,表示残差平方和 ,即模型的拟合效果 .R2越接近1,拟合效果越好.
【诊断分析】 判断正误.(请在括号中打“√”或“×”)
(1)通过经验回归方程=x+求出的是精确值. ( )
(2)用最小二乘法求出的可能是正的,也可能是负的. ( )
(3)经验回归直线一定经过点(,). ( )
(4)残差平方和越大,线性回归模型的拟合效果越好. ( )
◆ 探究点一 求经验回归方程
例1 [2024·遵义高二期中] 某地2019年至2023年五年中新能源汽车保有量如下表.
年份 2019 2020 2021 2022 2023
年份编号x 1 2 3 4 5
保有量y(万辆) 18 20 23 25 29
(1)请用样本相关系数说明y与x的线性相关程度;
(2)求y关于x的经验回归方程=x+,并预测2025年该地新能源汽车保有量.
附:样本相关系数r=.
在经验回归方程=+x中,==,=-·,≈13.6.
变式 某种鱼苗育种基地,饲养员每隔两天观察并统计育种池内鱼苗的尾数,统计结果如下表:
第x天 2 4 6 8 10
鱼苗尾数y 72 140 212 284 340
(1)若y与x之间具有线性相关关系,求y关于x的经验回归方程;
(2)根据(1)中所求的经验回归方程,估计第30天时育种池内鱼苗的尾数(结果保留整数).
附:样本数据(xi,yi)(i=1,2,…,n)的经验回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
参考数据:=209.6,=220,xiyi=7648.
[素养小结]
求经验回归方程的基本步骤
(1)作出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算,,,xiyi;
(3)代入公式求出=x+中参数,的值;
(4)写出经验回归方程并对实际问题作出估计.
◆ 探究点二 线性回归分析
例2 (1)某同学用收集到的6组数据(xi,yi)(i=1,2,3,4,5,6)制作成如图所示的散点图(点旁边的数据为该点坐标),并由最小二乘法计算得到经验回归直线l1:=x+,样本相关系数为r1,决定系数为,经过残差分析确定点E为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到经验回归直线l2:=x+,样本相关系数为r2,决定系数为.下列结论不正确的是 ( )
A.r1>0,r2>0 B.>0,>0
C.> D.>
(2)假定每亩小麦基本苗数x(万株)与成熟期有效穗数y(万个)之间存在相关关系,今测得5组数据如下:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
①以x为解释变量,y为响应变量,作出散点图;
②求y关于x的经验回归方程=x+(和保留两位小数),当基本苗数为56.7万株时,预测成熟期有效穗数;
③计算②中得到的经验回归方程的残差平方和(结果保留两位小数);
④计算②中得到的经验回归方程的决定系数R2(结果保留两位小数),并判断该经验回归方程的拟合效果.
变式 关于x与y有如下数据:
x 2 4 5 6 8
y 30 40 60 50 70
有如下的两个经验回归方程:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好.8.2 一元线性回归模型及其应用
第1课时 一元线性回归模型及最小二乘估计
一、选择题
1.下列四个残差图中回归模型的拟合效果最好的是 ( )
A B
C D
2.已知x,y的取值如下表所示,若y与x线性相关,且经验回归方程为=0.95x+,则=( )
x 0 1 3 4
y 2.2 4.3 4.8 6.7
A.2.2 B.2.6 C.2.8 D.2.9
3.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并分别求得样本相关系数r与残差平方和m如表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则试验结果体现A,B两变量具有更强的线性相关性的是 ( )
A.甲 B.乙 C.丙 D.丁
4.[2024·岳阳一中高二月考] 已知变量x,y的部分数据如下表,由表中数据得y关于x的经验回归方程为=0.8x+,现有一测量数据为(35,n),若该数据的残差为1.2,则n= ( )
x 21 23 25 27
y 15 18 19 20
A.25.6 B.28 C.29.2 D.24.4
5.为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据可得出y与x之间有较强的线性相关关系,设其经验回归方程为=x+.已知xi=225,yi=1600,=4,该班某学生的脚长为24,据此估计该学生的身高为 ( )
A.162 cm B.166 cm
C.170 cm D.174 cm
6.已知y与x及μ与ν的成对数据如下,且y关于x的经验回归方程为=1.2x+0.6,则μ关于ν的经验回归方程为 ( )
x 1 2 3 4 5
y 2 3 4 5 7
ν 10 20 30 40 50
μ 20 30 40 50 70
A.=12ν+6 B.=1.2ν+0.6
C.=0.12ν+0.6 D.=1.2ν+6
7.某部门统计了某地区今年前七个月的在线外卖规模如下表:
月份代号x 1 2 3 4 5 6 7
在线外卖规模y(百万元) 11 13 18 ★ 28 ★ 35
其中4,6两个月的在线外卖规模数据模糊,但这七个月在线外卖规模数据的平均数为23.若y关于x的经验回归方程为=x+,且7月的残差为-0.6,则-= ( )
A.1.0 B.2.0
C.3.0 D.4.0
8.(多选题)对两个变量x和y进行回归分析,则下列说法正确的是 ( )
A.在比较两个回归模型的拟合程度时,决定系数R2越大,拟合效果越好
B.若变量x和y具有线性相关关系,则经验回归直线=x+至少经过样本点中的其中一个点
C.建立两个回归模型,模型1的样本相关系数r1=-0.98,模型2的样本相关系数r2=0.8,则模型1的线性相关程度更强
D.残差图中的点均匀地分布在一条水平的带状区域内,该带状区域宽度越窄,模型的拟合效果越好
9.(多选题)某企业节能降耗技术改造后,在生产某产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据如下表,现发现表中有个数据看不清,已知经验回归方程为=6.3x+6.8,则下列说法正确的是 ( )
x 2 3 4 5 6
y 19 25 ★ 38 44
A.看不清的数据为34
B.经验回归直线=6.3x+6.8必经过点(4,★)
C.经验回归方程中的系数6.3的含义是产量每增加1吨,相应的生产能耗实际增加6.3吨
D.据此模型预测产量为7吨时,相应的生产能耗为50.9吨
二、填空题
10.据统计,某市各大高校近几年的考研报考总人数如下表所示:
年份 2018 2019 2020 2021 2022
年份序号x 1 2 3 4 5
报考总人数y(万) 1.1 1.6 2 2.5 m
根据表中数据,可求得y关于x的经验回归方程为=0.43x+0.71,则m的值为 .
11.已知方程=0.85x-82.71是根据女大学生的身高预报她的体重的经验回归方程,其中x的单位是cm,的单位是kg,那么针对某样本点(160,53)的残差是 .
12.某工厂为研究某种产品的产量x(吨)与所需某种原材料的质量y(吨)的相关性,在生产过程中收集4组对应数据,如表所示.
x 3 4 5 6
y 2.5 3 4 m
根据表中数据,得出y关于x的经验回归方程为=0.7x+,据此计算出在散点(4,3)处的残差为-0.15,则表中m的值为 .
三、解答题
13.某田径协会组织开展竞走的步长y(单位:cm)和步频x(单位:s)之间的关系的课题研究,得到相应的试验数据:
x 0.28 0.29 0.30 0.31 0.32
y 90 95 99 103 117
根据表中数据,得到x和y近似为线性相关关系,求出y关于x的经验回归方程,并估计步频为0.27 s时的步长.
参考数据:=0.451,xiyi=151.82.
14.[2024·武汉武钢三中高二月考] 直播带货是扶贫助农的一种新模式,这种模式是利用主流媒体的公信力,聚合销售主播的力量助力打通农产品产销链条,切实助力农民增收.某网络平台助力赣南某县脐橙的销售,下表统计了该平台2024年1月1日至5日直播销售脐橙的箱数(其中脐橙每箱5 kg):
日期 1 2 3 4 5
售价x(元/箱) 60 56 58 57 54
销售量y(千箱) 5 9 7 10 9
(1)求样本相关系数r(精确度为0.01),并判断销售量y与脐橙的售价x是否有较强的线性相关关系(当|r|∈[0.75,1]时,可以认为两个变量有较强的线性相关关系;否则,没有较强的线性相关关系).
(2)建立y关于x的经验回归方程,并估计当售价为50元/箱时,该脐橙的销售量为多少千箱
(3)若脐橙的成本为(0.5x+20)元/箱,不考虑其他费用,由(2)中结论,当脐橙售价为多少时,可使得直播销售脐橙获利最大 (该结果保留整数)
附:对于一组数据(xi,yi)(i=1,2,3,…,n),样本相关系数r=,其经验回归直线=x+的斜率和截距的最小二乘估计分别为=,=-.
参考数据:≈2.236.
15.随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升.某中学数学兴趣小组统计了本省5所大学2022年的毕业生人数及考研人数,收集到的数据如下表所示.
A大学 B大学 C大学 D大学 E大学
2022年毕业生人数x(千) 7 6 5 4 3
2022年考研人数y(千) 2.5 2.3 1.8 1.9 1.5
(1)建立y关于x的经验回归方程;
(2)该小组又利用上表数据建立了x关于y的经验回归方程,并把这两条拟合直线画在同一坐标系中,横坐标x、纵坐标y的意义与2022年毕业生人数x和考研人数y一致,请比较y关于x的经验回归方程表示的直线的斜率k1与x关于y的经验回归方程表示的直线的斜率k2的大小.