1了解一元线性回归模型
2.理解一元线性回归模型参数的最小二乘估计
3.掌握一元线性回归模型的应用
一、一元线性回归模型
1.一元线性回归模型
我们称
为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是
Y与bx+a之间的随机误差
2.线性回归方程与最小二乘法
回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征
我们将称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(lastsqures
estimate),
其中
二、第二课时非线性回归模型及其应用
1.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差,残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
2.刻画回归效果的方式
⑴残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,R2越大,即拟合效果越好,R2越小,模型拟合效果越差
1.某公司在市场调查中,发现某产品的单位定价
(单位:万元/吨)对月销售量
(单位:吨)有影响.对不同定价
和月销售量
数据作了初步处理,
0.24
43
9
0.164
820
68
3956
表中
.经过分析发现可以用
来拟合
与
的关系.
(1)求
关于
的回归方程;
(2)若生产
吨产品的成本为
万元,那么预计价格定位多少时,该产品的月利润取最大值,求此时的月利润.
附:对于一组数据
,
,…,
,其回归直线线
的的斜率和截距的最小二乘估计分别为:
,
.
【答案】
(1)解:令
,则
,
则
,
,
∴
,
答:
关于
的回归方程为
;
(2)解:利润
(当且仅当
即
时取等号)
答:预计价格定位
万元/吨时,该产品的月利润取最大值,最大值为
万元.
【考点】最小二乘法,线性回归方程
【解析】(1)
令??,则??,?由已知数据求得
的值,可得??关于??的回归方程;
(2)写出月利润T关于的数关系式,利用基本不等式求最值。
2.2020年新型冠状病毒肺炎疫情期间,某市从2020年2月1日算第一天起,每日新增的新型冠状病毒肺炎人数y(人)的近5天的具体数据,如表:
第x天
1
2
3
4
5
新增的新型冠状病毒肺炎人数y(人)
2
4
8
13
18
已知2月份前半个月处于疫情爆发期,且新增病例数与天数具有相关关系.
参考公式:回归直线方程
中斜率和截距的最小二乘估计公式分别为:
,
,
为样本平均值.
(1)求线性回归方程
;
(2)预测哪天该市新增的新型冠状病毒肺炎人数可以突破37人?
【答案】
(1)解:由题意,
,
,
,
,
则
,
,
所以线性回归方程为
.
(2)解:在
中,取
,得
;取
,得
.
故预测2月10日该市新增的新型冠状病毒肺炎人数可以突破37人.
【考点】线性回归方程
【解析】(1)首先根据题意求出样本中心点的坐标,代入到线性回归方程求出与的值由此即可得出线性回归方程。
(2)结合题意把数值代入方程计算出结果即可。
3.《中国诗词大会》是中央电视台于2016年推出的大型益智类节目,中央电视台为了解该节目的收视情况,抽查北方与南方各5个城市,得到观看该节目的人数(单位:千人)如茎叶图所示,但其中一个数字被污损.
参考公式:
,
(1)若将被污损的数字视为0~9中10个数字中的一个,求北方观众平均人数超过南方观众平均人数的概率;
(2)该节目的播出极大激发了观众学习诗词的热情,现在随机统计了4位观众每周学习诗词的平均时间
(单位:小时)与年龄
(单位:岁),并制作了对照表(如下表所示):
年龄
20
30
40
50
每周学习诗词的平均时间
3
3.5
3.5
4
由表中数据分析,
与
呈线性相关关系,试求线性回归方程,并预测年龄为60岁的观众每周学习诗词的平均时间.
【答案】
(1)解:设污损的数字为
,由北方观众平均人数超过南方观众平均人数得
,
,即
,
(2)解:
,
,
,
又
,
,
,
,
,
时,
.
答:年龄为60岁的观众每周学习诗词的平均时间大约为4.25小时.
【考点】线性回归方程
【解析】(1)由题,列出不等式
,解得x的取值范围,即可得到本题答案;(2)由
,
,求得线性回归方程,然后令
,即可得到本题答案.
4.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
参考公式用最小二乘法求线性回归方程系数公式:
,
.
(1)画出散点图;
(2)求y关于x的线性回归方程.
(3)如果广告费支出为一千万元,预测销售额大约为多少百万元?
【答案】
(1)解:根据表格中的数据,得到点
,
画在坐标系中,得到散点图:
.
(2)解:由表格中的数据,可得
,
,
则
,
于是所求的线性回归方程是
(3)解:当
时,
(百万元),
即广告费支出为一千万元,预测销售额大约为
百万元
【考点】散点图,最小二乘法,线性回归方程
【解析】(1)根据表中所给的五组数据,得到五个点的坐标,在平面直角坐标系中画出散点图.(2)先求出
的平均数,利用最小二乘法求出线性回归方程的系数,代入样本中心点求出a的值,写出线性回归方程.(3)将
代入回归直线方程求出y的值,即可得到广告费支出一千万元时的销售额的估计值.
1.根据如下样本数据,得到回归直线方程
,则(???
)
3
4
5
6
7
8
-3.0
-2.0
0.5
-0.5
2.5
4.0
A.?
,
?????????????????B.?
,
?????????????????C.?
,
?????????????????D.?
,
2.已知变量
,
之间的线性回归方程为
,且变量
,
之间的一组相关数据如下表所示,则下列说法中错误的是(??
)
x
6
8
10
12
y
6
m
3
2
A.?变量
,
之间呈现负相关关系????????????????????????B.?
的值等于5
C.?变量
,
之间的相关系数
??????????????D.?由表格数据知,该回归直线必过点
3.对具有线性相关关系的变量
,测得一组数据如下表:
x
2
4
5
6
8
y
20
40
60
70
80
根据上表,利用最小二乘法得它们的回归方程为
,据此模型来预测当
时,y的估计值为(???
)
A.?210????????????????????????????????????B.?210.5????????????????????????????????????C.?211????????????????????????????????????D.?211.5
4.已知关于某设各的使用年限x(单位:年)和所支出的维修费用y(单位:万元)有如下的统计资料,
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
由上表可得线性回归方程
,若规定当维修费用y>12时该设各必须报废,据此模型预报该设各使用年限的最大值为(?
)
A.?7???????????????????????????????????????????B.?8???????????????????????????????????????????C.?9???????????????????????????????????????????D.?10
参考答案
1.【答案】
C
【解析】
从整体上看这些点大致分布在一条直线的周围,且该回归直线的斜率为正,在
轴上的截距为负则
,
2.【答案】
C
【解析】
解:由题意,根据上表可知
,
即数据的样本中心为
,
把样本中心代入回归直线的方程,可得
,解得
,
则
,即数据的样本中心为
,
由上表中的数据可判定,变量
之间随着
的增大,
值变小,所以呈现负相关关系,
由于回归方程可知,回归系数
,而不是
,所以C是错误的,
3.【答案】
D
【解析】
根据表中数据可得
,
,
,解得
,
则当
时,
.
4.【答案】
C
【解析】
由已知表格得:
,
,
由于线性回归直线恒过样本中心点
,所以有:
,解得:
,
所以线性回归方程
,
由
得:
解得:
,
由于
,
所以据此模型预报该设备使用年限的最大值为9。