1了解一元线性回归模型
2.理解一元线性回归模型参数的最小二乘估计
3.掌握一元线性回归模型的应用
一、一元线性回归模型
1.一元线性回归模型
我们称
为Y关于x的一元线性回归模型,其中Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是
Y与bx+a之间的随机误差
2.线性回归方程与最小二乘法
回归直线方程过样本点的中心(x,y),是回归直线方程最常用的一个特征
我们将称为Y关于x的线性回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线。这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(lastsqures
estimate),
其中
二、第二课时非线性回归模型及其应用
1.残差的概念
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差,残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
2.刻画回归效果的方式
⑴残差图法
作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.
(2)残差平方和法
残差平方和,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.
(3)利用R2刻画回归效果
决定系数R是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.
,R2越大,即拟合效果越好,R2越小,模型拟合效果越差
1.随着我国中医学的发展,药用昆虫的使用越来越多,每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫,已知某种药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:°C)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,收集了该种药用昆虫的5组观测数据如下表:
日期
2日
7日
15日
22日
30日
温度x
10
11
13
12
8
产卵数y
23
25
30
26
16
参考公式:最小二乘法求线性回归方程系数公式:
,
.
(1)从这5天中任选2天,记这2天的药用昆虫的产卵数分别为m,n,求事件“m,n均不小于26”的概率;
(2)科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验;
①若选取的是3月2日和30日这两组数据,请根据7日、15日、22日这3组数据求出y关于x的线性回归方程;
②若由线性回归方程得到的估计产卵数与所选出的检验数据的误差不超过2个,则认为得到的线性回归方程是可靠的.按照此标准①中得到的线性回归方程是否可靠?说明理由.
【答案】
(1)解:依题意得,
、
的所有情况有:
、
、
、
、
、
、
、
、
、
共有10个;则“
、
均不小于26”的事件只有
,所以
,即事件“
、
均不小于26”的概率为
(2)解:①由数据得
,
,
,
,
,
.
所以
关于
的线性回归方程为
.
②可靠;
由①知,
关于
的线性回归方程为
.
对于2日数据,将
代入线性回归方程得
,其误差为
,
对于30日数据,将
代入线性回归方程得
,其误差为
,
所以,所得到的线性回归方程是可靠的.
【考点】线性回归方程
【解析】(1)利用列举法求出基本事件数,计算所求的概率值;
(2)
①由数据计算平均数和回归系数,写出
??关于??的线性回归方程;②
根据线性回归方程计算
,
?
时
?
的值,再验证所得的线性回归方程是否可靠。
2.我国探月工程嫦娥五号探测器于2020年12月1日23时11分降落在月球表面预选着陆区,在顺利完成月面自动采样之后,成功将携带样品的上升器送入到预定环月轨道,这是我国首次实现月球无人采样和地外天体起飞,对我国航天事业具有重大而深远的影响,为进一步培养中学生对航空航天的兴趣爱好,某学校航空航天社团在本校高一年级进行了纳新工作,前五天的报名情况为:第1天3人,第2天6人,第3天10人,第4天13人,第5天18人,通过数据分析已知,报名人数与报名时间具有线性相关关系.
参考公式及数据:回归方程
中斜率的最小二乘估计公式为:
,
;
,其中
.
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
(1)已知第
天的报名人数为
,求
关于
的线性回归方程,并预测第7天的报名人数(结果四舍五入取整数).
(2)该社团为了解中学生对航空航天的兴趣爱好和性别是否有关系,随机调查了100名学生,并得到如下
列联表:
?
有兴趣
无兴趣
合计
男生
45
5
50
女生
30
20
50
合计
75
25
100
请根据上面的列联表判断能否在犯错误的概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别有关系”
【答案】
(1)解:时间的平均数为
,
报名人数的平均数为
,
所以
,
,
所以线性回归方程为
,
把
代入得
,所以第7天的报名人数约为25.
(2)解:由列联表数据可得
因为
,
所以,在犯错误的概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别有关系”.
【考点】众数、中位数、平均数,两个变量的线性相关,线性回归方程
【解析】(1)由题意计算
,
求出回归系数,写出线性回归方程,利用回归方程求出时
?的值即可;
(2)
由列联表数据可得?
,
?,
可得
在犯错误的概率不超过0.001的条件下认为“中学生对航空航天的兴趣爱好和性别有关系”。
3.某商店为了解气温对某产品销售量的影响,随机记录了该商店3月份中5天的日销售量
单位:千克
与该地当日最低气温
单位:
的数据,如表所示:
x
2
5
8
9
11
y
12
10
8
8
7
(1)求y与x的回归方程
;
(2)判断y与x之间是正相关还是负相关;若该地3月份某天的最低气温为
,请用(1)中的回归方程预测该商店当日的销售量.
参考公式:
,
.
【答案】
(1)解:由题中数据可得,
,
,
所以
,
则
,
所以
;
(2)解:由(1)知,y与x之间是负相关;
当
时,
,
即某天的最低气温为
时,预测该商店当日的销售量为
千克.
【考点】线性回归方程
【解析】(1)根题意首先求出样本点的中心坐标,再由代入数值计算出结果,由此即可求出由此即可求出线性回归方程。
(2)根据题意(1)的线性回归方程即可得出
y与x之间是负相关;
把数值代入到线性回归方程计算出结果即可。
4为了解某地区某种农产品的年产量
(单位:吨)对价格
(单位:千元/吨)的影响,对近五年该农产品的年产量和价格统计如表:
x
2
3
4
5
6
y
8
6
5
4
2
已知x和
具有线性相关关系.
附:回归直线的斜率和截距的最小二乘法估计公式分别为
,
.
(1)求
,
;
(2)求y关于x的线性回归方程
;
(3)若年产量为3.5吨,试预测该农产品的价格.
【答案】
(1)解:
,
(2)解:因为
,所以
,
所以线性回归方程为:
(3)解:当
时,
,
故农产品的价格为
千元
吨.
【考点】最小二乘法,线性回归方程
【解析】(1)根据表中数据计算出
,
;(2)利用公式计算出
的值,则线性回归方程可求;(3)利用(2)中的线性回归方程预测农产品价格.
1.已知
与
之间的线性回归方程为
,其样本点的中心为
,样本数据中
的输出取值依次为2,8,6,14,
,则
(???
)
A.?12?????????????????????????????????????????B.?16?????????????????????????????????????????C.?18?????????????????????????????????????????D.?20
2.某商铺统计了今年5个月的用电量y(单位:10kw/h)与月份x的对应数据,列表如下:
x
2
4
5
6
8
y
30
40
57
a
69
根据表中数据求出
关于
的线性回归方程为
,则上表中
的值为(???
)
A.?50????????????????????????????????????????B.?54????????????????????????????????????????C.?56.5????????????????????????????????????????D.?64
3.对具有线性相关关系的变量x,y,有一组观测数据
,其回归直线方程是
,且
,
,则实数a的值为(???
)
A.?-5?????????????????????????????????????????B.?-24?????????????????????????????????????????C.?5?????????????????????????????????????????D.?-3
4.下列正确命题的序号有(???
)
①若随机变量
,且
,则
.②在一次随机试验中,彼此互斥的事件
,
,
,
的概率分别为
,
,
,
,则
与
是互斥事件,也是对立事件.③一只袋内装有
个白球,
个黑球,连续不放回地从袋中取球,直到取出黑球为止,设此时取出了
个白球,
等于
④由一组样本数据
,
,
得到回归直线方程
,那么直线
至少经过
,
,
中的一个点.
A.?②③?????????????????????????????????????B.?①②?????????????????????????????????????C.?③④?????????????????????????????????????D.?①④
参考答案
1.【答案】
D
【解析】
解:
,
样本点的中心为
.由于回归直线过样本点的中心
,
,解得
.
2.【答案】
B
【解析】
由题可知:
代入方程有:
3.【答案】
D
【解析】
解:根据题意知,
,
,
,
,
回归直线
过样本中心点
,
,
即实数
.
4.【答案】
A
【解析】
对于①:因为
,且
,所以
,解得
,所以
,所以
,故①不正确;
对于②:根据互斥事件的定义可得
与
是互斥事件,
也是对立事件,故②正确;
对于③:
表示前两次取出的是白球,第三次取到的是黑球,则
,故③正确;
对于④:对于回归直线方程,只能确定通过
,故④不正确,
所以②③正确.