数学人教A版(2019)选择性必修第三册8.2一元线性回归模型及其应用 课件(共64张ppt)

文档属性

名称 数学人教A版(2019)选择性必修第三册8.2一元线性回归模型及其应用 课件(共64张ppt)
格式 pptx
文件大小 5.9MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2024-04-30 19:40:58

图片预览

文档简介

(共64张PPT)
8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
8.2.2 一元线性回归模型参数的最小二乘估计
8.2.1 一元线性回归模型
复习导入
1. 样本相关系数:
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
复习导入
恩格尔系数(Engel’s Coefficient)是根据恩格尔定律得出的比例数,指居民家庭中食物支出占消费总支出的比重,是表示生活水平高低的一个指标.
其计算公式:恩格尔系数=食物支出金额÷总支出金额.
复习导入
一个家庭收入越少,家庭收入中或者家庭总支出中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中或者家庭支出中用来购买食物的支出所占比例将会下降.
问题 恩格尔系数是预测生活水平高低的一个模型,那么当两个变量线性相关时,我们如何对成对样本数据建立一个模型进行预测?
提示 为了对两个变量线性相关关系进行预测,我们通常建立一元线性回归模型进行预测.
生活经验告诉我们,儿子身高与父亲身高存在正线性相关关系,即父亲的身高较高时,儿子的身高通常也较高.
为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示.
新知探究
新知探究
思考1:根据上表中的数据或散点图,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
存在父亲身高相同,而儿子身高不同的情况.
也存在儿子身高相同,而父亲身高不同的情况。
不符合函数的定义,可见儿子身高和父亲身高之间不是函数关系,不能用函数模型刻画.
思考2:为什么儿子身高和父亲身高有相关关系而不是函数关系?
因为影响儿子身高的因素除了父亲身高这个主要因素外,还受其他随机因素的影响,如母亲身高、生活环境、饮食习惯、锻炼时间等.
思考3:考虑上述随机因素的影响,你能否用类似于函数的表达式来表示父亲身高x和儿子身高Y的关系?
新知探究
用x表示父亲身高,Y表示儿子身高,e表示随机误差.
假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,
则它们之间的关系可以表示为:
称为Y关于x的一元线性回归模型.
Y称为因变量或响应变量;
x称为自变量或解释变量;
a称为截距参数,
b称为斜率参数;
e是Y与bx+a之间的随机误差.
思考4:为什么要假设E(e)=0,而不假设它为某个不为0的常数?
因为随机误差表示大量已知和未知的影响因素之和,因为误差是随机的,即取各种正负误差的可能性一样,它们会相互抵消,所以随机误差的期望值应为0.
1、一元线性回归模型.
新知探究
用x表示父亲身高,Y表示儿子身高,e表示随机误差.
则它们之间的关系可以表示为下面的一元线性回归模型:
思考5:你能结合身高案例解释上述模型的意义吗?
由于E(Y)=bx+a,故模型可解释为父亲身高为xi的所有男大学生的身高(子总体)的均值E(Y)为bxi+a,即该子总体的均值与父亲身高是线性函数关系。
yi不一定为bxi+a,yi=bxi+a+ei,bxi+a是子总体的均值,yi只是该子总体中的一个样本值,
这个样本值yi与均值E(Y)有一个误差项ei=yi (bxi+a).
思考6:父亲身高为xi的某一名男大学生,他的身高yi一定为bxi+a吗?
理解为
新知探究
思考7:你能结合上述身高案例解释模型中产生随机误差项e的原因吗?
(1)存在其他可能影响儿子身高Y的因素,如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)测量身高时,可能存在由测量工具、测量精度导致的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,而利用一元线性回归模型来近似刻画这种关系,这种近似产生了误差.
用x表示父亲身高,Y表示儿子身高,e表示随机误差.
则它们之间的关系可以表示为下面的一元线性回归模型:
理解为
新知探索
练习1.判断正误.
在一元线性回归模型中,是预报真实值的随机误差,它是一个可观测的量.( )
答案:×.
练习2.[多选]在如图所示的四个散点图,适合用一元线性回归模型拟合其中两个变量的是( ).
答案:AC.
课堂小结
1.一元线性回归模型:
我们称 为关于的一元线性回归模型.其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.
如果,那么与之间的关系就可用一元线性函数模型来描述.
8.2.2 一元线性回归模型参数的最小二乘估计(第1课时)
课题引入
思考1:如何从散点图中寻找到一条适当的直线,使得这些散点在整体上与这条直线最接近
方案1:先画出一条直线,测量出各点与直线的距离,然后移动直线,到达一个使距离的和最小的位置.测量出此时的斜率和截距,就可得到一条直线,如图.
方案2:在图中选择两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图.
方案3:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
新知探究
思考2:如何利用成对样本数据,用数学方法刻画“从整体上看,各散点与直线最接近”
析:可令n个样本点与直线的竖直距离之和最小
y=bx+a
新知探究
最小二乘法
新知探索
我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计.
2、经验回归方程
图形
推导
新知探索
思考3:如何理解当x=176时,(=176.621)的实际意义?
含义2:父亲身高为176 cm的所有儿子身高的均值的估计值为177 cm.
思考4:案例的经验回归方程中的实际意义是什么?
斜率可以解释为父亲身高每增加1 cm,
其儿子身高平均增加0.839 cm.
含义1:由方程作出推测,当父亲身高为176 cm时,儿子身高一般在177 cm左右.
思考5:根据方程,父亲身高为多少时,长大成人的儿子身高和父亲身高一样?
新知探索
例析
例析
例析
例析
方法技巧:
1.求经验回归方程的基本步骤
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
(2)计算,,,;
(3)代入公式求出中参数的值;
(4)写出经验回归方程并对实际问题作出估计.
[提醒]只有在散点图大致呈线性相关关系时,求出的经验回归方程才有实际意义,否则求出的经验回归方程毫无意义.
例析
方法技巧:
2.使用经验回归方程进行预测时,需注意以下问题
(1)经验回归方程只适用于所研究的样本的总体;
(2)经验回归方程一般都有时效性;
(3)解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内.
练习
[练1]截至2022年底,全国从事节能服务的企业数量统计如表
所示,
年份/t 2018 2019 2020 2021 2022
企业数 y/百家 54 58 61 64 65
(1)令x=t-2 020,求y关于x的经验回归方程;
练习
练习
新知探索
思考1:当时,.如果一位父亲的身高为,他儿子长大成人后的身高一定是吗?为什么?
显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高.不过,我们可以作出推测,当父亲身高为时,儿子身高一般在左右.
实际上,如果把这所学校父亲身高为的所有儿子身高作为一个子总体,那么是这个子总体的均值的估计值.
这里的经验回归方程,其斜率可以解释为父亲身高每增加,其儿子身高平均增加.分析模型还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,
例如,则;
新知探索
矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的
平均身高要高于父亲们的平均身高,例如,则
对于响应变量,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
例如,对于前面表中的第6个观测,父亲身高为,其儿子身高的观测值为,预测值为,残差为
.
3、残差
残差=观测值-预报值
新知探索
类似地,可以得到其他的残差,如表所示.
新知探索
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图所示.
新知探索
观察上表可以看到,残差有正有负,残差的绝对值最大是.观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边.说明残差比较符合一元线性回归模型的假定,是均值为0、方差为的随机变量的观测值.可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
思考2:观察图中的四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?
2.残差的作用:判断回归模型刻画数据的效果;发现原始数据中是否存在可疑数据,对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
4.残差分析途径:列残差表、作残差图.
以残差为纵坐标,以样本编号(或x)为横坐标.
若存在某几个样本点的残差绝对值较大,则为可以数据,需予以纠正或剔除,再重新建立回归模型.
残差图:
残差有正有负,比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型中对于随机误差的假定
带状区域宽度越窄,残差绝对值越小,且较均匀地落在横轴附近,说明回归方程预报的精度越高.
新知探索
新知探索
思考:观察图中的四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定,即E(e)=0,D(e)=?
残差与观测时间有线性关系,应将时间变量纳入模型
残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分
残差的方差不是一个常数,随观测时间的变大而变大
残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内
练习
练习1.已知两个线性相关变量与的统计数据如下表:
x 3 4 5 6
y 2.5 3 4 m
其回归直线方程是,据此计算,样本(4,3)处的残差
为﹣0.15,则表中m的值为( )
A.4 B.4.5 C.5 D.5.5
B
残差的概念
回归直线过样本点中心
练习
练习2.2020年初,新型冠状病毒引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某医疗机构开始使用中西医结合方法后,每周治愈的患者人数如下表所示:
第x周 1 2 3 4 5
治愈人数y (单位:十人) 3 8 10 14 15
由上表可得y关于x的线性回归方程为,则此回归模型第5周的残差为( ) A.1 B. -1 C.0 D.2
B
例析
问题.人们常将男子短跑的高水平运动员称为“百米飞人”.下表给出了年之前男子短跑世界纪录产生的年份和世界纪录的数据.试依据这些成对数据,建立男子短跑世界纪录产生年份的经验回归方程.
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图.
在图中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.
例析
用表示男子短跑的世界纪录,表示纪录产生的年份,利用一元线性回归方程模型
来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为. ①
将经验回归直线叠加到散点图,得到下图.
思考1:仔细观察图中散点与直线的位置关系,你能看出其中存在的问题吗?
新知探索
以经验回归直线为参照,第1个散点远离经验回归直线,且前后两时间段的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
思考2:你能对模型进行修改,以使其更好地反映散点的分布特征吗?
散点更趋向于落在中间下凸且递减的某条曲线附近.
已学的函数_________________的图象具有类似的形状特征.
注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t 1895)的周围,其中c1和c2为未知参数,且c2<0.
思考1:仔细观察图中散点与直线的位置关系,你能看出其中存在的问题吗?
y=﹣lnx
、y=﹣lgx
新知探索
思考3:如何利用成对数据估计参数c1和c2?
注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t 1895)的周围,其中c1和c2为未知参数,且c2<0.
非线性经验回归函数
精确到0.01
作出(xi,yi)的散点图,
可见x与y呈现出很强的负线性相关特征.
新知探索
思考3:如何利用成对数据估计参数c1和c2?
注意到短跑的第1个世界纪录产生于1896年,因此可以认为散点是集中在曲线y=c1+c2ln(t 1895)的周围,其中c1和c2为未知参数,且c2<0.
非线性经验回归函数
该经验回归方程对于表中的成对数据xi,yi具有非常好的拟合精度.
x和Y之间的线性相关程度比t和Y的线性相关程度强得多.
新知探索
由图可看出,非线性经验回归方程②对于原始数据的拟合效果远远好于线性经验回归方程①
新知探索
思考4:你能否通过残差分析来比较这两个经验回归方程对数据刻画的好坏?
方程②各项残差的绝对值远远小于方程①,即方程②的拟合效果要远远好于①.
新知探索
一般情况下,直接一一比较两个模型的各项残差绝对值比较困难,因为对于某些散点,模型①的残差的绝对值比模型②的小,而另一些散点的情况则相反.
方案二:通过比较残差的平方和来比较两个模型的效果.
在残差平方和最小的标准下,非线性回归模型的拟合效果要优于一元线性回归模型的拟合效果.
方案一:通过比较残差的绝对值之和来比较两个模型的效果.
新知探索
方案二:通过比较残差的平方和来比较两个模型的效果.
经验回归方程②的拟合效果要优于经验回归方程①的拟合效果.
方案三:通过比较决定系数R2来比较两个模型的效果.
残差平方和
总偏差平方和
(与回归方程无关)
(与回归方程有关)
R2越大,残差平方和越小,模型拟合效果越好.
经验回归方程②的刻画效果比经验回归方程①的好很多.
新知探索
5、残差平方和及决定系数R2
(1)残差平方和为 .
(2)决定系数R2= .
①R2越大,残差平方和越小,模型拟合效果越好.
②样本相关系数r刻画线性相关关系的正负和强弱;
决定系数R2刻画模型拟合效果的好坏.
③在含有1个解释变量的线性模型中,R2=r2.
例析
例析
例析
例析
方法技巧:
当两个变量已明显呈现性相关关系时,则无需作散点图,就可直接求经验回归方程,否则要先判定相关性再求经验回归方程.判断拟合效果的好坏需要利用确定,越接近1,说明拟合效果越好.
例析
[例4] 某茶饮店主记录了入秋后前7天每天售出的茶饮数量(单位:杯)如表所示,
日期 第一 天 第二 天 第三 天 第四 天 第五 天 第六 天 第七

日期 代码x 1 2 3 4 5 6 7
杯数y 4 15 22 26 29 31 32
(1)请根据以上数据,绘制散点图,并根据散点图判断,
y=a+bx与y=c+dln x哪一个更适宜作为y关于x的回归方程模型(给出判断即可,不必说明理由);
例析
解:(1)根据散点图知y=c+dln x更适宜作为y关于x的回归方程模型.
例析
(2)建立y关于x的经验回归方程(结果保留1位小数),并根据建立的经验回归方程,试预测要到哪一天售出的茶饮才能超过35杯.
例析
练习
[2020全国卷I-5]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
练习1.2020年初,从非洲蔓延到东南亚的蝗虫灾害严重威胁了国际农业生产,影响了人民生活.世界性与区域性温度的异常 早涝频繁发生给蝗灾发生创造了机会.已知蝗虫的产卵量y与温度x的关系可以用模型拟合,
设z=ln y,其变换后得到一组数据:
由上表可得线性回归方程z=0.2x+a,
(1)x=35时,蝗虫的产卵量y的估计值为______.
(2)c1=______.
x 20 23 25 27 30
z 2 2.4 3 3 4.6
对数变换z=lny
练习
练习2.2020年初,新型冠状病毒(COVID-19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:由表格可得y关于x的二次回归方程为y=6x2+a,则此回归模型第4周的残差(实际值与预报值之差)为( )
A.0 B.1 C.4 D.5
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
练习3. 2020年4月,“一盔一带”安全守护行动在全国各地展开.某地交警部门加强执法管理期间,对某路口不带头盔的骑行者进行了统计,得到如下数据(其中y表示第x天不戴头盔的人数):
若y关于x的回归方程为,则a=( )
A.-4 B.4 C.6 D.-6
x 1 2 4 8
y 115 49 32 5
练习
例析
[例5] 如图是某采矿厂的污水排放量y(单位:吨)与矿产品年产量x(单位:吨)的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系;(若|r|>
0.75,则线性相关程度很高,可用线性回归模型拟合)
例析
例析
(2)若可用线性回归模型拟合y与x的关系,请建立y关于x的线性经验回归方程,并预测年产量为 10吨时的污水排放量.
例析
导与练[针对训练]
课堂小结
一元线性回归模型参数的最小二乘估计:
(1)经验回归方程:对于一组具有线性相关关系的成对样本数据,
,由最小二乘法得,
.将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做,的最小二乘估计.
(2)观测值:对于响应变量,通过观测得到的数据称为观测值.
(3)预测值:通过经验回归方程得到的称为预测值.
课堂小结
一元线性回归模型参数的最小二乘估计:
(4)残差:观测值减去预测值.
(5)的计算公式为.在表达式中,与经验回归方程无关,残差平方和与经验回归方程有关.因此越大,表示残差平方和越小,即模型拟合效果越好;越小,表示残差平方和越大,即模型的拟合效果越差.