人教A版(2019)选择性必修第三册 8.2.1 一元线性回归模型 课件(共22张PPT)

文档属性

名称 人教A版(2019)选择性必修第三册 8.2.1 一元线性回归模型 课件(共22张PPT)
格式 pptx
文件大小 2.9MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2025-08-06 15:02:56

图片预览

文档简介

知识框图
成对数据
相关性
2X2列联表
样本相关系数
一元线性回归模型
独立性检验
数值变量
分类变量
8.2 一元线性回归模型及其应用
8.2.1 一元线性回归模型
数学人教A版 选择性必修第二册
第八章 成对数据的统计分析
问题背景
生活经验告诉我们,儿子身高与父亲身高存在正线性相关关系,即父亲的身高较高时,儿子的身高通常也较高.
以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,由表中的成对样本数据作散点图,如图所示.
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高.
为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表所示.
确定两个变量的相关关系及强弱
问题提出
思考1:根据表中的数据或散点图,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
存在父亲身高相同,而儿子身高不同的情况.
也存在儿子身高相同,而父亲身高不同的情况。
不符合函数的定义,可见儿子身高和父亲身高之间不是函数关系,不能用函数模型刻画.
思考2:为什么儿子身高和父亲身高有相关关系而不是函数关系?
因为影响儿子身高的因素除了父亲身高这个主要因素外,还受其他随机因素的影响,如母亲身高、生活环境、饮食习惯、锻炼时间等.
思考3:考虑上述随机因素的影响,你能否用类似于函数的表达式来表示父亲身高x和儿子身高Y的关系?
问题解决
建立两个相关变量的统计模型
用x表示父亲身高,Y表示儿子身高,e表示随机误差.
假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,
则它们之间的关系可以表示为:
称该式为Y关于x的一元线性回归模型.
Y称为因变量或响应变量;
x称为自变量或解释变量;
a称为截距参数,
b称为斜率参数;
e是Y与bx+a之间的随机误差.
思考4:为什么要假设E(e)=0,而不假设它为某个不为0的常数?
因为随机误差表示大量已知和未知的影响因素之和,因为误差是随机的,即取各种正负误差的可能性一样,它们会相互抵消,所以随机误差的期望值应为0.
理解模型
一元线性回归模型的实际意义
用x表示父亲身高,Y表示儿子身高,e表示随机误差.
则它们之间的关系可以表示为下面的一元线性回归模型:
思考5:你能结合身高案例解释上述模型的意义吗?
由于E(Y)=bx+a,故模型可解释为父亲身高为xi的所有男大学生的身高(子总体)的均值E(Y)为bxi+a,即该子总体的均值与父亲身高是线性函数关系。
yi不一定为bxi+a,yi=bxi+a+ei,bxi+a是子总体的均值,yi只是该子总体中的一个样本值,这个样本值yi与均值E(Y)有一个误差项ei=yi?(bxi+a).
思考6:父亲身高为xi的某一名男大学生,他的身高yi一定为bxi+a吗?
理解为
理解模型
一元线性回归模型的实际意义
用x表示父亲身高,Y表示儿子身高,e表示随机误差.
则它们之间的关系可以表示为下面的一元线性回归模型:
理解为
思考7:你能结合上述身高案例解释模型中产生随机误差项e的原因吗?
(1)存在其他可能影响儿子身高Y的因素,如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)测量身高时,可能存在由测量工具、测量精度导致的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,而利用一元线性回归模型来近似刻画这种关系,这种近似产生了误差.
课堂小结
若Y与x呈现线性相关,则Y关于x的一元线性回归模型为:
Y称为因变量或响应变量;
x称为自变量或解释变量;
a,b为参数;
e是Y与bx+a之间的随机误差.
可理解为E(Y )=bx+a
yi不一定为bxi+a,观测值yi与子总体的均值E(Y)有一个误差项ei=yi?(bxi+a).
8.2 一元线性回归模型及其应用
8.2.2 一元线性回归模型参数的最小二乘估计
数学人教A版 选择性必修第二册
第八章 成对数据的统计分析
问题提出
思考1:如何从散点图中寻找到一条适当的直线,使得这些散点在整体上与这条直线尽可能接近?
方案1:先画出一条直线,测量出各点与直线的距离,然后移动直线,到达一个使距离的和最小的位置.测量出此时的斜率和截距,就可得到一条直线,如图.
方案2:在图中选择两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图.
方案3:在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距.
上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径.
问题提出
利用样本数据寻找一条适当的直线
思考2:如何利用成对样本数据,用数学方法刻画“从整体上看,各散点与直线最接近”?
析:可令n个样本点与直线的竖直距离之和最小
y=bx+a
问题分析
最小二乘法
问题解决
最小二乘法求经验回归方程
图形
推导
模型应用
模型理解
思考3:如何理解当x=176时,????≈????????????(????=176.621)的实际意义?
?
含义2:父亲身高为176 cm的所有儿子身高的均值的估计值为177 cm.
思考4:案例的经验回归方程中????的实际意义是什么?
?
斜率可以解释为父亲身高每增加1 cm,
其儿子身高平均增加0.839 cm.
含义1:由方程作出推测,当父亲身高为176 cm时,儿子身高一般在177 cm左右.
思考5:根据方程,父亲身高为多少时,长大成人的儿子身高和父亲身高一样?
模型理解
高个子父亲有生高个子儿子的趋势,矮个子父亲有生矮个子儿子的趋势,
思考6:分析案例中的经验回归方程还可得到什么结论?
一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,
例如:x=187 cm时,????=185.850cm;
?
一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,
例如:x=167 cm时,????=169.070cm;
?
儿子身高有向平均身高回归的趋势
英国统计学家高尔顿把这种后代身高向中间值靠近的趋势称为“回归现象”
(自阅课本P122-123了解“回归的含义”)
典型例题
【例1】某种产品的广告费用支出x与销售额Y(单位:百万元)之间有如下的对应数据:
(1)画出散点图; (2)求经验回归方程; (3)试预测广告费用支出为10百万元时,销售额多大?
新知学习
残差的定义
父亲身高x
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高
观测值yi
176
176
170
170
185
176
178
174
170
168
178
172
165
182
儿子身高预测值????
174.943
171.587
174.104
170.748
181.655
173.265
179.977
173.265
169.909
168.231
181.655
174.104
166.553
179.977
残差yi-????
1.057
4.413
-4.104
-0.748
3.345
2.735
-1.977
0.735
0.091
-0.231
-3.655
-2.104
-1.553
2.023
父亲身高x
174
170
173
169
182
172
180
172
168
166
182
173
164
180
儿子身高
观测值yi
176
176
170
170
185
176
178
174
170
168
178
172
165
182
174.943
171.587
174.104
170.748
181.655
173.265
179.977
173.265
169.909
168.231
181.655
174.104
166.553
179.977
1.057
4.413
-4.104
-0.748
3.345
2.735
-1.977
0.735
0.091
-0.231
-3.655
-2.104
-1.553
2.023
残差表:
残差=观测值-预测值
残差之和为0.027
(计算或测量时数据四舍五入)
新知学习
2.残差的作用:判断回归模型刻画数据的效果;发现原始数据中是否存在可疑数据,对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
1.残差分析途径:列残差表、作残差图.
以残差为纵坐标,以样本编号(或x)为横坐标.
若存在某几个样本点的残差绝对值较大,则为可疑数据,需予以纠正或剔除,再重新建立回归模型.
残差图:
残差有正有负,比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型中对于随机误差的假定.
带状区域宽度越窄,残差绝对值越小,且较均匀地落在横轴附近,说明回归方程预报的精度越高.
理解辨析
思考:观察图中的四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定,即E(e)=0,D(e)=?????????
?
残差与观测时间有线性关系,应将时间变量纳入模型
残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分
残差的方差不是一个常数,随观测时间的变大而变大
残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内
理解运用
练习.已知两个线性相关变量的统计数据如下表:
{69CF1AB2-1976-4502-BF36-3FF5EA218861}x
3
4
5
6
y
2.5
3
4
m
其回归直线方程是????=????.????????+????,据此计算,样本(4,3)处的残差
为﹣0.15,则表中m的值为( )
A.4 B.4.5 C.5 D.5.5
?
B
残差的概念
回归直线过样本点中心
课堂小结
回归分析的流程
(1)借助散点图直观观察或通过计算样本相关系数r(看正负/大小)判断成对样本数据间是否存在线性相关关系;
(2)若为线性相关,则计算????,????等,代入公式求参数????,????的值;
(3)写出经验回归方程????=????????+????;由方程对实际问题作出估计(预测).
(4)通过残差分析(残差绝对值小,带状宽度窄,均匀)判断模型刻画效果,若精度较好,则预测结果较可信.