人教A版(2019)选择性必修三 8.2.1一元线性回归模型 课件(22张ppt)

文档属性

名称 人教A版(2019)选择性必修三 8.2.1一元线性回归模型 课件(22张ppt)
格式 pptx
文件大小 982.3KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2023-05-19 23:35:41

图片预览

文档简介

(共22张PPT)
复习回顾
1. 样本相关系数:
2.相关系数的性质:
① 当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.
② |r|≤1;
③ 当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱;特别地,当|r|=0时,成对数据的没有线性相关关系;当|r|=1时,成对数据都落在一条直线上.
第八章 成对数据的统计分析
8.2.1 一元线性回归模型
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等. 进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
课堂探究
问题1:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高。
课堂探究
问题2:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
函数模型要求“集合A中的任意一个数,在集合B中都存在唯一的数与它对应”
课堂探究
问题3:为什么儿子身高和父亲身高有较强的线性关系但不能用函数关系表示?.
影响儿子身高的因素除父亲的身高外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高不是父亲身高的函数的原因是存在这些随机的因素.
课堂探究
问题4:由问题3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性,各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?
如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其他随机因素影响之和,称e为随机误差,得到两个变量之间关系的线性回归模型.
Y=bx+a+e.
课堂探究
追问1:为什么要假设E(e)=0,而不假设其为某个不为0的常数?
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
课堂探究
若用x表示父亲身高,Y表示儿子身高,e表示随机误差. 假定随机误差e的均值为0,方差为与父亲身高无关的定值σ2,则它们之间的关系可以表示为
我们称(1)式为Y关于x的一元线性回归模型. 其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差. 模型中的Y也是随机变量,其值虽不能由变量x的值确定,但却能表示为bx+a与e的和,前一部分由x所确定,后一部分是随机的. 如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
课堂探究
你能结合父亲与儿子身高的实例,说明回归模型(1)的意义?
对于父亲身高为xi的某一名男大学生,他的身高yi一定是bxi+a吗?
课堂探究
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计. 由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
探究 利用散点图找出一条直线,使各散点在整体上与此直线尽可能接近.
课堂探究
目标:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度
然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
课堂探究
设满足一元线性回归模型的两个变量的n对样本数据为(x1, y1), (x2, y2), , (xn, yn), 由yi=bxi+a+ei (i=1, 2, , n),得
显然|ei|越小,表示点(xi , yi)与点(xi , bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如右图所示. 特别地,当ei = 0时,表示点(xi , yi)在这条直线上.
因此,可以用这n个竖直距离之和 来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”.
课堂探究
求a, b的值,使Q(a, b)最小
残差平方和:
残差:实际值与估计值之间的差值,即
课堂探究
思考:如何求a,b的值,使 最小?

课堂探究
注意到
所以
当 取最小值时, 取最小值0,即 .
此时
课堂探究
上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为
综上,当a,b的取值为 时, Q达到最小.
课堂探究
易得:(1)经验回归直线必过样本中心 ;
(2) 与相关系数r符号相同.
我们将 称为Y 关于x 的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫最小二乘法,求得的 , 叫做b,a的最小二乘估计.
经验回归方程与最小二乘估计:
课堂探究
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
对于上表中的数据,利用公式(2)可以计算出 得到儿子身高Y关于父亲身高x的经验回归方程为 相应的经验回归直线如下图所示.
课堂探究
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
例1 某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:
(1) 画出销售额和利润额的散点图;
(2) 计算利润额y对销售额x的经验回归直线方程.
解:(1) 散点图如下:
课堂探究
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
∴所求经验回归方程为
解1:(2)
课堂探究
∴所求经验回归方程为
解2:(2)
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
课堂小结
求经验回归方程的步骤: