8.2.1 一元线性回归模型-【新教材】人教A版(2019)高中数学选择性必修第三册 课件(12张PPT)

文档属性

名称 8.2.1 一元线性回归模型-【新教材】人教A版(2019)高中数学选择性必修第三册 课件(12张PPT)
格式 pptx
文件大小 350.3KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-09-21 09:01:05

图片预览

文档简介

(共12张PPT)
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
8.2.1 一元线性回归模型
(1)结合具体实例,通过分析变量间的关系建立一元线性回归模型;
(2)能说明模型参数的统计意义,提高数据分析能力.
重点:一元线性回归模型的概念,随机误差的概念、表示与假设.
难点:回归模型与函数模型的区别,随机误差产生的原因与影响.
问题1:生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为r≈0.886,表明儿子身高和父亲身高正线性相关,且相关程度较高。
问题2:根据表中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
列表法是函数的一种表示方法,但并不是所有列表表示的数据都是函数关系,要成为函数关系必须满足函数的定义,即应满足“集合A中的任意一个数,在集合B中都存在唯一的数与它对应”.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
表中的数据,存在父亲身高相同而儿子身高不同的情况.例如,第6个和第8个观测父亲的身高均为172cm,而对应的儿子的身高为176cm和174cm;同样在第3,4个观测中,儿子的身高都是170cm,而父亲的身高分别为173cm,169cm.可见儿子的身高不是父亲身高的函数同样父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
问题3:从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条直线附近表明儿子身高和父亲身高有较强的线性关系.我们可以这样理解,由于有其他因素的存在,使儿子身高和父亲身高有关系但不是函数关系.那么影响儿子身高的其他因素是什么?
影响儿子身高的因素除父亲的身外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高是父亲身高的函数的原因是存在这些随机的因素.
问题4:由问题3我们知道,正是因为存在这些随机的因素,使得儿子的身高呈现出随机性各种随机因素都是独立的,有些因素又无法量化.你能否考虑到这些随机因素的作用,用类似于函数的表达式,表示儿子身高与父亲身高的关系吗?
如果用x表示父亲身高,Y表示儿子的身高,用e表示各种其他随机因素影响之和,称e为随机误差,由于儿子身高与父亲身高线性相关,所以Y=bx+a.
Y=bx+a+e.
由于随机误差表示大量已知和未知的各种影响之和,它们会相互抵消,为使问题简洁,可以假设随机误差e的均值为0,方差为与父亲身高无关的定值。
即E(e)=0,D(e)=.
追问1:为什么要假设E(e)=0,而不假设其为某个不为0的常数?
因为误差是随机的,即取各种正负误差的可能性一样,所以它们均值的理想状态应该为0.
如果随机误差时一个不为0的常数,则可以将合并到截距项a中,否则模型无法确定,即参数没有唯一解。
另外,如果不为0,则表示存在系统误差,在实际建模中也不希望模型有系统误差,即模型不存在非随机误差。
我们称①式为Y关于x的一元线性回归模型.其中, Y称为因变量或响应变量, x称为自变量或解释变量.a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
问题5:请根据以上的分析,你能建立一个数学模型表示儿子身高与父亲身高的关系吗?

追问1:你能结合父亲与儿子身高的实例,说明回归模型①的意义?

可以解释为父亲身高为的所有男大学生身高组成一个子总体,该子总体的均值为b+a,即该子总体的均值与父亲的身高是线性函数关系.
而对于父亲身高为的某一名男大学生,他的身高yi并不一定为b+a,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项ei=yi --(+a).
问题6:你能结合具体实例解释产生模型①中随机误差项的原因吗?
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差e的原因.
产生随机误差e的原因有: