8.2.1 一元线性回归模型
内容与内容解析
内容:构建一元线性回归模型,理解一元线性回归模型.
内容解析:
构建统计模型的必要性:通过具体实例说明函数模型不能刻画线性相关关系.
引入随机误差的合理性:除父亲身高外影响儿子身高的其他次要因素:母亲身高、生活环境、饮食习惯、体育锻炼等,统称随机误差.
假设随机误差的可行性:随机误差取正取负的可能性相同,均值为0是理想状态,假设,既体现随机性,又便于问题的研究.
构建统计模型的科学性:将一个随机变量表示成一个主要的确定性的量与一个次要的随机量之和,只要控制次要的随机量在一定的范围之内,那么随机问题就可以通过研究确定性问题得到理想的结果.
教学重点:一元线性回归模型的概念,随机误差的概念,表示与假设.
目标与目标解析
目标:结合具体实例,通过分析变量间的关系建立一元线性回归模型,并能说明模型参数的统计意义,提高数据分析能力.
目标解析:
达成上述目标的标志分别是:
通过具体实例分析得到,具有线性相关性的两个变量关系不能用函数模型刻画.
知道随机误差产生的原因和影响,知道随机误差的表示与假设.
知道回归模型与函数模型的区别.
能说明模型中斜率参数的统计意义.
教学问题诊断解析
问题诊断
随机误差的概念、表示及假设:这是学生第一次接触随机误差的概念,为便于学生理解,通过具体实例引入随机误差的概念及表示,便于学生理解;接着教师通过绘制的散点图和回归直线,直观展示随机误差,便于理解随机误差的特征,顺势提出随机误差的假设.
一元线性回归模型的建立:通过具体实例学生比较好理解,不容易理解为什么要假设,通过设置问题6,使学生认识到因变量或响应变量也是一个随机变量,基于简洁性对随机变量做合理的假设.由此,理解研究随机问题的重要思想,即将一个随机变量表示成一个主要的确定性的量与一个次要的随机量之和,只要控制次要的随机量在一定的范围之内,那么随机问题就可以通过研究确定性问题得到理想的结果.
教学难点:回归模型与函数模型的区别,随机误差产生的原因与影响.
教学支持条件分析
如何理解随机误差及一元线性回归模型是本节课的重难点,教学中借助GeoGebra软件 和PPT软件,直观展示散点图、相关系数、回归直线和随机误差,使知识可视化,帮助 学生理解.
教学过程设计
引导语
通过前面的学习,我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
1.情境导入
案例 生活经验告诉我们,儿子的身高与父亲的身高相关.一般来说,父亲的身高较高时,儿子的身高通常也较高.为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表1所示.
表1
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
问题1 由这组样本数据能否推断儿子的身高与父亲的身高有关系?关系的相关程度如何?是函数关系还是线性相关关系?为什么?
学生活动 要求学生整理和表示数据,通过分小组合作完成.以横轴表示父亲的身高,纵轴表示儿子的身高,建立平面直角坐标系,再将表中的成对样本数据表示为散点图.然后根据散点图作解读,回答问题.
教师活动 教师使用GeoGebra软件作为教学支持工具解决问题.
散点图:如右图
相关系数
设计意图:通过一个具体案例,对前面学习的内容做系统回顾,同时又可以作为探究一元线性回归模型的例子.
2.案例探究
通过问题1,我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断父亲身高和儿子身高两个变量是正线性相关,且相关程度较高.进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的相关关系.
问题2 根据表1的数据,儿子身高与父亲身高这两个变量之间的关系,能用函数模型刻画吗?
师生活动 教师引导学生观察表格中的数据,启发学生根据函数的概念进行分析,做出判断.引导学生观测第6对和第8对数据,父亲的身高均为172厘米,而对应的儿子的身高为分别为176厘米和174厘米.显然,儿子的身高不是父亲身高的函数,因为不符合函数的定义,如果儿子的身高是父亲身高的函数,那么对于给定的父亲身高172厘米,与之对应的儿子身高应该是唯一确定的一个数值.同样在第3对和第4对观测数据中,儿子的身高都是170厘米,而父亲的身高分别是173厘米和169厘米,可见父亲的身高也不是儿子身高的函数,所以不能用函数模型来刻画.(见图1和图2)
设计意图:既复习函数概念,又明确了对于俩个相关变量间的关系不能使用函数模型研究.
问题3 从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条从左下角到右上角直线附近,表明儿子身高和父亲身高有较强的线性关系,我们可以这样理解,由于有其他因素的存在,使得儿子身高和父亲身高有关系但不是函数关系.那么请你说说影响儿子身高的其他因素是什么?
师生活动 通过组织学生讨论问题,形成以下主要结论:影响儿子身高的因素,除父亲的身高外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高不是父亲身高的函数的原因是存在这些随机的因素.
设计意图:找出父亲身高和儿子身高不能用函数模型刻画的原因.
问题4 如何理解随机误差对儿子身高的影响?
师生活动 教师指出,如果用表示父亲身高,表示儿子的身高,用表示各种其他随机因素影响之和,称为随机误差,由于儿子身高与父亲身高线性相关,假设没有随机误差,则儿子身高只受父亲身高影响,则 ,
事实上,相关系数 ,故 ,
也可以记作 .
设计意图:理解影响儿子身高的因素,并用数学语言刻画它们之间的关系.
问题5 随机误差有哪些特征?
师生活动 通过组织学生讨论问题,形成以下主要结论:可取正或取负,有些无法测量,不可事先设定,故是一个随机变量.
由于随机误差表示大量已知和未知的各种影响之和,是随机的,即取各种正负误差的可能性一样,他们会相互抵消(如图3),所以它们均值的理想状态应该为零.为使问题简洁,可以假设随机误差的均值为零,方差为与父亲身高无关的定值.
设计意图:了解随机误差特征,虽然单个随机误差是无法预先设定的,但是随机误差的总体可以定量刻画.
3.模型建构
问题6 你能否考虑到这些随机因素的作用,用类似于函数的表达式,表达儿子身高与父亲身高的关系吗?
师生活动 教师引导学生写出
称(1)式为的一元线性回归模型(simple linear regression model).其中称为因变量或响应变量,称为自变量或解释变量,为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差;模型中的是随机变量,其值虽然不能由变量的值确定,但却能表示为与的和(叠加),前一部分由唯一确定,后一部分是随机的.如果,那么之间的关系就可以用一元线性函数模型来描述.
设计意图:了解随机现象,并尝试用数学语言描述随机现象.
追问 为什么要假设而不假设为某个不为零的常数?
师生活动:教师引导学生分析问题,并适时指出,随机误差通常服从正态分布,如果随机误差的均值为一个不为零的常数,则表示存在系统误差,在实际建模中,也不希望模型有系统误差,即模型不存在非随机误差.
设计意图:理解研究随机问题的重要思想,即将一个随机变量表示成一个主要的确定性的量与一个次要的随机量之和,只要控制次要的随机量在一定的范围之内,那么随机问题就可以通过研究确定性问题得到理想的结果.
模型理解
问题7 已知父亲身高,能用一元线性回归模型 确定儿子身高吗?
师生活动:教师引导学生分析问题,并得出结论:不能,因为随机误差不可事先设定.当父亲身高为,对应的儿子身高不是唯一确定的,而是有很多可能的取值,记作,它们的均值为:
可以解释为父亲身高为的所有男大学生身高组成一个子总体,该子总体的均值为,即该子总体的均值与父亲的身高是线性函数关系.而对于父亲身高为的某一名男大学生,他的身高并不一定为,它仅是该子总体的一个观测值,这个观测值与均值有一个误差项.
设计意图:通过具体实例,加深学生对一元线性回归模型的理解.
问题8 一元线性回归模型有何作用
师生活动:教师引导学生分析问题,并适时指出:当父亲身高为时可以通过了解儿子身高的总体情况,从而预测儿子的身高.
设计意图:通过具体实例,使学生了解一元线性回归模型的作用.
问题9 你能结合具体实例解释产生模型(1)中随机误差项的原因吗?
师生活动:组织学生展开讨论,形成共识,在研究儿子身高与父亲身高的关系时,产生随机误差的原因有:
除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等.
在测量儿子身高时,由于测量工具、测量精度所产生的测量误差.
实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似关系也是产生随机误差的原因.
设计意图:通过具体实例,加深学生对随机误差的理解.
5.学以致用
某人计算出父亲身高与儿子身高的一元线性回归模型
中参数 ,请说明参数的含义是什么?
师生活动:教师引导学生分析问题,并适时指出:父亲身高每增加1厘米,儿子身高的均值增加0.839厘米.
设计意图:通过具体实例,使学生认识一元线性回归模型中参数的统计意义.
6.归纳小结
问题10 回顾建立一元线性回归模型的过程,你能说出建立回归模型的依据,并谈一谈对回归模型的认识吗
师生活动:要求学生思考后回答并相互补充,教师进行总结.
由于成对样本数据的散点图中,散点分布在一条直线的周围,因此可以用表示的均值,引入随机误差,用以囊括其他所有随机影响因素,可建立一元线性回归模型
在一元线性回归模型中,表达式刻画的是随机变量与变量之间的线性相关关系,其中参数和为模型的未知参数,需要根据成对样本数据进行估计.
设计意图:帮助学生进一步厘清一元线性回归模型的含义,掌握用数学语言表达随机事件,了解总体参数与样本数据之间的关系.
7.布置作业
教科书第107页练习第1,2,3题.
板书设计
8.2.1 一元线性回归模型 1.随机误差 (1)引入 母亲身高 生活环境 饮食习惯 随机误差 (与父亲身高无关的因素) 体育锻炼 …… (2)特征 随机变量,取正取负可能性相同 (3)假设 2.一元线性回归模型 (1)构建 理解 研究路径: 研究问题需要 相关关系不能用函数模型刻画 引入随机误差 母亲身高、生活环境等 构建回归模型 主要确定性量+次要随机量 理解回归模型 子总体的均值与解释变量 成线性函数关系
目标检测设计
某地某品牌太阳镜2020年12个月的销售量与广告投入如表2所示.
表2
月份 1 2 3 4 5 6 7 8 9 10 11 12
广告费用/万元 2 5 6 7 22 25 28 30 22 18 10 2
销售量/万件 75 90 148 183 242 263 278 318 256 200 140 80
销售量与广告费用之间是函数关系还是相关关系?
销售量与广告费用之间的关系能否用一元线性回归模型来刻画?
请说明模型中分别表示什么?本题中的具体含义是什么?
设计意图:通过具体实例,回顾建立一元线性回归模型的过程,理解随机误差和回归模型.