1.1回归分析的基本思想及其初步应用(1)
项目
内容
课题
1.1回归分析的基本思想及其初步应用(1)
修改与创新
教学目标
通过典型案例的探究,进一步了解回归分析的基本思想、方法
巩固掌握回归分析的基本思想、方法初步应用.
掌握函数模型拟合效果优劣判断方法。
教学重、
难点
重点:了解线性回归模型与函数模型的差异
难点:了解判断刻画模型拟合效果的方法-相关指数和残差分析.
教学准备
直尺
教学过程
一、复习准备:
1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?
2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据作散点图求回归直线方程利用方程进行预报.
二、讲授新课:
1. 教学例题:
① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:
编 号
1
2
3
4
5
6
7
8
身高/cm
165
165
157
170
175
165
155
170
体重/kg
48
57
50
54
64
61
43
59
求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm的女大学生的体重. (分析思路教师演示学生整理)
第一步:作散点图 第二步:求回归方程
第三步:代值计算
② 提问:身高为172cm的女大学生的体重一定是60.316kg吗?
不一定,但一般可以认为她的体重在60.316kg左右.
③ 解释线性回归模型与一次函数的不同
事实上,观察上述散点图,我们可以发现女大学生的体重和身高之间的关系并不能用一次函数来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm的3名女大学生的体重分别为48kg、57kg和61kg,如果能用一次函数来描述体重与身高的关系,那么身高为165cm的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果(即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型,其中残差变量中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.
3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.
板书设计
1.1回归分析的基本思想及其初步应用(1)
1.相关关系
2.线性回归方程
3.
其中,
4.残差
课后反思
本节内容是对必修三的第二章线性回归的复习与深化。教学时,先让学生复习线性回归的相关知识。
相关关系是非确定关系,自然会联想到,利用回归方程进行预报,其准确性如何?如何衡量拟合的效果?进而引进课题。画出图残差后,让学生自己分析如何利用残差图判断拟合的效果。
主
1.1回归分析的基本思想及其初步应用(2)
项目
内容
课题
1.1回归分析的基本思想及其初步应用(2)
修改与创新
教学目标
通过典型案例的探究,进一步了解回归分析的基本思想、方法
巩固掌握回归分析的基本思想、方法初步应用.
掌握函数模型拟合效果优劣判断方法。
教学重、
难点
教学重点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
教学难点:了解评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
教学准备
直尺
教学过程
一、复习准备:
1.由例1知,预报变量(体重)的值受解释变量(身高)或随机误差的影响.
2.为了刻画预报变量(体重)的变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关?我们引入了评价回归效果的三个统计量:总偏差平方和、残差平方和、回归平方和.
二、讲授新课:
1. 教学总偏差平方和、残差平方和、回归平方和:
(1)总偏差平方和:所有单个样本值与样本均值差的平方和,即.
残差平方和:回归值与样本值差的平方和,即.
回归平方和:相应回归值与样本均值差的平方和,即.
(2)学习要领:①注意、、的区别;②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,即;③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效果越好;④对于多个不同的模型,我们还可以引入相关指数来刻画回归的效果,它表示解释变量对预报变量变化的贡献率. 的值越大,说明残差平方和越小,也就是说模型拟合的效果越好.
2. 教学例题:
例2 关于与有如下数据:
2
4
5
6
8
30
40
60
50
70
为了对、两个变量进行统计分析,现有以下两种线性模型:,,试比较哪一个模型拟合的效果更好.
分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.
(答案:,,
84.5%>82%,所以甲选用的模型拟合效果较好.)
3. 小结:分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏.
板书
设计
1.1回归分析的基本思想及其初步应用(2)
回归效果的三个统计量
总偏差平方和、残差平方和、回归平方和
相关指数
3.例2
课后反思
衡量相关关系拟合效果的第二章方法:相关指数。相关指数较为抽象,学生不太好理解。教学时,通过总偏差平方和、残差平方和、回归平方和概念的学习,让学生逐步理解相关指数的意义,由学生讨论得出相关指数R2的取值范围,R2的大小与拟合效果好与差的关系。
1.1回归分析的基本思想及其初步应用(3)
项目
内容
课题
1.1回归分析的基本思想及其初步应用(3)
修改与创新
教学目标
通过典型案例的探究,进一步了解回归分析的基本思想、方法
巩固掌握回归分析的基本思想、方法初步应用.
掌握函数模型拟合效果优劣判断方法。
教学重、
难点
教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.
教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较.
教学准备
直尺
教学过程
一、复习准备:
1. 给出例3:一只红铃虫的产卵数和温度有关,现收集了7组观测数据列于下表中,试建立与之间的回归方程.
温度
21
23
25
27
29
32
35
产卵数个
7
11
21
24
66
115
325
(学生描述步骤,教师演示)
2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.
二、讲授新课:
1. 探究非线性回归方程的确定:
① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.
② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=的周围(其中是待定的参数),故可用指数函数模型来拟合这两个变量.
③ 在上式两边取对数,得,再令,则,而与间的关系如下:
X
21
23
25
27
29
32
35
z
1.946
2.398
3.045
3.178
4.190
4.745
5.784
观察与的散点图,可以发现变换后样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.
④ 利用计算器算得,与间的线性回归方程为,因此红铃虫的产卵数对温度的非线性回归方程为.
⑤ 利用回归方程探究非线性回归问题,可按“作散点图建模确定方程”这三个步骤进行.
其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.
三、巩固练习:
为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;
(2)试求出预报变量对解释变量的回归方程.(答案:所求非线性回归方程为.)
1. 提问:在例3中,观察散点图,我们选择用指数函数模型来拟合红铃虫的产卵数和温度间的关系,还可用其它函数模型来拟合吗?
441
529
625
729
841
1024
1225
7
11
21
24
66
115
325
2. 讨论:能用二次函数模型来拟合上述两个变量间的关系吗?(令,则,此时与间的关系如下:
观察与的散点图,可以发现样本点并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线来拟合与之间的关系. )小结:也就是说,我们可以通过观察变换后的散点图来判断能否用此种模型来拟合. 事实上,除了观察散点图以外,我们也可先求出函数模型,然后利用残差分析的方法来比较模型的好坏.
二、讲授新课:
1. 教学残差分析:
① 残差:样本值与回归值的差叫残差,即.
② 残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.
③ 残差图:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图. 观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.
2. 例3中的残差分析:
计算两种模型下的残差
一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果. 残差平方和越小的模型,拟合的效果越好.
由于两种模型下的残差平方和分别为1450.673和15448.432,故选用指数函数模型的拟合效果远远优于选用二次函数模型. (当然,还可用相关指数刻画回归效果)
3. 小结:残差分析的步骤、作用
三、巩固练习:练习:教材P13 第1题
板书设计
1.1回归分析的基本思想及其初步应用(3)
1.非线性回归关系
2. 非线性回归方程的求解
例3
教学反思
非线性回归关系是对线性回归关系的深化,它与线性回归关系又存在密切的联系。对例3,教师带领学生分析,由样本数据,画出散点图,但这些点不在一条直线附近,而是在指数函数图像附近,或抛物线附近,如何来求相应的回归方程?教师引导学生分析,是否可以化未知为已知,由线性关系来求非线性关系的方程。
1.2独立性检验的基本思想及其初步应用(1)
项目
内容
课题
1.2独立性检验的基本思想及其初步应用(1)
修改与创新
教学目标
通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题;
借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检
验的实施步骤与必要性.
3、初步掌握独立性检验的方法。
教学重、
难点
教学重点:理解独立性检验的基本思想及实施步骤.
教学难点:了解独立性检验的基本思想、了解随机变量的含义.
教学准备
直尺
教学过程
一、复习准备:
回归分析的方法、步骤,刻画模型拟合效果的方法(相关指数、残差分析)、步骤.
二、讲授新课:
1. 教学与列联表相关的概念:
① 分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.
② 列联表:分类变量的汇总统计表(频数表). 一般我们只研究每个分类变量只取两个值,这样的列联表称为. 如吸烟与患肺癌的列联表:
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸 烟
2099
49
2148
总 计
9874
91
9965
2. 教学三维柱形图和二维条形图的概念:
由列联表可以粗略估计出吸烟者和不吸烟者患肺癌的可能性存在差异.(教师在课堂上用EXCEL软件演示三维柱形图和二维条形图,引导学生观察这两类图形的特征,并分析由图形得出的结论)
3. 独立性检验的基本思想:
① 独立性检验的必要性(为什么中能只凭列联表的数据和图形下结论?):列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.
② 独立性检验的步骤(略)及原理(与反证法类似):
反证法
假设检验
要证明结论A
备择假设H
在A不成立的前提下进行推理
在H不成立的条件下,即H成立的条件下进行推理
推出矛盾,意味着结论A成立
推出有利于H成立的小概率事件(概率不超过的事件)发生,意味着H成立的可能性(可能性为(1-))很大
没有找到矛盾,不能对A下任何结论,即反证法不成功
推出有利于H成立的小概率事件不发生,接受原假设
③ 上例的解决步骤
第一步:提出假设检验问题 H:吸烟与患肺癌没有关系 H:吸烟与患肺癌有关系
第二步:选择检验的指标 (它越小,原假设“H:吸烟与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H:吸烟与患肺癌有关系”成立的可能性越大.
第三步:查表得出结论
P(k2>k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.84
5.024
6.635
7.879
10.83
本课小结:了解独立性检验的基本思想、了解随机变量的含义.
板书设计
1.2独立性检验的基本思想及其初步应用(1)
1. 分类变量
2. 列联表
3. 独立性检验的基本思想
教学反思
独立性检验是统计的一个全新概念,对独立性检验的基本思想,学生不容易理解,教学时,教师通过学生熟知的问题,对其基本思想进行阐述,以帮助学生理解。对计算K2的公式,教师简单解释一下,对学生不做过高要求。
1.2独立性检验的基本思想及其初步应用(2)
项目
内容
课题
1.2独立性检验的基本思想及其初步应用(2)
修改与创新
教学目标
通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题;
借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检
验的实施步骤与必要性.
3、初步掌握独立性检验的方法。
教学重、
难点
教学重点:理解独立性检验的基本思想及实施步骤.
教学难点:了解独立性检验的基本思想、了解随机变量的含义.
教学准备
直尺
教学过程
一、复习准备:
独立性检验的基本步骤、思想
二、讲授新课:
1. 教学例1:
例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?
① 第一步:教师引导学生作出列联表,并分析列联表,引导学生得出“秃顶与患心脏病有关”的结论;
第二步:教师演示三维柱形图和二维条形图,进一步向学生解释所得到的统计结果;
第三步:由学生计算出的值;
第四步:解释结果的含义.
② 通过第2个问题,向学生强调“样本只能代表相应总体”,这里的数据来自于医院的住院病人,因此题目中的结论能够很好地适用于住院的病人群体,而把这个结论推广到其他群体则可能会出现错误,除非有其它的证据表明可以进行这种推广.
2. 教学例2:
例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
喜欢数学课程
不喜欢数学课程
总 计
男
37
85
122
女
35
143
178
总 计
72
228
300
由表中数据计算得到的观察值. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?
(学生自练,教师总结)
强调:①使得成立的前提是假设“性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确;
②结论有95%的把握认为“性别与喜欢数学课程之间有关系”的含义;
③在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可忽视.
3. 小结:独立性检验的方法、原理、步骤
三、巩固练习:
某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况与生理健康有关”?
不健康
健 康
总计
不优秀
41
626
667
优 秀
37
296
333
总 计
78
922
1000
本课小结:掌握等高条形图的画法,掌握独立性检验的基本思想及实施步骤.
板书设计
1.2独立性检验的基本思想及其初步应用(2)
独立性检验的基本步骤、思想和计算公式
例1
例2
教学反思
对上一节所学内容,本节通过两道例题,加深对独立性检验的基本思想理解。例题的计算由学生自己完成,差临界值表,教师予以指导。对问题的回答,让学生分析,除了在指定的犯错的概率下,认为两者有无关系外,还可以回答为,有多大的概率认为两者有无关系。同时,让学生明白,这只是在相应概率下认为有无关系,而不是一定有或没有关系。