高中数学下人教A版选修2-3 3.2独立性检验的基本思想及其初步应用( 1) 教案和课件(37张PPT)

文档属性

名称 高中数学下人教A版选修2-3 3.2独立性检验的基本思想及其初步应用( 1) 教案和课件(37张PPT)
格式 zip
文件大小 3.4MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2020-06-30 09:13:18

文档简介

(共37张PPT)
独立性检验的基本思想及其初步应用(1)
高二年级
数学
问题1
前面我们学习了回归分析的基本思想及其初步应用.
什么是回归分析呢?
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
回顾案例“女大学生的身高和体重的关系”研究过程
编号
1
2
3
4
5
6
7
8
身高
/
cm
165
165
157
170
175
165
155
170
体重
/
kg
48
57
50
54
64
61
43
59
8名女大学生的身高和体重数据,如下表所示.
第一步:明确解释变量和预报变量,画散点图.
回归分析的步骤
第一步:明确解释变量和预报变量,画散点图.
回归分析的步骤
判断:身高和体重具有较好的线性相关关系.
第二步:求线性回归方程.
线性回归模型:
回归方程:
问题2
如何判断模型拟合效果的好坏?
衡量标准
最小二乘估计:
第三步:残差分析
8名女大学生的身高、体重数和相应残差数据,如下表所示:
编号
1
2
3
4
5
6
7
8
身高
/
cm
165
165
157
170
175
165
155
170
体重
/
kg
48
57
50
54
64
61
43
59
残差
-6.373
2.627
2.419
-4.618
1.137
6.627
-2.883
0.382
初步感知:第1个和第6个样本数据残差较大.
(1)列表格初步感知.
残差:
第三步:残差分析
(2)画残差图直观判断.
直观判断:第1个
和第6个样本点残差较大.
第三步:残差分析
(3)引入指标
准确刻画.
准确判断:女大学生的身高解释了64%的体重变化.
越接近于1
回归效果越好
编号
1
2
3
4
5
6
7
8
身高
/
cm
165
165
157
170
175
165
155
170
体重
/
kg
48
57
50
54
64
61
43
59
8名女大学生的身高和体重数据,如下表所示:
像身高、体重这样的变量称为数值变量.
分类变量:这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
性别
是否喜欢数学


喜欢数学
不喜欢数学
性别
喜欢数学
吸烟
患肺癌
主题:两个分类变量之间是否有关系?如何得到准确的判断呢?
探究:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:
思考:吸烟是否对患肺癌有影响?
像这样列出的两
个分类变量的频
数表,称为列联表.
不患肺癌
患肺癌


不吸烟
7775
42
7817
吸 烟
2099
49
2148
总 计
9874
91
9965
吸烟与患肺癌列联表
不患肺癌
患肺癌


不吸烟
7775
42
7817
吸 烟
2099
49
2148
总 计
9874
91
9965
初步感知:吸烟群体和不吸烟群体患肺癌的可能性存在差异.
(1)
通过列联表初步感知
(2)
通过等高条形图直观判断
直观判断:吸烟群体和不吸烟群体患肺癌的可能性存在差异.
问题3
能否根据图形得到“吸烟”与“患肺癌”的关系呢?
列联表
吸烟与患肺癌有关
等高条形图
散点图
身高与体重线性相关
直观
“身高”可以解释64%“体重”变化
残差
问题4
我们有多大的把握认为“吸烟和患肺癌有关”?
这种判断能否有衡量的标准?
(3)
通过独立性检验准确判断
直观判断:吸烟与患肺癌有关
假设
:吸烟与患肺癌没有关系
吸烟与患肺癌没有关系
吸烟与患肺癌独立
假设
成立
事件A的发生不会影响事件B发生的概率,事件A与事件B相互独立.
事件A:不吸烟
事件B:不患肺癌
事件AB
:不吸烟且不患肺癌
不患肺癌
患肺癌


不吸烟
a
b
a+b
吸 烟
c
d
c+d
总 计
a+c
b+d
a+b+c+d
a是事件
“不吸烟且不患肺癌”发生的频数.
a+b是事件
“不吸烟”发生的频数.
a+c是事件
“不患肺癌”发生的频数.
样本容量n=a+b+c+d
频率近似于概率
假设
:“吸烟与患肺癌没有关系”成立
成立时,有:
假设
:“吸烟与患肺癌没有关系”成立
成立时,有:
越小
“吸烟”与“患肺癌”之间关系越弱
越大
“吸烟”与“患肺癌”之间关系越强
建立统一标准
构造一个随机变量
假设
成立,即“吸烟与患肺癌没有关系”
若假设
成立
的值应该很小
问题5:在假设
成立的条件下,
的值应具有怎样的特点?
建立统一标准
的值应该很小
假设
“吸烟与患肺癌没有关系”成立
的观测值
问题6
大或者小的判断标准该如何确定呢?
建立统一标准
第一行
为根据实际问题的需要,容许推断“两个分
类变量有关系”犯错误概率的上界.
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
说明:
第二行
为随机变量
的判断标准,即与“犯错概率
的上界”对应的“临界值”.
建立统一标准
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
的“临界值”
犯错误概率的上界
假设
:吸烟与患肺癌没有关系.
假设
成立的条件下,
的值应该很小.
的观测值
与假设
矛盾.
假设
:“吸烟与患肺癌没有关系”不成立.
原结论:“吸烟与患肺癌有关系”
成立.
建立统一标准
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
犯错误概率的上界
的“临界值”
的观测值
在犯错误的概率不超过0.01的条件下,有99%的把握认为“吸烟与患肺癌有关系”.
建立统一标准
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
假设
不成立,
原结论:“吸烟与患肺癌有关系”
成立
在犯错误的概率不超过0.001的条件下,有99.9%的把握认为“吸烟与患肺癌有关系”.
问题7
能否在犯错误的概率不超过0.001的前提下认为吸烟与患肺癌有关系?
直观判断:吸烟与患肺癌有关.
假设
:吸烟与患肺癌没有关系.
过程回顾
构造一个随机变量

计算
的观测值约为56.632.
由于容许犯错误概率的上界为0.01,确定
的临界值6.635.
的观测值
远大于
.
假设
不成立,
原结论成立.
该推断犯错误的概率不超过0.01.
479591700@qq.com:
直观判断:两个分类变量X
和Y
有关系.
假设
:两个分类变量X
和Y
没有关系.
抽象概括
计算
.若
成立,则
的观测值应该很小.
该推断犯错误的概率不超过
.

,则认为“两个分类变量X
和Y
有关系”.
否则
,认为“两个分类变量X
和Y
没有关系”.
根据容许犯错误概率的上界
,确定
的临界值
.
抽象概括
上面这种利用随机变量
来判断在多大程度上可以
认为
“两个分类变量有关系”的方法,称为独立性检验.
给出了将
“两个分类变量没有关系”错判为“两
个分类变量有关系”的概率.
优点
(3)
通过独立性检验准确判断
反证法原理
独立性检验的原理
目标
假设
推理
成立
的条件
异同比较深化理解
异同比较深化理解
相同点:
不同点:
基本思想类似:都是先假设结论不成立,然后根据是否能推出“矛盾”来断定结论是否成立.
矛盾有区别:为证明
成立,反证法需要出现与
不相符合的逻辑矛盾;而独立性检验需要出现与
不相符合的小概率事件.
不患肺癌
患肺癌


不吸烟
7775
42
7817
吸 烟
2099
49
2148
总 计
9874
91
9965
判断“两个分类变量X
和Y有关系”方法总结
列联表
求频率
比大小
作判断
步骤
方法1
列联表
方法2
绘等高条形图
列联表
求频率
绘图形
比高低
作判断
步骤
判断“两个分类变量X
和Y
有关系”
方法总结
(1)假设
:两个分类变量X
和Y
没有关系
方法3
独立性检验
(4)作判断,若
,则认为“两个分类变量
X
和Y
有关系.
(2)根据容许犯错误概率的上界
,确定
的临界值
.
犯错概率不超过
判断“两个分类变量X
和Y
有关系”
方法总结
(3)比较随机变量
的观测值

的大小
画图
引入指标
准确刻画
“身高”可以解释64%
“体重”变化
引入随机变量
准确刻画
99%的把握认为“吸烟”
和“患肺癌”有关
数值变量和分类变量研究思路相通
犯错概率不超过0.01
列表
列表
画图
问题8
本节课我们学习了哪些知识?体会到了怎样的思想方法?
课堂小结
知识
方法1
通过列联表初步感知
方法2
绘等高条形图直观判断
列联表
求频率
比大小
作判断
列联表
求频率
绘图形
比高低
作判断
课堂小结
方法3
独立性检验准确判断
方法
确定犯错上界
确定临界值
作判断

大小
反证法原理
独立性检验的原理
目标
证明命题
检验判断
:“两个分类变量有关系”
假设
假设
的否定命

成立
假设
的对立事件
成立
推理
若推导出与
不相符合的矛盾,则假设
错误,原命题
完全成立。
若出现与
相矛盾的小概率事件,则假设
不成立,原结论
成立。
成立
的条件
假设
下推导出矛盾
发生了与
矛盾的小概率事件
课堂小结
3独立性检验的基本思想
思想
有甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩之后,得到如下列联表:
请画出列联表的等高条形图,并通过图形判断成绩与班级是
否有关系;根据列联表的独立性检验,能否在犯错误的概率
不超过0.01的前提下认为成绩与班级有关?
优秀
不优秀


甲班
10
35
45
乙班
7
38
45
总计
17
73
90
课后作业教

教学基本信息
课题
3.
2.1
独立性检验的基本思想及其初步应用(1)
学科
数学
学段:
高中
年级
高二
教材
书名:普通高中课程标准实验教科书数学选修2-3(A版)
出版社:人民教育出版社
出版日期:2009年4月
教学目标及教学重点、难点
教学目标:
(1)通过回顾回归分析的基本思想及应用步骤,获得研究统计案例的一般思路,并尝试将此应用于新的统计案例中。
(2)在案例
“吸烟是否与患肺癌有关系”的探究过程中,经历直观感知、理性分析、抽象概括的历程。体会独立性检验的基本思想,归纳独立性检验的基本步骤,发展数学抽象核心素养,提高分析问题解决问题的能力。
(3)通过对两个分类变量相关性的探究,发展理性思维,进一步体会科学的严谨性。
教学重点:
理解独立性检验的基本思想及实施步骤
教学难点:
了解独立性检验的基本思想、了解K2的含义
教学过程(表格描述)
教学环节
主要教学活动
设置意图
引入
问题1
前面我们学习了回归分析的基本思想及其初步应用.什么是回归分析呢?
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.我们通过案例“女大学生的身高和体重的关系”介绍了这种思想。
在此,我们对研究过程作以简单回顾:
8名女大学生的身高和体重数据,如下表所示:
第一步:明确解释变量和预报变量,画散点图
直观判断:身高和体重具有较好地线性相关关系。
第二步:求线性回顾方程
根据最小二乘法求出斜率和纵截距的估计值,得到了回归方程:
第三步:残差分析:
问题2
如何判断回归模型拟合效果的好坏?
引入了残差的概念,,对回归方程进行了残差分析。步骤如下:
列表格表初步感知
8名女大学生的身高、体重及相应残差数据,如下表所示:
初步感知:第1个样本数据和第6个样本数据残差较大。
画残差图直观判断
直观判断:第一个和第六个样本点残差较大,离横轴较远。需要确认数据采集是否有误,如果有,则需修正后重新建立回归模型。
引入指标准确刻画
引入了一个衡量模型拟合效果的指标:
越接近于1,表示回归的效果就越好。案例中的0.64,即女大学生的身高解释了64%的体重变化。
残差表和残差图可以让我们直观感知到回归模型拟合程度的好坏,而指标却将这种拟合程度的好坏进行了比较准确地量化,让我们对两个变量的相关关系有了更清晰的了解。
引入:在上述案例中,我们的样本数据为8名女大学生的身高和体重。这里的“身高”和“体重”是两个变量,
它们的取值一定是实数,取值大小有特定的含义,不同值之间地运算也有特定的含义。比如1号同学的身高是165厘米,4号同学的身高是170厘米,通过减法运算,二者的身高差为5厘米
。像“身高”、“体重”这样的变量称为数值变量。我们熟知的长度、速度、温度都是常见的数值变量。而生活中还有其他一些变量,比如:
性别,性别也是一个变量,
它的取值只有男和女两种。再比如:
是否喜欢数学,
它的取值为喜欢数学和不喜欢数学两种。还有:是否吸烟、国籍、宗教信仰等等。
这些变量的值既不能比较大小,也不能相互运算,变量的不同值仅表示个体所属的不同类别,我们称这样的变量为分类变量。日常生活中,分类变量是大量存在的,我们常常关心两个分类变量之间是否有关系呢?比如,性别对喜欢数学课程是否有影响?吸烟与患肺癌是否有关系?如何得到准确的判断呢?
这就是我们今天要研究的主题,我们将通过统计学的理论来判断两个分类变量是否有关系。
复习两个定量变量是否相关及相关强弱的判断方法,回顾回归分析的基本思想及应用步骤,获得研究统计案例的一般思路,并尝试将此应用于判断两个分类变量是否相关的统计案例中。
体会表格初步感知,图形直观判断,拟合优度准确刻画。
选择贴近学生生活的素材引入,体会数值变量和分类变量的区别。引入课题。
新课
数值变量:变量的取值一定是实数,取值大小有特定地含义,不同值之间地运算也有特定的含义,像这样的变量称为数值变量。比如长度、速度、温度等。
分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。
了解数值变量和分类变量,知道二者的区别
例题
探究:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:
问题:吸烟是否对患肺癌与有影响?
1、通过列联表粗略估计“吸烟与患肺癌有关”
列联表:像上表这样列出的两个分类变量的频数表,称为列联表。
计算:
在不吸烟者样本中,患肺癌的频率为
≈0.54%;在吸烟样本中,患肺癌的频率为≈2.28%
判断:2.28%明显大于0.54%
结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异。
2、通过等高条形图直观地判断出“吸烟与患肺癌有关”
问题3:我们能否根据图形得到“吸烟”与“患肺癌”的关系呢?
判断:比较不吸烟和吸烟两个色条内部绿色条的高可以发现,在吸烟样本中患肺癌的频率要高一些。
结论:
“吸烟群体和不吸烟群体患肺癌的可能性存在差异”,即“吸烟与患肺癌有关”。
问题4:我们有多大的把握认为“吸烟和患肺癌有关”?
借助样本数据的列联表和条形图得到的直观判断是“吸烟和患肺癌有关”。这种判断仅为直观感知,比较粗略。而这种来自于样本的数据在多大程度上能够代表总体?我们有多大的把握认为“吸烟和患肺癌有关”?这种分类变量的相关关系的强弱能否像数值变量的相关关系那样,有一个衡量的标准?本节课将通过统计理论-----独立性检验来解决这个问题。
3、独立性检验的建构
(1)构造随机变量
直观判断:吸烟与患肺癌有关
假设:吸烟与患肺癌没有关系
事件A:不吸烟,事件B:不患肺癌,事件AB:不吸烟且不患肺癌
“吸烟与患肺癌没有关系”
“吸烟与患肺癌相互独立”
所以事件A的发生不会影响事件B发生的概率,由独立事件的概率乘法公式可得:
即“假设”成立
将吸烟与患肺癌列联表中的数字用字母代替,得到用字母表示的列联表:
a:事件“不吸烟且不患肺癌”发生的频数
a+b:事件A“不吸烟”发生的频数
a+c:事件B“不患肺癌”发生的频数
样本容量n=a+b+c+d
由于频率近似于概率,则
假设H0:“吸烟与患肺癌没有关系”成立时,有
越小,越接近0,说明H0成立的可能性越大,吸烟与患肺癌之间的关系越弱;
越大,越远离0,说明H0成立的可能性越小,吸烟与患肺癌之间的关系越强。
为使不同样本容量的数据有统一的评判标准,科学家经过不断的实验,构造了这样一个随机变量:
(其中)
说明:

公式中的分母为样本中吸烟、不吸烟、患肺癌、不患肺癌四类群体的样本数的成绩,而分子为;

公式中的样本容量n越大,近似程度越高,在实际应用中,通常要求a,b,c,d都不小于5;
③此公式的推到需要很多概率统计的知识,感兴趣的同学可以在课后了解这方面的知识,这里只需要知道这个结果即可。
(2)确定大小的判断标准
问题5:在假设成立的条件下,的值应该有怎样的特点?
若假设成立,
即:吸烟与患肺癌没有关系
即:若成立
则的值应该很小。
根据吸烟与患肺癌列联表中的数据,计算得的观测值
问题6:
大或者小的判断标准该如何确定呢?
统计学家在长期的探索和研究中,创立了这样一个表格:
说明:
第一行为根据实际问题的需要,容许推断“两个分类变量有关系”犯错误概率的上界。
第二行为随机变量的判断标准,即与“犯错概率的上界”对应的“临界值”。
若犯错误概率的上界为0.01,须将的观测值与6.635这个临界值做比较即可。
在假设:“吸烟与患肺癌没有关系”
成立的条件下,的值应该很小
然而,的观测值,
远大于
6.635,这与假设是矛盾的。
所以断定假设:“吸烟与患肺癌没有关系”不成立
即认为原结论“
吸烟与患肺癌有关”成立。
该推断也会犯错,但犯错误的概率不超过0.01,在被现实允许的范围之内。
结论:在犯错的概率不超过0.01的条件下,有99%的把握认为“吸烟与患肺癌有关系”。
问题7:能否在犯错误的概率不超过0.001的前提下,认为“吸烟与患肺癌有关系”?
假设
成立,有
由于的观测值
10.828
则假设不成立
原判断“
吸烟与患肺癌有关”成立
但该推断也可能犯错,其犯错的概率不超过0.001
结论:在犯错误的概率不超过0.001的条件下,我们有99.9%的把握认为“吸烟与患肺癌有关系”。
总结:
的观测值要与哪个临界值做比较,应根据实际问题中容许犯错误的概率上界来确定。
三、独立性检验方法的提炼
1、过程回顾
判断:吸烟与患肺癌有关
假设:“吸烟与患肺癌没有关系”
构造了随机变量
若成立,
则应该很小
求出的观测值
由于容许犯错误概率的上界0.01,确定了的临界值6.635
又的观测值
远大于
6.635与假设矛盾
因此假设不成立
原结论:“吸烟与患肺癌有关”
成立
该推断犯错误的概率不超过0.01
2、抽象概括
将上述解决问题的方法其抽象为一般情况:
判断:“两个分类变量X和Y有关系”

假设:“两个分类变量没有X和Y没有关系”成立;
若成立,
则应该很小;
根据容许犯错误概率的上界,确定的判断标准,即临界值;
比较的观测值与;
若,则假设错误,原判断正确,即两个分类变量X和Y有关。该判断有可能犯错,将“两个分类变量有关”
错判为“两个分类变量无关”的概率不超过。
否则
,认为样本数据中没有足够的证据表明假设错误,即认
为两个分类变量没有关系。
像上面这种利用随机变量来判断在多大程度上可以认为
“两个分类变量有关系”的方法,称为独立性检验。其优点是给出了将“两个分类变量没有关系”错判为“两个分类变量有关系”的概率。
3、深化理解
从整体思路上看,独立性检验的思想与反证法的思想相类似:
独立性检验与反证法的基本思想是类似的:都是先假设结论不成立,然后根据是否能推出“矛盾”来断定结论是否成立。
但二者矛盾的含义是有区别的:
反正法在推导目标的过程中若出现与与不相符合的逻辑矛盾,则假设错误,原命题完全成立。独立性检验在推导目标的过程中若出现与与不相符的小概率事件,我们就推断假设不成立,原命题成立。但该推断有可能犯错误,其犯错误的概率不超过这个小概率事件的概率。
4、总结判断“两个分类变量有关系”的方法及相应步骤
方法①根据列联表初步感知:列联表
求频率
比大小
作判断;
方法②绘等高条形图直观判断:列联表
求频率
绘图形
比高低
作判断;
指出:这两种方法能够直观地得到两个分类变量是否相关,但不能推断出到底有多大的把握认为“两个分类变量有关系”。而独立性检验恰好可以弥补这个不足,它可以给出推断“两个分类变量有关系”的犯错误概率。
方法③独立性检验准确量化:
要检验“两个分类变量X和Y有关系”
第一步,提出假设:两个分类变量X和Y没有关系;
第二步;根据实际问题容许的犯错上界,确定的临界值;
第三步,将随机变量的观测值与比较;
第四步,作出判断。当,则认为两个分类变量X和Y有关系,这种推断犯错误的概率不超过;否则认为样本数据中没有足够的证据支持“两个分类变量X和Y有关系”。
借助案例“吸烟是否对患肺癌有影响”,获得“判断两个分类变量是否有关系”的一般方法:列联表、等高条形图、独立性检验。在检验吸烟与患肺癌有关系的基础上,体会两个分类变量独立性检验的基本思想,并归纳其一般步骤.
体会表格初步感知,图形直观判断,随机变量准确刻画。
大或者小不能仅凭直觉判断,应有明确的判断标准。
进一步理解大或小的判断标准是由实际所容许犯错误概率的上界决定的

回顾整个案例探究过程,并推广到一般情况,抽象出独立性检验的基本思想。
通过与反证法的思想相对比,进一步理解独立性检验的基本思想。
归纳“判断两个分类变量有关系”的方法及相应步骤。并点评每种方法的特点。
总结
问题8:本节课我们学习了哪些知识?从中体会到了怎样的数学思想方法?
1、内容:复习了回归分析的基本思想
、判断两个分类变量是否相关
2、方法:列联表、等高条形图
、独立性检验
3、思想:独立性检验的思想
本节课我们首先复习了回归分析的基本思想。在此过程中,我们学习了判断“两个分类变量是否相关”的三种方法:分别是列联表、绘制等高条形图及独立性检验。由于列联表中的数据是样本数据,只是总体的代表,具有随机性。因此,前两种方法只能粗略地判断两个分类变量是否相关。而独立性检验通过比较随机变量的观测值与临界值的大小,来判断两个分类变量是否有关系。并给出了将“两个分类变量没有关系”错判为“两个分类变量有关系”的概率。即独立性检验的方法将判断两个分类变量是否有关系进行了比较准确的量化。独立性检验的思想类似于反证法:要验证“两个分类变量有关系”,先假设这“两个分类变量没有关系”。以此为前提构造一个与假设相矛盾的小概率事件,其概率不超过。如果样本观测数据使得这个小概率事件发生,则我们认为在犯错误概率不超过的前提下,“两个分类变量有关系”。
通过问题梳理本节所学知识、方法、思想。并与数值变量相关关系的研究过程对比,体会二者研究思路的共通之处。
作业
有甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩之后,得到如下列联表:
请画出列联表的等高条形图,并通过图形判断成绩与班级是否有关系;根据列联表的独立性检验,能否在犯错误的概率不超过0.01的前提下认为成绩与班级有关?
巩固判断“两个分类变量是否有关系”的方法,继续体会独立性检验的基本思想。