8.3.2独立性检验课件(共19张PPT)

文档属性

名称 8.3.2独立性检验课件(共19张PPT)
格式 zip
文件大小 1.5MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-03-21 08:24:47

图片预览

文档简介

(共19张PPT)
8.3列联表与独立性检验
8.3.2 独立性检验
分类变量X和Y的抽样数据的2×2列联表:
2×2列联表给出成对分类变量数据的交叉分类频数
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2×2列联表的概念
复习巩固
按研究问题的需要,将数据分类统计,并做成表格加以保存,这种形式的数据统计表称为列联表。
它包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;
中间的四个格中的数是表格的核心部分,
给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数。
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
复习巩固
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.
对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.
因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
引入新课
独立性检验
1.零假设(原假设)H0 :
用概率语言,可将零假设改述为
H0:分类变量X和Y独立
设X和Y是定义在Ω上,取值于{0,1}的成对分类变量。
判断下面的假设关系
H0:P(Y=1ΙX=0)=P(Y=1ΙX=1)
是否成立,通常称为零假设或原假设。
P(Y=1ΙX=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;
P(Y=1ΙX=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率;
学习新知
2.独立性检验公式及定义 :
假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,在列联表中,如果零假设H0成立,则应满足 ,即ad-bc≈0.因此|ad bc|越小,说明两个分类变量之间关系越弱;|ad bc|越大,说明两个分类变量之间关系越强.
2 =
χ
为了使不同样本容量的数据有统一的评判标准,基于上述分析,
我们构造一个随机变量
学习新知
2 =
χ
用χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
3.临界值的定义:
对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
χ2独立性检验中几个常用的小概率值和相应的临界值.
10.828
7.879
6.635
3.841
2.706

0.001
0.005
0.01
0.05
0.1
α
 
 
 
 
 
 
 
 
 
 
 
 
4.基于小概率值α的检验规则:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,
该推断犯错误的概率不超过α;
当χ2为X和Y独立.
例2:依据小概率值α=0.1的χ2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
解: 零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.因为
2 =
χ

计算得到:
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗
例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分,在本例中,我们用独立性检验对零假设H0进行了检验,通过计算,发现≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出两校学生的数学优秀率没有显著差异的结论,
这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的,因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。
由此可见,相对于简单比较两个频率的推断,用独立性检验得到的结果更理性、更全面,理论依据也更充分。
当我们接受零假设H0时,也可能犯错误。我们不知道犯这类错误的概率p的大小,但是知道,若α越大,则p越小
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.将所给数据进行整理,得到两种疗法治疗数据的列联表,
136
115
21
69
63
6
67
52
15
治愈
未治愈
合计
疗效
合计


疗法
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
典型例题
根据列联表中的数据,经计算得到
2 =
χ

根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为 H0成立,即认为两种疗法效果没有差异.
136
115
21
69
63
6
67
52
15
治愈
未治愈
合计
疗效
合计


疗法
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
追问1:在表8.3-5中,若对调两种疗法的位置或对调两种疗效的位置,这样做会影响χ2取值的计算结果吗?
不影响
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
疗法 疗效 合计
未治愈 治愈 乙 6 63 69
甲 15 52 67
合计 21 115 136
疗法 疗效 合计
治愈 未治愈 甲 52 15 67
乙 63 6 69
合计 115 21 136
追问2:对于例3中的抽样数据,根据小概率值=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
根据小概率值=0.05的独立性检验,我们推断 H0不成立,即可以认为两种疗法效果有差异,该推断犯错误的概率不超过0.05.
根据列联表中的数据,经计算得到
甲种疗法未治愈和治愈的频率分别是和
乙种疗法未治愈和治愈的频率分别是和0.913.
因此可以推断乙种疗法的效果比甲种疗法好。
例4:为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险。
解:零假设为H0:吸烟和患肺癌之间没有关系根据列联表中的数据,经计算的
χ2 =

根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸 烟与患肺癌有关联,此推断犯错误的概率不大于0.001,即我们有99.9%的把握认为“吸烟与患肺癌有关系”.
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为
吸烟者中不患肺癌和患肺癌的评率分别为

可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上。于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。
方法总结
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
应用独立性检验解决实际问题大致应包括以下几个主要环节:
注意:上述几个环节的内容可以根据不同情况进行调整,
例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
1.分类变量X和Y的抽样数据的2×2列联表:
课堂小结
2.独立性检验的一般步骤:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论. (4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X