8.3.2独立性检验 课件(共24张PPT)

文档属性

名称 8.3.2独立性检验 课件(共24张PPT)
格式 pptx
文件大小 482.6KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-05-27 19:36:56

图片预览

文档简介

(共24张PPT)
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联 . 对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大 . 因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
8.3.2 独立性检验
考虑以Ω为样本空间的古典概型,设X和Y 为定义在Ω上,取值于{0, 1}的成对分类变量 . 我们希望判断事件{X=1}和{Y=1}之间是否有关联 .
注意到{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件,与前面的讨论类似,我们需要判断下面的假定关系
H0: P(Y=1|X=0)=P(Y=1|X=1)
是否成立,通常称H0为零假设或原假设.
这里,P(Y=1| X=0)表示从{X=0} 中随机选取一个样本点,该样本点属于{X=0 , Y=1}的概率; P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1, Y=1}的概率.
由条件概率的定义可知,零假设
H0: P(Y=1|X=0)=P(Y=1|X=1)
或 P(X=0, Y=1)P(X=1)=P(X=1,Y=1)P(X=0). ①
等价于
注意到{X=0}和{X=1}为对立事件,于是
P(X=0)=1 P(X=1) . 再由概率的性质,我们有
P(X=0, Y=1)=P(Y=1) P(X=1, Y=1).
由此推得①式等价于 P(X=1)P(Y=1)=P(X=1, Y=1).
因此,零假设H0等价于{X=1}与{Y=1}独立.
根据已经学过的概率知识,下面的四条性质彼此等价:
{X=0}与{Y=0}独立 ; {X=0}与{Y=1}独立;
{X=1}与{Y=0}独立 ; {X=1}与{Y=1}独立.
因此,我们可以用概率语言,将零假设改述为
H0: 分类变量X和Y独立.
如果这些性质成立,我们就称分类变量X和Y独立,这相当于下面四个等式成立;
P(X =0, Y=0 ) = P(X =0)P(Y =0); P(X =0, Y =1) = P(X =0)P(Y =1);
P(X =1, Y =0) = P(X =1)P(Y =0); P(X =1, Y =1) = P(X =1)P(Y =1).
假定我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
X Y
合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:
最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;
最后一列的前两个数分别是事件{X=0}和{X=1}的频数;
中间的四个数a, b, c, d是事件{X=x, Y=y}(x, y=0, 1)的频数;
右下角格中的数n是样本容量.
对于随机样本,表中的频数a, b, c, d 都是随机变量,而表中的相应数据是这些随机变量的一次观测结果.
思考 如何基于②中的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出推断
在零假设H0成立的条件下,根据频率稳定于概率的原理, 由②中的第一个等式, 我们可以用概率P(X=0)和P(Y=0)对应的频率的乘积估计概率P(X=0, Y=0).
而把视为事件{X=0, Y=0}发生的频数的期望值(或预期值).
这样 , 该频数的观测值a和期望值应该比较接近.
综合②中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:
反之,当这些量的取值较大时,就可以推断H0不成立.
|a |, |b |,
|c |, |d | .

分别考虑③中的四个差的绝对值很困难, 我们需要找到一个既合理又能够计算分布的统计量, 来推断H0是否成立.
一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.
为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
该表达式可化简为
统计学家建议,用随机变量 χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.
那么,究竟 χ2大到什么程度,可以推断H0不成立呢 或者说,怎样确定判断 χ2大小的标准呢
根据小概率事件在一次试验中不大可能发生的规律,可以通过确定一个与H0相矛盾的小概率事件来实现,在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了 χ2的近似分布.
忽略 χ2的实际分布与该近似分布的误差后,对于任何小概率值α, 可以找到相应的正实数xα,使得下面关系成立:
忽略 χ2的实际分布与该近似分布的误差后,对于任何小概率值α, 可以找到相应的正实数xα,使得下面关系成立:
概率值α越小,临界值xα越大. 当总体很大时,抽样有、无放回对χ2的分布影响较小. 因此 , 在应用中往往不严格要求抽样必须是有放回的.
由④式可知, 只要把概率值α取得充分小,在假设H0成立的情况下,事件{χ2≥ xα}不大可能发生的. 根据这个规律,如果该事件发生,我们就可以推断H0不成立. 不过这个推断有可能犯错误,但犯错误的概率不会超过α.
我们称xα为α的临界值,这个临界值就可作为判断 χ2大小的标准.
P(χ2 ≥ xα)=α ④
基于小概率值α的检验规则:
当χ2≥ xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2< xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
例如,对于小概率值α=0.05,我们有如下的具体检验
规则:
当χ2≥ xα=3.841时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;
当χ2< xα=3.841时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
根据列联表计算
例2 依据小概率值=0.1的 χ2 独立性检验,分析上节例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
例1 采用简单随机抽样的方法得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀 . 试分析两校学生中数学成绩优秀率之间是否存在差异.
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.
因为
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.
因为
根据小概率值=0.1的 χ2 独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
根据上表中的数据,计算得到
思考 例1和例2都是基于同一组数据的分析, 但却得出了不同的结论 , 你能说明其中的原因吗
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论, 并没有考虑由样本随机性可能导致的错误, 所以那里的推断依据不太充分.
在例2中, 我们用 χ2独立性检验对零假设H0进行了检验,通过计算,发现 χ2 ≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 , 推断出两校学生的数学优秀率没有显著差异的结论.
思考 例1和例2都是基于同一组数据的分析, 但却得出了不同的结论 , 你能说明其中的原因吗
由此可见,相对于简单比较两个频率的推断,用 χ2 独立性检验得到的结果更理性、更全面,理论依据也更充分.
这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的,因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
当我们接受零假设H0时, 也可能犯错误 . 我们不知道犯这类错误的概率p的大小,但是知道,若α越大,则 p越小.
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名 . 试根据小概率值 α=0.005 的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解: 零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,
疗法 疗效
合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
解: 零假设为H0: 疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,
根据列联表中的数据,经计算得到
根据小概率值α=0.005的 χ2独立性检验 , 没有充分证据推断H0不成立 , 因此可以认为 H0成立,即认为两种疗法效果没有差异.
例4 为研究吸烟是否与肺癌有关, 某肿瘤研究所采取有放回简单随机抽样的方法, 调查了9965人 , 得到成对样本观测数据的分类统计结果, 如下表所示. 依据小概率值α=0.001的独立性检验, 分析吸烟是否会增加患肺癌的风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:零假设为H0:吸烟和患肺癌之间没有关联.
根据列联表中的数据,经计算得到
例4 依据小概率值α=0.001的独立性检验, 分析吸烟是否会增加患肺癌的风险.
解:零假设为H0:
吸烟和患肺癌之间没
有关联.
根据列联表中的数据,经计算得到
根据小概率值α=0.001的独立性检验 , 我们推断H0不成立 , 即认为吸烟与患肺癌有关联 , 此推断犯错误的概率不大于0.001.
根据表中的数据计算 ,
不吸烟者中不患肺癌和患
肺癌的频率分别为
吸烟者中不患肺癌和患肺癌的评率分别为
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上. 于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌。
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
总结上面的例子, 应用独立性检验解决实际问题大致应包括以下几个主要环节:
注意:上述几个环节的内容可以根据不同情况进行调整,例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
(1)提出零假设H0 : X和Y相互独立 , 并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
思考 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;
而独立性检验是在零假设H0之下, 如果出现一个H0与相矛盾的小概率事件, 就推断H0不成立, 且该推断犯错误的概率不大于这个小概率 . 另外,在全部逻辑推理正确的情况下, 反证法不会犯错误, 但独立性检验会犯随机性错误.
独立性检验的本质是比较观测值与期望值之间的差异,由 χ2所代表的这种差异的大小是通过确定适当的小概率值进行判断的. 这是一种非常重要的推断方法, 不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
1.分类变量X和Y的抽样数据的2×2列联表:
归纳小结
2. 卡方统计量χ2:
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3.独立性检验的一般步骤: