(共33张PPT)
8.3.2 独立性检验
学习目标
基于2×2列联表,通过实例了解独立性检验的基本思想,掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力。
学习重点:独立性检验的思想和方法。学习难点:χ2统计量的导出和意义,独立性检验的思想和方法。 在现实问题中,我们常常需要推断两个分类变量之间是否存在关联,通过分类变量的样本观测数据(2×2列联表),依据随机事件频率的稳定性推断两个分类变量之间是否有关联.
通过上节课的学习我们已经知道,对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.这是本节课的主要任务。
环节一:创设情境,引入课题
问题1:在上节例1中,我们通过频率比较得到“两所学校学生的数学成绩优秀率存在差异”的结论,但由于数据的随机性,这一推断有可能是错误的.那么犯错误的概率有多大呢、如何从概率的角度去研究两个分类变量X和Y是否有关联?
设X和Y为定义在样本空间Ω上的两个分类变量,可设X,Y∈{0,1}.
例:
我们希望判别的是学校因素是否影响学生的数学成绩,即事件{Y=1}和{X=1}或
{X=0}之间是否有关联.
用概率语言表示,就是判断下面的关系是否成立:
H0:P(Y=1|X=0)=P(Y=1|X=1)
考虑以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,判断事件{X=1}和{Y=1}之间是否有关联.
即判断下面的假定关系
H0:P(Y=1|X=0)=P(Y=1|X=1)
是否成立,通常称H0为零假设或原假设.
注意:{X=0}和{X=1}, {Y=0}和{Y=1}都是互对立事件.
P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率.
思考:请用条件概率的知识,分析零假设,给出分类变量X和Y独立的定义.
由条件概率的定义可知,零假设H0等价于
或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0) ①
因为{X=0}和{X=1}为对立事件,P(X=0)=1-P(X=1)
所以 P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).
①式等价于 P(X=1)P(Y=1)=P(X=1,Y=1).
因此,零假设H0等价于{X=1}和{Y=1}独立.
{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.
根据已经学过的概率知识,下面的四条性质彼此等价:
以上性质成立,分类变量X和Y独立,即下面四个等式成立:
H0:分类变量X和Y独立.
用概率语言,将零假设改述为
P(X=0,Y=0)=P(X=0)P(Y=0); P(X=0,Y=1)=P(X=0)P(Y=1);
P(X=1,Y=0)=P(X=1)P(Y=0); P(X=1,Y=1)=P(X=1)P(Y=1).
②
根据我们通过简单随机抽样得到了X和Y的抽样数据列联表,如表8.3-3所示.
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
对于随机样本,表8.3-3中的频数a,b,c,d都是随机变量,而表8.3-2中的响应数据是这些随机变量的一次观测结果.
思考:如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对的分类变量X和Y是否相互独立作出推断?
环节二:观察分析,感知概念
综合②中的四个式子,如果零假设H0成立,下面四个量的取值都不应该太大:
, ,, ③
反之,当这些量的取值较大时,就可以推断H0不成立.
一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.为了合理地平衡这种影响,作如下处理:
化简得
环节三:抽象概括,形成概念
由④式可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.
对于任何小概率值,可以找到相应的正实数,使得
成立,我们称为的临界值,这个临界值可作为判断大小的标准.
概率值越小,临界值越大.
④
P(χ2≥)=
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
表8.3-4
χ2独立性检验中几个常用的小概率值和相应的临界值.
我们推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;
(2)当χ2我们没有充分证据推断H0不成立,可以认为X和Y独立.
例如:对于小概率值α=0.05,我们有如下的具体检测规则:
(1)当χ2≥x0.05=3.841时,
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
环节四:辨析理解,深化概念
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
解:零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优
秀率无差异.
计算得:
根据小概率值=0.1的独立性检验,没有充分证据推断H0不成立,因此
可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
思考:基于同一组数据的分析,采用独立性检验却得出了与上节例1不同的结论,你能说明其中的原因吗
上节例1没有考虑由样本随机性可能导致的错误,推断依据不太充分.
相对于简单比较两个频率的推断,用独立性检验得到的结果更理性、更全面,理论依据也更充分.
在本例中,≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出两校学生的数学优秀率没有显著差异的结论.
当我们接受零假设H0时,也可能犯错误.我们不知道犯这类错误的概率p的大小,但是知道,若α越大,则p越小
例3:某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
根据小概率值=0.005的独立性检验,没有充分证据推断 H0不成立,
因此可以认为H0成立,即认为两种疗法效果没有差异.
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,
根据列联表中的数据,经计算得到
x
问题:若对调两种疗法的位置或对调两种疗效的位置,这样做会影响取值的计算结果吗?
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
疗法 疗效 合计
未治愈 治愈 乙 6 63 69
甲 15 52 67
合计 21 115 136
疗法 疗效 合计
治愈 未治愈 甲 52 15 67
乙 63 6 69
合计 115 21 136
例4:为了调查吸烟是否对肺癌有影响,某肿瘤研究所采取有放回简单随机抽样,调查了9965人,得到如下结果(单位:人)依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
解:零假设为H0:吸烟和患肺癌之间无关联,根据列联表中的数据,经计算得
χ2 =
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001,即我们有99.9%的把握认为“吸烟与患肺癌有关系”.
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
环节五:课堂练习,巩固运用
根据表中的数据计算不吸烟者中不患肺癌和患肺癌的频率分别为
吸烟者中不患肺癌和患肺癌的频率分别为
可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌概率,即吸烟更容易引发肺癌.
由
通过频率分析吸烟对患肺癌影响的规律:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
应用独立性检验解决实际问题大致应包括以下几个主要环节:
归纳总结
1. 小概率值α的临界值:
忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
2. χ2计算公式:
3. 基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2环节六:归纳总结,反思提升
4.分类变量X和Y的抽样数据的2×2列联表:
5.独立性检验的一般步骤:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率, 分析X和Y间的影响规律.
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X
环节七:目标检测,作业布置
练习 第134页
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
2.根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论?为什么?
3.为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
药物A 疾病B 合计
未患病 患病 未服用 29 15 44
服用 47 14 61
合计 76 29 105
单位:只
零假设H0为:药物A与预防疾病B无关联,即药物A对预防疾病B没有效果.
4.从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
数学成绩 语文成绩 合计
不优秀 优秀 不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
单位:人
零假设为H0:数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联.
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率.根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.