(共26张PPT)
8.3.2 独立性检验
8.3 列联表与独立性检验
1.2×2列联表 —— 给出了两个分类变量数据的交叉分类频数
2.判断两个分类变量之间是否具有关联性的三种方法
图形分析法
频率分析法
条件概率法
这样得出的结论是否会出现错误呢?是由什么引起的?
复习回顾:
频率具有随机性,与概率之间存在差异
样本容量较小时,犯错误的概率较大
找到一种更为合理的推断方法
独立性检验
独立性检验是一种“概率反证法”。依据是小概率原理(在一次实验中几乎不可能发生)
类似法官凭证据判案:
先做一个无罪假设
找无罪假设下不可能出现的物证和人证。
找到了,假设不成立,嫌疑人有罪。
没找到,没有充分证据证明假设不成立,暂且认为无罪。
零假设:假设X,Y相互独立,无关联。
找零假设下不可能发生的事件。(利用小概率原理)
发生了,假设不成立,X,Y不独立,从而证明二者有关联。
没发生,没有充分证据证明假设不成立,暂且认为X,Y相互独立。
类比
思考:试判断事件{x=1}与{y=1}之间是否有关联
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
零假设
由条件概率的定义可知,零假设H0等价于:
A与B相互独立 P(AB)=P(A)P(B)
A
B
事件A
事件B
事件AB
由此,零假设H0等价于{X=1}和{Y=1}独立.
零假设:假设X,Y相互独立
思考:试判断事件{x=1}与{y=1}之间是否有关联
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
零假设
A
B
这4个性质成立,则称分类变量X和Y独立.
零假设H0:分类变量X和Y独立
零假设:假设X,Y相互独立
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
零假设:假设X,Y相互独立
根据列联表中的数据,构造适当的统计量,对成对分类变量X和Y是否相互独立作出判断
{X=1,Y=1}发生的频率的期望值(预期值)为
在零假设成立的条件下,由左边第一个等式可以得到
由频率估计概率,可以得到
E
如果零假设成立,应该比较接近.
即:的值应该不大
零假设
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
零假设:假设X,Y相互独立
零假设
原假设成立,下面四个量值不应该太大
为了平衡各式的差值的变化,构造一个方便科学的统计量:
卡方统计量
如果零假设成立,则应该很小.
卡方统计量
如果零假设不成立,则应该很大.
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上述表达式是χ2的计算公式, χ2读作“卡方”.
卡方统计量有什么用呢?
统计学家建议,用随机变量χ2取值的大小作为判断零假设H0是否成立的依据.
思考:怎样确定判断大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与H0相矛盾的小概率事件来实现.
思考:怎样确定判断大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与H0相矛盾的小概率事件来实现.
xα
α
在假定H0的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计学家得到了χ2的近似分布. 忽略卡方的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数,使得下面关系成立:
我们称xα为α的临界值,
这个临界值可以作为判断χ2大小的标准.
概率值α越小,临界值xα越大.
P(X ≥ xα)=α 成立意味着小概率事件发生,从而推断零假设不成立,不过这个推断有可能犯错误,但犯错误的概率不会超过α.
基于小概率值α的检验规则
①当≥时,我们就推断 H0 不成立,即认为X和Y不独立.
②当<时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
该推断犯错误的概率不超过
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
怎么看这个表呢?
Chi-square test 由英国著名的统计学家,被公认为“现代统计学之父” 的Karl Pearson首创。
判断两个不同的分类变量是否会相互影响,需借助独立性检验(Chi-square test),简称独立性检验(test of independence)
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值:
例如,对于小概率值α=0.05,我们有如下的具体检验规则:
(1)当χ2 ≥ xα=3.841时,我们就推断不成立(数学结论),即认为X和Y不独立,该推断犯错误的概率不超过0.05(实际结论);
(2)当χ2< xα=3.841时,我们没有充分证据推断不成立(数学结论),可以认为X和Y独立(实际结论)
例如=56.632≥6.635=x0.01
按α=0.01的独立性检验,我们推断(数学结论),即认为X与Y有关联关系,此推断犯错误的概率不大于0.01(实际结论)
按α=0.1的卡方独立性检验,没有充分证据推断H0不成立(数学结论),可以认为X和Y独立(实际结论).
例如=0.837<2.706=x0.1
例题1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据: 甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异,依据小概率值α=0.1的χ2独立性检验做推断.
解:
列2×2列联表
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
结论:认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
条件概率:P(Y=1|X=0)>P(Y=1|X=1)
零假设为H0:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异。根据表中的数据,计算得到
根据小概率值α=0.1的卡方独立性检验,没有充分证据推断H0不成立.因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
思考:例题基于同一组数据的分析的两种分析方法(条件概率法和卡方独立性检验法),但却得出了不同的结论,你能说明其中的原因吗?
事实上,条件概率法只是根据一个样本的两个频率的差异得出两校学生的数学成绩优秀率存在差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.
用χ2独立性检验对零假设H0进行了检验. 通过计算,发现χ2 ≈0.837<2.706=x0.1,因此推断出校的数学成绩优秀率没有差异的结论.这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据频率的差异得出两校学生的数学成绩优秀率存在差异的结论是不可靠的.
用χ2独立性检验得到的结果更理性、更全面,理论依据更充分。
由已知数据列出列联表.
例题2 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
解:
疗法 疗效 合计
未治愈 治愈 甲 15 52 67
乙 6 63 69
合计 21 115 136
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
零假设为H0: 疗法与疗效独立,即两种疗法效果没有差异.
经计算得到:
问题1:若对调两种疗法的位置或对调两种疗效的位置,这样做会影响取值的计算结果吗?
结论:若对调两种疗法的位置或对调两种疗效的位置,这样做不影响取值的计算结果.
疗法 疗效 合计
未治愈 治愈 乙 6 63 69
甲 15 52 67
合计 21 115 136
疗法 疗效 合计
治愈 未治愈 甲 52 15 67
乙 63 6 69
合计 115 21 136
问题1:若对调两种疗法的位置或对调两种疗效的位置,这样做会影响取值的计算结果吗?
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
根据列联表中的数据,经计算得到
根据小概率值=0.05的独立性检验,我们推断 H0不成立,即可以认为两种疗法效果有差异,该推断犯错误的概率不超过0.05,即有95%的把握认为疗法与疗效是有关的.
问题2:根据小概率值=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.(课本134页练习1)
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
甲种疗法未治愈和治愈的频率分别是 和
乙种疗法未治愈和治愈的频率分别是 和 913.
因此可以推断乙种疗法的效果比甲种疗法好。
问题3:根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,为什么会得出不同的结论?
对于同一抽样数据,计算出来的是确定的.在独立性检验中,基于不同的小概率值的α的检验规则,对应不同的临界值xα,其与的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
根据小概率值=0.05的独立性检验,我们推断 H0不成立,即可以认为两种疗法效果有差异,该推断犯错误的概率不超过0.05,即有95%的把握认为疗法与疗效是有关的.
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
零假设为H0: 吸烟与患肺癌之间无关联,由表中数据可得
例题3 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
解:
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
不吸烟者中患肺癌的频率为
吸烟者中患肺癌的频率为
两者的比值为
根据小概率值α=0.001的χ2独立性检验,推断H0不成立(数学结论),即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001 (实际结论).
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
通性通法:
独立性检验解决实际问题大致应包括以下几个主要环节:
(1)零假设 提出零假设X和Y相互独立,并给出在实际问题中的解释。
(2)计算χ2 根据抽样数据整理出22列联表,计算的值χ2 。
(3)比较 根据检验规则,将求出χ2的值与临界值xα进行比较,得出推断结论。
(4)下结论 由比较结果得出相应结论。
在X和Y不独立的情况下,根据需要,通比较相应的频率,分析X和Y间的影响规律。
①当≥时,我们就推断 H0 不成立,即认为X和Y不独立.该推断犯错误的概率不超过.
②当
时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立
判断时把计算结果与临界值比较,临界值xα越大,概率值α越小.
思考:独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
概率辨析
反证法 独立性检验
在某种假设H0下,如果推出一个矛盾,则证明H0不成立;若未能推出矛盾,不能对H0下任何结论,即反证法不成功 在零假设H0下,如果出现一个与H0相矛盾的小概率事件,则推断H0不成立,且该推断犯错误的概率不大于这个小概率. 否则,不能推断H0不成立,通常会接受H0,即认为两个分类变量相互独立.
反证法不会犯错误 独立性检验会犯随机性错误
独立性检验是一种“概率反证法”。
3.独立性检验的一般步骤:
1.χ2统计量
(1)零假设:提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)计算:根据抽样数据整理出2×2列联表,计算的值,并与临界值比较.
(3)比较:根据检验规则,将求出χ2的值与临界值xα进行比较,得出推断结论。
(4)结论:在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
课堂小结
2.于小概率值α的检验规则:
①当≥时,我们就推断 H0 不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
②当<时,我们没有充分证据推断 H0 不成立,可以认为X和Y独立.
课本134页
2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论 为什么
解:可能会得出不同的结论. 理由如下:
对同一抽样数据,计算出来的χ2的值是确定的,在独立性检验中,基于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
课本134页
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.
药物A 疾病B 合计
未患病 患病 未服用 29 15 44
服用 47 14 61
合计 76 29 105
零假设为H0: 药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.
解:
课本134页
4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
解:
依据α=0.05的独立性检验,能否认为数学成绩与语文成绩有关联
数学成绩 语文成绩 合计
不优秀 优秀 不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
零假设为H0: 数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,我们可以推断H0不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05.
课本134页
解:
数学成绩 语文成绩 合计
不优秀 优秀 不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
数学成绩不优秀的人中语文成绩不优秀和优秀的频率分别为
数学成绩优秀的人中语文成绩不优秀和优秀的频率分别为
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率. 根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.