3.2独立性检验的基本思想
及其初步应用
♂
对于性别变量,其取值为男和女两种.
♀
这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
生活中的分类变量
是否吸烟,宗教信仰,国籍…
两个分类变量之间是否有关系
性别
是否喜欢数学课程
吸烟
患肺癌
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对肺癌有影响?
吸烟与患肺癌列联表
列出两个分类变量的频数表,称为列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
吸烟者与不吸烟者患肺癌的可能性者存在差异
怎样进一步判断这种关系呢?
1、二维条形图
不患肺癌
患肺癌
吸烟
不吸烟
0
8000
7000
6000
5000
4000
3000
2000
1000
从二维条形图能看出,吸烟者中患肺癌的比例高于不患肺癌的比例.
不吸烟
吸烟
患肺癌
比例
不患肺癌
比例
2、等高条形图
等高条形图更清晰地表达了两种情况下患肺癌的比例.
从上面数据和图形可以看出吸烟和患肺癌有关
从上面数据和图形可以看出吸烟和患肺癌有关
事实是否如此?
我们能够有多大的把握认为“吸烟与患肺癌有关”?
吸烟
患肺癌
这需要用统计观点来考察这个问题。
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此假设
把表中的数字用字母代替,得到如下用字母表示的2×2列联表,
则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B)
H0:吸烟与患肺癌没有关系
A:不吸烟
B:不患肺癌
即可得吸烟与患肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数。设样本容量为n,则n=a+b+c+d.由于频率接近于概率,所以在H0成立的条件下应该有
|ad-bc|越小
吸烟与患肺癌之间的关系越弱
|ad-bc|越大
吸烟与患肺癌之间的关系越强
化简整理得:ad-bc≈0
为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量-----卡方统计量
(1)
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。
根据表中的数据,利用公式(1)计算得到K2的观测值为:
那么这个值到底能告诉我们什么呢?
(2)
独立性检验
在H0成立的情况下,统计学家估算出如下的概率
也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值超过6.635的频率约为0.01,是一个小概率事件。
而现在K2 ≈56.632远大于6.635
所以有理由断定H0不成立,虽然这样的断定会犯错误,但犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系”。
这样一种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
在实际应用中,要在获取样本数据之前通过下表确定临界值:
0.50
0.40
0.25
0.15
0.10
0.455
0.708
1.323
2.072
2.706
0.05
0.025
0.010
0.005
0.001
3.841
5.024
6.635
7.879
10.828
具体做法:
(1)根据实际问题需要的可信程度确定临界值 ;
(2)利用公式(1),由观测数据计算得到随机变量 观测值k;
(3)如果 ,就以 的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据。
反证法原理与假设检验原理
反证法原理: 在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。
假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。
根据列联表中的数据,得到:
所以有99%的把握认为“秃顶患心脏病有关”.
例1、在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。利用图形判断秃顶与患心脏病是否有关系?能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关系?
解:根据题目所给数据得到如下列联表:
患心脏病
不患心脏病
总计
秃顶
214
175
389
不秃顶
451
597
1048
总计
665
772
1437
做P97练习