(共20张PPT)
1.2独立性检验的基本思想
及其初步应用
对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
在日常生活中,主要考虑分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系?
性别是否对于喜欢数学课程有影响?等等.
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
那么吸烟是否对患肺癌有影响?
探究
表1-7吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
与表格相比,图形跟能直观地反映出两个变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
像表1-7这样列出两个分类变量的频数表,称为列联表.有吸烟和患肺癌列联表可以粗略估计出,在不吸烟者中,有0.54%患有肺癌;在吸烟者中,有2.28%患有肺癌。因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.
等高条形图
其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌的频率;两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的频率,比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟跟容易引发肺癌
等高条形图更
清晰地表达了
两种情况下患
肺癌的比例.
上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么这种判断是否可靠?我们可以用统计观点来考察这个问题.
H0:吸烟与患肺癌没有关系
把表1-7中的数字用字母代替,得到如下用字母表示的列联表(表1-8):
为了回答上面的问题,我们先假设:
看看能推出怎样的结论。
表1-8
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;
因此
|ad-bc|越大,说明吸烟与患肺癌之间关系越强.
如果“吸烟与患肺癌没有关系”,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多,即
为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量
若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小.
由表1-7中数据,利用公式(1)计算得K2的观测值为:
(1)
其中n=a+b+c+d为样本容量.
这个值到底能告诉我们什么呢?
现在的K2=56.632的观测值远大于6.635,所以有理由判定H0不成立,即认为“吸烟于患肺癌有关系”.但是这种判断还犯错误,犯错误的概率不会超过0.010
统计学家经过研究发现,在H0成立的情况下,
在上述过程中,实际上是借助于随机变量K2的观测值k,建立一个判断H0是否成立的规则:如果k≥6.635,就判断H0不成立,即认为“吸烟与患肺癌有关系”;否则就判定H0成立,即认为“吸烟与患肺癌没有关系”
在改规则下,把结论“H0成立”错判为“H0不成立”的概率不会超过
这里概率计算的前提是H0成立
上面解决问题的想法类似于反证法.要判断“两个分类变量有关系”,首先假设该结论不成立,即:H0:两个分类变量没有关系成立.在该假设下我们所构造的随机变量K?应该很小,如果有观测数据计算得到K?的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”,如果观测值很小,则说明在样本数据中没有发现足够的证据拒绝H0
怎样判断K?的观测值k是大还是小呢?
独立性检验的基本思想:
类似于数学上的反证法,对“两个分类变量有关系”
这一结论成立的可信程度的判断:
(1)假设该结论不成立,即假设结论“两个分类变量没有关系”成立.
(2)在假设条件下,计算构造的随机变量K2,如果有观测数据计算得到的K2很大,则在一定程度上说明假设不合理.
(3)根据随机变量K2的含义,可以通过(2)式评价假设不合理的程度,由实际计算出的k>6.635,说明假设不合理的程度约为99%,即“两个分类有关系”这一结论成立的可信程度约为99%.
上面这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列联表)为:
若要判断结论为:H1:“X与Y有关系”,如果通过直接计算或观察等高条形图发现 和 相差很大,
就判段两个分类变量之间有关系.
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
具体作法是:
(1)根据实际问题需要的可信程度确定临界值k0;
(2)由观测数据计算得到随机变量K2的观测值k;
(3)如果k> k0 ,就以(1-P(K2≥ k0))×100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据.
上面这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率,而利用独立性检验来考察两个分类变量是否有关系,能较精确地给出这种判断的可靠程度.
(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系”;
(2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”;
(3)如果k>6.635,就有99%的把握认为“X与Y有关系”;
(4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”;
(5)如果k>3.841,就有95%的把握认为“X与Y有关系”;
(6)如果k>2.706,就有90%的把握认为“X与Y有关系”;
(7)如果k<=2.706,就认为没有充分的证据显示“X与Y有关系”.
例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表:
相应的等高条形图如图所示,
从图中可以看出秃顶样本中
患心脏病的频率明星高于不
秃顶样本中换心脏病的频率,
因此可以认为“秃顶与患心脏
病有关”.
患心脏病 不患心脏病 总计
秃顶 214 175 389
不秃顶 451 597 1048
总计 665 772 1437
根据列联表中的数据,得到:
所以有99%的把握认为“秃顶患心脏病有关”.
为考察高中生的性别与是否喜欢数学课程之间的
关系,在某城市的某校高中生中随机抽取300名学生,
得到如下联表:
解:在假设“性别与是否喜欢数学课程之间没有关系”
例2.
由表中数据计算K2的观测值k = 4.513。在多大程度上
可以认为高中生的性别与是否喜欢数学课程之间有关系?
为什么?
而我们所得到的K2的观测值k 4.513超过3.841,这就意味着
“性别与是否喜欢数学课程之间有关系”这一结论错误的可能
性约为0.05,即有95%的把握认为“性别与是否喜欢数学课程
之间有关系”。
喜欢数学课程 不喜欢数学课程 总计
男 37 85 122
女 35 143 178
总计 72 228 300
练习:为研究不同的给药方式(口服与注射)和药的效果(有效和无效)是否有关,进行了相应的抽样调查,调查的结果列在下表中,根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?
有效 无效 合计
口服 58 40 98
注射 64 31 95
合计 122 71 193
(1)列出2×2列联表
(2)计算K2的观测值k
(3)查表得结论(表1—11)
课堂小结:独立性检验的步骤