(共28张PPT)
3.2独立性检验的基本思想及其初步应用学习目标
1.了解分类变量、等高条形图、 列联表、随机变量 的意义
2.通过对典型案例的分析,理解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验解决一些实际问题
3.通过对本节课的学习,体会统计方法在决策中的作用
重点:理解独立性检验的基本思想和步骤
难点:了解随机变量 的含义, 的观测值很大,就认为两个分类变量是有关系的
问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。
假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包份量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果。
一:假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。
例如,在前面的例子中, 原假设为:H0:面包份量足,
备择假设为:H1:面包份量不足。
这个假设检验问题可以表达为:
H0:面包份量足 ←→ H1:面包份量不足
二:求解假设检验问题
考虑假设检验问题:
H0:面包分量足 ←→ H1:面包分量不足
在H0成立的条件下,构造与H0矛盾的小概率事件;
如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。
求解思路:
独立性检验
本节研究的是两个分类变量的独立性检验问题。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系?
性别是否对于喜欢数学课程有影响?等等。
吸烟与肺癌列联表 不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
探究
那么吸烟是否对肺癌有影响吗
分类变量
列联表
这样列出的两个分类变量的频数表,称为列联表
一般我们只研究每个分类变量取两个值,这样的列联表称为2×2列联表。
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
在不吸烟者中患肺癌的比重是
在吸烟者中患肺癌的比重是
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大
0.54%
2.28%
怎样进一步判断这种关系呢?
一、等高条形图
与表格相比,图形更能直观的反映出两个分类变量
是否互相影响,常用等高条形图展示列联表数据的频率
特征
通过数据和图形可以看出吸烟和患肺癌有关
事实是否如此
我们能够有多大的把握认为“吸烟与患肺癌有关”?
吸烟
患肺癌
这需要通过统计分析来回答这个问题
1、独立性检验的思想
把表1中的数字用字母代替,得到如下用字母表示的列联表:
表2:吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
二、独立性检验
如果“吸烟与患肺癌没有关系”,则在吸烟者中患肺癌的比例应该与不吸烟者中相应的比例应差不多,即
越小,说明吸烟与患肺癌之间关系越弱;
越大,说明吸烟与患肺癌之间关系越强.
我们先假设H0:吸烟与患肺癌没有关系
做法一:
做法二:
假设
H0:吸烟与患肺癌没有关系
A:表示不吸烟
B:表示不患肺癌
则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B).
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
把表中的数字用字母代替,得到如下用字母表示的列联表
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;
|ad-bc|越大,说明吸烟与患肺癌之间关系越强。
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数。由于频率近似于概率,所以在H0成立的条件下应该有
为了使不同样本容量的数据有统一的评判标准,
基于上述分析,我们构造一个随机变量-----卡方统计量
(1)
若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小
根据表3-7中的数据,利用公式(1)计算得到K2观测值为:
那么这个值到底能告诉我们什么呢?
(2)
独立性检验
在H0成立的情况下,统计学家估算出如下的概率:
也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值k超过6.635的频率约为0.01,是一个小概率事件.现在K2的观测值k为56.632,远远大于6.635,所以有理由断定H0不成立,即认为“吸烟与患肺癌有关系”
但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系”.
上面这种利用随机变量 来确定是否能以一定把握“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。
第一步:H0: 吸烟和患病之间没有关系
患病 不患病 总计
吸烟 a b a+b
不吸烟 c d c+d
总计 a+c b+d a+b+c+d
第二步:列出2×2列联表
三、梳理步骤
第三步:计算
第四步:查对临界值表,作出判断。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
第五步:得出结论
四、反证法原理与独立性检验原理的比较
在一个已知假设下,如果推出一个矛盾,就证明这个假设不成立.
在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立的可能性很大.
反证法原理:
独立性检验原理:
相同点:都是先假设结论不成立,然后看是否能够推出矛盾,从而去判断你的假设是否出现了错误.
不同点:反证法中找到的矛盾一般是找和已知条件、定义、定理、公理等矛盾,如果找到了矛盾就说明假设出现错误从而肯定原命题正确;而独立性检验是先假设两个分类变量没关系,在这个假设下进行推理,推出了小概率事件发生,因此我们有很大的把握认为假设不成立,即认为两个分类变量有关系.
课堂练习1.下面是一个2×2列联表:
y1 y2 总计
x1 a 21 73
x2 2 25 27
总计 b 46 100
则表中a、b的值分别为( )
A.94、96 B.52、50
C.52、54 D.54、52
C
A
就近对比
根据列联表中的数据,得到:
所以有99%的把握认为“秃顶患心脏病有关”.
例1、在某医院,因为患心脏病而住院的665名男性
病人中,有214人秃顶;而另外772名不是因为患心
脏病而住院的男性病人中有175人秃顶。利用图形判断秃顶与患心脏病是否有关系?能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关系?
解:根据题目所给数据得到如下列联表:
患心脏病 不患心脏病 总计
秃顶 214 175 389
不秃顶 451 597 1048
总计 665 772 1437
例2、为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取500名学生,得到如下列联表:
喜欢数学课程 不喜欢数学课程 总计
男 104 128 232
女 95 173 268
总计 199 301 500
能够有95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?
解:由可信度查临界值表得 根据列联表中的数据,得到
所以,能够有95%的把握认为“性别与喜欢数学课之间有关系”
例3、在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示
未感冒 感冒 合计
使用血清 252 248 500
未使用血清 224 276 500
合计 476 524 1000
试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验。
解:设H0:感冒与是否使用该血清没有关系。
因当H0成立时,K2≥6.635的概率约为0.01,故有99%的把握认为该血清能起到预防感冒的作用。
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
P(k≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例4、气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?
有效 无效 合计
复方江剪刀草 184 61 245
胆黄片 91 9 100
合计 275 70 345
解:设H0:两种中草药的治疗效果没有差异。
因当H0成立时,K2≥10.828的概率为0.001,故有99.9%的把握认为,两种药物的疗效有差异。
0.50 0.40 0.25 0.15 0.10
0.455 0.708 1.323 2.072 2.706
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
具体做法:
(1)根据实际问题需要的可信程度确定临界值 ;
(2)利用公式(1),由观测数据计算得到随机变量 观测值k;
(3)如果 ,就以 的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据。
思考:
利用上面的结论,你能从列联表的三维柱形图中看出两个分类变量是否相关呢?
表1-11 2x2联表
一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列联表)为:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
若要判断的结论为:H1:“X与Y有关系”,可以按如下步骤判断H1成立的可能性:
2、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
1、通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。
(1)在三维柱形图中, 主对角线上两个柱形高度的乘积ad与副对角线上两个柱形高度的乘积bc相差越大,H1成立的可能性就越大。
(2)在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例 ,也可以估计满足条件X=x2
的个体中具有Y=y1的个体所占的比例 。两个比例相差越大,H1成立的可能性就越大。
在实际应用中,要在获取样本数据之前通过下表确定临界值:
0.50 0.40 0.25 0.15 0.10
0.455 0.708 1.323 2.072 2.706
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.636 7.879 10.828
具体作法是:
(1)根据实际问题需要的可信程度确定临界值 ;
(2)利用公式(1),由观测数据计算得到随机变量 的观测值;
(3)如果 ,就以 的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据。