第八章
8.3
列联表与独立性检验
学习目标
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表与独立性检验及其应用.
?
核心素养:数据分析、数学运算、逻辑推理
新知学习
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义.本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
这是一个简单的统计问题.最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率.为了方便,我们设
????0=经常锻炼的女生数女生总数,????1=经常锻炼的男生数男生总数.
那么,只要求出????0和????1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异.由所给的数据,经计算得到
????0=331523≈0.633,????1=473601≈0.787.
由????1?????0≈0.787?0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
?
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.用????表示该校全体学生构成的集合,这是我们所关心的对象的总体.考虑以????为样本空间的古典概型,并定义一对分类变量????和????如下:对于????中的每一名学生,分别令
????=0,???该生为女生,1,????该生为男生,????=0,???该生不经常锻炼,1,????该生经常锻炼.
我们希望通过比较条件概率????(????=1|????=0)和????(????=1|????=1)回答上面的问题.按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是????(????=1|????=0),而该男生属于经常锻炼群体的概率是????(????=1|????=1).因此,“性别对体育锻炼的经常性没有影响”可以描述为
????(????=1|????=0)=????(????=1|????=1);
而“性别对体育锻炼的经常性有影响”可以描述为
????(????=1|????=0)≠????(????=1|????=1).
?
为了清楚起见,我们用表格整理数据,如表8.3-1所示.
表8.3-1 单位:人
性别
锻炼
合计
不经常(????=0)
经常(????=1)
女生(????=0)
192
331
523
男生(????=1)
128
473
601
合计
320
804
1 124
性别
锻炼
合计
192
331
523
128
473
601
合计
320
804
1 124
我们用{????=0,????=1}表示事件{????=0}和{????=1}的积事件,用{????=1,????=1}表示事件{????=1}和{????=1}的积事件.根据古典概型和条件概率的计算公式,我们有
????(????=1|????=0)=????????=0,????=1????????=0=331523≈0.633,????(????=1|????=1)=????????=1,????=1????????=1=473601≈0.787.
由????(????=1|????=1)大于????(????=1|????=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
?
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将如表8.3-1这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.以表8.3-1为例,它包含了????和????的如下信息:最后一行的前两个数分别是事件{????=0}和{????=1}中样本点的个数;最后一列的前两个数分别是事件{????=0}和{????=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{????=????,????=????}(????,????=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.
?
在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断.
典例剖析
例1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用????表示两所学校的全体学生构成的集合.考虑以????为样本空间的古典概型.
对于????中每一名学生,定义分类变量X和Y如下:
????=0,该生来自甲校,1,该生来自乙校,????=0,该生数学成绩不优秀,1,该生数学成绩优秀.
?
我们将所给数据整理成表8.3-2.
表8.3-2 单位:人
学校
数学成绩
合计
不优秀(????=0)
优秀(????=1)
甲校(????=0)
33
10
43
乙校(????=1)
38
7
45
合计
71
17
88
学校
数学成绩
合计
33
10
43
38
7
45
合计
71
17
88
表8.3-2是关于分类变量????和????的抽样数据的2×2列联表:最后一行的前两个数分别是事件{????=0}和{????=1}的频数;最后一列的前两个数分别是事件{????=0}和{????=1}的频数;中间的四个格中的数是事件{????=????,????=????}(????,????=0,1)的频数;右下角格中的数是样本容量.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
3343≈0.767?4和1043≈0.232?6;
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
3845≈0.844?4和745≈0.155?6.
?
我们可以用等高堆积条形图直观地展示上述计算结果,如图8.3-1所示.
在图8.3-1中,左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率.通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断????(????=1|????=0)>????(????=1|????=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
?
思考:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题.
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
考虑以????为样本空间的古典概型.设X和Y为定义在????上,取值于{0,1}的成对分类变量.我们希望判断事件{????=1}和{????=1}之间是否有关联.注意到{????=0}和{????=1},{????=0}和{????=1}都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系
????0:????(????=1|????=0)=????(????=1|????=1)
是否成立,通常称????0为零假设或原假设.这里,????(????=1|????=0)表示从{????=0}中随机选取一个样本点,该样本点属于{????=0,????=1}的概率;而????(????=1|????=1)表示从{????=1}中随机选取一个样本点,该样本点属于{????=1,????=1}的概率.
?
由条件概率的定义可知,零假设????0等价于
????????=0,????=1????????=0=????????=1,????=1????????=1,
或
????(????=0,????=1)????(????=1)=????(????=1,????=1)????(????=0). ①
注意到{????=0}和{????=1}为对立事件,于是????(????=0)=1?????(????=1).再由概率的性质,
我们有
????(????=0,????=1)=????(????=1)?????(????=1,????=1).
由此推得①式等价于
????(????=1)????(????=1)=????(????=1,????=1).
因此,零假设????0等价于{????=1}与{????=1}独立.
?
根据已经学过的概率知识,下面的四条性质彼此等价:
{????=0}与{????=0}独立;{????=0}与{????=1}独立;
{????=1}与{????=0}独立;{????=1}与{????=1}独立.
如果这些性质成立,我们就称分类变量????和????独立.这相当于下面四个等式成立:
?
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}????(????=0,????=0)=????(????=0)????(????=0);
????(????=0,????=1)=????(????=0)????(????=1);
????(????=1,????=0)=????(????=1)????(????=0);
????(????=1,????=1)=????(????=1)????(????=1).
②
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}
②
因此,我们可以用概率语言,将零假设改述为
????0:分类变量????和????独立.
?
假定我们通过简单随机抽样得到了????和????的抽样数据列联表,如表8.3-3所示.
?
????
????
合计
????=0
????=1
????=0
????
????
????+????
????=1
????
????
????+????
合计
????+????
????+????
????=????+????+????+????
合计
合计
表8.3-3
表8.3-3是关于分类变量????和????的抽样数据的2×2列联表:最后一行的前两个数分别是事件{????=0}和{????=1}的频数;最后一列的前两个数分别是事件{????=0}和{????=1}的频数;中间的四个数????,????,????,????是事件{????=????,????=????}(????,????=0,1)的频数;右下角格中的数????是样本容量.
?
思考:如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对分类
变量????和????是否相互独立作出推断?
?
在零假设????0成立的条件下,根据频率稳定于概率的原理,由②中的第一个等式,我们可以用概率????(????=0)和????(????=0)对应的频率的乘积
????+????????+????????2
估计概率????(????=0,????=0),而把
????+????????+????????
视为事件{????=0,????=0}发生的频数的期望值(或预期值).这样,该频数的观测值????和期望值????+????????+????????应该比较接近.
?
?综合②中的四个式子,如果零假设H0成立,下面四个量的取值都③不应该太大:
?????????+????????+????????,?????????+????????+????????,
?????????+????????+????????,?????????+????????+????????.
反之,当这些量的取值较大时,就可以推断????0不成立.
显然,分别考虑③中的四个差的绝对值很困难.我们需要找到一个既合理又能够计算分布的统计量,来推断????0是否成立.一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.
?
为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
????2=?????????+????????+????????2????+????????+????????+?????????+????????+????????2????+????????+????????+?????????+????????+????????2????+????????+????????+?????????+????????+????????2????+????????+????????.
该表达式可化简为
????2=?????????????????????2????+????????+????????+????????+????. (1)
?
统计学家建议,用随机变量????2取值的大小作为判断零假设????0是否成立的依据,当它比较大时推断????0不成立,否则认为????0成立.
?
那么,究竟????2大到什么程度,可以推断????0不成立呢?或者说,怎样确定判断????2大小的标准呢?
?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与????0相矛盾的小概率事件来实现.在假定????0的条件下,对于有放回简单随机抽样,当样本容量????充分大时,统计学家得到了????2的近似分布.忽略????2的实际分布与该近似分布的误差后,对于任何小概率值????,可以找到相应的正实数????????,使得下面关系成立:
????(????2≥????????)=????. ④
我们称????????为????的临界值,这个临界值就可作为判断????2大小的标准.概率值????越小,临界值????????越大.当总体很大时,抽样有、无放回对????2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值????取得充分小,在假设????0成立的情况下,事件{????2≥????????}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断????0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过????.
?
基于小概率值????的检验规则是:
当????2≥????????时,我们就推断????0不成立,即认为????和????不独立,该推断犯错误的概率不超过????;
当????2???????时,我们没有充分证据推断????0不成立,可以认为????和????独立.
?
这种利用????2的取值推断分类变量????和????是否独立的方法称为????2独立性检验,读作“卡方独立性检验”,简称独立性检验.
?
表8.3-4给出了????2独立性检验中几个常用的小概率值和相应的临界值.
?
????
0.1
0.05
0.01
0.005
0.001
????????
2.706
3.841
6.635
7.879
10.828
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
????
0.1
0.05
0.01
0.005
0.001
????????
2.706
3.841
6.635
7.879
10.828
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
例如,对于小概率值????=0.05,我们有如下的具体检验规则:
(1)当????2≥????0.05=3.841时,我们推断????0不成立,即认为????和????不独立,该推断犯错误的概率不超过0.05;
(2)当????2???0.05=3.841时,我们没有充分证据推断????0不成立,可以认为????和????独立.
?
典例剖析
例2 依据小概率值????=0.1的????2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
解:零假设为
?????0:分类变量????与????相互独立,即两校学生的数学成绩优秀率无差异.
根据表8.3-2中的数据,计算得到
????2=88×33×7?10×38243×45×71×17≈0.837<2.706=????0.1.
根据小概率值????=0.1的????2独立性检验,没有充分证据推断????0不成立,因此可以认为????0成立,即认为两校的数学成绩优秀率没有差异.
?
思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的
原因吗?
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.在例2中,我们用????2独立性检验对零假设????0进行了检验.通过计算,发现????2≈0.837小于????=0.1所对应的临界值2.706,因此认为没有充分证据推断????0不成立,所以接受????0,推断出两校学生的数学优秀率没有显著差异的结论.这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的.因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.
由此可见,相对于简单比较两个频率的判断,用????2独立性检验得到的结果更理性、更全面,理论依据也更充分.
?
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值????=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
?
解:零假设为????0:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示.
表8.3-5 单位:人
?
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
根据列联表中的数据,经计算得到????2=136×15×63?52×6267×69×21×115≈4.881<7.879=????0.005.
根据小概率值????=0.005的独立性检验,没有充分证据推断????0不成立,因此可以认为????0成立,即认为两种疗法效果没有差异.
?
表8.3-5 单位:人
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
观察:在表8.3-5中,若对调两种疗法的位置或对调两种疗效的位置,则表达式(1)中
????,????,????,????的赋值都会相应地改变.这样做会影响????2取值的计算结果吗?
?
会影响????2取值的计算结果
?
例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9?965人,得到成对样本观测数据的分类统计结果,如表8.3-6所示.依据小概率值????=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
表8.3-6 单位:人
?
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
7 775
42
7 817
吸烟者
2 099
49
2 148
合计
9 874
91
9 965
解:零假设为H0:吸烟与患肺癌之间无关联.
根据列联表中的数据,经计算得到????2=9?965×7?775×49?42×2?09927?817×2?148×9?874×91≈56.632>10.828=????0.001.
根据小概率值????=0.001的独立性检验,我们推断????0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
?
表8.3-6 单位:人
吸烟
肺癌
合计
非肺癌患者
肺癌患者
非吸烟者
7 775
42
7 817
吸烟者
2 099
49
2 148
合计
9 874
91
9 965
根据表8.3-6中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7?7757?817≈0.994?6和427?817≈0.005?4;
吸烟者中不患肺癌和患肺癌的频率分别为2?0992?148≈0.977?2和492?148≈0.022?8.
由0.022?80.005?4≈4.2可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
?
总结上面的例子,应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设????0:????和????相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算????2的值,并与临界值????????比较.
(3)根据检验规则得出推断结论.
(4)在????和????不独立的情况下,根据需要,通过比较相应的频率,分析????和????间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
?
简单地说,反证法是在某种假设????0之下,推出一个矛盾结论,从而证明????0不成立;而独立性检验是在零假设????0之下,如果出现一个与????0相矛盾的小概率事件,就推断????0不成立,且该推断犯错误的概率不大于这个小概率.另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
独立性检验的本质是比较观测值与期望值之间的差异,由????2所代表的这种差异的大小是通过确定适当的小概率值进行判断的.这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
?
思考:独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同
之处吗?
随堂小测
C
2.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是 ( )
A.若????2>6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
?
C
3.为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:
(1)用样本估计总体思想估计该中学一年级学生的近视率;
(2)能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视有关系?
?
?
近视
不近视
足够的户外暴露时间
20
35
不足够的户外暴露时间
30
15
课堂小结
分类变量及其关联性
应用比率判断关联性
应用条件概率判断关联性
2×2列联表
独立性检验的零假设
独立性检验的统计量χ2及其临界值
χ2=?????????????????????2????+????????+????????+????????+????.
?
????
0.1
0.05
0.01
0.005
0.001
????????
2.706
3.841
6.635
7.879
10.828
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
????0:分类变量????和????独立.
?
课堂小结
分类变量及其关联性
应用比率判断关联性
应用条件概率判断关联性
2×2列联表
独立性检验的零假设
独立性检验的统计量χ2及其临界值
χ2=?????????????????????2????+????????+????????+????????+????.
?
????
0.1
0.05
0.01
0.005
0.001
????????
2.706
3.841
6.635
7.879
10.828
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
????0:分类变量????和????独立.
?
谢 谢!