(共40张PPT)
8.3 列联表与独立性检验
1.通过实例,理解2×2列联表的统计意义(重点)
2.通过实例,了解2×2列联表独立性检验及其应用(难点)
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题. 例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等. 本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量. 分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等. 在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义. 本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
分类变量与列联表
问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查. 全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
这是一个简单的统计问题. 最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率. 为了方便,我们设
那么,只要求出 和 的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异. 由所给的数据,计算可得
由
可知,男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法. 用 Ω 表示该校全体学生构成的集合,这是我们所关心的对象的全体. 考虑以 Ω 为样本空间的古典概型,并定义一对分类变量X 和 Y 如下:对于 Ω 中的每一名学生,分别令
我们希望通过比较条件概率 和 回答上面的问题.
按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是 ,而该男生属于经常锻炼群体的概率是 .
因此,“性别对体育锻炼的经常性没有影响”可以描述为
而“性别对体育锻炼的经常性有影响”可以描述为
性别 锻炼 合计
不经常( Y = 0) 经常( Y = 1)
女生( X = 0) 192 331 523
男生( X = 1) 128 473 601
合计 320 804 1124
为了清楚起见,我们用表格整理数据,如下所示
我们用{ X = 0,Y = 1}表示事件{ X = 0}和{ Y = 1}的积事件,用{ X = 1,Y = 1}表示事件{ X = 1}和{ Y = 1}的积事件. 根据古典概型和条件概率的计算公式,我们有
由 大于 可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
在实践中,由于保存原始数据的成本较高,人们经常按照研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将上例中的数据统计表称为 2×2 列联表. 2×2 列联表给出了成对分类变量的交叉分类频数. 它包含了 X 和 Y 的如下信息:最后一行的前两个数分别是事件{Y = 0}和
{Y = 1}中样本点的个数;最后一列的前两个数分别是事件{X = 0}和
{X = 1}中样本点的个数;中间的四个数是表格的核心部分,给出了事件{X = x,Y = y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.
例1. 为了比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下表所示的数据. 试分析两校学生中数学成绩优秀率之间是否存在差异.
学校 数学成绩 合计
不优秀 优秀
甲校 33 10 43
乙校 38 7 45
合计 71 17 88
解:根据表中数据可得,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为 和 ;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为 和 .依据频率稳定于概率的原理,我们可以推断,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此可以认为两校学生的数学成绩优秀率存在差异.
我们可以用等高堆积条形图直观地展示上述计算结果,如图所示.
独立性检验
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联. 对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大. 因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
考虑以 Ω 为样本空间的古典概型. 设 X 和 Y 为定义在 Ω 上,取值于{0,1}的成对分类变量. 我们希望判断事件{ X = 1}和{ Y = 1}之间是否有关联. 注意到{ X = 0}和{ X = 1},{ Y = 1}和{ Y = 1}都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系
是否成立,通常称为零假设或原假设.
由条件概率的定义可知,零假设 H0 等价于
或 ①
注意到{ X = 0}和{ X = 1}为对立事件,于是 .再由概率的性质,我们有
由此推得①式等价于
因此,零假设 H0 等价于{ X = 1}与{ Y = 1}独立.
根据已经学过的概率知识,下面的四条性质彼此等价:
{ X = 0}与{ Y = 0}独立;{ X = 0}与{ Y = 1}独立;
{ X = 1}与{ Y = 0}独立;{ X = 1}与{ Y = 1}独立.
如果这些性质成立,我们就称分类变量 X 和 Y 独立. 这相当于下面四个等式成立:
因此,我们可以用概率语言,将零假设改述为:
H0:分类变量 X 和 Y 独立.
②
假设我们通过简单随机抽样得到了 X 和 Y 的抽样数据列联表,如下所示.
X Y 合计
Y = 0 Y = 1
X = 0 a b a+b
X = 1 c d c+d
合计 a+c b+d n=a+b+c+d
思考:如何基于上面的四个等式及列联表中的数据,构造适当的统计量,对成对分类变量 X 和 Y 是否相互独立作出判断?
在零假设 H0 成立的条件下,根据频率稳定于概率的原理,由②式中
我们可以用概率 P( X = 0)和 P( Y = 0)对应的频率的乘积 去估计概率 P( X = 0,Y = 0),而把 视为事件{X = 0,Y = 0}发生的频数的期望值(或预期值).
,
,
这样,该频数的观测值 a 和期望值 应该比较接近.
综合②中的四个式子,如果零假设 H0 成立,下面四个量的取值都不应该太大:
反之,当这些量的取值较大时,就可以推断 H0 不成立.
③
显然,分别考虑③中的四个差的绝对值很困难. 我们需要找到一个既合理又能够计算分布的统计量,来推断 H0 是否成立. 这里,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
该表达式可化简为
统计学家建议,用随机变量 取值的大小作为判断零假设 H0 是否成立的依据,当它比较大时推断 H0 不成立,否则认为 H0 成立. 那么,究竟大到什么程度,可以推断 H0 不成立呢?或者说,怎样确定判断 大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过一个与 H0 相矛盾的小概率事件来实现. 在假定 H0 的条件下,对于有放回简单随机抽样,当样本容量 n 充分大时,统计学家得到了 的近似分布.
忽略 的实际分布与该近似分布的误差后,对于任何小概率值 α,可以找到相应的正实数 xα,使得下面关系成立:
我们称 xα 为 α 的临界值,这个临界值就可以作为判断 大小的标准. 概率值 α 越小,临界值 xα 越大. 当总体很大时,抽样有、无放回对 的分布影响较小. 因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值 α 取得充分小,在假设 H0 成立的情况下,事件 是不大可能发生的. 根据这个规律,如果该事件发生,我们就可以推断 H0 不成立. 不过这个推断有可能犯错误,但犯错误的概率不会超过 α .
基于小概率值 α 的检验规则是:
当 时,我们推断 H0 不成立,即认为 X 和 Y 不独立,该推断犯错误的概率不超过 α;
当 时,我们我们没有充分证据推断 H0 不成立,可以认为 X 和 Y 独立.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
下表给出了独立性检验中5个常用的小概率值和相应的临界值.
例如,对于小概率值 α = 0.05,我们有如下的具体检验规则:
(1)当 时,我们认为 X 和 Y 不独立,该推断犯错误的概率不超过0.05;
(2)当 时,我们认为 X 和 Y 独立.
这种利用 的取值推断分类变量是否独立的方法称为 独立性检验,读作“卡方独立性检验”,简称独立性检验.
例2. 为了比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下表所示的数据. 依据小概率值 α = 0.1的 独立性检验,能否推断两校学生的数学成绩优秀率存在差异?
学校 数学成绩 合计
不优秀 优秀
甲校 33 10 43
乙校 38 7 45
合计 71 17 88
解:零假设为
H0:分类变量 X 与 Y 相互独立,即两校学生的数学成绩优秀率无差异.
根据表中数据,计算得到
根据小概率值 α = 0.1的 独立性检验,没有充分证据推断 H0 不成立,因此可以认为 H0 成立,即认为两校的数学成绩优秀率没有差异.
例3. 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下表所示的数据. 依据小概率值 α = 0.005的 独立性检验,分析乙种疗法的效果是否比甲种疗法好.
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
解:零假设为
H0:疗法与疗效独立,即两种疗法效果没有差异.
根据表中数据,计算得到
根据小概率值 α = 0.005的 独立性检验,没有充分证据推断 H0 不成立,因此可以认为 H0 成立,即认为两种疗法效果没有差异.
例4. 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示. 依据小概率值 α = 0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:零假设为
H0:吸烟与患肺癌之间无关联.
根据表中数据,计算得到
根据小概率值 α = 0.001的独立性检验,我们推断 H0 不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
总结上面的例子,应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设 H0:X 和 Y 相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算 的值,并与临界值 xα 比较.
(3)根据检验规则得出推断结论.
(4)在 X 和 Y 不独立的情况下,根据需要,通过比较相应的频率,分析 X 和 Y 间的影响规律.
C
X Y 合计
y1 y2
x1 a 21 73
x2 2 25 27
合计 b 46 100
1.下面是一个2×2列联表:
则表中a,b处的值分别为( )
A.94,96 B.52,50 C.52,54 D.54,52
2.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算 χ2=12,则所得到的统计学结论是认为“性别与喜欢乡村音乐有关系”的把握约为( )
A.0.1% B.0.5% C.99.5% D.99.9%
D
3.在一次独立性相关检验中,若能在犯错误的概率不超过0.005的前提下认为两个分类变量 X 与 Y 有关系,则 的取值范围是( )
A.[2.706,3.841) B.[3.841,6.635)
C.[6.635,7.879) D.[7.879,+∞)
D
4.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
年龄 饮食习惯 合计
偏爱蔬菜 偏爱肉类
50岁以下 4 8 12
50岁以上 16 2 18
合计 20 10 30
则可以说其亲属的饮食习惯与年龄有关的把握为( )
A.95% B.99% C.99.5% D.99.9%
C
分类变量之间关系
条形图
柱形图
列联表
独立性检验
背景分析