(共26张PPT)
8.3.2 独立性检验
问题引入
用频率推断两个分类变量是否独立有什么缺点?
频率具有随机性,与概率之间存在差异
样本容量较小时,犯错误的概率较大
问题回溯
有没有更合理的推断方法,同时也希望对出现的错误推断的概率一定的控制或估算?
A与B相互独立(简称为独立)的充要条件是
抽象简化列联表
X=0 X=1
Y=0 X=0,Y=0 X=1,Y=0
Y=1 X=0,Y=1 X=1,Y=1
{x=1}与{y=1}是否有关联呢?
前方高能
如何判断{x=1}与{y=1}是否有关联呢
{x=0}与{x=1}对立, {y=0}与{y=1}对立
原(零)假设!
进一步由条件概率
独立含义的全解
{X=0}与{Y=0}独立
{X=0}与{Y=1}独立
{X=1}与{Y=0}独立
{X=1}与{Y=1}独立
具体的列联表
频数的期望值与实际值
P(X=0)和P(Y=0)对应的频率的乘积
{X=0,Y=0}发生的频率的期望值
两者应当相差不大
如何衡量差别呢
原假设成立,下面四个量值不应该太大
是不是有点麻烦
构造一个方便科学的统计量
看起来好一点了
卡方统计量
卡方统计量有什么用呢?
统计学家建议,用卡方的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立。
那么,究竟大到什么程度,可以推断不成立呢?
或者说,怎样确定判断卡方大小的标准呢?
卡方统计量有什么用呢?
在假定的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计学家得到了卡方的近似分布。忽略卡方的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数,使得下面关系成立:
临界值
基于小概率值α的检验规则
(小概率值)临界值表
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
纸上得来终觉浅,绝知此事要躬行
例2:为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生,通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀。依据α=0.1的卡方独立性检验,试分析两校学生中数学成绩优秀率之间是否存在差异?
具体的列联表
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
解:零假设H0:分类变量X与Y相互独立,
即两校学生的数学成绩优秀率无差异根据表中的数据,
计算得到
根据小概率值α=0.1的卡方独立性检验,
没有允分证据推断H0不成立,因此可以认为H0成立,
即认为两校的数学成绩优秀率没有差异.
思考:例1和例2都是基于同一组数据的分析,
但却得出了不同的结论,你能说明其中的原因吗?
例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响。但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断,由于样本具有随机性,依据频率所作的推断可能会犯错误.
例3: 为研究吸烟是否与肺癌有关, 某肿瘤研究所采取有放回简单随机抽样的方法, 调查了9965人, 得到成对样本观测数据的分类统计结果, 如下表所示. 依据小概率值α=0.001的独立性检验, 分析吸烟是否会增加患肺癌的风险.
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
解:零假设H0:吸烟与患肺癌之间无关联
根据小概率值α=0.001的卡方独立性检验,推断H0不成立,因此可以吸烟与患肺癌之间有关联,
此推断犯错误的概率不大于 0.001.
用频率计算再次进行比较:
不吸烟者中患肺癌的频率:
吸烟者中患肺癌的频率:
其中两者的比值为:
在被调查者中, 吸烟者患肺癌的频率是不吸烟者患肺癌的频率的 4 倍以上
总结独立性检验的步骤
应用独立性检验解决实际问题主要环节:
(1) 提出零假设H0:X和Y相互独立, 并给出在问题中的解释.
(2) 根据抽样数据整理出2×2列联表, 计算χ2的值, 并与临界值比较.
(3) 根据检验规则得出推断结论.
(4) 在 X和Y不独立的情况下, 根据需要, 通过比较相应的频率, 分析 X和Y间的 影响规律.
思考1:列联表中,对换行或列的值,会影响卡方的取值计算结果吗?自己动手试一试!
思考2:独立性检验与反证法有什么区别?
本节课小结
独立性检验的基本原理——小概率事件
列联表 卡方统计量 临界值表
独立性检验的基本步骤
假设 计算 查表 下结论