(共17张PPT)
7.3.1 独立性检验&
7.3.2 独立性检验的基本思想
1.通过实例,理解2×2列联表的概念并会根据给定的问题,列出2×2列联表.
2.理解统计量 的意义和独立性检验的基本思想.
有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语,那么吸烟和患肺癌之间有因果关系吗
问题1:某机构随机调查了6578人,得到如下表所示的数据(单位:人),吸烟与患肺癌是否有关系呢?
上面是一张2行2列的表,在统计中称为2×2列联表.根据表格中的数据来判断吸烟与患肺癌是否有关系,即它们是否独立,这一问题称为2×2列联表的独立性检验.
患肺癌 未患肺癌
吸烟 56 1932
不吸烟 23 4567
分析:设变量A:A1表示吸烟,A2= 表示不吸烟;变量B:B1表示患肺癌,B2= 表示未患肺癌.
解法一:比较患肺癌的人在吸烟人群和不吸烟人群中的比率.
吸烟人群中患肺癌的人所占百分比是
不吸烟人群中患肺癌的人所占百分比是
∴患肺癌与吸烟
可能是有关系的.
患肺癌B1 未患肺癌B2 总计
吸烟A1 56 1932 1988
不吸烟A2 23 4567 4590
总计 79 6499 6578
解法二:如果吸烟和患肺癌是独立的,那么就有P(A1B1)=P(A1)P(B1).
由此可得,P(A1B1)=
∴患肺癌与吸烟可能是有关系的.
列出频率表.
P(A1)=
P(B1)=
显然,30.22%×1.20%≈0.36%≠0.85%.
患肺癌B1 未患肺癌B2 总计
吸烟A1
不吸烟A2
总计 1
概念讲解
设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2= ;变量B:B1,B2= .
通过观察得到下表的数据:
B1 B2 总计
A1 a b a+b
A2 c d c+d
总计 a+c b+d n=a+b+c+d
设n=a+b+c+d,用 估计P(A1B1), 估计P(A1), 估计P(B1).
若有式子 则可以认为A1与B1独立.
同理,若 则可以认为A1与B2独立;
若 则可以认为A2与B1独立;
若 则可以认为A2与B2独立.
在 中,∵ 表示的是频率,不是概率.
∴即使变量A,B之间独立,式子两边也不一定相等.但当两边相差很大时,变量A,B之间不独立.
归纳总结
制作2×2列联表的基本步骤:
第一步,合理选取两个变量,且每一个变量都可以取两个值;
第二步,抽取样本,整理数据;
第三步,画出2×2列联表.
例1:在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁及以上的有70人,六十岁以下的有54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的 列联表,并利用 与 判断二者是否有关系.
解: 列联表如下:
饮食习惯 年龄 总计
年龄在六十岁及以上 年龄在六十岁以下 饮食以蔬菜为主 43 21 64
饮食以肉类为主 27 33 60
总计 70 54 124
将表中数据代入公式得 , .
显然二者数据具有较为明显的差距,
据此可以在某种程度上认为饮食习惯与年龄有关系.
问题2:当 过大时,变量之间不独立.当 多大时能说明变量之间不独立呢?能不能选择一个量,用它的大小来检验变量之间是否独立呢?
统计学家选取以下统计量,用它的大小来检验变量之间是否独立:
化简得到:
( * )
(1)当 ≤2.706时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当 >2.706时,有90%的把握判断变量A,B有关联;
(3)当 >3.841时,有95%的把握判断变量A,B有关联;
(4)当 >6.635时,有99%的把握判断变量A,B有关联.
统计上已经证明:在变量A,B独立的前提下,当样本量很大时, 近似服从一个已知的分布 (1)当 较大时,说明变量之间不独立.在统计中,用以下结果对变量的独立性进行判断.
通过计算问题1(某机构随机调查了6578人,得到如下表所示的数据(单位:人)),判断吸烟与患肺癌是否有关系.
患肺癌 未患肺癌
吸烟 56 1932
不吸烟 23 4567
解:将数据代入(*)式计算可得
因为62.698>6.635,所以有99%的把握判断吸烟与患肺癌是有关的.
1.如表是一个2×2列联表:则表中a,b的值分别为( )
C
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
A.94,72 B.52,50
C.52,74 D.74,52
2.下列关于χ2的说法正确的是( )
A.χ2在任意相互独立的问题中都可以用于检验有关还是无关
B.χ2的值越大,两个事件相关的可能性就越大
C.χ2是用来判断两个变量是否相关的统计量,当χ2的值很小时可以判定两个变量不相关
B
根据今天所学,回答下列问题:
1.如何依据2×2列联表判断两个分类变量是否独立?
2.独立性检验的基本思想是什么?