(共19张PPT)
问题1:吸烟与患肺癌是否有关系?
分类变量
是否吸烟
是否患肺癌
2.28%
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
不患肺癌 患肺癌 总计
不吸烟 7775 42 7817
吸烟 2099 49 2148
总计 9874 91 9965
那么吸烟是否对患肺癌有影响?
①初步估计:
在不吸烟者中患肺癌的比重是
在吸烟者中患肺癌的比重是
0.54%
结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异。
这样列出的两个分类变量的频数表,称为列联表
问题2:有多大把握认为吸烟和患肺癌有关?
独立性检验
Chi-square test 由英国著名的统计学家,被公认为“现代统计学之父” 的Karl Pearson首创
判断两个不同的分类变量是否会相互影响,需借助独立性检验(Chi-square test),简称独立性检验(test of independence)
2022/5/29
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”
为此先假设:
H0:吸烟与患肺癌没有关系.
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d n=a+b+c+d
把表中的数字用字母代替,得到如下用字母表示的列联表
用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌相互独立”,即假设H0等价于 P(AB)=P(A)P(B).
问题2:有多大把握认为吸烟和患肺癌有关?
A
B
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;
|ad-bc|越大,说明吸烟与患肺癌之间关系越强。
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d n=a+b+c+d
在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生
的频数。由于频率接近于概率,所以在H0成立的条件下应该有:
注:(1)P(AB)的值与P(A)·P(B)的值差距越小,说明A、B越接近于独立,A、B越不相关,即A、B相互独立的可能性越大;
(2)P(AB)的值与P(A)·P(B)的值差距越大,说明A、B越不独立,A、B越相关,即A、B相关联的可能性越大。
A
B
(2)为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量
不患肺癌 患肺癌 合计
不吸烟 7775(a) 42(b) 7817(a+b)
吸烟 2099(c) 49(d) 2148(c+d)
合计 9874(a+c) 91(b+d) 9965(n)
3.查χ2 表
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
χ2独立性检验中几个常用的小概率值和相应的临界值.
例如,对于小概率值α=0.05,我们有如下的具体检验规则:
(1)当χ2 ≥ xα=3.841时,我们就推断不成立(数学结论),即认为X和Y不独立,该推断犯错误的概率不超过0.05(实际结论);
(2)当χ2< xα=3.841时,我们没有充分证据推断不成立(数学结论) ,可以认为X和Y独立(实际结论)
4.根据检验规则得出推断结论
=56.632≥6.635=x0.01
(4)结论:按α=0.01的独立性检验,我们推断(数学结论),即认为吸烟与患肺癌有关联关系,此推断犯错误的概率不大于0.01(实际结论)
α 0.1 0.05 0.01 0.005 0.001
α 2.706 3.841 6.635 7.879 10.828
χ2独立性检验中几个常用的小概率值和相应的临界值.
小结:
独立性检验解决实际问题大致应包括以下几个主要环节:
(1)零假设 提出零假设X和Y相互独立,并给出在实际问题中的解释。
(2)计算χ 2 根据抽样数据整理出22列联表,计算的值χ 2 ,并与临界值比较。
(3)查临界值 根据检验规则得出推断结论
(4)下结论 在X和Y不独立的情况下,根据需要,通比较相应的频率,分析X和Y间的影响规律
思考:独立性检验的思想类似于我们常用的反证法,你能指二者之间的相同和不同之处吗?
简单地说,反证法是在某种假设之下,推出一个矛盾结论,从而证明不成立;而独立性检验是在零假设之下,如果出现一个与相矛盾的小概率事件,就不成立,且该推断犯错误的概率不大于这个小概率。另外,在全部逻辑推理正确的情况下,反证法不会出错,但独立性检验会犯随机性错误
例 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.
解 2×2列联表如下表所示:
教师年龄 对新课程教学模式 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.
解零假设H0 (相互独立) :对新课程教学模式的赞同情况与教师年龄无关.
≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立(数学结论),即认为对新课程教学模式的赞同情况与教师年龄无关(实际结论).
教师年龄 对新课程教学模式 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
练一练:某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到如下列联表:
能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
顾客性别与满意评价列联表
附:
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
满意 不满意 合计
男顾客 40 10 50
女顾客 30 20 50
合计 70 30 100
附:
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
满意 不满意 合计
男顾客 40 10 50
女顾客 30 20 50
合计 70 30 100
解:(1) :假设性别与满意评价无关(假设相互独立)
= x0.05
(3)根据小概率值α=0.05的独立性检验,我们不成立,即认为性别与满意评价有关联,此推断犯错误的概率不大于0.05
(4)故有95%的把握认为男女顾客对该商场服务的评价有差异
自我总结:
独立性检验解决实际问题大致应包括以下几个主要环节:
(1)零假设 提出零假设X和Y相互独立,并给出在实际问题中的解释。
(2)计算χ2 根据抽样数据整理出22列联表,计算的值,并与临界值比较。
(3)查临界值 根据检验规则得出推断结论
(4)下结论 在X和Y不独立的情况下,根据需要,通比较相应的频率,分析X和Y间的影响规律
课后习题
根据小概率值α=0.01的独立性检验
以自己所在班级调查:性别是否影响数学成绩好坏?