课件24张PPT。独立性检验的基本思想
及其初步应用对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.生活中的分类变量是否吸烟,宗教信仰,国籍…在日常生活中,我们常常关心分类变量之间
是否有关系:例如为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)那么吸烟是否对肺癌有影响?吸烟与患肺癌列联表列出两个分类变量的频数表,称为列联表吸烟者与不吸烟者患肺癌的可能性存在差异从上面数据和图形可以看出吸烟和患肺癌有关事实是否如此?我们能够有多大的把握认为“吸烟与患肺癌有关”?吸烟与患肺癌列联表假设H0:吸烟与患肺癌没有关系
A:不吸烟
B:不患肺癌P(AB)=P(A)(B) a:事件AB发生的频数
a+b:事件A发生的频数
a+c:事件B发生的频数构造一个随机变量建立统一标准(n=a+b+c+d)根据前面数据--卡方统计量在“吸烟与患肺癌没有关系”成立的条件下可以估算出 99%的把握认为“吸烟与患肺癌有关系”利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.确认“两个分类变量有关系”的方法假设该结论不成
由观测数据计算K2的观测值k
通过概率评价该假设不合理的程度
结论k>6.635,假设不合理程度约为99%假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表2×2列联表可以按如下步骤判断结论H1成立的可能性1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠度2.可以利用独立性检验来考察两个分类变量是否有关系并且能较精确地给出这种判断的可靠程度.根据观测数据计算检验随机变量K2的观察值k当得到的观测数据a,b,c,d都不于5时,可以通过查阅下表来确定其可信程度在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?解根据数据得到如下列联表秃顶与患心脏病列联表认为“秃顶与患心脏病有关”这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:由表中数据计算得K2≈1.8518.高中生的性别与是否喜欢数学课程之间是否有关系?为什么?解认为“性别与喜欢数学课之间有关系”.利用独立性检验的基本思想假设该结论不成
由观测数据计算K2的观测值k
通过概率评价该假设不合理的程度[2014高考辽宁文.18改编题 ]
3.某大学餐饮中心为了了解新生和饮食习惯,在全校一年级学生中进行了抽样调查,调查的的南方学生共80人,其中喜欢吃甜品的有60人;调查的北方学生有20人,其中喜欢吃甜品的有10人.
(1)请做出不同地域与是否喜欢甜品的列联表;(1)由题可得如下列联表:作业课本习题3.2 题1,2