(共23张PPT)
山东省临沂第二中学高二数学组
1.2 独立性检验的基本思想及其初步应用
在统计学中,独立性检验就是检验两个分类变量是
否有关系的一种统计方法。
所谓“分类变量”,就是指个体所属的类别不同,也
称为属性变量或定型变量。
在日常生活中,我们常常关心两个分类变量之间是
否有关系,例如吸烟是否与患肺癌有关系?性别是否对
于喜欢数学课程有影响等等。
吸烟与患肺癌列联表
患肺癌 不患肺癌 总计
吸烟 49 2099 2148
不吸烟 42 7775 7817
总计 91 9874 9965
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
列联表2×2
在不吸烟者中患肺癌的比重是
在吸烟者中患肺癌的比重是
0.54%
2.28%
1)通过图形直观判断
三维柱状图
2) 通过图形直观判断
二维
条形图
3)通过图形直观判断
患肺癌
比例
不患肺癌
比例
等高
条形图
问题1:判断的标准是什么?
吸烟与不吸烟,患病的可能性的大小是否有差异?
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大
问题2:差异大到什么程度才能作出“吸烟与患病有关”的判断?
问题3:能否用数量刻画出“有关”的程度?
独立性检验
H0: 吸烟和患肺癌之间
没有关系
通过数据和图表分析,得到结论是:吸烟与患肺癌有关
结论的可靠程度如何?
吸烟与患肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
吸烟的人中不患肺癌的比例:
不吸烟的人中不患肺癌的比例:
若H0成立
引入一个随机变量:卡方统计量
作为检验在多大程度上可以认为“两个变量有关系”的标准 。
通过公式计算
吸烟与患肺癌列联表
患肺癌 不患肺癌 总计
吸烟 49 2099 2148
不吸烟 42 7775 7817
总计 91 9874 9965
已知在 成立的情况下,
故有99%的把握认为H0不成立,即有99%的把握认为“患肺癌与吸烟有关系”。
即在 成立的情况下, 大于6.635概率非常小,近似为0.010
现在的 =56.632的观测值远大于6.635,出现这样的观测值的概率不超过0.010。
a+b+c+d
b+d
a+c
总计
c+d
d
c
a+b
b
a
总计
一般地,对于两个分类变量X和Y。X有两类取值:
即类 和 (如吸烟与不吸烟);Y也有两类取值:
即类 和 (如患病与不患病)。于是得到下列样
本频数的2×2列联表为:
用卡方统计量来确定在多大程度上可以认为
“两个分类变量有关系”的方法称为这两个分类变
量的独立性检验。
要推断“X和Y有关系”,可按下面的步骤进行:
(1)提出假设H0 :X和Y没有关系;
(3)查对临界值,作出判断。
(2)根据2×2列联表与公式计算 的值;
10.828
7.879
6.635
5.024
3.841
0.001
0.005
0.010
0.025
0.05
2.706
2.072
1.323
0.708
0.455
0.10
0.15
0.25
0.40
0.50
P( )
反证法原理与假设检验原理
反证法原理: 在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。
假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。
例1.在某医院,因为患心脏病而住院的665名男性病人
中,有214人秃顶;而另外772名不是因为患心脏病而住
院的男性病人中有175秃顶.分别利用图形和独立性检
验方法判断秃顶与患心脏病是否有关系 你所得的结论
在什么范围内有效
秃顶与患心脏病列联表
患心脏病 患其他病 总计
秃顶 214 175 389
不秃顶 451 597 1048
总计 665 772 1437
有99%的把握认为“秃顶与患心脏病有关”
说明:在熟悉独立性检验的原理后,可以通过直接计算K 的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题,但是,借助图形更直观。
犯错误的概率是指将“秃顶与患心脏病有关系”错判成“秃顶与心脏病没有关系”的概率
例2 为考察高中生的性别与是否喜欢数学课程之间的关
系。在某城市的某校高中生随机抽取300名学生。得到
如下列联表:
性别与喜欢数学课程列联表
喜欢 不喜欢 总计
男 37 85 122
女 35 143 178
总计 72 228 300
由表中数据计算得到K2的观测值k≈4.514。能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?为什么?
解:在假设 “性别与是否喜欢数学课程之间没有关系”
的前提下, 应该很小,并且
而我们所得到的 的观测值 超过3.841,这就
意味着“性别与是否喜欢数学课程之间有关系”这一结论
是错误的可能性约为0.05,即有95%的把握认为“性别与
是否喜欢数学课程之间有关系”。
练习: ( P17 )
甲乙两个班级进行一门考试,按照学生考试成绩优秀和
不优秀统计后,得到如下列联表:
优秀 不优秀 总计
甲班 10 35 45
乙班 7 38 45
总计 17 73 90
画出列联表的条形图,并通过图形判断成绩与班级是否
有关.利用列联表的独立性检验估计,认为“成绩与班级
有关系”犯错误的概率是多少。
由图及表直观判断,好像“成绩优秀与班级有关系”,由表中
数据计算,得 的观察值为 。由教科书中表
1-12,得
从而由50%的把握认为“成绩优秀与班级有关系”,即断言“成
绩优秀与班级有关系”犯错误的概率为0.5。
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
优秀
不优秀
列联表的条形图:
作业:P16
习题1.2
第一题 第二题
再见