(共28张PPT)
两种变量
定量变量:体重、身高、温度、考试成绩等等 分类变量:性别、是否吸烟、是否患肺癌、宗教信仰、国籍等等
变量
定量变量的取值一定是实数,
例如身高、体重、考试成绩等,张明的身高是180cm,李立的身高是175cm。
分类变量也称为属性变量或定性变量,不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值.
独立性检验的基本思想及其初步应用
在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法。
在日常生活中,我们常常关心分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响?等等。
问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。
假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果。
假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个
叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。
例如,在前面的例子中, 原假设为: H0:面包分量足,
备择假设为 H1:面包分量不足。
这个假设检验问题可以表达为:
H0:面包分量足 ←→ H1:面包分量不足
求解假设检验问题
考虑假设检验问题:
H0:面包分量足 ←→ H1:面包分量不足
在H0成立的条件下,构造与H0矛盾的小概率事件;
如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。
求解思路:
某医疗机构为了了解患肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个成年人,其中吸烟者2148人,不吸烟者7817 人,调查结果是:吸烟的2148 人中49人患肺癌, 2099人不患肺癌;不吸烟的7817人中42人患肺癌, 7775人不患肺癌。
●
根据这些数据能否断定:患肺癌与
吸烟有关?
吸烟与肺癌列联表
患肺癌 不患肺癌 总计
吸烟 49 2099 2148
不吸烟 42 7775 7817
总计 91 9874 9965
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
列联表
在不吸烟者中患肺癌的比重是
在吸烟者中患肺癌的比重是
0.54%
2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大
1)通过图形直观判断
三维柱状图
2) 通过图形直观判断
二维条形图
3)通过图形直观判断
患肺癌
比例
不患肺癌
比例
4) 等高条形图
等高条形图更清晰地表达了两种情况下患肺癌的比例。
上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?这需要用统计观点来考察这个问题.
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设:
H0:吸烟与患肺癌没有关系
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
把数字用字母代替,得到如下用字母表示的列联表:
吸烟的人中不患肺癌的比例:
不吸烟的人中不患肺癌的比例:
若H0成立
不患肺癌 患肺癌 总计
不吸烟 a b a+b
吸烟 c d c+d
总计 a+c b+d a+b+c+d
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量
若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小.
由列联表中数据,利用公式(1)计算得K2的观测值为:
(1)
其中n=a+b+c+d为样本容量.
卡方统计量
那么这个值到底能告诉我们什么呢?
在实际应用中,要在获取样本数据之前通过下表确定临界值:
10.828
7.879
6.635
5.024
3.841
2.706
2.072
1.323
0.708
0.445
k
0.001
0.005
0.010
0.025
0.05
0.10
0.15
0.5
0.40
0.50
(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系”;
(2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”;
(3)如果k>6.635,就有99%的把握认为“X与Y有关系”;
(4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”;
(5)如果k>3.841,就有95%的把握认为“X与Y有关系”;
(6)如果k>2.706,就有90%的把握认为“X与Y有关系”;
(7)如果k<=2.706,就认为没有充分的证据显示
“X与Y有关系”.
临界值
也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值超过6.635的频率约为0.01。
[思考] 如果K2 6.635,就断定H0不成立,这种判断出错的可能性有多大
答:判断出错的概率为0.01
即有99%的把握认为H0不成立。
独立性检验的基本思想:
类似于数学上的反证法,对“两个分类变量有关系”
这一结论成立的可信程度的判断:
(1)假设该结论不成立,即假设结论“两个分类变量
没有关系”成立.
(2)在假设条件下,计算构造的随机变量K2,如果由观测数据计算得到的K2很大,则在一定程度上说明假设不合理.
(3)根据随机变量K2的含义,可以通过(2)式评价假设不合理的程度,由实际计算出的k>6.635,说明假设不合理的程度约为99%,即“两个分类有关系”这一结论成立的可信程度约为99%.
反证法原理与假设检验原理
反证法原理: 在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。
假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2x2列联表)为:
解:根据题目所给数据得到如下列联表1-13:
患心脏病 不患心脏病 总计
秃顶 214 175 389
不秃顶 451 597 1048
总计 665 772 1437
根据联表1-13中的数据,得到
所以有99%的把握认为“秃顶患心脏病有关”。
因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.
例1理解: 秃头与患心脏病 1. 在解决实际问题时,可以直接计算K2的观测值k进行独立检验,而不必写出K2的推导过程 。
2. 本例中的边框中的注解,主要是使得学生们注意统计结果的适用范围(这由样本的代表性所决定)。
因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.