(共34张PPT)
列联表与独立检验
教学目标
了解独立性检验(只要求2×2列联表)的基本思想.
理解独立性检验中P( ≥K0)的具体含义.
掌握独立性检验的方法和步骤.
教学重点
教学难点
相互独立事件的概念以及概率积公式的应用,独立检验的方法与步骤。
对独立性检验的基本思想以及 的意义的理解。
1.定义:事件A是否发生对事件B发生的概率 ,即P(B|A)=________,这时,我们称两个事件A,B相互独立,并把这两个事件叫做相互独立事件.
2.性质:当事件A,B相互独立时,________与________,________与________,________与________也相互独立.
没有影响
P(B)
A
A
B
B
A
B
相互独立事件的概念与性质
饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.
人的身体健康状况与饮用水的质量之间有关系吗?
问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。
假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于1000g ;
“这个平均值不大于950g”是一个与假设“面包份量足”矛盾的小概率事件;
这个小概率事件的发生使庞加莱得出推断结果。
一: 假设检验问题的原理
假设检验问题由两个互斥的假设构成,其中一个叫做原假设, 用H0表示;另一个叫做备择假设,用H1表示。
例如,在前面的例子中,
原假设为:H0:面包份量足,
备择假设为:H1:面包份量不足。
这个假设检验问题可以表达为:H0:面包份量足 ←→H1:面包份量不足
二: 求解假设检验问题
考虑假设检验问题:H0:面包分量足 ←→H1:面包分量不足
求解思路分析:
1.在H0成立的条件下,构造与H0矛盾的小概率事件;
2.如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;
否则,断言没有发现样本数据与H0相矛盾的证据。
两种变量:
变量
定量变量:体重。身高,温度。考试成绩等等。
分类变量:性别,是否吸烟、是否患肺癌、宗教信仰,国籍等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系?
性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:
变量
本节研究的是两个分类变量的独立性检验问题。
定量变量: 回归分析(画散点图、相关系数r、相关指数 、残差分析)
分类变量: 独立性检验
总计
总计
a
b
c
d
a+c
b+d
a+b
c+d
a+b+c+d
列联表
① 定义:列出的两个分类变量的________称为列联表.② 2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为_________和__________,其样本频数列联表(也称为2×2列联表)为下表.
频数表
{ , }
{ , }
(1) 2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.
(2) 表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.
对2×2列联表的理解
1. 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下据:甲校 43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.
解: 用 表示两所学校的全体学生构成的集合,考虑以为样本空间的古典概型.对于2中每一名学生,定义分类变量X和Y如下:
我们将所给数据整理成下表
学校
甲校(X=0)
乙校(X=1)
数学成绩
不优秀(Y=0)
优秀(Y=1)
33
38
71
10
7
17
合计
合计
43
45
88
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件(Y=0)和(Y-1)的频数;最后一列的前两个数分别是事件(X一0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;右下角格中的数是样本容量.因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为:
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为:
我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示.
和
和
在右图中,左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率。通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率。
依据频率稳定于概率的原理,我们可以推断
P(Y=1|X=0)>P(Y=1|X=1),也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的。这就是说,样本的随机性导致了两个频率间出现较大差异,在这种情况下,我们推断出的结论就是错误的.后面我们将讨论犯这种错误的概率大小问题。
你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
2.下面是一个2×2列联表
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
C
合计
合计
a
b
2
21
25
46
73
27
100
单位:人
(1)吸烟是否对每位烟民一定会引发健康问题?
(2)有人说吸烟不一定引起健康问题,因此可以吸烟.这种说法对吗?
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么
(1)不一定
答案:
(2)不对
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2= ,
其中n=a+b+c+d为样本容量.
独立性检验
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定___________ .
②利用公式计算随机变量 的___________ .
③如果 ___________ ,就推断 “X 与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在___________ ___________ 不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中支持结论“X与Y有关系”.
临界值
观测值
犯错误的概率
没有发现足够证据
0
独立性检验的具体做法
独立性检验的基本思想与反证法的思想的相似之处
反证法
独立性检验
要证明结论A
要确认“两个分类变量有关系”
在A不成立的前提下进行推理
假设该结论不成立,即假设结论“两个在A不成立的前分类变量没有关系”成立,在该假设下提下进行推理计算
独立性检验;
根据观测值分析事件是否独立。
独立性检验
2.依据小概率值a=0.1的X2独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
解:
零假设为
Ho:分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异.根据表中的数据,计算得到
根据小概率值a=0.1的X2独立性检验,没有充分证据推断出H0不成立,因此可以认为Ho成立,即认为两校的数学成绩优秀率没有差异.
3.某儿童医院用甲、乙两种疗扶治疗小儿消化不良,采用有故回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值 =0.005的独立性检验,分析乙种疗法的效果是否比甲种疗祛好.
将所给数据进行整理,得两种疗法治疗数据的列联表,如下表.
解:零假设为
Ho:疗法与疗效独立,即两种疗祛效果没有差异.
疗法
疗效
合计
甲
乙
合计
未治愈
治愈
15
5
21
52
63
115
67
69
136
根据列联表中的数据,经计算得到
根据小概率值 =0.005的独立性检验,没有充分证推断H,不成立,因此可以认为Ho 成立,即认为两种疗法效果没有差异.
单位:人
4.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表8.3-6所示。依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
单位:人
吸烟
非吸烟者
吸烟者
合计
肺癌
非肺癌患者
肺癌患者
7775
2099
9874
42
49
91
合计
7817
2148
9965
解:零假设为
Ho:吸烟与患肺之间无关联.
根据列联表中的数据,经计算得到
据小概率值 =0.001的独立性检验,我们推断H。不成立,即认为吸烟与患肺关联,此推断犯错误的概率不大于0.001.
根据 表 8.3-6 中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
和
吸烟者中不患肺癌和患肺癌的频率分别为:
和
由
可见,在破调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌。
A.
B.
C.
D.
C
1.对于分类变量A与B的统计量χ2,下列说法正确的是( )
A.χ2越大,说明“A与B有关系”的可信度越小
B.χ2越大,说明“A与B无关”的程度越大
C.χ2越小,说明“A与B有关系”的可信度越小
D.χ2接近于0,说明“A与B无关”的程度越小
应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设Ho:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算 的值,并与临界值x。比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
1.为了研究高三年级学生的性别和身高是否大于170cm的问题,得到某中学高三年级学生的性别和身高的所有观测数据所对应的列联表如下:
计算出K2,然后与临界值对比
单位:人
性别
女
男
合计
合计
身高
低于170cm
不低于170cm
81
28
109
16
75
91
97
103
200
请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.
2.从第1题的高三学生中获取容量为40的有放回简单随机样本,得到性别和身高变量的样本观测数据所对应的列联表如下:
单位:人
性别
女
男
合计
身高
低于170cm
不低于170cm
合计
14
8
22
7
11
18
21
19
40
(1)依据α=0.05的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?解释所得结论的实际含义.
(2)得到的结论与第1题的一致吗?如果不一致,你认为原因是什么.
3.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:
单位:人
出生时间
性别
女
男
合计
合计
晚上
白天
24
8
32
31
26
57
55
34
89
依据α=0.1的独立性检验,能否认为性别与出生时间有关联?解释所得结论的实际含义.
根据表中数据,计算
对照临界值知,认为婴儿的性别与出生时间有关系的把握为90%.
独立性检验
2×2列联表作法(理解)
统计量的计算(理解)
理解独立性检验的思想(了解)
总结