(共59张PPT)
·选择性必修第三册·
第八章 成对数据的统计分析
8.3.2
独立性检验
学习目标
1.理解分类变量与列联表的含义,能用等高堆积条形图、列联表探讨两个分类变量的关系;(重点)
2.了解χ2的含义及其应用,理解独立性检验的基本思想及其解题步骤,并能应用其解决实际问题.(重点、难点)
情景导入
8.3.2 独立性检验
01
复习回顾,引入新知
2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
复习回顾,引入新知
你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
思考
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.
这一节课,我们将讨论犯这种错误的概率大小问题.
独立性检验
8.3.2 独立性检验
02
复习回顾,引入新知
设X和Y为定义在样本空间Ω上,取值于{0, 1}的成对分类变量.
我们希望判断事件{X=1}和{Y=1}之间是否有关联,需验证假定关系
H0:P(Y=1|X=0)=P(Y=1|X=1)
是否成立,通常称H0为零假设或原假设.
H0:P(Y=1|X=0)=P(Y=1|X=1)
:分类变量和独立.
我们通过简单随机抽样得到了和的抽样数据列联表,如图所示.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
复习回顾,引入新知
{X=0,Y=0}发生频数的期望值Ea
{X=0,Y=0}发生频数的观测值
同理
思考:如何基于列联表中的数据,构造适当的统计量,对成对分类变量和是否相互独立作出推断.
探究新知
思考
探究新知
因此,用随机变量取值的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.
依据在合理的假设前提下,小概率事件几乎不会发生.若小概率事件发生了,则认为原假设不成立.
基于小概率值的检验规则是:
当时,我们就推断不成立,既认为和不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.
探究新知
下表给出了独立性检验中几个常用的小概率值和相应的临界值.
例如,对于小概率值,我们有如下的具体检验规则:
(1)当时,我们推断不成立,即认为和不独立,该推断犯错误的概率不超过;
(2)当时,我们没有充分证据推断不成立,可以认为和独立.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
探究新知
例2 依据小概率值的独立性检验,分析下表中的抽样数据,能否据此推断两校学生得数学成绩优秀率有差异?
解:零假设为:分类变量与相互独立,即两校学生的数学成绩优秀率无差异.
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
根据表中的数据,计算得到.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
探究新知
例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?
思考
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.
探究新知
探究新知
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
探究新知
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
解:零假设为:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,如表所示.
根据列联表中的数据,经计算得到
.
根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即两种疗法效果没有差异.
探究新知
观察:在例2的2×2列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中a, b, c, d的赋值都会相应地改变. 这样做会影响χ2取值的计算结果吗
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.
对调前
疗法 疗效 合计
未治愈 治愈
乙 6 63 69
甲 15 52 67
合计 21 115 136
对调后
探究新知
例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌得风险.
解:零假设为:吸烟与患肺癌之间
无关联.根据列联表中的数据,经计算得到
.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
探究新知
解决独立性检验问题的基本步骤
1.假设:提出零假设H0:X、Y之间无关
2.列表:列出2×2列联表
3.计算:根据公式计算出的值,并与临界值进行比较
4.结论:由临界值比较给出相应结论
总结
探究新知
独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
思考
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断不成立,且该推断犯错误的概率不大于这个小概率.另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
能力提升
8.3.2 独立性检验
03
能力提升
题型一
独立性检验的理解与辨析
例题1
C
能力提升
解析
能力提升
题型二
独立性检验
例题2
能力提升
解析
能力提升
总结
解决独立性检验问题的基本步骤
题型三
独立性检验与其他知识的综合应用
例题3
能力提升
题型三
独立性检验与其他知识的综合应用
例题3
题型三
独立性检验与其他知识的综合应用
解析
题型三
独立性检验与其他知识的综合应用
解析
课堂小结+限时小练
8.3.2 独立性检验
04
课堂小结
随堂限时小练
A
随堂限时小练
解
随堂限时小练
解
B
随堂限时小练
解
A
随堂限时小练
D
解
随堂限时小练
解
随堂限时小练
作业布置与课后练习答案
8.3.2 独立性检验
05
巩固作业
作业布置
作业1:完成教材:第134页练习 第1,2,3,4题.
作业2:配套辅导资料对应的《独立性检验》.
课后作业答案(P134)
疗法 疗效 合计
未治愈 治愈
甲 15 52 67
乙 6 63 69
合计 21 115 136
课后作业答案(P134)
2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论?为什么?
课后作业答案(P134)
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
药物A 疾病B 合计
未患病 患病
未服用 29 15 44
服用 47 14 61
合计 76 29 105
零假设H0为:药物A与预防疾病B无关联,即药物A对预防疾病B没有效果.
课后作业答案(P134)
4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
数学成绩 语文成绩 合计
不优秀 优秀
不优秀 212 61 273
优秀 54 73 127
合计 266 134 400
单位:人
零假设为H0:数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联.
课后作业答案(P134)
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率.根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.
课后作业答案(P135)
1.为什么必须基于成对样本数据推断两个分类变量之间是否有关联?
我们要研究的问题是同一个总体的两个分类变量之间是否有关联,成对样本观测数据是来自于对同一个总体的两个分类变量的观测,只有成对样本数据才能反映两个分类变量之间是否有关联,以及关联的方式和程度.
3.等高堆积条形图在两个分类变量之间关联性的研究中能够起到什么作用?
可以更加直观地反映两个分类变量之间是否具有关联性.
课后作业答案(P135)
4. 对于已经获取的成对样本数据,检验结论“两个变量之间有关联”的实际含义是什么?检验结论“两个变量之间没有关联”的实际含义又是什么?
检验结论“两个变量之间有关联”是“两个变量不独立”的另一种说法,指在零假设“两个变量独立”之下,成对样本数据显示在一次试验中某个不利于这个假设的小概率事件发生了,由此推断零假设不成立,从而得出“两个变量不独立”的检验结论.检验结论“两个变量之间没有关联”是“两个变量独立”的另一种说法,指在零假设“两个变量独立”之下,成对样本数据显示在一次试验中某个不利于这个假设的小概率事件没有发生,因此不能推断零假设不成立,按照通常的习惯接受零假设,即得出“两个变量独立”的检验结论.
课后作业答案(P135)
5. 为了研究高三年级学生的性别和身高是否大于170 cm的关联性,调查了某中学所有高三年级的学生,整理得到如下列联表:
性别 身高 合计
低于170cm 不低于170cm
女 81 16 97
男 28 75 103
合计 109 91 200
请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.
课后作业答案(P135)
课后作业答案(P135)
性别 身高 合计
低于170cm 不低于170cm
女 81 16 97
男 28 75 103
合计 109 91 200
课后作业答案(P135)
6. 第5题中的身高变量是数值型变量还是分类变量?为什么?
分类变量.因为第5题中的身高变量只有两个不同的取值(低于170 cm和不低于170 cm),用于区分两类不同的身高现象.
课后作业答案(P135)
7. 从第5题的高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到如下列联表:
性别 身高 合计
低于170cm 不低于170cm
女 14 7 21
男 8 11 19
合计 22 18 40
单位:人
课后作业答案(P135)
性别 身高 合计
低于170cm 不低于170cm
女 14 7 21
男 8 11 19
合计 22 18 40
(2)不一致.原因是根据全面调查数据作判断,其结论是确定且准确的.而根据样本数据作推断,会因为随机性导致样本数据不具代表性,从而不能得出和全面调查一致的结论.
课后作业答案(P135)
8. 调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:
性别 出生时间 合计
晚上 白天
女 24 31 55
男 8 26 34
合计 32 57 89
课后作业答案(P135)
课后作业答案(P135)
与例2中的结论不一样,原因是每个数据都扩大为原来的10倍,相当于样本量变大为原来的10倍,导致推断结论发生了变化.
THANKS
感谢您的聆听