§8.3 列联表与独立性检验
[学习目标]
1.理解独立性检验的基本思想及其实施步骤.
2.能利用等高堆积条形图、2×2列联表探讨两个分类变量的关联.
3.了解随机变量χ2的含义及作用.
4.通过对数据的处理,提高解决实际问题的能力.
一、分类变量与列联表
知识梳理
数值变量:数值变量的取值为________,其大小和运算都有实际含义.
分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为______________,分类变量的取值可以用________表示.
问题1 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,其中,不吸烟的7 817人中有42人患肺癌,吸烟的2 148人中有49人患肺癌,试分析吸烟是否对患肺癌有影响.
我们在研究“吸烟与患肺癌的关系”时,需要关注哪一些量呢?并填表说明.
吸烟 肺癌 合计
不患肺癌者 患肺癌者
不吸烟者 42 7 817
吸烟者 49 2 148
合计 9 965
(1)在不吸烟者中患肺癌的比例为_______________________________________________;
(2)在吸烟者中患肺癌的比例为________.
知识梳理
2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的 ;最后一列的前两个数分别是事件{X=0}和{X=1}的________;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的______;右下角格中的数n是______________.
例1 在研究某种药物对“H1N1”病毒的治疗效果时,进行了动物试验,得到以下数据:对150只动物进行药物治疗,其中132只动物存活,18只动物死亡,对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.请根据以上数据建立一个2×2列联表.
反思感悟 作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
跟踪训练1 为了解对某班学生经常打篮球和性别是否有关,对该班40名学生进行了问卷调查,得到如下的2×2列联表.
性别 打篮球 合计
经常 不经常
男生 m 4 20
女生 8 20
合计 n 40
则m=________,n=________.
二、等高堆积条形图的应用
问题2 问题1中“为调查吸烟是否对患肺癌有影响”,我们还能够从图形中得到吸烟与患肺癌之间的关系吗?
知识梳理
1.等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
2.观察等高堆积条形图发现与相差很大,就判断两个分类变量之间有关系.
例2 为了解铅中毒与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如表所示.
组别 尿棕色素 合计
阳性数 阴性数
铅中毒病人组 29 7 36
对照组 9 28 37
合计 38 35 73
试画出列联表的等高堆积条形图,分析铅中毒病人组和对照组的尿棕色素阳性数有无差别,铅中毒与尿棕色素为阳性是否有关系.
反思感悟 利用等高堆积条形图判断两个分类变量是否有关联的步骤
(1)收集数据,统计结果.
(2)列出2×2列联表,计算频率粗略估计.
(3)画等高堆积条形图,直观分析.
跟踪训练2 当某矿石粉厂生产一种矿石粉时,在数天内就有部分工人患职业性皮肤炎,在生产季节期间,随机抽取车间工人抽血化验,75名穿新防护服的工人中5例阳性,70例阴性,28名穿旧防护服的车间工人中10例阳性,18例阴性,请用等高堆积条形图判断这种新防护服对预防工人职业性皮肤炎是否有效.(注:显阴性即未患皮肤炎)
三、独立性检验的综合应用
问题3 由2×2列联表,如何假设事件{X=1}和{Y=1}之间的关系?
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
问题4 假若分类变量X与Y没有关联,则X=1与Y=1、 X=0与Y=1、 X=0与Y=0、 X=1与Y=0有什么关系?
知识梳理
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“________________________”,简称________________.
2.χ2=________________________________________________________________________,
其中n=a+b+c+d.
例3 (1)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,年龄低于40岁的占60%,记录其年龄和是否佩戴头盔情况,得到2×2列联表如表所示.
年龄 头盔 合计
佩戴 未佩戴
低于40岁 540
不低于40岁
合计 880 1 000
①完成上面的列联表;
②依据小概率值α=0.01的独立性检验,能否认为遵守佩戴安全头盔与年龄有关?
附:χ2=,其中n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
(2)为了了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查,得到如下列联表.
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 2
不肥胖者 18
合计 30
已知从这30名学生中随机抽取1人,抽到肥胖学生的概率为.
①请将上面的列联表补充完整;
②依据小概率值α=0.005的独立性检验,能否认为肥胖与常喝碳酸饮料有关?
附:χ2=,其中n=a+b+c+d.
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
反思感悟 运用独立性检验的方法
(1)列出2×2列联表,根据公式计算χ2.
(2)比较χ2与xα的大小作出结论.
跟踪训练3 (1)为了有针对性地提高学生体育锻炼的积极性,某校需要了解学生是否经常锻炼与性别因素是否有关,为此随机对该校100名学生进行问卷调查,得到如下列联表.
性别 锻炼 合计
经常 不经常
男生 35
女生 25
合计 100
已知从这100名学生中任选1人,经常锻炼的学生被选中的概率为.
①完成上面的列联表;
②依据小概率值α=0.1的独立性检验,能否认为该校学生是否经常锻炼与性别因素有关?
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
(2)某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
①根据以上数据建立一个2×2列联表;
②试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.
附表:
α 0.05 0.01 0.005
xα 3.841 6.635 7.879
1.知识清单:
(1)分类变量.
(2)2×2列联表,等高堆积条形图.
(3)独立性检验、χ2公式.
2.方法归纳:数形结合.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
1.对两个分类变量A,B,下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则χ2的值就越大;
③χ2的大小是判定A与B是否相关的唯一依据.
A.0 B.1
C.2 D.3
2.(多选)如图是调查某地区男、女中学生对数学的态度的等高堆积条形图,阴影部分表示喜欢数学的百分比,从图可以看出( )
A.性别与喜欢数学无关
B.女生中喜欢数学的百分比约为80%
C.男生比女生喜欢数学的可能性大
D.男生中不喜欢数学的百分比约为40%
3.考察棉花种子经过处理与生病之间的关系,得到如表中的数据:
生病 棉花种子 合计
处理 未处理
得病 32 101 133
不得病 61 213 274
合计 93 314 407
依据小概率值α=0.1的独立性检验,根据以上数据可得出( )
A.种子经过处理与生病有关
B.种子经过处理与生病无关
C.种子经过处理决定生病
D.种子经过处理与生病有关的犯错误的概率不超过0.1
4.某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表所示的2×2列联表中,d=________.
性别 外语 合计
会 不会
男 a b 20
女 6 d
合计 18 50
§8.3 列联表与独立性检验
知识梳理
实数 分类变量 实数
问题1 吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;不吸烟不患肺癌的人数.
吸烟 肺癌 合计
不患肺癌者 患肺癌者
不吸烟者 7 775 42 7 817
吸烟者 2 099 49 2 148
合计 9 874 91 9 965
(1)0.54% (2)2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.
知识梳理
频数 频数 频数 样本容量
例1 解 2×2列联表如表所示:
治疗方法 治疗效果 合计
存活 死亡
药物治疗 132 18 150
常规治疗 114 36 150
合计 246 54 300
跟踪训练1 16 16
解析 依题意可得列联表如下.
性别 打篮球 合计
经常 不经常
男生 16 4 20
女生 8 12 20
合计 24 16 40
故m=n=16.
问题2
从图形中可得出吸烟者患肺癌的可能性大.
例2 解 等高堆积条形图如图所示.
其中两个浅色条的高分别代表铅中毒病人组和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人组与对照组的尿棕色素为阳性的频率差异明显,因此铅中毒与尿棕色素为阳性有关系.
跟踪训练2 解 2×2列联表如表所示.
防护服 皮肤炎 合计
阳性例数 阴性例数
穿新防护服 5 70 75
穿旧防护服 10 18 28
合计 15 88 103
相应的等高堆积条形图如图所示.
图中两个深色的高分别表示穿新、旧防护服样本中呈阳性的频率,从图中可以看出,穿旧防护服呈阳性的频率高于穿新防护服呈阳性的频率.因此,可以认为新防护服对预防这种皮肤炎有效.
问题3 假设H0表示{X=1}和{Y=1}没有关系(通常称H0为零假设).
问题4 相互独立.
知识梳理
1.卡方独立性检验 独立性检验
2.
例3 (1)解 ①年龄低于40岁的有1000×60%=600(人),
完成2×2列联表如表所示.
年龄 头盔 合计
佩戴 未佩戴
低于40岁 540 60 600
不低于40岁 340 60 400
合计 880 120 1 000
②零假设为H0:遵守佩戴安全头盔与年龄无关,
由公式得χ2
=
=≈5.682<6.635=x0.01,
∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,
即认为遵守佩戴安全头盔与年龄无关.
(2)解 ①因为从这30名学生中随机抽取1人,抽到肥胖学生的概率为,
所以这30名学生中,肥胖学生的人数为30×=8,完善2×2列联表如表所示.
肥胖 碳酸饮料 合计
常喝 不常喝
肥胖者 6 2 8
不肥胖者 4 18 22
合计 10 20 30
②零假设为H0:肥胖与常喝碳酸饮料无关,
由公式得χ2=≈8.523>7.879=x0.005,
依据小概率值α=0.005的独立性检验,推断H0不成立,即认为肥胖与常喝碳酸饮料有关.
跟踪训练3 (1)解 ①设这100名学生中经常锻炼的学生有x人,
则=,解得x=50.
列联表完成如下.
性别 锻炼 合计
经常 不经常
男生 35 25 60
女生 15 25 40
合计 50 50 100
②零假设为H0:该校学生是否经常锻炼与性别因素无关.
由①可知,
χ2=
≈4.167>2.706=x0.1,
根据小概率值α=0.1的独立性检验,我们推断H0不成立,
即该校学生是否经常锻炼与性别因素有关.
(2)解 ①2×2列联表如表所示:
教师年龄 对新课程教学模式 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
②零假设为H0:对新课程教学模式的赞同情况与教师年龄无关.
由公式得
χ2=≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为对新课程教学模式的赞同情况与教师年龄无关.
随堂演练
1.B [①正确,A与B无关即A与B相互独立;②不正确,χ2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.]
2.CD [由题图知女生中喜欢数学的百分比约为20%,男生中不喜欢数学的百分比约为40%,男生比女生喜欢数学的可能性大,故A,B不正确,C,D正确.]
3.B [χ2=≈0.164<2.706=x0.1,依据小概率值α=0.1的独立性检验,认为种子经过处理与生病无关.]
4.24
解析 由题意得
所以a=12,b=8,d=24.