§9.2 独立性检验
学习目标 1.掌握分类变量和列联表的概念,并会依据列联表判断两个分类变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.
导语
有关法律规定:香烟盒上必须印上“吸烟有害健康”的警示语,那么吸烟和健康之间有因果关系吗?每一个吸烟者的健康问题都是由吸烟引起的吗?“如果你认为健康问题不一定是由吸烟引起的,那么可以吸烟”的说法对吗?要回答这个问题,我们先一起来学习本课时的知识吧!
一、2×2列联表
问题 某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病);不吸烟的295人中,有21人患病,274人未患病.
根据这些数据能否断定:患呼吸道疾病与吸烟有关?
提示 为了研究这个问题,我们将上述数据用表表示如下:
患病 未患病 合计
吸烟 37 183 220
不吸烟 21 274 295
合计 58 457 515
由此表可以粗略地估计出在吸烟的人中,有≈16.82%的人患病;在不吸烟的人中,有≈7.12%的人患病.因此,从直观上可以得到结论:吸烟者与不吸烟者患病的可能性存在差异.
知识梳理
一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下列联表所示的抽样数据:
Ⅱ 合计
类1 类2
Ⅰ 类A a b a+b
类B c d c+d
合计 a+c b+d a+b+c+d
上述表格称为2×2列联表.
注意点:
列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表.
例1 (1)某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m=________,n=________.
80分及80分以上 80分以下 合计
试验班 32 18 50
对照班 24 m 50
合计 56 44 n
答案 26 100
解析 由题意得解得
(2)在一项有关医疗保健的社会调查中,发现调查的男性有530人,女性有670人,其中男性中喜欢吃甜食的有117人,女性中喜欢吃甜食的有492人,请作出性别与是否喜欢吃甜食的2×2列联表.
解 2×2列联表如下:
喜欢吃甜食 不喜欢吃甜食 合计
男 117 413 530
女 492 178 670
合计 609 591 1 200
反思感悟 2×2列联表是对两个分类变量的汇总统计表,列表时关键是对涉及的变量分清类别.
制作2×2列联表的基本步骤:
第一步,合理选取两个变量,且每一个变量都可以取两个值;
第二步,抽取样本,整理数据;
第三步,画出2×2列联表.
跟踪训练1 在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,试作出性别与色盲的列联表.
解 根据题目所给的数据作出如下的列联表.
色盲 性别 患色盲 不患色盲 合计
男 38 442 480
女 6 514 520
合计 44 956 1 000
二、独立性检验
知识梳理
独立性检验
1.定义:用χ2统计量研究两个变量X和Y是否有关的方法称为独立性检验.
2.χ2统计量:
χ2=.
3.独立性检验的步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设H0:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表及χ2公式,计算χ2的值;
(3)根据临界值,作出判断.
其中临界值如表所示:
P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如:
(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
(2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
(3)若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
(4)若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系.
注意点:
独立性检验的基本思想类似于反证法,我们可以利用独立性检验来考察两个对象是否有关,并且能较精确地给出这种判断的把握程度.
角度1 对独立性检验的理解
例2 在吸烟与患肺癌是否相关的研究中,下列说法正确的是( )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有99个人患肺癌
B.由独立性检验可知,当有99%的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有99%的可能患有肺癌
C.通过计算得到χ2>3.841,是指有95%的把握认为吸烟与患肺癌有关联
D.以上三种说法都不正确
答案 C
解析 若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确;99%是指吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能患有肺癌,故B不正确.C显然正确,D不正确.
反思感悟 χ2≥x0的实质就是两个变量相关的概率为1-P(χ2≥x0).
角度2 由χ2进行独立性检验
例3 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病(阳性是指工人患皮肤病)人数如下:
阳性例数 阴性例数 合计
新防护服 5 70 75
旧防护服 10 18 28
合计 15 88 103
问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.
解 提出假设H0:新防护服对预防皮肤炎没有明显效果.根据列联表中的数据可求得
χ2=≈13.826.
因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握认为新防护服比旧防护服对预防工人患职业性皮肤炎有效.
反思感悟 解决独立性检验问题的基本步骤
(1)根据已知的数据作出列联表.
(2)求χ2的值.
(3)判断可能性:与临界值比较,得出事件有关的可能性大小.
跟踪训练2 (1)为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科 文科 合计
男 13 10 23
女 7 20 27
合计 20 30 50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025,
根据表中数据得到χ2=≈4.844.则有________的把握认为选修文科与性别有关.
答案 95%
(2)一个调查员在市场中随机选取36名男同胞和36名女同胞调查在购买食品时是否看营养说明.其中男同胞中有不看营养说明,女同胞中有不看营养说明.问购物市民的性别与是否看营养说明之间有没有关系?
解 由题意,可得2×2列联表如下:
看营养说明 不看营养说明 合计
男同胞 27 9 36
女同胞 16 20 36
合计 43 29 72
提出假设H0:购物市民的性别与是否看营养说明之间没有关系.根据列联表中的数据,可以求得
χ2=≈6.986.
∵当H0成立时,χ2≥6.635的概率约为0.01,
∴有99%的把握认为购物市民的性别和是否看营养说明之间有关系.
三、独立性检验与概率统计的综合应用
例4 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,并根据调查结果绘制了观众日均收看该体育节目时间的频率分布直方图如图.
将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,并据此资料推断“体育迷”与性别是否有关?
非体育迷 体育迷 合计
男
女 10 55
合计
(2)将上述调查所得的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的概率分布、均值E(X)和方差V(X).
附:χ2=.
P(χ2≥x0) 0.10 0.05 0.01
x0 2.706 3.841 6.635
解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下:
非体育迷 体育迷 合计
男 30 15 45
女 45 10 55
合计 75 25 100
提出假设H0:“体育迷”与性别无关.
将2×2列联表中的数据代入公式计算,得
χ2==≈3.030.
因为当H0成立时,χ2≥2.706的概率约为0.1,所以我们有90%的把握认为“体育迷”与性别有关.
(2)由频率分布直方图知,抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中随机抽取一名是“体育迷”的概率为.
由题意知,X~B,从而X的概率分布为
X 0 1 2 3
P
故E(X)=np=3×=,
D(X)=np(1-p)=3××=.
反思感悟 通过处理数据,提取信息,构建独立性检验模型,进行推断,获得结论,提升了学生获取有价值信息并能进行定量分析的意识和能力.
跟踪训练3 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球 不喜爱打篮球 合计
男生 6
女生 10
合计 48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整;(不用写计算过程)
(2)能否有95%的把握认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的概率分布与均值.
解 (1)列联表补充如下:
喜爱打篮球 不喜爱打篮球 合计
男生 22 6 28
女生 10 10 20
合计 32 16 48
(2)能.理由如下:
提出假设H0:喜爱打篮球与性别无关.
χ2=≈4.286.
因为当H0成立时,χ2≥3.841的概率约为0.05,所以有95%的把握认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2,其概率分别为P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的概率分布为
X 0 1 2
P
X的均值E(X)=0++=1.
1.知识清单:
(1)2×2列联表.
(2)独立性检验,χ2计算公式.
2.方法归纳:公式法.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
1.下面是一个2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a 21 73
X=1 8 25 33
合计 b 46
则表中a,b处的值分别为( )
A.94,96 B.52,50 C.52,60 D.54,52
答案 C
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
2.(多选)给出下列实际问题,其中用独立性检验可以解决的问题有( )
A.两种药物治疗同一种病是否有区别
B.吸烟者得肺病的概率
C.吸烟是否与性别有关系
D.网吧与青少年的犯罪是否有关系
答案 ACD
解析 独立性检验是判断两个分类变量是否有关系的方法,而B是概率问题,故选ACD.
3.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则所得到的统计学结论是认为“性别与喜欢乡村音乐有关系”的把握约为( )
A.0.1% B.0.5%
C.99.5% D.99.9%
答案 C
解析 因为χ2=8.01>7.879,所以认为性别与喜欢乡村音乐有关系的把握有99.5%.
4.考察棉花种子是否经过处理跟得病之间的关系,得如下表所示的数据:
种子处理 种子未处理 合计
得病 32 101 133
不得病 61 213 274
合计 93 314 407
根据以上数据得χ2的值是________.
答案 0.164
解析 由χ2=,
得χ2≈0.164.
课时对点练
1.如果有95%的把握判断事件A与B有关系,那么具体计算出的数据( )
A.χ2>3.841 B.χ2<3.841
C.χ2>6.635 D.χ2<6.635
答案 A
解析 χ2的值与临界值比较,从而确定A与B有关的可信程度.
当χ2>6.635时,有99%的把握认为A与B有关系;
当χ2>3.841时,有95%的把握认为A与B有关系;
当χ2>2.706时,有90%的把握认为A与B有关系;
当χ2≤2.706时,就没有充分的证据认为A与B有关系.故选A.
2.在对某小学的学生进行吃零食的调查中,得到如下表数据:
吃零食 不吃零食 合计
男学生 27 34 61
女学生 12 29 41
合计 39 63 102
根据上述数据分析,我们得出的χ2约为( )
A.2.072 B.2.334 C.3.957 D.4.514
答案 B
解析 由公式得χ2=
≈2.334.
3.假设有两个分类变量X与Y,它们的可能取值分别为{X1,X2}和{Y1,Y2},其2×2列联表为:
Y1 Y2
X1 10 18
X2 m 26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9 C.14 D.19
答案 C
解析 由10×26=18m,解得m≈14.4,
所以当m=14时,X与Y的关系最弱.
4.(多选)分类变量X和Y的列联表如下:
Y1 Y2 合计
X1 a b a+b
X2 c d c+d
合计 a+c b+d a+b+c+d
则下列说法不正确的是( )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
答案 ABD
解析 |ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.
5.某班主任对全班50名学生进行了作业量的调查,数据如下表:
性别 作业量 合计
大 不大
男生 18 9 27
女生 8 15 23
合计 26 24 50
则推断“学生的性别与认为作业量大有关”的概率约为( )
A.99% B.99.5%
C.95% D.99.9%
答案 C
解析 由公式得
χ2=≈5.059>3.841.
∴学生的性别与认为作业量大有关的概率约为95%.
6.(多选)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关联,面向学生开展了一次随机调查,其中参加调查的男、女生人数相同,男生喜欢攀岩的占80%,女生不喜欢攀岩的占70%,则( )
参考公式:χ2=.
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男、女生人数均为100,则依据独立性检验的思想认为喜欢攀岩和性别有关联
D.无论参与调查的男、女生人数为多少,都可以依据独立性检验的思想认为喜欢攀岩和性别有关联
答案 AC
解析 由题意设参加调查的男、女生人数均为m,则得到如下2×2列联表:
喜欢攀岩 不喜欢攀岩 合计
男生 0.8m 0.2m m
女生 0.3m 0.7m m
合计 1.1m 0.9m 2m
所以参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多,参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数少,故A正确,B错误.
由列联表中的数据,计算得到
χ2==,
当m=100时,
χ2==≈50.505>10.828,
所以当参与调查的男、女生人数均为100时,依据独立性检验,我们有99.9%的把握判断喜欢攀岩和性别有关联,故C正确,D错误,故选AC.
7.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填有关、无关)
答案 有关
解析 ∵χ2=27.63>10.828,
∴有理由认为打鼾与患心脏病是有关的.
8.对某台机器购置后的运营年限x(x=1,2,3,…)与当年利润y的统计分析知具备线性相关关系,线性回归方程为=10.47-1.3x,估计该台机器使用________年最合算.
答案 8
解析 只要预计利润不为负数,使用该机器就算合算,即≥0,所以10.47-1.3x≥0,解得x≤8.05,所以该台机器使用8年最合算.
9.下表是一次针对高三学生的调查所得数据,试问:能否有97.5%的把握认为学生总成绩不好与数学成绩不好有关系?
总成绩不好 总成绩好 合计
数学成绩不好 478 12 490
数学成绩好 399 24 423
合计 877 36 913
解 提出假设H0:学生总成绩不好与数学成绩不好没有关系.
根据列联表中的数据,经计算得到
χ2=≈6.233>5.024,
所以我们有97.5%的把握认为学生总成绩不好与数学成绩不好有关系.
10.某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:
60分以下 61~70分 71~80分 81~90分 91~100分
甲班(人数) 3 11 6 12 18
乙班(人数) 7 8 10 10 15
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?
优秀人数 非优秀人数 合计
甲班
乙班
合计
参考公式及数据:χ2=.
P(χ2≥x0) 0.050 0.010 0.001
x0 3.841 6.635 10.828
解 (1)由题意知,甲、乙两班均有学生50人,
甲班优秀人数为30人,优秀率为=60%,
乙班优秀人数为25人,优秀率为=50%,
所以甲、乙两班的优秀率分别为60%和50%.
(2)
优秀人数 非优秀人数 合计
甲班 30 20 50
乙班 25 25 50
合计 55 45 100
提出假设H0:加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
因为χ2=≈1.010<3.841,
所以由参考数据知,没有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
11.下列关于回归分析与独立性检验的说法正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
答案 C
解析 由回归分析及独立性检验的特点知,选项C正确.
12.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )
A.男人、女人中患色盲的频率分别为0.038和0.006
B.男、女患色盲的概率分别为,
C.男人中患色盲的比例比女人中患色盲的比例大,可以认为患色盲与性别是有关的
D.调查人数太少,不能说明色盲与性别有关
答案 C
解析 男人中患色盲的比例为=,要比女人中患色盲的比例=大,其差值为≈0.067 6,差值较大,故认为患色盲与性别是有关的.
13.通过市场调查,得到某种产品的资金投入x(单位:万元)与获得的利润y(单位:万元)的数据,如表所示:
资金投入x 2 3 4 5 6
利润y 0.4 0.6 1 1.2 1.8
根据表格提供的数据,用最小二乘法求线性回归方程为=x-0.36,现投入资金15万元,求获得利润的估计值(单位:万元)为________.
答案 4.74
解析 由表中数据可得=4,=1,
所以=x-0.36过点(4,1),
代入可得=0.34,
所以=0.34x-0.36,
当x=15时,=0.34×15-0.36=4.74,
即获得利润大约为4.74万元.
14.下面是一个2×2列联表:
y1 y2 合计
x1 a 21 70
x2 5 c 30
合计 b d 100
则b-d=________,χ2≈________.(保留小数点后3位)
答案 8 24.047
解析 由2×2列联表得:a=49,b=54,c=25,d=46.
∴b-d=54-46=8.
χ2=≈24.047.
15.(多选)有两个分类变量x,y,其2×2列联表如下所示:
y1 y2 合计
x1 a 20-a 20
x2 15-a 30+a 45
合计 15 50 65
其中a,15-a均为大于5的整数,现有95%的把握认为x,y有关,则a的值为( )
A.6 B.7 C.8 D.9
答案 CD
解析 由题意可知
χ2=
=>3.841,根据a>5且15-a>5,
a∈Z,求得当a=8或9时满足题意.
16.“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
态度 性别 合计
男性 女性
反感 10
不反感 8
合计 30
已知在这30人中随机抽取1人抽到反感“中国式过马路”的路人的概率是.
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),并据此资料分析反感“中国式过马路”与性别是否有关?
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“中国式过马路”的人数为X,求X的概率分布和均值.
附:χ2=.
解 (1)
态度 性别 合计
男性 女性
反感 10 6 16
不反感 6 8 14
合计 16 14 30
提出假设H0,反感“中国式过马路”与性别无关,由已知数据得χ2=≈1.158<2.706.所以,没有充足的理由认为反感“中国式过马路”与性别有关.
(2)X的可能取值为0,1,2,
P(X=0)==,P(X=1)==,
P(X=2)==.
所以X的概率分布为
X 0 1 2
P
X的均值为E(X)=0×+1×+2×=.