4.3列联表独立性分析案例
[读教材·填要点]
1.列联表
一般地,对于两个因素X和Y,X的两个水平取值:A和(如吸烟和不吸烟),Y也有两个水平取值:B和(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.
Y
X
B
总计
A
a
b
a+b
c
d
c+d
总计
a+c
b+d
n
其中n=a+b+c+d.
2.独立性分析
事件A与B独立,这时应该有P(AB)=P(A)P(B)成立.我们用字母H0来表示上式,即H0:P(AB)=P(A)·P(B),称之为统计假设.我们引入统计中一个非常有用的χ2统计量,它的表达式是χ2=.
用它的大小可以决定是否拒绝原来的统计假设H0.如果算出的χ2值较大,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的了.
[小问题·大思维]
1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?
提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?
提示:两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.
独立性分析的原理
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?
[自主解答] 根据题目所给数据得如下2×2列联表:
合格品
次品
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
由列联表中的数据,得
χ2=≈13.097>10.828.
因此,在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系.
1.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,n的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.
2.反证法原理与独立性检验原理的比较
反证法原理——在假设H0下,如果推出一个矛盾,就证明了H0不成立.
独立性检验原理——在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.
1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:
积极支持企业改革
不太支持
企业改革
总计
工作积极
54
40
94
工作一般
32
63
95
总计
86
103
189
根据列联表的独立性分析,能否在犯错误的概率不超过0.01的前提下认为工作态度与支持企业改革之间有关系?
解:由列联表中的数据,得
χ2=≈10.759>6.635,
∴在犯错误的概率不超过0.01的前提下,认为工作态度与支持企业改革之间有关系.
独立性分析的应用
某校对学生课外活动进行调查,结果整理如下表:
体育
文娱
总计
男生
21
23
44
女生
6
29
35
总计
27
52
79
根据列联表的独立性分析,能否在犯错误的概率不超过0.01的前提下认为喜欢体育还是文娱与性别有关?
[自主解答] 由列联表中的数据,得
χ2=≈8.106>6.635.
∴在犯错误的概率不超过0.01的前提下认为“喜欢体育还是喜欢文娱与性别有关.”
独立性分析的步骤
(1)提出统计假设H0:X与Y无关;
(2)根据2×2列联表与χ2计算公式计算出χ2的值;
(3)根据两个临界值,作出判断.
2.同时抛掷两颗均匀的骰子,请回答以下问题:
(1)求两颗骰子都出现2点的概率;
(2)若同时抛掷两颗骰子180次,其中甲骰子出现20次2点,乙骰子出现30次2点,问两颗骰子在犯错误的概率不超过0.05的前提下均出现2点是否相关?
解:(1)每颗骰子出现2点的概率都为,由相互独立事件同时发生的概率公式得两颗骰子都出现2点的概率为×=.
(2)依题意,列2×2列联表如下:
出现2点
出现其他点
合计
甲骰子
20
160
180
乙骰子
30
150
180
合计
50
310
360
假设H0:两颗骰子在犯错误的概率不超过0.05的前提下均出现2点无关.
由公式计算得χ2=≈2.323.
因为2.323<3.841,所以我们不拒绝H0,因此我们没有理由说两颗骰子在犯错误的概率不超过0.05的前提下均出现2点相关.
独立性分析的综合应用
为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)
表1:注射药物A后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
表2:注射药物B后皮肤疱疹面积的频数分布表
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
完成下面2×2列联表,并回答能否在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
总计
注射药物A
a=
b=
注射药物B
c=
d=
总计
n=
[自主解答] 根据题目数据得如下2×2列联表:
疱疹面积小于70 mm2
疱疹面积不小于70 mm2
总计
注射药物A
a=70
b=30
100
注射药物B
c=35
d=65
100
总计
105
95
n=200
由列联表中的数据,得
χ2=≈24.56>6.635.
因此,我们有99%的把握,即在犯错误的概率不超过0.01的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.
3.某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如表.(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学 成绩:
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
10
25
35
30
x
乙校高二年级数学成绩:
分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
15
30
25
y
5
(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分);
(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”?
分类
甲校
乙校
总计
优秀
非优秀
总计
解:(1)依题意,知甲校应抽取110人,乙应抽取90人,
所以x=10,y=15.
甲校的平均分为
×(55×10+65×25+75×35+85×30+95×10)≈75.
乙校的平均分为
×(55×15+65×30+75×25+85×15+95×5)≈71.
(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表如下:
分类
甲校
乙校
总计
优秀
40
20
60
非优秀
70
70
140
总计
110
90
200
所以χ2=≈4.714,
又因为4.714>3.841,
故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.
在调查的480名男人中,有38名患色盲,520名女人中,有6名患色盲.试判断在犯错误的概率不超过0.01的前提下认为人的性别与患色盲有关?你所得到的结论在什么范围内有效?
[解] 由题意作2×2列联表如下:
色盲
非色盲
总计
男
38
442
480
女
6
514
520
总计
44
956
1 000
法一:由列联表中数据可知,在调查的男人中,患色盲的比例是≈7.917%,女人中患色盲的比例为≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.
法二:由列联表中所给的数据可知,
a=38,b=442,c=6,d=514,
a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,
代入公式得χ2=≈27.1.
由于χ2≈27.1>6.635,
所以我们有99%的把握,即在犯错误不超过0.01的前提下认为性别与患色盲有关系.
这个结论只对所调查的480名男人和520名女人有效.
1.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
解析:∵a+21=73,∴a=52.
又∵a+2=b,∴b=54.
答案:C
2.下列关于χ2的说法中正确的是( )
A.χ2在任何相互独立问题中都可以用于检验是否相关
B.χ2的值越大,两个事件的相关性越大
C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题
D.χ2=
答案:C
3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越大
解析:χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.χ2越小,“X与Y有关系”的可信程度越小.
答案:B
4.若由一个2×2列联表中的数据计算得χ2的观测值k≈4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.
解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.
答案:0.05
5.当某矿石粉厂生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
总计
新防护服
5
70
75
旧防护服
10
18
28
总计
15
88
103
通过数据分析,说明有________的把握认为新防护服对预防工人职业性皮炎有效.
解析:χ2=≈13.826>6.635.
故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.
答案:99%
6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:
喜爱打篮球
不喜爱打篮球
总计
男生
a
b=5
女生
c=10
d
总计
50
已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为.
(1)请将上面的列联表补充完整;
(2)是否有99%的把握认为喜爱打篮球与性别有关?请说明理由.
解:(1)列联表补充如下:
喜爱打篮球
不喜爱打篮球
总计
男生
20
5
25
女生
10
15
25
总计
30
20
50
(2)∵χ2=≈8.333>6.635,
∴有99%的把握认为喜爱打篮球与性别有关.
一、选择题
1.在第29届北京奥运会上,中国健儿取得了51金、21银、28铜的好成绩,稳居金牌榜榜首,由此许多人认为中国进入了世界体育强国之列,也有许多人持反对意见,有网友为此进行了调查,在参加调查的2 548名男性中有1 560名持反对意见,2 452名女性中有1 200名持反对意见,在运用这些数据说明性别对判断“中国进入了世界体育强国之列”是否有关系时,用什么方法最有说服力( )
A.平均数与方差 B.回归直线方程
C.独立性检验 D.概率
解析:由于参加调查的人按性别被分成了两组,而且每一组又被分成了两种情况,判断有关与无关,符合2×2列联表的要求,故用独立性检验最有说服力.
答案:C
2.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式:
P(χ2≥x0)
0.100
0.050
0.010
0.001
x0
2.706
3.841
6.635
10.828
χ2=,n=a+b+c+d.
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:由列联表得到a=45,b=10,c=30,d=15,
则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,
计算得χ2=
=≈3.030.
因为2.706<3.030<3.841,
所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
答案:A
3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据 如下表:
非统计专业
统计专业
男
13
10
女
7
20
为了分析主修统计专业是否与性别有关,根据表中的数据,得到χ2=≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )
A.0.025 B.0.05
C.0.975 D.0.95
解析:∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,
即判断出错的可能性为0.05.
答案:B
4.已知P(χ2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )
A.5 B.6
C.7 D.8
答案:A
二、填空题
5.班级与成绩2×2列联表:
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
p
总计
m
n
q
表中数据m,n,p,q的值应分别为________.
解析:m=10+7=17,
n=35+38=73,
p=7+38=45,
q=m+n=90.
答案:17,73,45,90
6.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若χ2>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;
③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说法③正确.
答案:③
7.某卫生机构对366人进行健康体检,有阳性家族史者糖尿病发病的有16例,不发病的有93例,有阴性家族史者糖尿病发病的有17例,不发病的有240例,认为糖尿病患者与遗传有关系的概率为________.
解析:列出2×2列联表:
发病
不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
所以随机变量χ2值为≈6.067>3.841,
所以在犯错误的概率不超过0.05的前提下,认为糖尿病患者与遗传有关.
答案:95%
8.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:______ (填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
三、解答题
9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:
语文
数学
英语
综合科目
上线
不上线
上线
不上线
上线
不上线
上线
不上线
总分上线201人
174
27
178
23
176
25
175
26
总分不上线43人
30
13
23
20
24
19
26
17
总计
204
40
201
43
200
44
201
43
试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?
解:对于上述四个科目,分别构造四个随机变量
χ,χ,χ,χ.
由表中数据可以得到:
语文:χ=≈7.294>6.635,
数学:χ=≈30.008>6.635,
英语:χ=≈24.155>6.635,
综合科目:χ=≈17.264>6.635.
所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.
10.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
积极参加班级工作
不太主动参加班级工作
总计
学习积极性高
18
7
25
学习积极性一般
6
19
25
总计
24
26
50
(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?
(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关?并说明理由.
解:(1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型概率的计算公式可得抽到积极参加班级工作的学生的概率是P1==,又因为不太主动参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P2=.
(2)由χ2统计量的计算公式得
χ2=≈11.538,
由于11.538>10.828,
所以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系.