1184910011887200-86360-36195专题一 独立性检验的基本思想及其初步应用
专题一 独立性检验的基本思想及其初步应用
【必备知识点】
一.分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
二.2×2列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b +d
a+b+c+d
这样的表格称为2×2列联表。
三.卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(为样本容量)。
四.独立性检验
独立性检验
通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
变量独立性的判断
通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果≤3.841时,认为事件A与B是无关的。
②如果>3.841时,有95%的把握说事件A与事件B有关;
③如果>6.635时,有99%的把握说事件A与事件B有关;
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:,计算出的值;
(5)统计推断:当>3.841时,有95%的把握说事件A与B有关;
当>6.635时,有99%的把握说事件A与B有关;
当>10.828时,有99.9%的把握说事件A与B有关;
当≤3.841时,认为事件A与B是无关的.
【典例展示】
例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表:
喜欢数学
不喜欢数学
合计
男
13
10
23
女
7
20
27
合计
20
30
50
根据表中的数据,计算
【解析】得到
例2. 近年来,随着我国经济的飞速发展,在生产车间中,由于保护不当,对生产工人造成伤害的事件也越来越多.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎(注:检查为阳性则为患皮肤炎),在生产季节开始时,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数的结果如下:
阳性例数
阴性例数
合计
新
5
70
75
旧
10
18
28
合计
15
88
103
问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.
【解析】 提出假设H0:新防护服对预防工人患职业性皮肤炎无效.
将表中数据代入,得,查表可知:P(≥10.828)≈0.001,而13.826>10.828,故有99.9%的把握认为新防护服对预防这种职业性皮肤炎有效.
例3. 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.
【解析】 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系.
由于a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
所以
。
因为≈1.779<<2.706,所以不能作出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论.即这两种手术对病人又发作过心脏病的影响没有差别.
例4.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:
班级与成绩列联表
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少。
【解析】列联表的条形图如图所示:
由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为K2≈0.653>0.455。
由下表中数据
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
得:P(K2≥0.455)≈0.50,
从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。
【巩固练习】
1.研究两个事件A,B之间的关系时,根据数据信息列出如下的2×2列联表:
B
合计
A
n11
n12
n1+
n21
n22
n2+
合计
n+1
n+2
n
则以下计算公式正确的是( )
A. B.
C. D.
【答案】A
2.由列联表
合计
43
162
205
13
121
134
合计
56
283
339
则随机变量 。(精确到0.001)
【答案】由公式计算得:7.469
3.某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论?
【答案】由已知数据得到下表
合格品
不合格品
合计
设备改造后
65
30
95
设备改造前
36
49
85
合计
101
79
180
根据公式得≈12.38。
由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。
4.考察黄烟经过培养液处理与否跟发生青花病的关系。调查了457株黄烟,得到下表中数据,请根据数据作统计分析。
培养液处理
未处理
合计
青花病
25
210
235
无青花病
80
142
222
合计
105
352
457
分析:计算的值与临界值的大小关系。
【答案】根据公式=≈41.61。
由于41.61>6.635,说明经过培养液处理的黄烟跟发生青花病是有关的。
5.为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:
男
女
正常
442
514
色盲
38
6
根据上述数据试问色盲与性别是否是相互独立的?
【答案】由已知条件可得下表
男
女
合计
正常
442
514
956
色盲
38
6
44
合计
480
520
1000
依据公式得==27.139。
由于27.139>6.635,所以有99%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立的。
6.对男女大学生在购买食品时是否看营养说明进行了调查,得到的数据如下表所示:
看营养说明
不看营养说明
合计
男大学生
23
32
55
女大学生
9
25
34
合 计
32
57
89
利用2×2列联表的独立性检验估计看营养说明与性别的关系中准确的是( )
A.二者一定无关
B.有95%的把握说二者有关
C.有99%的把握说二者有关
D.没有理由说二者有关
【答案】D;
由公式得:,
因为2.149<3.841,所以我们没有理由说看营养说明与性别有关。故选D。
7.在大连—烟台的某次航运中,出现了恶劣气候。随机调查男、女乘客在船上晕船的情况如下表所示:
晕船
不晕船
合计
男人
32
51
83
女人
8
24
32
合计
40
75
115
据此资料,你能否认为在恶劣气候中航行时,男人比女人更容易晕船?
【答案】由卡方公式得:。
因为1.870<3.841,所以我们没有理由说晕船跟性别有关。
因此不能认为在恶劣气候中航行时,男人比女人更容易晕船。
8.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关.你所得到的结论在什么范围内有效?
4043680163830 【答案】 根据题目所给的数据作出如下的列联表:
色盲
不色盲
合计
男
38
442
480
女
6
514
520
合计
44
956
1000
作出相应的二维条形图,如图所示.由二维条形图可知在男人中患色盲的比例要比在女人中患色盲的比例大,其差值比较大,因而我们可以认为性别与患色盲是有关的;
根据列联表中所给的数据可知:
a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1000,
代入公式
得,因为≈27.1>10.828,所以我们有99.9%的把握认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.
9. 某年高考后,某市教育主管部门对该市一重点中学高考上线情况进行统计,随机抽查244名学生,得到如下表格:
语文
数学
英语
综合科目
上线
不上线
上线
不上线
上线
不上线
上线
不上线
总分上线201人
174
27
178
23
176
25
175
26
总分不上线43人
30
13
23
20
24
19
26
17
总计
204
40
201
43
200
44
201
43
试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?
【答案】对于上述四个科目,分别构造四个随机变量,,,,
由表中数据可以得到:
语文:,
数学:,
英语:,
综合科目:.
所以,有99%的把握认为语文上线与总分上线有关系,有99.9%的把握认为数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.
10.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.
优秀
非优秀
合计
甲班
10
乙班
30
合计
105
已知在全部105人中随机抽取1人为优秀的概率为false.
(1)请完成上面的列联表;
(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”;
(3)若按下面的方法从甲班优秀的学生抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号,试求抽到6或10号的概率.
【答案】(1)
优秀
非优秀
合计
甲班
10
45
55
乙班
20
30
50
合计
30
75
105
(2)根据列联表中的数据,得到
,
因此有95%的把握认为“成绩与班级有关系”.
(3)设“抽到6或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y).
所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.
事件A包含的基本事件有:(1,5)、(2,4)、(3,3)、(4,2)、(5,1)、(4,6)、(5,5)、(6,4),共8个,
∴P(A)==.
【课后练习】
一、选择题
1. 对两个分类变量A、B的下列说法中正确的个数为( ).
①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据.
A.1 B.2 C.3 D.0
2.在检验双向分类列联表数据中,两个分类特征(即两个因素变量)之间是彼此相关还是相互独立的问题,在常用的方法中,最为精确的做法是( ).
A.三维柱形图 B.二维条形图 C.等高条形图 D.独立性检验
3.对于分类变量X与Y的统计量,下列说法正确的是( )
A.越大,说明X与Y有关的把握越小
B.越大,说明X与Y无关的把握越大
C.越小,说明X与Y有关的把握越小
D.越接近于0,说明X与Y无关的把握越小
4.右表是对与喜欢足球与否的统计列联表依据表中的数据,得到( )
(A)
29718000(B)
(C)
(D)
5.为了研究色盲与性别的关系,调查了1 000人,调查结果如下表所示:
男
女
正常
442
514
色盲
38
6
根据上述数据,试问色盲与性别关系是( )
A. 相互独立 B.不相互独立
C. 有99.9%的把握认为色盲与性别无关 D. 只有0.1%的把握认为色盲与性别有关
6.对长期吃含三聚氰胺的婴幼儿奶粉与患肾结石这两个分类变量的计算中,下列说法正确的是 ( )
A. 若的值大于 6.635,我们有99%的把握认为长期吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,那么在100个长期吃含三聚氰胺的三鹿奶粉的婴幼儿中必有99人患有肾结石病;
B.从独立性检验可知有99%的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系时,我们说某一个婴幼儿吃含三聚氰胺的三鹿婴幼儿奶粉,那么他有99%的可能患肾结石病;
C.若从统计量中求出有95% 的把握认为吃含三聚氰胺的三鹿婴幼儿奶粉与患肾结石有关系,是指有5% 的可能性使得推判出现错误;
D.以上三种说法都不正确。
7.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由算得,
.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是( ).
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
8.根据下面的列联表
148590099060
得到如下几个判断:①有的把握认为患肝病与嗜酒有关;②有的把握认为患肝病与嗜酒有关;③认为患肝病与嗜酒有关的出错的可能为;④认为患肝病与嗜酒有关的出错的可能为。 其中正确命题的个数为( )
(A) (B) (C) (D)
二、填空题
9.下表是关于出生男婴与女婴调查的列联表
13716000
那么,A= ,B= ,C= ,D= ,E= ;
10. 独立性检验中,假设:变量X与变量Y没有关系.则在成立的情况下,估算概率表示的意义是
11.根据下表,计算K2的观测值k≈________.(保留两位小数)
又发病
未发病
做移植手术
39
157
未做移植手术
29
167
12.某学校对校本课程《人与自然》的选修情况进行了统计,得到如下数据:
19431000
那么,选修《人与自然》与性别有关的把握是 ;
三、解答题
142875032131013.有甲、乙两个班,进行数学考试,按学生考试及格与不及格统计成绩后,得到如下的列联表
根据表中数据,你有多大把握认为成绩及格与班级有关?
14.某企业为了更好地了解设备改造前后与生产合格品的关系,随机抽取了180件产品进行分析。其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件。根据上面的数据,你能得出什么结论?
142684533591515.在大街上,随机调查339名成人,有关吸烟、不吸烟、患支气管炎、不患支气管炎的数据如下表
根据表中数据,(1)判断:吸烟与患支气管炎是否有关?(2)用假设检验的思想予以证明。
【答案与解析】
1.【答案】A
【解析】 ①正确。A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等,就可判定A与B是否相关。
2.【答案】D
【解析】 前三种方法只能直观地看出两变量x与y是否相关,不能看出相关的程度,独立性检验可以通过计算得出相关的可能性。
3.【答案】C
【解析】 越大,说明“X与Y有关”的把握越大,越小,说明“X与Y有关”的把握越小,故选C。
4. 【答案】D
【解析】由
5.【答案】 B
【解析】 ,所以的99.9%的把握认为色盲与性别是有关的,从而拒绝原假设,可以认为色盲与性别不是相互独立.
6.【答案】C
【解析】对于A,若的值为6.635,我们有99%的把握认为吃含三聚氰胺的三鹿奶粉的婴幼儿与患肾结石有关系,但在100个吃含三聚氰胺的三鹿婴幼儿奶粉婴幼儿中未必有99人患有肺病; 对于B同样不成立,C是正确的,故选C.
7.【答案】C
【解析】 根据独立检测的思想方法,正确选项为C项。
8. 【答案】D;
【解析】由
9. 【答案】A=47,B=92,C=88,D=82,E=53;
【解析】由公式可得。
10. 【答案】变量X与变量Y有关系的概率为。
【解析】由定义可得。
11.【答案】1.78
【解析】 。
12. 【答案】
【解析】,即有的把握,认为选修《人与自然》与性别有关。
13. 【解析】由列联表中的数据,得
没有充分的证据显示“及格或不及格否与班级有关”。
14. 【解析】
先转化为二元独立性检验问题。
由已知数据得到下表
合格品
不合格品
合计
设备改造后
65
30
95
设备改造前
36
49
85
合计
101
79
180
根据公式得≈12.38。
由于12.38>6.635,可以得出产品是否合格与设备改造是有关的。
15. 【解析】
(1)由列联表中的数据,得
所以,有的把握认为吸烟与患支气管炎有关。
(2)假设吸烟与患支气管炎无关,由于,即为小概率事件,而小概率事件发生了,进而假设错误,得到吸烟与患支气管炎有关。