2.2 独立性检验
2.3 独立性检验的基本思想
2.4 独立性检验的应用
学习目标 1.理解2×2列联表,并会依据列联表判断两个变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.
知识点一 2×2列联表
思考 某教育行政部门大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
体育
文娱
总计
男生
210
230
440
女生
60
290
350
总计
270
520
790
如何判定“喜欢体育还是文娱与性别是否有联系”?
答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
梳理 设A,B为两个变量,每一变量都可以取两个值,得到表格.
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
其中,a表示变量A取A1,且变量B取B1时的数据,b表示变量A取A1,且变量B取B2时的数据;c表示变量A取A2,且变量B取B1时的数据;d表示变量A取A2,且变量B取B2时的数据.上表在统计中称为2×2列联表.
知识点二 统计量
χ2=.(其中n=a+b+c+d为样本容量)
知识点三 独立性检验
当χ2≤2.706时,没有充分的证据判定变量A,B有关联;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ2>3.841时,有95%的把握判定变量A,B有关联;
当χ2>6.635时,有99%的把握判定变量A,B有关联.
1.列联表中的数据是两个分类变量的频数.( √ )
2.事件A与B的独立性检验无关,即两个事件互不影响.( × )
3.χ2是判断事件A与B是否相关的统计量.( √ )
类型一 2×2列联表及其应用
例1 (1)两个变量X,Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
Y
X
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若两个变量X,Y独立,则下列结论:
①ad≈bc;
②≈;
③≈;
④≈;
⑤≈0.
共中正确的序号是________.
(2)甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下列联表:
成绩
班级
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
用频率估计的方法可判断成绩与班级________关.(填“有”或“无”)
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 (1)①②⑤ (2)无
解析 (1)因为变量X,Y独立,
所以≈×,
化简得ad≈bc,故①⑤正确;②式化简得ad≈bc,故②正确.
(2)根据2×2列联表得频率表如下:
成绩
班级
优秀
不优秀
总计
甲班
乙班
总计
1
由于×=,而=;
×=,而=;
×=,而=;
×=,而=.
这些频率之间相差不大,可以认为成绩是否优秀与班级没有关系.
反思与感悟 (1)2×2列联表X,Y对应的数据是从总体中抽取样本的统计数据,所以即使X,Y独立,ad-bc一般也不恰好等于零.
(2)2×2列联表中,|ad-bc|越小,说明“X,Y独立”正确的可能性越大;|ad-bc|越大,说明“X,Y有关联”(即X,Y不独立)正确的可能性越大.
跟踪训练1 在列联表中,相差越大,两个变量之间的关系越强的两个比值是( )
A.与 B.与
C.与 D.与
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 A
解析 和相差越大,说明ad与bc相差越大,两个变量之间的关系越强.
类型二 利用χ2公式判断两变量的关系
例2 为研究时下的“韩剧热”,对某班45位同学的爸爸、妈妈进行了问卷调查,结果如下表所示.
喜欢韩剧
不喜欢韩剧
总计
妈妈
31
13
44
爸爸
15
21
36
总计
46
34
80
试问:是否有99%以上的把握认为“喜欢韩剧和性别有关系”?
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 由表中的数据,得
χ2=≈6.715.
因为6.715>6.635,
所以有99%以上的把握认为喜欢韩剧和性别有关系.
反思与感悟 解独立性检验问题的基本步骤
跟踪训练2 某研究小组调查了在2~3级风时的海上航行中男女乘客的晕船情况,共调查了71人,其中女性34人,男性37人.女性中有10人晕船,另外24人不晕船;男性中有12人晕船,另外25人不晕船.
(1)根据以上数据建立2×2列联表;
(2)判断晕船是否与性别有关系.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)2×2列联表如下:
晕船情况
性别
晕船
不晕船
总计
女
10
24
34
男
12
25
37
总计
22
49
71
(2)χ2=≈0.08.
因为0.08<2.706,
所以我们没有理由说晕船与性别有关.
1.已知变量X和Y的列联表如下,则( )
Y
X
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 C
解析 χ2=(其中n=a+b+c+d),若(ad-bc)2越大,则χ2越大,说明X与Y的关系越强.
2.如果有95%的把握说事件A与B有关系,那么具体计算出的数据( )
A.χ2>3.841 B.χ2<3.841
C.χ2>6.635 D.χ2<6.635
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 A
解析 把χ2的值与临界值比,从而确定A与B有关的可信程度.
当χ2>6.635时,有99%的把握认为A与B有关系;
当χ2>3.841时,有95%的把握认为A与B有关系;
当χ2>2.706时,有90%的握认为A与B有关系;
当χ2≤2.706时,就没有充分的证据认为A与B有关系.故选A.
3.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得到“吸烟与患肺癌有关系”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患有肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 D
解析 独立性检验的结论是一个数学统计量,它与实际问题中的确定性是存在差异的.
4.为了判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
总计
男
13
10
23
女
7
20
27
总计
20
30
50
根据表中数据,得到χ2=≈4.844,则认为选修文科与性别有关系出错的可能性约为________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 0.05
解析 由χ2公式计算得χ2≈4.844>3.841,
故认为选修文科与性别有关系出错的可能性约为0.05.
5.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)2×2列联表如下所示:
赞同
不赞同
总计
老教师
10
10
20
青年教师
24
6
30
总计
34
16
50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式,得χ2=≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
1.独立性检验的思想:先假设两个事件无关,计算统计量χ2的值.若χ2值较大,则拒绝假设,认为两个事件有关.
2.独立性检验的步骤
①画列联表.
②计算χ2.
③将得到的χ2值和临界值比较,下结论.
一、选择题
1.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
68
x2
7
25
32
总计
54
b
100
则表中a,b的值分别为( )
A.94,96 B.52,50
C.47,46 D.54,52
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
解析 a=68-21=47,b=21+25=46.
2.以下关于独立性检验的说法中,错误的是( )
A.独立性检验依据小概率原理
B.独立性检验得到的结论一定正确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判断两个分类变量是否相关的唯一方法
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 B
解析 独立性检验得到的结论不一定正确,如我们得出有90%的把握认为A与B有关,只是说这种判断的正确性为90%,具体问题中A与B可能有关,也可能无关,故选B.
3.下面关于χ2的说法正确的是( )
A.χ2在任意相互独立的问题中都可以用于检验有关还是无关
B.χ2的值越大,两个事件的相关性就越大
C.χ2是用来判断两个变量是否相关的统计量,当χ2的值很小时可以判定两个变量不相关
D.χ2=
考点 独立性检验及其基本思想
题点 独立检验的思想
答案 B
解析 χ2只适用于2×2列联表问题,且χ2只能推断两个变量相关,但不能判断两个变量不相关.选项D中公式错误,分子上少了平方.故选B.
4.利用独立性检验来考察两个分类变量X与Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果χ2≥5.024,那么就有把握认为“X与Y有关系”的百分比为( )
P(χ2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.25% B.75%
C.2.5% D.97.5%
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 由表中数据可知,当χ2≥5.024,P(χ2≥k)=97.5%,故选D.
5.在吸烟与患肺病这两个变量的计算中,下列说法中:
①若统计量χ2>6.635,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病;②若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99个人患有肺病;③若从统计中求出有95%的把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误.
正确的个数为( )
A.0B.1C.2D.3
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 B
解析 统计量χ2仅仅说明一个统计推断,并不能说明个别案例或某些情况,从而③正确,故选B.
6.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
总计
甲班
11
34
45
乙班
8
37
45
总计
19
71
90
则统计量χ2的值约为( )
A.0.600B.0.828C.2.712D.6.004
考点 分类变量与列联表
题点
答案 A
解析 根据列联表中的数据,可得统计量
χ2=≈0.600.故选A.
7.假设有两个变量x和y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为:
y
x
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
对同一样本,以下数据能说明x与y有关的可能性最大的一组是( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=3,b=2,c=4,d=5
考点 分类变量与列联表
题点 求列联表中的数据
答案 D
解析 对于同一样本,|ad-bc|越小,说明x与y相关性越弱.而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于选项A,B,C都有|ad-bc|=|10-12|=2.对于选项D,有|ad-bc|=|15-8|=7.显然7>2,故选D.
二、填空题
8.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算得χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________.(填“有关的”或“无关的”)
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 有关的
解析 χ2=27.63>6.635,有99%以上的把握认为这两个量是有关的.
9.下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:
知道想学专业
不知道想学专业
总计
男生
63
117
180
女生
42
82
124
总计
105
199
304
根据表中数据,则下列说法正确的是________.
①性别与知道想学专业有关;
②性别与知道想学专业无关;
③女生比男生更易知道所学专业.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 ②
解析 χ2=≈0.041,
因为值非常小,所以性别与知道想学专业无关.
10.有两个变量x与y,其一组观测值如下面的2×2列联表所示:
y
x
y1
y2
总计
x1
a
20-a
20
x2
15-a
30+a
45
总计
15
50
65
则正整数a的最小值为________时,有90%以上的把握认为“x与y之间有关系”.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 1
解析 由题意χ2==>2.706,
易得a=1满足题意.
三、解答题
11.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:
喜欢
不喜欢
总计
大于40岁
20
5
25
20岁至40岁
10
20
30
总计
30
25
55
临界值有:
P(χ2≥k)
0.05
0.010
0.005
k
3.84
6.635
7.879
(1)判断是否有99.5%的把握认为喜欢“人文景观”景点与年龄有关?
(2)用分层抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率.
考点 独立性检验思想的应用
题点 分类变量与统计、概率的综合性问题
解 (1)由公式χ2=,得χ2≈11.978>7.879,所以有99.5%以上的把握认为喜欢“人文景观”景点与年龄有关.
(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B1,B2,B3,B4,C1,C2,从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个,其中恰有1位大于40岁的市民和1 位20岁至40岁的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为.
四、探究与拓展
12.某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
总计
高于40岁
p
q
50
不高于40岁
15
35
50
总计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有______的把握认为年龄与西班牙队的被喜欢程度有关.
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙的人”为事件A,由已知得P(A)==,
所以p=25,q=25,a=40,b=60.
χ2==≈4.167>3.841.
故有95%的把握认为年龄与西班牙队的被喜欢程度有关.
13.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,
29.90)
[29.90,
29.94)
[29.94,
29.98)
[29.98,
30.02)
[30.02,
30.06)
[30.06,
30.10)
[30.10,
30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”?
甲厂
乙厂
总计
优质品
非优质品
总计
解 (1)甲厂抽查的产品中有86+182+92=360(件)优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有85+159+76=320(件)优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)2×2列联表如下:
甲厂
乙厂
总计
优质品
360
320
680
非优质品
140
180
320
总计
500
500
1000
χ2=≈7.353>6.635,
所以能够在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异.”