§1.1 独立性检验
学习目标 1.理解2×2列联表的意义,会依据列联表中数据判断两个变量是否独立.2.掌握统计量χ2的意义和独立性检验的基本思想.
知识点一 2×2列联表和统计量χ2
1.2×2列联表
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,得到如下列联表所示的抽样数据:
Ⅱ
类1
类2
合计
Ⅰ
类A
n11
n12
n1+
类B
n21
n22
n2+
合计
n+1
n+2
n
上述表格称为2×2列联表.
2.统计量χ2
χ2=,其中n=n11+n12+n21+n22.
知识点二 独立性检验
独立性检验
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)作2×2列联表;
(2)根据2×2列联表计算χ2的值;
(3)查对临界值,作出判断.
1.事件A与B的独立性检验无关,即两个事件互不影响.( × )
2.χ2的大小是判断事件A与B是否相关的统计量.( √ )
3.列联表中的数据是两个分类变量的频数.( √ )
类型一 2×2列联表和χ2统计量
例1 为了解人们对于国家新颁布的“生育二孩放开”政策的热度,现在某市进行调查,随机抽调了50人,他们年龄的频数分布及支持“生育二孩放开”人数如下表:
年龄
[5,15)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
频数
5
10
12
10
5
8
支持“生育二孩放开”
4
5
9
8
2
4
由以上统计数据填下面2×2列联表:
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
a=
c=
不支持
b=
d=
合计
考点 分类变量与列联表
题点 求列联表中的数据
解 2×2列联表如下:
年龄不低于45岁的人数
年龄低于45岁的人数
合计
支持
a=6
c=26
32
不支持
b=7
d=11
18
合计
13
37
50
反思与感悟 准确理解给定信息,找准分类变量,然后依次填入相应空格内数据.
跟踪训练1 某校高二年级共有1600名学生,其中男生960名,女生640名,该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在[80,100)的学生可取得A等(优秀),在[60,80)的学生可取得B等(良好),在[40,60)的学生可取得C等(合格),不到40分的学生只能取得D等(不合格).为研究这次考试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取100名学生,将他们的成绩按从低到高分成[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100),七组加以统计,绘制成如图所示的频率分布直方图.
(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;
(2)请你根据已知条件将下列2×2列联表补充完整.
数学成绩优秀
数学成绩不优秀
合计
男生
a=12
b=
女生
c=
d=34
合计
n=100
考点 分类变量与列联表
题点 求列联表中的数据
解 (1)设抽取的100名学生中,本次考试成绩不合格的有x人,根据题意得x=100×[1-10×(0.006+0.012×2+0.018+0.024+0.026)]=2.
据此估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数为×1600=32.
(2)根据已知条件得2×2列联表如下:
数学成绩优秀
数学成绩不优秀
合计
男生
a=12
b=48
60
女生
c=6
d=34
40
合计
18
82
100
例2 根据下表计算:
不看电视
看电视
男
37
85
女
35
143
则χ2≈________.(保留3位小数)
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 4.514
解析 χ2=≈4.514.
反思与感悟 列联表中的数据信息与χ2统计量之间的关系要对应,其次,需对“卡方”公式的结构有清醒的认识.
跟踪训练2 已知列联表:
药物效果与动物试验列联表
患病
未患病
合计
服用药
10
45
55
未服药
20
30
50
合计
30
75
105
则χ2≈________.(结果保留3位小数)
考点 定性分析的两类方法
题点 利用列联表定性分析
答案 6.109
解析 χ2=≈6.109.
类型二 独立性检验
例3 某班主任对班级50名学生进行了作业量多少的调查,数据如下表:在喜欢玩电脑游戏的26人中,有20人认为作业多,6人认为作业不多;在不喜欢玩电脑游戏的24人中,有7人认为作业多,17人认为作业不多.
(1)根据以上数据建立一个2×2列联表;
(2)试问喜欢玩电脑游戏与认为作业多少是否有关系?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 (1)根据题中所给数据,得到如下列联表:
认为作业多
认为作业不多
合计
喜欢玩电脑游戏
20
6
26
不喜欢玩电脑游戏
7
17
24
合计
27
23
50
(2)由公式得χ2=≈11.458.
∵11.458>6.635,
∴有99%的把握认为喜欢玩电脑游戏与认为作业多少有关.
反思与感悟 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
跟踪训练3 调查在2~3级风的海上航行中男女乘客的晕船情况,结果如下表所示:
晕船
不晕船
合计
男人
12
25
37
女人
10
24
34
合计
22
49
71
根据此资料,你是否认为在2~3级风的海上航行中男人比女人更容易晕船?
考点 独立性检验及其基本思想
题点 独立性检验的思想
解 由公式得χ2=≈0.08.
因为χ2<3.841,所以我们没有理由认为男人比女人更容易晕船.
1.下面是一个2×2列联表:
y1
y2
合计
x1
a
21
73
x2
7
20
27
合计
b
41
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,59 D.59,52
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
解析 ∵a+21=73,∴a=52,b=a+7=52+7=59.
2.某科研机构为了研究中年人秃发与患心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
合计
秃发
20
300
320
不秃发
10
445
455
合计
30
745
775
根据表中数据得到χ2=≈8.290,因为χ2>6.635,则断定秃发与患心脏病有关系,那么这种判断出错的可能性为( )
A.0.1B.0.05C.0.025D.0.01
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 因为χ2>6.635,所以有99%的把握说秃发与患心脏病有关,故这种判断出错的可能性为1-0.99=0.01.
3.若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 D
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据包括________________________________________________________________________
________________________________________________________________________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 女正教授人数、男正教授人数、女副教授人数、男副教授人数
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
合计
数学成绩好
478
a
490
数学成绩不好
399
24
423
合计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
考点 独立性检验及其基本思想
题点 独立性检验的方法
解 (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
由b+c=913,得b=913-36=877.
(2)根据表中数据计算得
χ2=≈6.233>3.841,
所以有95%的把握认为文科学生总成绩不好与数学成绩不好有关系.
1.利用χ2=求出χ2的值,再利用临界值的大小来判断假设是否成立.
2.解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.
一、选择题
1.在2×2列联表中,四个变量的取值n11,n12,n21,n22应是( )
A.任意实数 B.正整数
C.大于5的整数 D.非负整数
考点 分类变量与列联表
题点 求列联表中的数据
答案 C
2.如果有99%的把握认为“x与y有关系”,那么χ2满足( )
A.χ2>6.635 B.χ2≥5.024
C.χ2≥7.879 D.χ2>3.841
考点 独立性检验思想的应用
题点 独立性检验在分类变量中的应用
答案 A
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
考点 独立性检验及其基本思想
题点 独立性检验的思想
答案 C
4.根据下面的列联表得到如下四个判断:
①有95%的把握认为“患肝病与嗜酒有关”;②有99%的把握认为“患肝病与嗜酒有关”;③在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒有关”;④在犯错误的概率不超过0.01的前提下认为“患肝病与嗜酒无关”.
嗜酒
不嗜酒
合计
患肝病
700
60
760
未患肝病
200
32
232
合计
900
92
992
其中正确命题的个数为( )
A.0B.1C.2D.3
考点 分类变量与列联表
题点 求观测值
答案 C
解析 由列联表中数据可求得
χ2=≈7.349>6.635,所以在犯错误的概率不超过0.01的前提下,认为“患肝病与嗜酒有关系”,即有99%的把握认为“患肝病与嗜酒有关系”.因此②③正确,故选C.
5.在2×2列联表中,两个分类变量有关系的可能性越大,相差越大的两个比值为( )
A.与 B.与
C.与 D.与
考点 分类变量与列联表
题点 求列联表中的数据
答案 A
解析 以表格为例,
B
合计
A
n11
n12
n1+
n21
n22
n2+
合计
n+1
n+2
n
事件B发生与A相关性越强,则两个频率与相差越大.
6.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
合计
甲班
11
34
45
乙班
8
37
45
合计
19
71
90
则统计量χ2约为( )
A.0.600B.0.828C.2.712D.6.004
考点 分类变量与列联表
题点 求观测值
答案 A
解析 根据列联表中的数据,
可得χ2=≈0.600.故选A.
二、填空题
7.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.(填序号)
①若统计量χ2=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 ③
解析 统计量χ2是支持确定有多大的把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
8.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
合计
男性患者
15
35
50
女性患者
6
44
50
合计
21
79
100
设H0:服用此药的效果与患者的性别无关,则统计量χ2≈________(小数点后保留3位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 4.882 5%
解析 由公式计算得统计量χ2≈4.882,
∵χ2>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性判断出错.
9.某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
合计
高于40岁
p
q
50
不高于40岁
15
35
50
合计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则有________的把握认为年龄与西班牙队的被喜欢程度有关.
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙的人”为事件A,
由已知得P(A)==,
所以p=25,q=25,a=40,b=60.
χ2==≈4.167>3.841.
故有95%的把握认为年龄与西班牙队的被喜欢程度有关.
10.某高校“统计初步”课程的教师随机调查了一些学生,具体数据如下表所示,为了判断选修统计专业是否与性别有关系,根据表中数据,得到χ2=≈4.844,因为4.844>3.841.所以选修统计专业与性别有关系,那么这种判断出错的可能性为________.
没选统计专业
选统计专业
男
13
10
女
7
20
考点 独立性检验及其基本思想
题点 独立性检验的方法
答案 5%
三、解答题
11.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
考点 定性分析的两类方法
题点 利用列联表定性分析
解 (1)列联表如下:
休闲方式
性别
看电视
运动
合计
女
43
27
70
男
21
33
54
合计
64
60
124
(2)χ2=≈6.201,
∵χ2>3.841,
∴有95%的把握认为性别与休闲方式有关.
四、探究与拓展
12.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射14天内的结果如表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是________.
考点 独立性检验及其基本思想
题点 独立性检验
答案 小白鼠的死亡与剂量无关
解析 根据独立性检验的基本思想可知,类似于反证法,即要确认“两个分量有关系”这一结论成立的可信程度,首先假设该结论不成立.对于本题,进行统计分析时的统计假设应为“小白鼠的死亡与剂量无关”.
13.某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为.
优秀
非优秀
合计
甲班
10
乙班
30
合计
110
(1)请完成上面的列联表;
(2)根据列联表的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”;
P(χ2≥x0)
0.050
0.010
0.001
x0
3.841
6.635
10.828
(3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到9号或10号的概率.
考点
题点
解 (1)由题意知,优秀的概率P=,故优秀人数为30,故2×2列联表如下:
优秀
非优秀
合计
甲班
10
50
60
乙班
20
30
50
合计
30
80
110
(2)根据列联表中的数据,得到
χ2=≈7.486<10.828.
因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”.
(3)设“抽到9或10号”为事件A,先后两次抛掷一枚均匀的骰子,出现的点数为(x,y),所有的基本事件有(1,1),(1,2),(1, 3),…,(6,6),共36个.
事件A包含的基本事件有(3,6),(4,5),(5,4),(6,3),(5,5),(4,6),(6,4),共7个.
所以P(A)=,即抽到9号或10号的概率为.