4.3.2 独立性检验
一、选择题
1.若由一个2×2列联表中的数据计算得到χ2=7.213,则有 ( )
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.90%的把握认为两个随机事件有关
B.95%的把握认为两个随机事件有关
C.99%的把握认为两个随机事件有关
D.99.9%的把握认为两个随机事件有关
2.在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是 ( )
A.在100个高血压患者中一定有肥胖的人
B.在100个肥胖的人中至少有99人患有高血压
C.在100个高血压患者中可能没有肥胖的人
D.肥胖的人至少有99%的概率患有高血压
3.为了了解学生是否经常锻炼与性别的关系,某校随机抽取了40名学生进行调查,按照性别和锻炼情况整理出如下的2×2列联表.
不经常锻炼 经常锻炼 总计
女生 14 7 21
男生 8 11 19
总计 22 18 40
注:χ2=,n=a+b+c+d.
根据这些数据,给出下列四个结论:
①依据频率稳定于概率的原理,可以认为学生是否经常锻炼与性别有关;
②依据频率稳定于概率的原理,可以认为学生是否经常锻炼与性别无关;
③有95%的把握认为学生是否经常锻炼与性别有关;
④没有95%的把握认为学生是否经常锻炼与性别有关.
其中正确结论的序号是 ( )
A.①③ B.①④
C.②③ D.②④
4.两个随机事件A,B的2×2列联表如下:
B 总计
A 10 18 28
m 26 m+26
总计 10+m 44 54+m
则当m取下面何值时,A与B有关的可能性最小 ( )
A.8 B.9
C.14 D.19
5.有甲、乙两个班级进行数学考试,按照大于或等于85分为优秀,85分以下为非优秀统计成绩,得到如下表所示的列联表.
优秀 非优秀 总计
甲班 10 b
乙班 c 30
总计 105
已知在全部105人中随机抽取1人,其成绩优秀的概率为,则下列说法正确的是 ( )
A.c的值为30,b的值为35
B.c的值为15,b的值为50
C.根据列联表中的数据,有95%的把握认为成绩是否优秀与班级有关
D.根据列联表中的数据,没有95%的把握认为成绩是否优秀与班级有关
6.[2024·辽宁营口高中高二月考] 根据两个随机事件的观测数据,计算得到χ2=2.974,则( )
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.有90%的把握认为两个随机事件有关
B.两个随机事件有关,这个结论犯错误的概率不超过0.05
C.没有90%的把握认为两个随机事件有关
D.两个随机事件无关,这个结论犯错误的概率不超过0.05
7.假设随机事件A与B的数据如下表:
B 总计
A a b a+b
c d c+d
总计 a+c b+d a+b+c+d
对于以下数据,能说明A与B有关系的可能性最大的一组为 ( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=3,b=2,c=4,d=5
8.(多选题)下列有关独立性检验的四个说法中正确的是 ( )
A.两个随机事件的2×2列联表中,对角线上数据的乘积相差越大,说明两个随机事件有关系成立的可能性就越大
B.对随机事件X与Y的随机变量χ2来说,χ2的值越小,“X与Y有关”的可信度越低
C.从独立性检验可知,有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病
D.从独立性检验可知,有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关
9.(多选题)某中学为了解学生是否喜欢阅读与性别的关系,为此对学生是否喜欢阅读进行普查,得到下表.
男生 女生 总计
喜欢 280 p 280+p
不喜欢 q 120 120+q
总计 280+q 120+p 400+p+q
附:χ2=,n=a+b+c+d.
α=P(χ2≥k) 0.1 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
已知男生喜欢阅读的人数占男生人数的,女生喜欢阅读的人数占女生人数的,则下列说法正确的是 ( )
A.q=120,p=180
B.从该中学随机选一名学生,该学生有90%的可能喜欢阅读
C.有99%的把握认为学生是否喜欢阅读与性别有关
D.没有99.9%的把握认为学生是否喜欢阅读与性别有关
二、填空题
10.某中学统计了一个班40名学生中每名学生的英语成绩和语文成绩,并制成了一个不完整的2×2列联表,如下:
英语成绩及格 英语成绩不及格 总计
语文成绩及格 20
语文成绩不及格 11
总计 25 40
则 (填“有”或“没有”)99%的把握认为学生的英语成绩与语文成绩有关.
11.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用该血清的人与另外500名未使用该血清的人一年中的感冒次数进行统计,并利用2×2列联表计算得χ2≈3.918,对此四名同学给出了以下说法:
①有95%的把握认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,则他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
其中正确说法的序号是 .
12.有两个随机事件X和Y,其中一组统计数据的2×2列联表如下.
Y 总计
X a 15-a 15
20-a 30+a 50
总计 20 45 65
其中a,15-a均为大于5的整数,则当a= 时,在犯错误的概率不超过0.01的前提下认为“X与Y有关”.
三、解答题
13.某校组织了团史知识测试,测试成绩分为优秀与非优秀两个等级.随机抽查了高一年级、高二年级各100名学生的测试成绩,统计数据如下表.
高一年级成绩
优秀 非优秀
女生 36 14
男生 32 18
高二年级成绩
优秀 非优秀
女生 44 6
男生 38 12
(1)根据给出的数据,完成下面的2×2列联表:
优秀 非优秀 总计
女生
男生
总计
(2)根据(1)中列联表,判断能否有90%的把握认为测试成绩是否优秀与性别有关
附:χ2=,其中n=a+b+c+d.
α=P(χ2≥k) 0.1 0.05 0.01
k 2.706 3.841 6.635
14.[2023·江苏徐州高二期末] 某棉纺厂为了解一批棉花的质量,在该批棉花中随机抽取了容量为120的样本,测量每个样本棉花的纤维长度(单位:mm,纤维长度是棉花质量的重要指标),所得数据均在区间[20,32]内,从20开始,组距为2确定计数区间,制作成如图所示的频率分布直方图,其中纤维长度不小于28 mm的棉花为优质棉.
(1)求频率分布直方图中a的值.
(2)已知抽取的容量为120的样本棉花产自于A,B两个试验区,部分数据如下:
A试验区 B试验区 总计
优质棉 10
非优质棉 30
总计 120
将2×2列联表补充完整.判断能否有99.9%的把握认为是否为优质棉与A,B两个试验区有关
(3)若从这批120个样本棉花中随机抽取3个,其中有X个是优质棉,求X的分布列和数学期望.
附:χ2=,其中n=a+b+c+d.
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
15.两个随机事件A,B的样本频数如下表,其中a=10,b=21,c+d=35.若有95%的把握认为A与B有关,则c的值可以为 ( )
A
B a b
c d
A.3 B.7
C.5 D.6
16.[2024·海南三沙高二期末] 某校准备开设羽毛球兴趣班,在全校范围内采用简单随机抽样的方法分别抽取了男生和女生各100名作为样本,调查学生是否喜欢羽毛球运动,经统计,得到了如图所示的等高堆积条形图.
(1)根据等高堆积条形图,填写下列2×2列联表,能否在犯错误的概率不超过0.01的前提下,认为该校学生是否喜欢羽毛球运动与性别有关
喜欢 不喜欢 总计
男生
女生
总计
(2)已知该校男生与女生人数相同,将样本的频率视为概率,现从全校学生中随机抽取30名学生,设其中喜欢羽毛球运动的学生人数为X,求P(X=m)取得最大值时m(m∈N*)的值.
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
参考公式:
χ2=,其中n=a+b+c+d.
4.3.2 独立性检验
1.C [解析] 因为χ2=7.213>6.635,所以有99%的把握认为两个随机事件有关.故选C.
2.C [解析] 因为在犯错误的概率不超过0.01的前提下认为这个结论是成立的,所以有99%的把握认为“高血压与肥胖有关”,只是该结论成立的可能性为99%,与有多少个人患高血压无关,更谈不上概率,故A,B,D不正确,C正确.故选C.
3.B [解析] 由表可知,女生有21人,其中经常锻炼的有7人,频率为=,男生有19人,其中经常锻炼的有11人,频率为,因为>,所以依据频率稳定于概率的原理,可以认为学生是否经常锻炼与性别有关,故①正确,②错误;因为χ2=≈2.431<3.841,所以没有95%的把握认为学生是否经常锻炼与性别有关,故③错误,④正确.故选B.
4.C [解析] 在两个随机事件的2×2列联表中,|ad-bc|的值越小,两个随机事件有关的可能性越小.令|ad-bc|=0,得10×26=18m,解得m≈14.4,所以当m=14时,A与B有关的可能性最小.故选C.
5.C [解析] ∵在全部105人中随机抽取1人,其成绩优秀的概率为,∴成绩优秀的人数为105×=30,∴非优秀的人数为105-30=75,∴c=30-10=20,b=75-30=45,∴χ2==≈6.109>3.841,∴有95%的把握认为成绩是否优秀与班级有关.故选C.
6.A [解析] 因为χ2=2.974<3.841,所以没有95%的把握认为两个随机事件有关,因为χ2=2.974>2.706,所以有90%的把握认为两个随机事件有关.故选A.
7.D [解析] 对于选项A,B,C都有|ad-bc|=|10-12|=2,对于选项D,有|ad-bc|=|15-8|=7,显然7>2.故选D.
8.ABD [解析] 对于A,两个随机事件的2×2列联表中,对角线上数据的乘积相差越大,说明两个随机事件有关系成立的可能性就越大,故A正确;对于B,对随机事件X与Y的随机变量χ2来说,χ2的值越小,“X与Y有关”的可信度越低,故B正确;对于C,从独立性检验可知,有95%的把握认为秃顶与患心脏病有关,不是说某人秃顶,那么他有95%的可能患有心脏病,故C错误;对于D,从独立性检验可知,有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,故D正确.故选ABD.
9.ACD [解析] 由题知,280=(280+q),p=(120+p),解得q=120,p=180,故A正确.补全2×2列联表如下:
男生 女生 总计
喜欢 280 180 460
不喜欢 120 120 240
总计 400 300 700
所以从该中学随机选一名学生,该学生喜欢阅读的概率P=≈65.7%,故B错误.χ2=≈7.609,因为6.635<7.609<10.828,所以有99%的把握认为学生是否喜欢阅读与性别有关,没有99.9%的把握认为学生是否喜欢阅读与性别有关,故C,D正确.故选ACD.
10.有 [解析] 由题意可得2×2列联表如下:
英语成绩及格 英语成绩不及格 总计
语文成绩及格 20 4 24
语文成绩不及格 5 11 16
总计 25 15 40
因为χ2=≈11.111>6.635,所以有99%的把握认为学生的英语成绩与语文成绩有关.
11.① [解析] ∵χ2≈3.918>3.841,∴有95%的把握认为“这种血清能起到预防感冒的作用”.故填①.
12.9 [解析] 由题意知χ2≥6.635,即=≥6.635,又因为a>5且15-a>5,a∈Z,所以a=9.
13.解:(1)由题得,2×2列联表如下.
优秀 非优秀 总计
女生 80 20 100
男生 70 30 100
总计 150 50 200
(2)因为χ2=≈2.667<2.706,所以没有90%的把握认为测试成绩是否优秀与性别有关.
14.解:(1)由2(a+2a+4a+0.2+4a+a)=1,解得a=0.025.
(2)抽取的优质棉的样本数为120×2(4a+a)=120×2×0.125=30,则抽取的非优质棉的样本数为120-30=90,则2×2列联表如下:
A试验区 B试验区 总计
优质棉 10 20 30
非优质棉 60 30 90
总计 70 50 120
因为χ2=≈10.286<10.828,
所以没有99.9%的把握认为是否为优质棉与A,B两个试验区有关.
(3)X的取值范围为{0,1,2,3},
则P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
所以X的分布列为
X 0 1 2 3
P
所以E(X)=0×+1×+2×+3×=.
15.A [解析] 由题意得2×2列联表如下,
A 总计
B 10 21 31
c 35-c 35
总计 10+c 56-c 66
则χ2=.当c=3时,χ2≈5.831>3.841;当c=5时,χ2≈3.024<3.841;当c=6时,χ2≈2.045<3.841;当c=7时,χ2≈1.292<3.841.故选A.
16.解:(1)由题意,2×2列联表如下:
喜欢 不喜欢 总计
男生 75 25 100
女生 55 45 100
总计 130 70 200
因为χ2=≈8.791>6.635,
所以能在犯错误的概率不超过0.01的前提下,认为该校学生是否喜欢羽毛球运动与性别有关.
(2)由列联表可知,该校学生喜欢羽毛球运动的频率为=,所以随机变量X~B,
所以P(X=m)=.
要使P(X=m)取得最大值,
则需
解得≤m≤,又m∈N*,所以当m=20时,P(X=m)取得最大值.