中小学教育资源及组卷应用平台
第2课时 列联表与独立性检验
课标解读 考向预测
1.通过实例,理解2×2列联表的统计意义. 2.通过实例,了解2×2列联表独立性检验及其应用. 预计2025年高考列联表、独立性检验可能会以实际问题为背景,与概率、随机变量的分布列及数字特征相结合命题,难度适中.
【知识梳理】
1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值均为0,1,其2×2列联表为
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
3.独立性检验
(1)零假设:以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,H0:P(Y=1|X=0)=P(Y=1|X=1).通常称H0为零假设或原假设.
(2)χ2的计算公式:记n=a+b+c+d,则χ2=.
(3)临界值:对于任何小概率值α,可以找到相应的正实数xα,使得后面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可以作为判断χ2大小的标准,概率值α越小,临界值xα越大.
(4)基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
(5)应用独立性检验解决实际问题的主要环节
①提出零假设H0:X和Y相互独立,并给出在问题中的解释;
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
③根据检验规则得出推断结论;
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【常用结论】
根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则认为两分类变量有关的把握越大.
【诊断自测】
1.概念辨析(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.( )
(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联.( )
(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.( )
(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( )
2.小题热身
(1)(人教B选择性必修第二册4.3.2练习A T2改编)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:
男 女 合计
爱好 a b 73
不爱好 c 25
合计 74
则a-b-c=( )
A.7 B.8
C.9 D.10
(2)在下列两个分类变量X,Y的样本频数列联表中,可以判断X,Y之间有无关系的是( )
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
A. B.
C. D.
(3)已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.
【考点探究】
考点一 分类变量的两种统计表示形式(多考向探究)
考向1 等高堆积条形图
例1 (2023·四川南充三诊)为考查A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图,根据图中信息,下列说法最佳的是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
【通性通法】
在等高堆积条形图中,与相差越大,我们认为两个分类变量之间关系越强.
【巩固迁移】
1.(多选)现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列统计结论正确的是( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
考向2 2×2列联表
例2 (1)下面是一个2×2列联表,则表中a,c处的值分别为( )
X Y 合计
y1 y2
x1 a 25 73
x2 21 b c
合计 d 49
A.98,28 B.28,98
C.48,45 D.45,48
(2)假设两个分类变量X和Y的2×2列联表如下:
X Y 合计
y1 y2
x1 a 10 a+10
x2 c 30 c+30
合计 a+c 40 100
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=40,c=20 B.a=45,c=15
C.a=35,c=25 D.a=30,c=30
【通性通法】
在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
【巩固迁移】
2.(多选)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
班级 数学成绩
优秀 非优秀 合计
甲班 10 b
乙班 c 30
合计 105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.c=30,b=35
B.c=15,b=50
C.c=20,b=45
D.由列联表可看出数学成绩与班级有关系
考点二 独立性检验的应用
例3 (2024·山西太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:
SO2的浓度 空气质量等级 [0,50] (50,150] (150,475]
1(优) 28 6 2
2(良) 5 7 8
3(轻度污染) 3 8 9
4(中度污染) 1 12 11
若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题:
(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;
(2)完成下面的2×2列联表;
SO2的浓度 空气质量 [0,150] (150,475] 合计
空气质量好
空气质量不好
合计
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?
【通性通法】
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算;
(3)比较χ2与临界值的大小关系,作统计推断.
【巩固迁移】
3.(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=,
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
第2课时 列联表与独立性检验
课标解读 考向预测
1.通过实例,理解2×2列联表的统计意义. 2.通过实例,了解2×2列联表独立性检验及其应用. 预计2025年高考列联表、独立性检验可能会以实际问题为背景,与概率、随机变量的分布列及数字特征相结合命题,难度适中.
【知识梳理】
1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值均为0,1,其2×2列联表为
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
3.独立性检验
(1)零假设:以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,H0:P(Y=1|X=0)=P(Y=1|X=1).通常称H0为零假设或原假设.
(2)χ2的计算公式:记n=a+b+c+d,则χ2=.
(3)临界值:对于任何小概率值α,可以找到相应的正实数xα,使得后面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可以作为判断χ2大小的标准,概率值α越小,临界值xα越大.
(4)基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
(5)应用独立性检验解决实际问题的主要环节
①提出零假设H0:X和Y相互独立,并给出在问题中的解释;
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
③根据检验规则得出推断结论;
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
【常用结论】
根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则认为两分类变量有关的把握越大.
【诊断自测】
1.概念辨析(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.( )
(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联.( )
(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.( )
(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( )
答案 (1)× (2)√ (3)× (4)×
2.小题热身
(1)(人教B选择性必修第二册4.3.2练习A T2改编)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:
男 女 合计
爱好 a b 73
不爱好 c 25
合计 74
则a-b-c=( )
A.7 B.8
C.9 D.10
答案 C
解析 根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,∴a-b-c=52-21-22=9.
(2)在下列两个分类变量X,Y的样本频数列联表中,可以判断X,Y之间有无关系的是( )
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
A. B.
C. D.
答案 D
解析 ∵χ2=,则分类变量X和Y有关系时,ad与bc差距会比较大,由-==,故与的值相差应该大,即的大小可以判断X,Y之间有无关系.
(3)已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.
答案 0.01
解析 因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.
【考点探究】
考点一 分类变量的两种统计表示形式(多考向探究)
考向1 等高堆积条形图
例1 (2023·四川南充三诊)为考查A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图,根据图中信息,下列说法最佳的是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
答案 B
解析 根据题干中两个等高堆积条形图知,药物A实验显示不服药与服药时患病差异较药物B实验显示明显,所以药物A的预防效果优于药物B的预防效果.
【通性通法】
在等高堆积条形图中,与相差越大,我们认为两个分类变量之间关系越强.
【巩固迁移】
1.(多选)现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列统计结论正确的是( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
答案 ABC
解析 由等高堆积条形图知,女生数量多于男生数量,故A正确;有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B正确;男生偏爱两理一文,故C正确;女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D错误.故选ABC.
考向2 2×2列联表
例2 (1)下面是一个2×2列联表,则表中a,c处的值分别为( )
X Y 合计
y1 y2
x1 a 25 73
x2 21 b c
合计 d 49
A.98,28 B.28,98
C.48,45 D.45,48
答案 C
解析 由2×2列联表知a+25=73,b+25=49,b+21=c,解得a=48,b=24,c=45.故选C.
(2)假设两个分类变量X和Y的2×2列联表如下:
X Y 合计
y1 y2
x1 a 10 a+10
x2 c 30 c+30
合计 a+c 40 100
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=40,c=20 B.a=45,c=15
C.a=35,c=25 D.a=30,c=30
答案 B
解析 χ2==n·,根据2×2列联表和独立性检验的相关知识,知当b,d一定时,a,c相差越大,与相差就越大,χ2就越大,即X和Y有关系的可能性越大,结合选项,知B中a-c=30与其他选项相比相差最大.
【通性通法】
在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
【巩固迁移】
2.(多选)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:
班级 数学成绩
优秀 非优秀 合计
甲班 10 b
乙班 c 30
合计 105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.c=30,b=35
B.c=15,b=50
C.c=20,b=45
D.由列联表可看出数学成绩与班级有关系
答案 CD
解析 依题意=,解得c=20,由10+20+b+30=105,解得b=45.补全2×2列联表如下:
班级 数学成绩 合计
优秀 非优秀
甲班 10 45 55
乙班 20 30 50
合计 30 75 105
甲班学生数学成绩的优秀率为≈0.182,乙班学生数学成绩的优秀率为=0.4,乙班学生数学成绩的优秀率明显高于甲班学生数学成绩的优秀率,可以认为两班学生的数学成绩优秀率存在差异,所以数学成绩与班级有关.故选CD.
考点二 独立性检验的应用
例3 (2024·山西太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:
SO2的浓度 空气质量等级 [0,50] (50,150] (150,475]
1(优) 28 6 2
2(良) 5 7 8
3(轻度污染) 3 8 9
4(中度污染) 1 12 11
若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题:
(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;
(2)完成下面的2×2列联表;
SO2的浓度 空气质量 [0,150] (150,475] 合计
空气质量好
空气质量不好
合计
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?
解 (1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P==0.46.
(2)由表格数据可得列联表如下,
SO2的浓度 空气质量 [0,150] (150,475] 合计
空气质量好 46 10 56
空气质量不好 24 20 44
合计 70 30 100
(3)零假设为H0:该市一天的空气质量与当天SO2的浓度无关.
由(2)知χ2=≈8.936>6.635=x0.01,
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该市一天的空气质量与当天SO2的浓度有关,此推断犯错误的概率不超过0.01.
【通性通法】
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=计算;
(3)比较χ2与临界值的大小关系,作统计推断.
【巩固迁移】
3.(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数 未准点班次数
A 240 20
B 210 30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=,
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
解 (1)根据表中数据,A家公司共有班次260次,其中准点班次有240次,
设A家公司长途客车准点事件为M,
则P(M)==;
B家公司共有班次240次,其中准点班次有210次,
设B家公司长途客车准点事件为N,
则P(N)==.
故A家公司长途客车准点的概率为,B家公司长途客车准点的概率为.
(2)由题可得χ2=
≈3.205>2.706,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)