专题8.5 列联表与独立性检验(重难点题型精讲)
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为
分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,
观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类
变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道
两个分类变量有关系的概率大小.
4.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
【题型1 列联表的应用】
【方法点拨】
利用列联表直接计算和,如果两者相差很大,就判断两个分类变量之间有关系的可能性较大.
【例1】(2023·全国·高二专题练习)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【解题思路】计算每个选项中的,比较大小后可得出结论.
【解答过程】对于两个分类变量与而言,的值越大,说明与有关系的可能性最大,
对于A选项,,
对于B选项,,
对于C选项,,
对于D选项,,
显然D中最大,
故选:D.
【变式1-1】(2022春·福建厦门·高二阶段练习)在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
A 合计
B 200 800 1000
180 a 180+a
合计 380 800+a 1180+a
A.200 B.720 C.100 D.180
【解题思路】把列联表中所给的数据代入求观测值的公式,建立不等式,代入验证可知a的可能值.
【解答过程】解:因为两个分类变量A和B没有任何关系,
所以 ,
代入验证可知 .
故选:B.
【变式1-2】(2022·高二单元测试)假设两个分类变量和,他们的取值分别为和,其样本频数列联表如下:
总计
总计
对于以下数据,对同一样本说明与有关的可能性最大的一组是( )
A.,,, B.,,,
C.,,, D.,,,
【解题思路】依据越大,说明与有关的可能性越大,即可判定.
【解答过程】一般地,越大,说明与有关的可能性越大.
选项A中,;
选项B中,;
选项C中,;
选项D中,.
故选:B.
【变式1-3】(2022·全国·高三专题练习)假设有两个分类变量和的列联表如下:
注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
A. B. C. D.
【解题思路】根据独立性检验的方法和列联表,即可得解.
【解答过程】根据独立性检验的方法和列联表可得,当与相差越大,则分类变量和有关系的可能性越大,即相差越大,与相差越大.由各选项可得A满足条件,
故选A.
【题型2 等高堆积条形图的应用】
【方法点拨】
可以从等高堆积条形图中直观判断列联表数据的频率特征,这种直观判断的不足之处在于不能直接给出推
断“两个分类变量有关系”犯错误的概率.
【例2】(2022春·吉林·高二阶段练习)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别有关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【解题思路】结合所给比例图,依次分析判断4个选项即可.
【解答过程】对于A,城镇户籍中选择生育二胎,农村户籍中选择生育二胎,相差较大,则是否倾向选择生育二胎与户籍有关,A错误;
对于B,男性和女性中均有选择生育二胎,则是否倾向选择生育二胎与性别无关,B错误;
对于C,由于男性和女性中均有选择生育二胎,但样本中男性40人,女性60人,则倾向选择生育二胎的人员中,男性人数与女性人数不同,C错误;
对于D,倾向选择不生育二胎的人员中,农村户籍有人,城镇户籍有人,农村户籍人数少于城镇户籍人数,D正确.
故选:D.
【变式2-1】(2022春·全国·高二期末)观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是( )
A. B.
C. D.
【解题思路】直接由等高条形图中所占比例相差越小,随机变量的观测值越小判断即可.
【解答过程】等高的条形图中所占比例相差越小,随机变量的观测值越小.
故选:B.
【变式2-2】(2023·全国·高二专题练习)观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
【解题思路】由等高条形图的定义和性质依次分析,即得解
【解答过程】观察等高条形图发现与相差很大,就判断两个分类变量之量关系最强.
故选:D.
【变式2-3】(2023·高二课时练习)为考查A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
【解题思路】根据等高条形图中的数据即可得出选项.
【解答过程】根据两个表中的等高条形图知,
药物A实验显示不服药与服药时患病差异较药物B实验显示明显大,
所以药物A的预防效果优于药物B的预防效果,
故选:B.
【题型3 独立性检验的应用】
【方法点拨】
可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法:
(1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值;
(2)利用公式,由观测数据计算得到的值;
(3)对照临界值表,即可得出结论.
【例3】(2023·江西上饶·统考一模)新型冠状病毒感染,主要是由新型冠状病毒引起的,典型症状包括干咳、发热、四肢无力等,部分人群会伴有流鼻涕、拉肚子等症状.病人痊愈的时间个体差异也是比较大的,新型冠状病毒一般2-6周左右能恢复.某兴趣小组为进一步了解新型冠状病毒恢复所需时间,随机抽取了200名已痊愈的新型冠状病毒患者(其中有男性100名,女性100名)进行调查,得到数据如下表所示:
痊愈周数 性别 1周 2周 3周 4周 5周 6周 大于6周
男性 4 50 24 12 6 2 2
女性 2 40 22 16 10 6 4
若新型冠状病毒患者在3周内(含3周)痊愈,则称患者“痊愈快”,否则称患者“痊愈慢”.
(1)分别估计男、女新型冠状病毒患者“痊愈快”的概率?
(2)完成下面列联表,并判断是否有95%的把握认为患者性别与痊愈快慢有关?
痊愈快慢 性别 痊愈快 痊愈慢 总计
男性
女性
总计
附:.
0.050 0.010 0.001
k 3.841 6.635 10.828
【解题思路】(1)根据表中数据的统计,结合古典概型的概率公式即可求解,
(2)根据数据统计完成二联表,即可计算,进行判断.
【解答过程】(1)由表中数据可知:男性患者在三周以及以内康复的人有 ,女性患者在三周以及以内康复的人有 ,故男性新型冠状病毒患者“痊愈快”的概率为,女性新型冠状病毒患者“痊愈快”的概率为
(2)二联表如下表:
痊愈快慢 性别 痊愈快 痊愈慢 总计
男性 78 22 100
女性 64 36 100
总计 142 58 200
故
故有95%的把握认为患者性别与痊愈快慢有关.
【变式3-1】(2023春·河南安阳·高三阶段练习)2021年7月24日中共中央办公厅、国务院办公厅印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(以下简称“双减”),各省、市精心组织实施,强化目标管理,治理校外培训行为.为了调查人们对“双减”的满意程度,抽取了男、女各25人对“双减”的满意度进行调查,统计数据如表所示.
满意 非常满意 合计
男性 18 7 25
女性 6 19 25
合计 24 26 50
(1)根据上表,如果随机抽查1人,那么抽到此人对“双减”满意的概率是多少?抽到此人对“双减”非常满意且是女性的概率是多少?
(2)能否有的把握认为性别和满意度有关?
附:,.
0.050 0.010 0.001
k 3.841 6.635 10.828
【解题思路】(1)根据古典概型的概率公式即可求得答案;
(2)计算的值,与临界值表进行比较,可得结论.
【解答过程】(1)随机抽查1人,抽到满意的概率是;
抽到非常满意且是女性的概率是;
(2)根据列联表,可得,
∴有99.9%的把握认为性别和满意度有关.
【变式3-2】(2023·内蒙古·模拟预测)国际足联世界杯( ),简称“世界杯”,是由全世界国家级别球队参与,象征足球界最高荣誉,并具有最大知名度和影响力的足球赛事.年卡塔尔世界杯共有支球队参加比赛,共有场比赛.某社区随机调查了街道内男、女球迷各名,统计了他们观看世界杯球赛直播的场次,得到下面的列联表:
少于场比赛 不少于场比赛 总计
男球迷
女球迷
总计
(1)求的值,并完成上述列联表;
(2)若一名球迷观看世界杯球赛直播的场次不少于场比赛,则称该球迷为“资深球迷”,请判断能否有的把握认为该社区的一名球迷是否为“资深球迷”与性别有关.
参考公式:,其中.
参考数据:
【解题思路】(1)根据球迷总人数可构造方程求得的值,进而补全列联表;
(2)由列联表数据可计算得到,对比临界值表可得结论.
【解答过程】(1)由题意得:,解得:;
补全列联表如下:
少于场比赛 不少于场比赛 总计
男球迷
女球迷
总计
(2)由(1)得:,
有的把握认为该社区的一名球迷是否为“资深球迷”与性别有关.
【变式3-3】(2023春·湖南·高三阶段练习)人们曾经相信,艺术家将是最后被AⅠ所取代的职业,但技术的进步已经将这一信念敲出了裂痕,这可能是AⅠ第一次引起人类的恐慌,由noval AⅠ,DALL-E2等软件创作出来的给画作品风格各异,乍看之下,已与人类绘画作品无异,AⅠ会取代人类画师吗?某机构随机对60人进行了一次调查,统计发现认为会取代的有42人,30岁以下认为不会取代的有12人,占30岁以下调查人数的.
(1)根据以上数据完成如下2×2列联表:
年龄 理解情况 总计
会取代 不会取代
30岁以下 12
30岁及以上
总计 42 60
(2)依据小概率值的独立性检验,能否认为年龄与理解情况有关?并说明原因.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
参考公式:,其中.
【解题思路】(1)根据题设中的数据即可求解;
(2)代入卡方公式求出值与表对比即可求解.
【解答过程】(1)完成2×2列联表如下:
年龄 理解情况 总计
会取代 不会取代
30岁以下 18 12 30
30岁及以上 24 16 30
总计 42 18 60
(2)设为:年龄与理解情况相互独立,即年龄与理解情况无关,
由题意,,
所以根据小概率的独立性检验,我们推断成立.
即认为年龄与理解情况无关,此推断犯错误的概率不大于0.010.
【题型4 独立性检验与统计知识的综合应用】
【方法点拨】
独立性检验与统计知识结合在一起考查是一个很好的结合点,解题的关键是正确从图表中得到相关数据.
【例4】(2023·全国·模拟预测)某省级综合医院共有1000名医护员工参加防疫知识和技能竞赛,其中男性450人,为了解该医院医护员工在防疫知识和技能竞赛中的情况,现按性别采用分层抽样的方法从中抽取100名医护员工的成绩(单位:分)作为样本进行统计,成绩均分布在400~700分之间,根据统计结果绘制的医护员工成绩的频率分布直方图如图所示,将成绩不低于600分的医护员工称为优秀防疫员工
(1)求a的值,并估计该医院医护员工成绩的平均数、中位数(同一组中的数据用该组区间的中点值作代表);
(2)若样本中优秀防疫员工有女性10人,完成下列2×2列联表,并根据小概率值的独立性检验,能否认为该医院医护员工的性别与是否为优秀防疫员工有关联?
优秀防疫员工 非优秀防疫员工 合计
男
女
合计
(3)采用分层抽样的方法从样本中成绩在,的医护员工中抽取8人,再从这8人中随机抽取3人,记被抽取的3名医护员工中优秀防疫员工的人数为随机变量X,求X的分布列及数学期望.
附:,其中.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解题思路】(1)首先根据频率和为1求出值,再求出成绩平均数,再根据中位数概念求出中位数即可;
(2)进行零假设,补全2×2列联表,计算计算的值并与临界值比较即可得到结论;
(3)求出分层抽样的各层人数,计算概率得到分布列,则得到其期望.
【解答过程】(1)第一步:根据频率之和为1求a的值
由题意知,解得.
第二步:根据平均数与中位数的定义求解,
估计该医院医护员工成绩的平均数,
.
因为,
所以估计中位数为550.
(2)第一步:写出零假设
零假设为:性别与是否为优秀防疫员工独立,即性别与是否为优秀防疫员工无关联.
第二步:补全2×2列联表
由题可知,样本中男性有人,女性有人,优秀防疫员工有(人),
其中女性10人,得出以下2×2列联表:
优秀防疫员工 非优秀防疫员工 合计
男 15 30 45
女 10 45 55
合计 25 75 100
第三步:计算的值并与临界值比较
根据列联表中的数据,得到,
第四步:得出结论
所以根据小概率值的独立性检验,我们没有充分证据推断不成立,故认为性别与是否为优秀防疫员工无关联.
(3)第一步:利用分层抽样的知识求抽取的8人中成绩在与中的人数
由题意及频率分布直方图可得,从成绩在的医护员工中抽取3人,从成绩在的医护员工中抽取5人,
第二步:写出随机变量X的所有可能取值
所以X的所有可能取值为0,1,2,3.
第三步:分别求出X取每个值的概率,得分布列
,,
,,
所以随机变量X的分布列为
P 0 1 2 3
X
第四步:计算数学期望
.
【变式4-1】(2023·高二单元测试)相关统计数据显示,中国经常参与体育锻炼的人数比例为37.2%,城乡居民达到《国民体质测定标准》合格以上的人数比例达到90%以上.某市一健身连锁机构对其会员进行了统计,制作成如下两个统计图,图1为会员年龄分布图(年龄为整数),图2为会员一个月内到健身房次数分布扇形图.
若将会员按年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或40岁及以上)两类,将一个月内到健身房锻炼16次及以上的会员称为”健身达人”,15次及以下的会员称为“健身爱好者”,且已知在“健身达人”中有是“年轻人”.
(1)现从该健身连锁机构会员中随机抽取一个容量为100的样本,根据图的数据,补全下方2×2列联表,并判断是否有95%的把握认为“健身达人”与年龄有关?
年轻人 非年轻人 合计
健身达人
健身爱好者
合计
附:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
(2)将(1)中相应的频率作为概率,该健身连锁机构随机选取3名会员进行回访,设3名会员中既是“年轻人”又是“健身达人”的人数为随机变量X,求X的分布列和数学期望.
【解题思路】(1)根据条件完善列联表,然后算出即可;
(2)随机变量X满足二项分布,然后根据二项分布进行求概率和期望
【解答过程】(1)根据年轻人标准结合图1可得年轻人占比为80%,则年轻人人数为10080%=80,
则非年轻人为20人,
根据图2表格得健身达人所占比60%,所以其人数为10060%=60,根据其中年轻人占比,
所以健身达人中年轻人人数为,则非年轻人为10人;
健身爱好者人数为100-60=40,再通过总共年轻人合计为80人,则健身爱好者中年轻人人数为80-50=30,
根据非年轻人总共为20人,则健身爱好者中非年轻人人数为20-10=10,
所以列联表为
年轻人 非年轻人 合计
健身达人 50 10 60
健身爱好者 30 10 40
合计 80 20 100
,
所以没有95%的把握认为“健身达人”与年龄有关.
(2)由(1)知,既是年轻人又是健身达人的概率为,
则随机变量X满足二项分布,,
,,
,
故X的分布列:
X 0 1 2 3
P
则的数学期望为.
【变式4-2】(2023春·河南安阳·高三阶段练习)某超市为改善某产品的销售状况并制订销售策略,统计了过去100天该产品的日销售收入(单位:万元)并分成六组制成如图所示的频率分布直方图.
(1)求a的值并估计过去100天该产品的日销售收入的平均值;(同一区间数据以中点值作代表)
(2)该超市过去100天中有30天将该商品降价销售,在该商品降价的30天中有18天该产品的日销售收入不低于0.6万元,判断能否有97.5%的把握认为该商品的日销售收入不低于0.6万元与该日是否降价有关.
附:,其中.
【解题思路】(1)由频率分布直方图总面积为1列方程求a,由定义求均值;
(2)作出列联表,求得,根据表格比较判断即可.
【解答过程】(1)依题意有,得.
;
(2)依题意作列联表:
降价 非降价 总计
不低于万元 18 12 30
低于万元 12 58 70
总计 30 70 100
,
因为,所以有的把握认为该商品的日销售收入不低于万元与该日是否降价有关.
【变式4-3】(2023秋·浙江嘉兴·高三期末)为积极响应“反诈”宣传教育活动的要求,某企业特举办了一次“反诈”知识竞赛,规定:满分为100分,60分及以上为合格.该企业从甲 乙两个车间中各抽取了100位职工的竞赛成绩作为样本.对甲车间100位职工的成绩进行统计后,得到了如图所示的成绩频率分布直方图.
(1)估算甲车间职工此次“反诈”知识竞赛的合格率;
(2)若将频率视为概率,以样本估计总体.从甲车间职工中,采用有放回的随机抽样方法抽取3次,每次抽1人,每次抽取的结果相互独立,记被抽取的3人次中成绩合格的人数为.求随机变量的分布列;
(3)若乙车间参加此次知识竞赛的合格率为,请根据所给数据,完成下面的列联表,并根据列联表判断是否有的把握认为此次职工“反计”知识竞赛的成绩与其所在车间有关
2×2列联表
甲车间 乙车间 合计
合格人数
不合格人数
合计
附参考公式:①,其中.
②独立性检验临界值表
【解题思路】(1)根据频率分布直方图的性质,可得答案;
(2)根据二项分布的分布列的解题步骤,可得答案;
(3)由题意,补全列联表,利用独立性检验的解题步骤,可得答案.
【解答过程】(1)根据频率分布直方图可求得甲车间此次参加“反诈”知识竞赛的合格率
,即.
(2)由题意可知,由于每次抽取的结果是相互独立的,故,
,
所以,
,
故随机变量的分布列为
0 1 2 3
(3)根据题中统计数据可填写列联表如下,
甲车间 乙车间 合计
合格人数 80 60 140
不合格人数 20 40 60
合计 100 100 200
,
所以有的把握认为“此次职工‘反计’知识竞赛的成绩与职工所在车间有关系”.专题8.5 列联表与独立性检验(重难点题型精讲)
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为
分类变量.分类变量的取值可以用实数表示.
2.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.等高堆积条形图
常用等高堆积条形图展示列联表数据的频率特征(如图),由此反映出两个分类变量间是否相互影响.
(1)等高堆积条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,
观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就判定两个分类
变量之间有关系.
(2)利用等高堆积条形图虽可以比较各个部分之间的差异,明确展现两个分类变量的关系,但不能知道
两个分类变量有关系的概率大小.
4.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
【题型1 列联表的应用】
【方法点拨】
利用列联表直接计算和,如果两者相差很大,就判断两个分类变量之间有关系的可能性较大.
【例1】(2023·全国·高二专题练习)假设有两个分类变量与的列联表如下表:
对于以下数据,对同一样本能说明与有关系的可能性最大的一组为( )
A.,,, B.,,,
C.,,, D.,,,
【变式1-1】(2022春·福建厦门·高二阶段练习)在一次独立性检验中,得出列联表如图:且最后发现,两个分类变量A和B没有任何关系,则a的可能值是( )
A 合计
B 200 800 1000
180 a 180+a
合计 380 800+a 1180+a
A.200 B.720 C.100 D.180
单元测试)假设两个分类变量和,他们的取值分别为和,其样本频数列联表如下:
总计
总计
对于以下数据,对同一样本说明与有关的可能性最大的一组是( )
A.,,, B.,,,
C.,,, D.,,,
【变式1-3】(2022·全国·高三专题练习)假设有两个分类变量和的列联表如下:
注:的观测值.对于同一样本,以下数据能说明和有关系的可能性最大的一组是( )
A. B. C. D.
【题型2 等高堆积条形图的应用】
【方法点拨】
可以从等高堆积条形图中直观判断列联表数据的频率特征,这种直观判断的不足之处在于不能直接给出推
断“两个分类变量有关系”犯错误的概率.
【例2】(2022春·吉林·高二阶段练习)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性40人,女性60人,绘制不同群体中倾向选择生育二胎与选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则关于样本下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍无关
B.是否倾向选择生育二胎与性别有关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【变式2-1】(2022春·全国·高二期末)观察下面频率等高条形图,其中两个分类变量x,y之间的随机变量的观测值最小的是( )
A. B.
C. D.
【变式2-2】(2023·全国·高二专题练习)观察下列各图,其中两个分类变量x,y之间关系最强的是( )
A. B.
C. D.
【变式2-3】(2023·高二课时练习)为考查A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
【题型3 独立性检验的应用】
【方法点拨】
可以利用独立性检验来推断两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法:
(1)根据实际问题需要的可信程度(或容许犯错误概率的上界)确定临界值;
(2)利用公式,由观测数据计算得到的值;
(3)对照临界值表,即可得出结论.
【例3】(2023·江西上饶·统考一模)新型冠状病毒感染,主要是由新型冠状病毒引起的,典型症状包括干咳、发热、四肢无力等,部分人群会伴有流鼻涕、拉肚子等症状.病人痊愈的时间个体差异也是比较大的,新型冠状病毒一般2-6周左右能恢复.某兴趣小组为进一步了解新型冠状病毒恢复所需时间,随机抽取了200名已痊愈的新型冠状病毒患者(其中有男性100名,女性100名)进行调查,得到数据如下表所示:
痊愈周数 性别 1周 2周 3周 4周 5周 6周 大于6周
男性 4 50 24 12 6 2 2
女性 2 40 22 16 10 6 4
若新型冠状病毒患者在3周内(含3周)痊愈,则称患者“痊愈快”,否则称患者“痊愈慢”.
(1)分别估计男、女新型冠状病毒患者“痊愈快”的概率?
(2)完成下面列联表,并判断是否有95%的把握认为患者性别与痊愈快慢有关?
痊愈快慢 性别 痊愈快 痊愈慢 总计
男性
女性
总计
附:.
0.050 0.010 0.001
k 3.841 6.635 10.828
【变式3-1】(2023春·河南安阳·高三阶段练习)2021年7月24日中共中央办公厅、国务院办公厅印发《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(以下简称“双减”),各省、市精心组织实施,强化目标管理,治理校外培训行为.为了调查人们对“双减”的满意程度,抽取了男、女各25人对“双减”的满意度进行调查,统计数据如表所示.
满意 非常满意 合计
男性 18 7 25
女性 6 19 25
合计 24 26 50
(1)根据上表,如果随机抽查1人,那么抽到此人对“双减”满意的概率是多少?抽到此人对“双减”非常满意且是女性的概率是多少?
(2)能否有的把握认为性别和满意度有关?
附:,.
0.050 0.010 0.001
k 3.841 6.635 10.828
【变式3-2】(2023·内蒙古·模拟预测)国际足联世界杯( ),简称“世界杯”,是由全世界国家级别球队参与,象征足球界最高荣誉,并具有最大知名度和影响力的足球赛事.年卡塔尔世界杯共有支球队参加比赛,共有场比赛.某社区随机调查了街道内男、女球迷各名,统计了他们观看世界杯球赛直播的场次,得到下面的列联表:
少于场比赛 不少于场比赛 总计
男球迷
女球迷
总计
(1)求的值,并完成上述列联表;
(2)若一名球迷观看世界杯球赛直播的场次不少于场比赛,则称该球迷为“资深球迷”,请判断能否有的把握认为该社区的一名球迷是否为“资深球迷”与性别有关.
参考公式:,其中.
参考数据:
【变式3-3】(2023春·湖南·高三阶段练习)人们曾经相信,艺术家将是最后被AⅠ所取代的职业,但技术的进步已经将这一信念敲出了裂痕,这可能是AⅠ第一次引起人类的恐慌,由noval AⅠ,DALL-E2等软件创作出来的给画作品风格各异,乍看之下,已与人类绘画作品无异,AⅠ会取代人类画师吗?某机构随机对60人进行了一次调查,统计发现认为会取代的有42人,30岁以下认为不会取代的有12人,占30岁以下调查人数的.
(1)根据以上数据完成如下2×2列联表:
年龄 理解情况 总计
会取代 不会取代
30岁以下 12
30岁及以上
总计 42 60
(2)依据小概率值的独立性检验,能否认为年龄与理解情况有关?并说明原因.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
参考公式:,其中.
【题型4 独立性检验与统计知识的综合应用】
【方法点拨】
独立性检验与统计知识结合在一起考查是一个很好的结合点,解题的关键是正确从图表中得到相关数据.
【例4】(2023·全国·模拟预测)某省级综合医院共有1000名医护员工参加防疫知识和技能竞赛,其中男性450人,为了解该医院医护员工在防疫知识和技能竞赛中的情况,现按性别采用分层抽样的方法从中抽取100名医护员工的成绩(单位:分)作为样本进行统计,成绩均分布在400~700分之间,根据统计结果绘制的医护员工成绩的频率分布直方图如图所示,将成绩不低于600分的医护员工称为优秀防疫员工
(1)求a的值,并估计该医院医护员工成绩的平均数、中位数(同一组中的数据用该组区间的中点值作代表);
(2)若样本中优秀防疫员工有女性10人,完成下列2×2列联表,并根据小概率值的独立性检验,能否认为该医院医护员工的性别与是否为优秀防疫员工有关联?
优秀防疫员工 非优秀防疫员工 合计
男
女
合计
(3)采用分层抽样的方法从样本中成绩在,的医护员工中抽取8人,再从这8人中随机抽取3人,记被抽取的3名医护员工中优秀防疫员工的人数为随机变量X,求X的分布列及数学期望.
附:,其中.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【变式4-1】(2023·高二单元测试)相关统计数据显示,中国经常参与体育锻炼的人数比例为37.2%,城乡居民达到《国民体质测定标准》合格以上的人数比例达到90%以上.某市一健身连锁机构对其会员进行了统计,制作成如下两个统计图,图1为会员年龄分布图(年龄为整数),图2为会员一个月内到健身房次数分布扇形图.
若将会员按年龄分为“年轻人”(20岁-39岁)和“非年轻人”(19岁及以下或40岁及以上)两类,将一个月内到健身房锻炼16次及以上的会员称为”健身达人”,15次及以下的会员称为“健身爱好者”,且已知在“健身达人”中有是“年轻人”.
(1)现从该健身连锁机构会员中随机抽取一个容量为100的样本,根据图的数据,补全下方2×2列联表,并判断是否有95%的把握认为“健身达人”与年龄有关?
年轻人 非年轻人 合计
健身达人
健身爱好者
合计
附:
0.10 0.05 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
(2)将(1)中相应的频率作为概率,该健身连锁机构随机选取3名会员进行回访,设3名会员中既是“年轻人”又是“健身达人”的人数为随机变量X,求X的分布列和数学期望.
【变式4-2】(2023春·河南安阳·高三阶段练习)某超市为改善某产品的销售状况并制订销售策略,统计了过去100天该产品的日销售收入(单位:万元)并分成六组制成如图所示的频率分布直方图.
(1)求a的值并估计过去100天该产品的日销售收入的平均值;(同一区间数据以中点值作代表)
(2)该超市过去100天中有30天将该商品降价销售,在该商品降价的30天中有18天该产品的日销售收入不低于0.6万元,判断能否有97.5%的把握认为该商品的日销售收入不低于0.6万元与该日是否降价有关.
附:,其中.
【变式4-3】(2023秋·浙江嘉兴·高三期末)为积极响应“反诈”宣传教育活动的要求,某企业特举办了一次“反诈”知识竞赛,规定:满分为100分,60分及以上为合格.该企业从甲 乙两个车间中各抽取了100位职工的竞赛成绩作为样本.对甲车间100位职工的成绩进行统计后,得到了如图所示的成绩频率分布直方图.
(1)估算甲车间职工此次“反诈”知识竞赛的合格率;
(2)若将频率视为概率,以样本估计总体.从甲车间职工中,采用有放回的随机抽样方法抽取3次,每次抽1人,每次抽取的结果相互独立,记被抽取的3人次中成绩合格的人数为.求随机变量的分布列;
(3)若乙车间参加此次知识竞赛的合格率为,请根据所给数据,完成下面的列联表,并根据列联表判断是否有的把握认为此次职工“反计”知识竞赛的成绩与其所在车间有关
2×2列联表
甲车间 乙车间 合计
合格人数
不合格人数
合计
附参考公式:①,其中.
②独立性检验临界值表