§3 独立性检验问题
3.1 独立性检验 3.2 独立性检验的基本思想
3.3 独立性检验的应用
基础过关练
题组一 2× 2列联表
1.在2×2列联表中,两个分类变量有关系的可能性越大,相差越大的两个比值为( )
A. B.
C. D.
2.已知甲、乙两个班级进行数学考试,按照大于或等于85分为优秀,85分以下为非优秀,得到如下列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
总计 105
已知在105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
3.某学校对高三学生进行一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中有213名在考前心情紧张.请作出考前心情与性格的2×2列联表.
题组二 独立性检验及其简单应用
4.下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以100%确定两个变量之间是否具有某种关系
C.利用χ2独立性检验推断吸烟与患肺病的关联中,若χ2>6.635,则我们可以说在100个吸烟的人中,有99人患肺病
D.对于独立性检验,随机变量χ2的值越小,判定“两变量有关系”犯错误的概率越大
5.某乡镇在实施乡村振兴的进程中,大力推广科学种田,引导广大农户种植优良品种,进一步推动当地农业发展,不断促进农业增产农民增收.为了解某新品种水稻的产量情况,现从种植该新品种水稻的不同自然条件的田地中随机抽取400亩,统计其亩产量x(单位:t),并以此为样本绘制了如图所示的频率分布直方图.
(1)求这400亩水稻平均亩产量的估计值(同一组中的数据用该组区间的中点值为代表,精确到小数点后两位);
(2)若这400亩水稻的灌溉水源有河水和井水,现统计了两种水源灌溉水稻的亩产量,并得到下表:
亩产量超过0.7 t 亩产量不超过0.7 t 总计
河水灌溉 180 90 270
井水灌溉 70 60 130
总计 250 150 400
判断能否有95%的把握认为亩产量与所用灌溉水源有关.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.10 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
6.近年来我国新能源汽车产业迅速发展,下表是某地区新能源汽车的年销售量与年份的统计表:
年份x 2018 2019 2020 2021 2022
年销售量y/万台 1.6 1.7 1.9 2.2 2.6
某机构调查了该地区100位购车车主的性别与购车种类情况,得到的部分数据如下表所示:
购置传统燃油车 购置新能源汽车 总计
男性车主 35 60
女性车主 25
总计 100
(1)求新能源汽车的年销售量y关于年份x的线性相关系数r,并判断y与x之间的线性相关关系的强弱;(若|r|∈[0.75,1],相关性较强;若|r|∈[0.30,0.75),相关性一般;若|r|∈[0,0.30),相关性较弱)
(2)请将上述2×2列联表补充完整,并判断能否有95%的把握认为购车车主购置新能源汽车与性别有关.
附:①相关系数r=;
②≈2.6;
③ χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.10 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
能力提升练
题组 独立性检验的综合应用
1.第19届亚运会结束后,某网络直播平台调研“大学生是否喜欢观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100名进行问卷调查,得到如下数据(5≤m≤15,m∈N):
喜欢观看 不喜欢观看
男生 80-m 20+m
女生 50+m 50-m
通过计算,有95%以上的把握认为大学生喜欢观看体育比赛直播与性别有关,则在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为( )
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.15 0.10 0.05 0.01 0.001
k 2.072 2.706 3.841 6.635 10.828
A.55 B.57 C.58 D.60
2.某足球俱乐部在对球员的使用上总是进行数据分析,在2022年度赛季中,为了考察甲球员对球队的贡献度,现作如下数据统计:
球队胜 球队负 总计
甲参加 r 8 30
甲未参加 8 s
总计 20
(1)求r,s的值,并判断能否有95%的把握认为球队胜利与甲球员参赛有关;
(2)根据以往的数据统计,乙球员能够胜任前锋、中锋、后卫以及守门员四个位置,且出场率分别为0.3,0.5,0.1,0.1,当出任前锋、中锋、后卫以及守门员时,球队输球的概率依次为0.4,0.2,0.6,0.2.
①当他参加比赛时,求球队某场比赛输球的概率;
②当他参加比赛时,求在球队输了某场比赛的条件下,乙球员担当前锋的概率;
③如果你是教练员,应用概率与统计的有关知识,分析该如何合理安排乙球员的参赛位置.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.15 0.10 0.05 0.01 0.005 0.001
k 2.072 2.706 3.841 6.635 7.879 10.828
3.继“村BA”后,贵州“村超”又火出圈!所谓“村超”,其实是目前火爆全网的贵州乡村体育赛事——榕江(三宝侗寨)和美乡村足球超级联赛,被大家简称为“村超”.“村超”的民族风、乡土味、欢乐感,让每个人尽情享受着足球带来的快乐.某校为了丰富学生课余生活,组建了足球社团.足球社团为了了解学生喜欢足球是否与性别有关,随机抽取了男、女学生各50名进行调查,部分数据如下表所示:
喜欢足球 不喜欢足球 总计
男生 20
女生 15
总计 100
(1)根据所给数据完成上表,并判断能否有99.5%的把握认为该校学生喜欢足球与性别有关;
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范定点射门.据统计,这2名男生进球的概率均为,1名女生进球的概率为,每人射门一次,假设各人进球相互独立,求3人进球总次数X的分布列和数学期望.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.10 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
4.“支付宝捐步”已经成为当下最热门的健身方式之一,为了了解使用支付宝捐步是否与年龄有关,研究人员随机抽取了5 000名使用支付宝的人员进行调查,所得情况如下表:
是否使用支付宝捐步 年龄
50岁及以上 50岁以下
使用 1 000 1 000
不使用 2 500 500
(1)试问:使用支付宝捐步是否与年龄有关
(2)55岁的老王在了解了捐步功能以后开启了自己的捐步计划,可知其在捐步的前5天,捐步的步数与天数呈线性相关.
第x天 第1天 第2天 第3天 第4天 第5天
步数yx 4 000 4 200 4 300 5 000 5 500
①根据上表数据,建立y关于x的线性回归方程;
②记由①中线性回归方程得到的预测步数为y'x,若从5天中任取3天,记y'x附:.
答案与分层梯度式解析
§3 独立性检验问题
3.1 独立性检验
3.2 独立性检验的基本思想
3.3 独立性检验的应用
基础过关练
1.A 以表格为例,变量B与变量A相关性越强,则两个频率相差越大.
B 总计
A a b a+b
c d c+d
总计 a+c b+d a+b+c+d
2.D 依题意,得,解得c=20,由10+b+20+30=105,得b=45.
补全列联表如下:
优秀 非优秀 总计
甲班 10 45 55
乙班 20 30 50
总计 30 75 105
甲班的优秀率为,乙班的优秀率为,所以成绩与班级有关系,故选D.
3.解析 作出2×2列联表如下:
考前心情是否紧张 性格情况
性格内向 性格外向 总计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
总计 426 594 1 020
4.D 对于A,独立性检验是通过计算χ2来判断两个变量存在关联的可能性的一种方法,并非检验二者是否具有线性相关关系,故A错误;
对于B,独立性检验并不能100%确定两个变量相关,故B错误;
对于C,若χ2>6.635,则有99%的把握认为吸烟与患肺病有关系,并非吸烟的人中患肺病的频率为99%,故C错误;
易知D正确.
5.解析 (1)由题意得,(0.75×2+1.25×2+1.75+2.25+b)×0.1=1,解得b=2,
所以这400亩水稻平均亩产量的估计值为(0.45×0.75+0.55×1.25+0.65×1.75+0.75×2.25+0.85×2+0.95×1.25+1.05×
0.75)×0.1≈0.75.
(2)χ2=≈6.154>3.841,
所以有95%的把握认为亩产量与所用灌溉水源有关.
6.解析 (1)由已知得,=2 020,=2,
所以)2=(-2)2+(-1)2+0+12+22=10,
=(-0.4)2+(-0.3)2+(-0.1)2+0.22+0.62=0.66,
)=(-2)×(-0.4)+(-1)×(-0.3)+0×(-0.1)+1×0.2+2×0.6=2.5,
所以r=≈0.96>0.75,
所以y与x之间的线性相关性较强.
(2)依题意,补全2×2列联表如下:
购置传统燃油车 购置新能源汽车 总计
男性车主 35 25 60
女性车主 15 25 40
总计 50 50 100
则χ2=≈4.17>3.841,
所以有95%的把握认为购车车主购置新能源汽车与性别有关.
能力提升练
1.C 由题意得, χ2=
=
=≥3.841,
所以(15-m)2≥43.7,
又5≤m≤15,m∈N,所以15-m≥7,解得m≤8,
故在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为58.
故选C.
2.解析 (1)由已知得,r=30-8=22,s=20-8=12,
将题中表格补充完整,如下所示:
球队胜 球队负 总计
甲参加 22 8 30
甲未参加 8 12 20
总计 30 20 50
∴χ2=≈5.556>3.841,
故有95%的把握认为球队胜利与甲球员参赛有关.
(2)①记“乙球员参加比赛时,球队某场比赛输球”为事件A,
则P(A)=0.3×0.4+0.5×0.2+0.1×0.6+0.1×0.2=0.3,
故乙球员参加比赛时,球队某场比赛输球的概率为0.3.
②记“乙球员担当前锋”为事件B,则P(AB)=0.3×0.4=0.12,
P(B|A)==0.4,故在球队输了某场比赛的条件下,乙球员担当前锋的概率为0.4.
③记“乙球员担当中锋”为事件C,“乙球员担当后卫”为事件D,“乙球员担当守门员”为事件E,
则P(C|A)=≈0.33,
P(D|A)==0.2,
P(E|A)=≈0.067,
又P(B|A)=0.4,
∴P(B|A)>P(C|A)>P(D|A)>P(E|A),
∴安排乙球员担当守门员赢面大一些.
3.解析 (1)依题意,2×2列联表如下:
喜欢足球 不喜欢足球 总计
男生 30 20 50
女生 15 35 50
总计 45 55 100
则χ2=≈9.091>7.879,
所以有99.5%的把握认为该校学生喜欢足球与性别有关.
(2)依题意,X的可能取值为0,1,2,3,
则P(X=0)=,
P(X=1)=,
P(X=2)=,
P(X=3)=,
所以X的分布列为
X 0 1 2 3
P
数学期望EX=0×.
4.解析 (1)χ2=≈635>6.635,
所以有99%的把握认为使用支付宝捐步与年龄有关.
(2)①=3,
=4 600,
xiyi=1×4 000+2×4 200+3×4 300+4×5 000+5×5 500=72 800,
=12+22+32+42+52=55,
故=380,
=4 600-380×3=3 460.
所以y关于x的线性回归方程为=380x+3 460.
②把x=1,2,3,4,5分别代入线性回归方程中,求出每天的预测步数,如下表:
第x天 第1天 第2天 第3天 第4天 第5天
步数yx 4 000 4 200 4 300 5 000 5 500
预测步 数y'x 3 840 4 220 4 600 4 980 5 360
所以y'x则P(X=1)=,
P(X=2)=,
P(X=3)=,
所以X的分布列为
X 1 2 3
P
数学期望EX=1×.
1(共18张PPT)
2×2列联表
设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2= ;
变量B:B1,B2= .
2×2列联表如下:
§3 独立性检验问题
知识点 1 独立性检验
知识 清单破
A B B1 B2 总计
A1 a b a+b
A2 c d c+d
总计 a+c b+d n=a+b+c+d
1.统计量χ2
χ2= ,其中n=a+b+c+d.
2.在变量A,B独立的前提下,当样本量很大时, χ2近似服从一个已知的分布.当χ2较大时,说明变
量之间不独立.在统计中,用以下结果对变量的独立性进行判断.
(1)当χ2≤2.706时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当χ2>2.706时,有90%的把握判断变量A,B有关联;
(3)当χ2>3.841时,有95%的把握判断变量A,B有关联;
(4)当χ2>6.635时,有99%的把握判断变量A,B有关联.
知识点 2 独立性检验的基本思想
知识辨析
判断正误,正确的画“√”,错误的画“ ”.
1.2×2列联表中的数据是两个变量的频数. ( )
2.若事件A,B的独立性检验结果是没有关联性,则两个事件互不影响.( )
3. χ2是判断事件A,B是否相关的统计量. ( )
4.若计算得χ2≈7.197,则认为两个变量间有关系的出错概率不超过0.01. ( )
5.在2×2列联表中,当 过大时,变量之间独立. ( )
√
√
√
应用独立性检验解决实际问题大致包括以下几个主要环节:
(1)根据抽样数据整理出2×2列联表;
(2)计算χ2的值,并与相关数值进行比较;
(3)根据检验规则得出推断结论.
注意:上述几个环节的内容可以根据不同情况进行调整.例如,有些时候,分类变量的抽样
数据列联表是问题中给定的.
讲解分析
疑难 情境破
疑难 1 独立性检验的应用
典例 疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前
期研发过程中,一般都会进行动物保护试验,为了考察某种疫苗预防效果,在进行动物试验时,
得到如下统计数据:
未发病 发病 总计
未注射疫苗 30
注射疫苗 40
总计 70 30 100
附表及公式:
P(χ2≥k0) 0.05 0.01 0.005 0.001
k0 3.841 6.635 7.879 10.828
χ2= ,n=a+b+c+d.
现从试验动物中任取一只,取得“注射疫苗”的概率为0.5,则下列判断错误的是 ( )
A.注射疫苗且发病的动物数为10
B.从该试验未注射疫苗的动物中任取一只,该动物发病的概率为
C.有95%的把握认为疫苗有效
D.该疫苗的有效率为80%
D
解析 ∵从试验动物中任取一只,取得“注射疫苗”的概率为0.5,
∴注射疫苗且发病的动物数为100×0.5-40=10,故A中判断正确;
2×2列联表如下:
未发病 发病 总计
未注射疫苗 30 20 50
注射疫苗 40 10 50
总计 70 30 100
从该试验未注射疫苗的动物中任取一只,该动物发病的概率为 = ,故B中判断正确;
∵χ2= ≈4.762>3.841,
∴有95%的把握认为疫苗有效,故C中判断正确;
注射疫苗动物的未发病率为 ×100%=80%,而未注射疫苗的动物中也有不发病的情况,因
此,80%并非该疫苗的有效率,故D中判断错误.
故选D.
独立性检验与统计、概率的综合应用主要表现为以统计图表为载体,考查统计分析、概
率的计算,以及构建两个分类变量列2×2列联表等.
解题时注意要认真审题,通过频率分布直方图等图表的统计功能确定分类变量的值,构建或
完善2×2列联表,从而对事件进行独立性检验,准确读取频率分布直方图等图表中的数据,进
行分组统计是解题的关键.解决独立性检验的问题要注意明确两类主体,明确研究的两类问
题,准确列出2×2列联表,准确计算χ2.在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序.
讲解分析
疑难 2 独立性检验与统计、概率的综合应用
典例 每年的3月21日是世界睡眠日,身体健康的重要标志之一就是有良好的睡眠.某机构为调
查参加体育锻炼对睡眠的影响,从辖区内同一年龄段,常参加体育锻炼和不常参加体育锻炼
的人员中,各抽取了100人,通过问询的方式得到他们在一周内的睡眠时间(单位:小时),并绘制
出如下频率分布直方图.
(1)根据频率分布直方图,求常参加体育锻炼人员一周内的平均睡眠时间(同一组数据用该组
区间的中点值代替);
(2)若每周的睡眠时间不少于44小时的列为“睡眠充足”,每周的睡眠时间少于44小时的列
为“睡眠不足”,请根据已知条件完成下列2×2列联表,并判断是否有99%的把握认为“睡眠
充足”与“常参加体育锻炼”有关;
睡眠充足 睡眠不足 总计
常参加体育 锻炼人员
不常参加体 育锻炼人员
总计
(3)现从常参加体育锻炼人员中按睡眠是否充足采用分层随机抽样的方法抽取8人做进一步
访谈,再从这8人中随机抽取2人填写问卷调查,记抽取的2人中“睡眠充足”的人数为X,求X
的分布列和数学期望.
附:χ2= ,其中n=a+b+c+d.
P(χ2≥k) 0.15 0.10 0.05 0.025 0.01 0.001
k 2.072 2.706 3.841 5.024 6.635 10.828
解析 (1)由题意得, =34×0.002 5×4+38×0.017 5×4+42×0.042 5×4+46×0.042 5×4+50×0.062 5
×4+54×0.062 5×4+58×0.02×4=48.6(小时).
故常参加体育锻炼人员一周内的平均睡眠时间为48.6小时.
(2)常参加体育锻炼人员中“睡眠充足”的人数为(0.042 5×4+0.062 5×4+0.062 5×4+0.02×4)×
100=75,则常参加体育锻炼人员中“睡眠不足”的人数为25;
不常参加体育锻炼人员中“睡眠充足”的人数为(0.072 5×4+0.035×4+0.015×4+0.015×4)×
100=55,则不常参加体育锻炼人员中“睡眠不足”的人数为45.
完成2×2列联表如下:
睡眠充足 睡眠不足 总计
常参加体育 锻炼人员 75 25 100
不常参加体 育锻炼人员 55 45 100
总计 130 70 200
X 0 1 2
P
因为χ2= ≈8.791>6.635,
所以有99%的把握认为“睡眠充足”与“常参加体育锻炼”有关.
(3)由题意知,常参加体育锻炼人员中“睡眠充足”和“睡眠不足”的人数比为75∶25=3∶1,
用分层随机抽样的方法抽取8人,其中“睡眠充足”的有6人,“睡眠不足”的有2人,从这8人
中随机抽取2人,则X的可能取值为0,1,2,
P(X=0)= = ,P(X=1)= = ,P(X=2)= = .
所以X的分布列为
数学期望EX=0× +1× +2× = .