列联表与独立性检验
1 列联表
设为两个变量,每一个变量都可以取两个值,变量变量
通过观察得到右表所示数据:
并将形如此表的表格称为列联表.
2 独立性检验
根据列联表中的数据判断两个变量是否独立的问题叫列联表的独立性检验.
3 的计算公式
若要推断的论述为“有关系”,则的值越大,说明“与有关系”成立的可能性越大.
如下表,若时,
因为,所以有的把握认为与之间有关;
而,所以没有的把握认为与之间有关.
4 应用独立性检验解决实际问题大致应包括以下几个主要环节
提出另假设:和相互独立,并给出在问题中的解释;
根据抽样数据整理出列联表,计算的值,并与临界值比较;
根据检验规则得出推断结论;
在和不独立的情况下,根据需要,通过比较相应的频率,分析和间的影响规律.
【典题1】为了考察某种病毒疫苗的效果,现随机抽取只小白鼠进行试验,得到如下列联表:
感染 未感染 总计
服用
未服用
总计
附:,其中.
根据以上数据,得到的结论正确的是( )
A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”
B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”
C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”
D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”
【解析】由列联表中数据,计算K24.762,且3.841<4.762<5.024,
所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”.
故选:C.
【典题2】近年来我国电子商务行业迎来篷布发张的新机遇,年双期间,某购物平台的销售业绩高达亿人民币,与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,对商品的好评率为,对服务的好评率为,其中对商品和服务都做出好评的交易为次.
(Ⅰ)完成商品和服务评价的列联表,并说明是否可以在犯错误概率不超过的前提下,认为商品好评与服务好评有关?
(Ⅱ)若将频率视为概率,某人在该购物平台上进行的5次购物中,设对商品和服务全好评的次数为随机变量.
①求对商品和服务全好评的次数的分布列(概率用组合数算式表示);
②求的数学期望和方差.
参考数据及公式如下:
,其中
【解析】(Ⅰ)由题意可得关于商品和服务评价的2×2列联表:
对服务好评 对服务不满意 合计
对商品好评 80 40 120
对商品不满意 70 10 80
合计 150 50 200
得K211.111>10.828,
可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关;
①每次购物时,对商品和服务全好评的概率为0.4,
且X的取值可以是0,1,2,3,4,5,X~B(5,0.4).
P(X=0)=0.65;P(X=1)=C51 0.4 0.64;P(X=2)=C52 0.42 0.63;
P(X=3)=C53 0.43 0.62;P(X=4)=C54 0.44 0.6;P(X=5)=0.45,
②X的分布列
0.65 C51 0.4 0.64 C52 0.42 0.63 C53 0.43 0.62 C54 0.44 0.6 0.45
,.
【典题3】 近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情.为了尽快遏制住疫情,我国科研工作者坚守在科研一线,加班加点、争分夺秒与病毒抗争,夜以继日地进行研究.新型冠状病毒的潜伏期检测是疫情控制的关键环节之一.在传染病学中,通常把从致病刺激物侵入机体或对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.钟南山院士带领的研究团队统计了武汉市某地区名医学观察者的相关信息,并通过咽拭子核酸检测得到1000名确诊患者的信息如表格:
潜伏期(单位:天)
人数
(1)求这名确诊患者的潜伏期样本数据的平均数(同一组数据用该组数据区间的中点值代表).
(2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取名,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者性别有关.
潜伏期天 潜伏期天 总计
男性患者
女性患者
总计
(3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测结果“假阴性”而出现漏诊.当核酸检测呈阴性时,需要进一步进行血清学抗体检测,以弥补核酸检测漏诊的缺点.现对名核酸检测结果呈阴性的人员逐一地进行血清检测,记每个人检测出(是近期感染的标志)呈阳性的概率为且相互独立,设至少检测了个人才检测出呈阳性的概率为,求取得最大值时相应的概率.
附:,其中.
【解析】(1).
(相当于求频率直方图中的平均数,其等于每组组中值每组概率)
(2)补充完整的列联表如下所示,
潜伏期天 潜伏期天 总计
男性患者
女性患者
总计
,
不能有的把握认为潜伏期与患者性别有关.
(套用公式求出值,再查表确认分类变量是否有关)
(3)由,化简得,
令,则,,
令,,则,
令,则;令,则,
在上单调递增,在上单调递减,
有唯一的极大值为,也是最大值.
当,即时,取得最大值.
【点拨】注意理解值与小概率值和对应临界值的表格之间的关系.
巩固练习
1(★) 在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是( )
A.在100个肥胖的人中至少有99人患有高血压
B.肥胖的人至少有99%的概率患有高血压
C.在100个高血压患者中一定有肥胖的人
D.在100个高血压患者中可能没有肥胖的人
【答案】D
【解析】“高血压与肥胖有关”,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,
表示有99%的把握认为这个结论成立,与多少个人患高血压没有关系,
也不是说“肥胖的人就是至少有99%的概率患有高血压”,
只有选项D正确.
故选:D.
2(★) 某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到K2=3.936,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )
A. B. C. D.
【答案】B
【解析】根据题意知,K2=3.936>3.841,
所以判定玩手机游戏与学习成绩有关系,这种判断出错的可能性为5%.
故选:B.
3 (★)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用列联表进行独立性检验,经计算K2=8.01,附表如表:
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
参照附表,得到的正确的结论是( )
A.有以上的把握认为“喜欢乡村音乐与性别有关”
B.有以上的把握认为“喜欢乡村音乐与性别无关”
C.在犯错误的概率不超过的前提下,认为“喜欢乡村音乐与性别有关”
D.在犯错误的概率不超过的前提下,认为“喜欢乡村音乐与性别无关”
【答案】A
【解析】∵K2=8.01>6.635,
∴在犯错误概率不超过0.01的前提下认为“喜欢乡村音乐与性别有关”,
即有99%以上的把握认为“喜欢乡村音乐与性别有关”.
故选:A.
4(★) 【多选题】 “一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表,通过计算得到的观测值为.已知,则下列判断正确的是( )
认可 不认可
岁以下
岁以上(含岁)
A.在该餐厅用餐的客人中大约有的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有的客人认可“光盘行动”
C.有的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过的前提下,认为“光盘行动”的认可情况与年龄有关
【答案】AC
【解析】∵K2的观测值为9,且P(K2≥6.635)=0.010,P(K2≥10.828)=0.001,
又∵9>6.635,但9<10.828,
∴有99%的把握认为“光盘行动”的认可情况与年龄有关,
或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认可情况与年龄有关,
所以选项C正确,选项D错误,
由表可知认可“光盘行动”的人数为60人,
所以在该餐厅用餐的客人中认可“光盘行动”的比例为%≈66.7%,
故选项A正确,选项B错误,
故选:AC.
5(★) 某网络平台从购买该平台某课程的客户中,随机抽取了位客户的数据,并将这个数据按学时数,客户性别等进行统计,整理得到如表;
学时数
男性
女性
(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两位);
(2)从这位客户中,对购买该课程学时数在以下的女性客户按照分层抽样的方式随机抽取人,再从这人中随机抽取人,求这人购买的学时数都不低于的概率.
(3)将购买该课程达到学时及以上者视为“十分爱好该课程者”,学时以下者视,为“非十分爱好该课程者”.请根据已知条件完成以下列联表,并判断是否有的把握认为“十分爱好该课程者”与性别有关?
非十分爱好该课程者 十分爱好该课程者 合计
男性
女性
合计 100
附:,
【答案】(1)16.92 (2) (3)有99.9%的把握认为“十分爱好该课程者”与性别有关
【解析】(1)由题意知,在100位购买该课程的客户中,男性客户购买该课程学时数的平均值为(7.5×18+12.5×12+17.5×9+22.5×9+27.5×6+32.5×4+37.5×2)≈16.92;
所以估计男性客户购买该课程学时数的平均值为16.92.
( 2)设“所抽取的2人购买的学时数都不低于15为事件A,
依题意按照分层抽样的方式分别在学时数为[5,10),[l0,15),[15,20)的女性客户中抽取1人(设为a),2人(设为A,B)
4人,(设为c1,c2,c3,c4),从7人中随机抽取2人所包含的基木事件为:
aA,aB,ac1,ac2,ac3,ac4,AB,Ac1,Ac2,Ac3,Ac4,Bc1,Bc2,Bc3,Bc4,c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共21种,其中事件A所包含的基本事件为:c1c2,c1c3,c1c4,c2c3,c2c4,c3c4,共6个,
则事件A发生的概率P.
(3)依题意得2×2列联表如下
非十分爱好该课程者 十分爱好该课程者 合计
男性 48 12 60
女性 16 24 40
合计 64 36 100
则16.667>10.828.
故有99.9%的把握认为“十分爱好该课程者”与性别有关.
6(★★) “低碳出行”,一种降低“碳”的出行,以低能耗、低污染为基础,是环保的深层次体现,在众多发达国家被广大民众接受并执行,市即将投放一批公共自行车以方便市民出行,减少污染,缓解交通拥堵,现先对人做了是否会考虑选择自行车出行的调查,结果如表.
(1)如果把45周岁以下人群定义为“青年”,完成下列2×2列联表,并问你有多少把握认为该地区市民是否考虑单车与他(她)是不是“青年人”有关?
参考:,.
(2)市为了鼓励大家骑自行车上班,为此还专门在几条平时比较拥堵的城市主道建有无障碍自行车道,该市市民小明家离上班地点,现有两种.上班方案给他选择;
方案一:选择自行车,走无障碍自行车道以的速度直达上班地点.
方案二:开车以的速度上班,但要经过三个易堵路段,三个路段堵车的概率分别是,,,且是相互独立的,并且每次堵车的时间都是分钟(假设除了堵车时间其他时间都是匀速行驶)
若仅从时间的角度考虑,请你给小明作一个选择,并说明理由.
【答案】(1)有99.5%把握认为该地区市民是否考虑单车与他(她)是不是“青年人”有关 (2)方案二
【解析】(1)根据题目所给的数据填写2×2列联表如下:
骑车 不骑车 合计
45岁以下 35 15 50
45岁以上 20 30 50
合计 55 45 100
9.09>7.87.
故有99.5%把握认为该地区市民是否考虑单车与他(她)是不是“青年人”有关;
(2)方案一:选择自行车,走无障碍自行车道以19km/h的速度直达上班地点.
则所需时间为:t1h,
方案二:开车以30km/h的速度上班,但要经过A、B、C三个易堵路段,分别令三个路段堵车的事件为A、B、C,
因为三个路段堵车的概率分别是,,,且是相互独立的,并且每次堵车的时间都是10分钟(假设除了堵车时间其他时间都是匀速行驶)
则在路上遇上堵车的概率为:
P=1-P( )=1-P() ()()=)=1-[1-P(A)][1-P(B)][1-P(C)]=1,
故选择方案二上班所需时间为t2h,
因为t1>t2;
若仅从时间的角度考虑,应选方案二省时间.
7(★★) 2020年初,新型冠状病毒肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为,方差为.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:
年龄/人数 长期潜伏 非长期潜伏
岁以上
岁及岁以下
(1)是否有的把握认为“长期潜伏”与年龄有关;
(2)假设潜伏期服从正态分布,其中近似为样本平均数,近似为样本方差.
(i)现在很多省份对入境旅客一律要求隔离天,请用概率的知识解释其合理性;
(ii)以题目中的样本频率估计概率,设个病例中恰有个属于“长期潜伏”的概率是,当为何值时,取得最大值.
附:.
若,则2.,.
【答案】(1)没有的把握认为“长期潜伏”与年龄有关 (2)
【解析】(1),
故没有的把握认为“长期潜伏”与年龄有关.
(2)由题可知,潜伏期,
.
由于的值很小,故对入境旅客要求隔离天合理.
以样本频率估计概率,则任意抽取一个病例,属于“长期潜伏”的概率为,
) ,
若最大,则,即,
解得,
因为,所以.
故当时,取得最大值.列联表与独立性检验
1 列联表
设为两个变量,每一个变量都可以取两个值,变量变量
通过观察得到右表所示数据:
并将形如此表的表格称为列联表.
2 独立性检验
根据列联表中的数据判断两个变量是否独立的问题叫列联表的独立性检验.
3 的计算公式
若要推断的论述为“有关系”,则的值越大,说明“与有关系”成立的可能性越大.
如下表,若时,
因为,所以有的把握认为与之间有关;
而,所以没有的把握认为与之间有关.
4 应用独立性检验解决实际问题大致应包括以下几个主要环节
提出另假设:和相互独立,并给出在问题中的解释;
根据抽样数据整理出列联表,计算的值,并与临界值比较;
根据检验规则得出推断结论;
在和不独立的情况下,根据需要,通过比较相应的频率,分析和间的影响规律.
【典题1】为了考察某种病毒疫苗的效果,现随机抽取只小白鼠进行试验,得到如下列联表:
根据以上数据,得到的结论正确的是( )
A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”
B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”
C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”
D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”
【典题2】近年来我国电子商务行业迎来篷布发张的新机遇,年双期间,某购物平台的销售业绩高达亿人民币,与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出200次成功交易,并对其评价进行统计,对商品的好评率为,对服务的好评率为,其中对商品和服务都做出好评的交易为次.
(Ⅰ)完成商品和服务评价的列联表,并说明是否可以在犯错误概率不超过的前提下,认为商品好评与服务好评有关?
(Ⅱ)若将频率视为概率,某人在该购物平台上进行的5次购物中,设对商品和服务全好评的次数为随机变量.
①求对商品和服务全好评的次数的分布列(概率用组合数算式表示);
②求的数学期望和方差.
参考数据及公式如下:
【典题3】 近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情.为了尽快遏制住疫情,我国科研工作者坚守在科研一线,加班加点、争分夺秒与病毒抗争,夜以继日地进行研究.新型冠状病毒的潜伏期检测是疫情控制的关键环节之一.在传染病学中,通常把从致病刺激物侵入机体或对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.钟南山院士带领的研究团队统计了武汉市某地区名医学观察者的相关信息,并通过咽拭子核酸检测得到1000名确诊患者的信息如表格:
潜伏期(单位:天)
人数
(1)求这名确诊患者的潜伏期样本数据的平均数(同一组数据用该组数据区间的中点值代表).
(2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过天为标准进行分层抽样,从上述名患者中抽取名,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有的把握认为潜伏期与患者性别有关.
潜伏期天 潜伏期天 总计
男性患者
女性患者
总计
(3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测结果“假阴性”而出现漏诊.当核酸检测呈阴性时,需要进一步进行血清学抗体检测,以弥补核酸检测漏诊的缺点.现对名核酸检测结果呈阴性的人员逐一地进行血清检测,记每个人检测出(是近期感染的标志)呈阳性的概率为且相互独立,设至少检测了个人才检测出呈阳性的概率为,求取得最大值时相应的概率.
附:,其中.
巩固练习
1(★) 在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是( )
A.在100个肥胖的人中至少有99人患有高血压
B.肥胖的人至少有99%的概率患有高血压
C.在100个高血压患者中一定有肥胖的人
D.在100个高血压患者中可能没有肥胖的人
2(★) 某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到K2=3.936,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )
A. B. C. D.
3 (★)为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用列联表进行独立性检验,经计算K2=8.01,附表如表:
0.100 0.050 0.025 0.010 0.001
2.706 3.841 5.024 6.635 10.828
参照附表,得到的正确的结论是( )
A.有以上的把握认为“喜欢乡村音乐与性别有关”
B.有以上的把握认为“喜欢乡村音乐与性别无关”
C.在犯错误的概率不超过的前提下,认为“喜欢乡村音乐与性别有关”
D.在犯错误的概率不超过的前提下,认为“喜欢乡村音乐与性别无关”
4(★) 【多选题】 “一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如表所示的列联表,通过计算得到的观测值为.已知,则下列判断正确的是( )
认可 不认可
岁以下
岁以上(含岁)
A.在该餐厅用餐的客人中大约有的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有的客人认可“光盘行动”
C.有的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过的前提下,认为“光盘行动”的认可情况与年龄有关
5(★) 某网络平台从购买该平台某课程的客户中,随机抽取了位客户的数据,并将这个数据按学时数,客户性别等进行统计,整理得到如表;
学时数
男性
女性
(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两位);
(2)从这位客户中,对购买该课程学时数在以下的女性客户按照分层抽样的方式随机抽取人,再从这人中随机抽取人,求这人购买的学时数都不低于的概率.
(3)将购买该课程达到学时及以上者视为“十分爱好该课程者”,学时以下者视,为“非十分爱好该课程者”.请根据已知条件完成以下列联表,并判断是否有的把握认为“十分爱好该课程者”与性别有关?
非十分爱好该课程者 十分爱好该课程者 合计
男性
女性
合计 100
附:,
6(★★) “低碳出行”,一种降低“碳”的出行,以低能耗、低污染为基础,是环保的深层次体现,在众多发达国家被广大民众接受并执行,市即将投放一批公共自行车以方便市民出行,减少污染,缓解交通拥堵,现先对人做了是否会考虑选择自行车出行的调查,结果如表.
(1)如果把45周岁以下人群定义为“青年”,完成下列2×2列联表,并问你有多少把握认为该地区市民是否考虑单车与他(她)是不是“青年人”有关?
参考:,.
(2)市为了鼓励大家骑自行车上班,为此还专门在几条平时比较拥堵的城市主道建有无障碍自行车道,该市市民小明家离上班地点,现有两种.上班方案给他选择;
方案一:选择自行车,走无障碍自行车道以的速度直达上班地点.
方案二:开车以的速度上班,但要经过三个易堵路段,三个路段堵车的概率分别是,,,且是相互独立的,并且每次堵车的时间都是分钟(假设除了堵车时间其他时间都是匀速行驶)
若仅从时间的角度考虑,请你给小明作一个选择,并说明理由.
7(★★) 2020年初,新型冠状病毒肆虐,全民开启防疫防控.新型冠状病毒的传染主要是人与人之间进行传播,感染人群年龄大多数是岁以上人群.该病毒进入人体后有潜伏期,潜伏期是指病原体侵入人体至最早出现临床症状的这段时间.潜伏期越长,感染到他人的可能性越高,现对个病例的潜伏期(单位:天)进行调查,统计发现潜伏期平均数为,方差为.如果认为超过8天的潜伏期属于“长潜伏期”,按照年龄统计样本,得到下面的列联表:
年龄/人数 长期潜伏 非长期潜伏
岁以上
岁及岁以下
(1)是否有的把握认为“长期潜伏”与年龄有关;
(2)假设潜伏期服从正态分布,其中近似为样本平均数,近似为样本方差.
(i)现在很多省份对入境旅客一律要求隔离天,请用概率的知识解释其合理性;
(ii)以题目中的样本频率估计概率,设个病例中恰有个属于“长期潜伏”的概率是,当为何值时,取得最大值.
附:.
若,则2.,.