4.3.2 独立性检验
1.了解2×2列联表、随机变量χ2的意义. 2.理解独立性检验中P(χ2≥k)的具体含义. 3.掌握独立性检验的方法和步骤,并能解决实际问题.
INCLUDEPICTURE "新知学习探究LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\新知学习探究LLL.TIF" \* MERGEFORMATINET
INCLUDEPICTURE "新课导学1LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\新课导学1LLL.TIF" \* MERGEFORMATINET
思考 若想调查晕车与性别之间的关系,我们需要调查哪些数据?
提示:需要调查一定数量的人数(即总人数),男人人数,女人人数,男人中晕车的人数,男人中不晕车的人数,女人中晕车的人数,女人中不晕车的人数.
如果随机事件A与B的样本数据的2×2列联表如下.
A 总计
B a b a+b
c d c+d
总计 a+c b+d a+b+c+d
记n=a+b+c+d,则由表可知:
(1)事件A发生的概率可估计为P(A)=;
(2)事件B发生的概率可估计为P(B)=______;
(3)事件AB发生的概率可估计为P(AB)=______;
(4)χ2=.
[答案自填]
INCLUDEPICTURE "例1LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例1LLL.TIF" \* MERGEFORMATINET 随着全民运动健康意识的提高,参与马拉松训练与比赛的人口逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表.
平均每周进行长跑训练的天数 不大于2天 3天或4天 不少于5天
人数 30 130 40
若某人平均每周进行长跑训练天数不少于5天,则称其为“热烈参与者”,否则称为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松长跑训练,试估计其中“热烈参与者”的人数;
(2)根据上表的数据,填写下列2×2列联表(单位:人).
热烈参与者 非热烈参与者 总计
男 140
女 55
总计
【解】 (1)以200人中“热烈参与者”的频率作为概率,可得该市“热烈参与者”的人数约为20 000×=4 000.
(2)由题意可得2×2列联表如下(单位:人):
热烈参与者 非热烈参与者 总计
男 35 105 140
女 5 55 60
总计 40 160 200
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\解题技法LLL.TIF" \* MERGEFORMATINET )
2×2列联表的应用
(1)作2×2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
(2)利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,直观判断两个分类变量间是否相互影响.
[跟踪训练1] (2024·辽宁辽阳月考)在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.
(1)请根据以上数据作出饮食习惯与年龄的列联表;
(2)求年龄在六十岁以上且饮食以肉类为主的人群的概率.
解:(1)饮食习惯与年龄的2×2列联表如下(单位:人):
六十岁以上 六十岁以下 总计
以蔬菜为主 43 21 64
以肉类为主 27 33 60
总计 70 54 124
(2)由列联表得,年龄在六十岁以上且饮食以肉类为主的人群的概率为.
1.任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的分位数).χ2是一个随机变量,其分布能够求出,上面的概率是可以计算的.因此,如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过____的前提下,可以认为A与B不独立(也称为A与B有关);或说有______的把握认为A与B有关.若χ22.统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
[答案自填] α 1-α
INCLUDEPICTURE "例2LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例2LLL.TIF" \* MERGEFORMATINET 给出下列实际问题:①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③长跑爱好者得膝盖痛病的概率;④爱好长跑是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( )
A.①②③ B.②④⑤
C.②③④⑤ D.①②③④⑤
【解析】 独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验解决.
【答案】 B
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\解题技法LLL.TIF" \* MERGEFORMATINET )
独立性检验是对两个分类变量的相关性的检验,具有一定的随机性,独立性检验确认两个变量的相关程度.
[跟踪训练2] (多选)在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的是(参考数据:P(χ2≥6.635)=0.01)( )
A.若χ2的观测值满足χ2≥6.635,我们有99%的把握认为吸烟与患肺病有关系
B.若χ2的观测值满足χ2≥6.635,那么在100个吸烟的人中约有99人患有肺病
C.从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为每个吸烟的人有99%的可能性会患肺病
D.从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误
解析:选AD.因为χ2的观测值满足χ2≥6.635,所以有99%的把握认为吸烟与患肺病有关系,也就是说有1%的可能性使推断出现错误,因此选项A,D正确,选项B,C不正确.
INCLUDEPICTURE "例3LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\例3LLL.TIF" \* MERGEFORMATINET (对接教材例2)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300名学生每周平均体育运动时间(单位:h)的样本数据.
(1)应收集多少名女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4 h的概率;
(3)在样本数据中,有60名女生的每周平均体育运动时间超过4 h,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为该校学生的每周平均体育运动时间与性别有关.
附:
α=P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
χ2=.
【解】 (1)由分层抽样可得300×=90,所以应收集90名女生的样本数据.
(2)由题中频率分布直方图得学生每周平均体育运动超过4 h的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4 h的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4 h,75人的每周平均体育运动时间不超过4 h.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表如下:
男生 女生 总计
每周平均体育运动时间不超过4 h 45 30 75
每周平均体育运动时间超过4 h 165 60 225
总计 210 90 300
结合列联表可算得χ2=≈4.762.又因为1-95%=5%,而且查表得P(χ2≥3.841)=0.05,由于4.762>3.841,
所以有95%的把握认为该校学生的每周平均体育运动时间与性别有关.
eq \a\vs4\al( INCLUDEPICTURE "解题技法LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\解题技法LLL.TIF" \* MERGEFORMATINET )
独立性检验的应用需要注意的问题
(1)χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
(2)判断时把计算结果与临界值比较,其值越大,有关的可信度越高.
[跟踪训练3] 为培养学生对传统文化的兴趣,某市从甲、乙两所学校各抽取100名学生参加传统文化知识竞赛,竞赛成绩分为优秀和非优秀两个等级,人数统计如表:
优秀人数 非优秀人数 总计
甲校 60 40 100
乙校 70 30 100
总计 130 70 200
(1)甲、乙两所学校竞赛成绩优秀的频率分别是多少?
(2)能否有95%的把握认为甲校成绩与乙校成绩有差异?
附:χ2=,其中n=a+b+c+d.
α=P(χ2≥k) 0.1 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
解:(1)甲学校竞赛成绩优秀的频率为=,乙学校竞赛成绩优秀的频率为=.
(2)由列联表可得χ2==≈2.198,又因为1-95%=5%,而查表可得P(χ2≥3.841)=0.05,又2.198<3.841,故没有95%的把握认为甲校成绩与乙校成绩有差异.
INCLUDEPICTURE "课堂巩固自测LLL.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\课堂巩固自测LLL.TIF" \* MERGEFORMATINET
1.如表是2×2列联表,则表中的a,b的值分别为( )
y1 y2 总计
x1 a 8 35
x2 11 34 45
总计 b 42 80
A.27,38 B.28,38
C.27,37 D.28,37
解析:选A.a=35-8=27,b=a+11=27+11=38.故选A.
2.下列关于χ2的说法中正确的是( )
A.χ2越大,“事件A,B有关”的可信度越小
B.χ2越大,“事件A,B无关”的可信度越大
C.χ2越小,“事件A,B有关”的可信度越小
D.χ2越小,“事件A,B无关”的可信度越小
解析:选C.χ2越大,“事件A,B有关”的可信度越大,“事件A,B无关”的可信度越小;χ2越小,“事件A,B有关”的可信度越小,“事件A,B无关”的可信度越大.
3.(多选)(教材P120练习BT1改编)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算χ2≈5.059,则可以推断出( )
满意 不满意 总计
男生 18 9 27
女生 8 15 23
总计 26 24 50
附:
α=P(χ2≥k) 0.05 0.01 0.005
k 3.841 6.635 7.879
A.该俱乐部的男性会员对运动场所满意的概率的估计值为
B.调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意
C.有95%的把握认为男性会员、女性会员对运动场所的评价有差异
D.有99%的把握认为男性会员、女性会员对运动场所的评价有差异
解析:选ABC.对于A项,该俱乐部的男性会员对运动场所满意的概率的估计值为=,故A正确;对于B项,该俱乐部的女性会员对运动场所满意的概率的估计值为,而=>=,故B正确;对于C,D两项,因为6.635>χ2≈5.059>3.841,所以有95%的把握认为男性会员、女性会员对运动场所的评价有差异,故C正确,D错误.
4.(教材P120练习BT2改编)在研究某种药物对某病毒的治疗效果时,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.
(1)根据以上数据建立一个2×2列联表;
(2)试问:有99%的把握认为该种药物是否对治疗该病毒有效吗?
解:(1)2×2列联表如下:
存活数 死亡数 总计
服用药物 132 18 150
未服药物 114 36 150
总计 246 54 300
(2)由(1)知χ2=≈7.317.
又因为1-99%=1%,
查表可得P(χ2≥6.635)=0.01,
因为7.317>6.635,
故有99%的把握认为该种药物对治疗该病毒有效果.
eq \a\vs4\al( INCLUDEPICTURE "课堂小结.TIF" INCLUDEPICTURE "H:\\临时文件\\1.2024年\\6\\3 数学\\课堂小结.TIF" \* MERGEFORMATINET )
1.已学习:(1)2×2列联表;(2)独立性检验的理解及应用.
2.须贯通:掌握公式法求χ2,培养数学运算的数学素养.
3.应注意:(1)要注意公式χ2的计算准确性;(2)求出χ2之后要注意与最接近的k值相比较.