8.3.2 独立性检验
【学习目标】
1.了解随机变量χ2的意义,通过对典型案例分析,了解独立性检验的基本思想和方法.
2.通过运用列联表进行独立性检验,提升数学抽象及数据分析素养.
【学习过程】
一、课前预习
预习课本P128~134,思考并完成以下问题
(1) 怎样计算χ2 统计量?什么是判断χ2大小的临界值?
(2) 什么是独立性检验?基于小概率值α的检验规则是什么?
二、课前小测
1.判断
(1)概率值α越小,临界值xα越大.( )
(2)独立性检验的思想类似于反证法.( )
(3)独立性检验的结论是有多大的把握认为两个分类变量有关系.( )
2.如果根据小概率α=0.01的χ2检测试验,认为H0成立,那么具体算出的数据满足( )
附表:
α 0.05 0.025 0.010 0.005 0.001
xα 3.841 5.024 6.635 7.879 10.828
A.χ2>6.635 B.χ2>5.024
C.χ2>7.879 D.χ2>3.841
3.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( )
A.0.1% B.1%
C.99% D.99.9%
三、新知探究
1.临界值
χ2=.
χ2 统计量可以用来作相关性的度量.χ2 越小说明变量之间越独立,χ2越大说明变量之间越相关
忽略χ2的实际分布与近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
2.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
3.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
四、题型突破
题型一 有关“相关的检验”
【例1】 某校对学生课外活动进行调查,结果整理成下表,用你所学过的知识进行分析,能否在犯错误的概率不超过0.005 的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育 文娱 合计
男生 21 23 44
女生 6 29 35
合计 27 52 79
【反思感悟】
独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值xα.
②利用公式χ2=计算χ2.
③如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
【跟踪训练】
1. 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:
患心脏病 未患心脏病 合计
每一晚都打鼾 30 224 254
不打鼾 24 1355 1379
合计 54 1579 1633
根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?
题型二 有关“无关的检验”
【例2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科生对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
【反思感悟】
独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【跟踪训练】
2. 某教育机构为了研究成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革 不太赞成教育改革 合计
大学专科以上学历 39 157 196
大学专科以下学历 29 167 196
合计 68 324 392
对于教育机构的研究项目,根据上述数据能得出什么结论?
题型三 独立性检验的综合应用
【例3】 某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
α 0.100 0.050 0.010 0.005
xα 2.706 3.841 6.635 7.879
χ2=.
【反思感悟】
(1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值xα的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
【跟踪训练】
3. 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?
物理优秀 化学优秀 总分优秀
数学优秀 228 225 267
数学非优秀 143 156 99
注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.
五、达标检测
1.对两个分类变量A,B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则χ2的值就越大;
③χ2的大小是判定A与B是否相关的唯一依据
A.0 B.1
C.2 D.3
2.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀 及格 合计
甲班 11 34 45
乙班 8 37 45
合计 19 71 90
则χ2的观测值约为( )
A.0.600 B.0.828
C.2.712 D.6.004
3.考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理 种子未处理 合计
得病 32 101 133
不得病 61 213 274
合计 93 314 407
根据以上数据,可得出( )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
4.(多选题)对于分类变量X与Y的随机变量χ2的值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越小
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好 总成绩不好 合计
数学成绩好 478 a 490
数学成绩不好 399 24 423
合计 b c 913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
六、本课小结
1.通过本节课的学习,提升数学抽象及数据分析素养.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算χ2的值,如果χ2值很大,说明假设不合理,χ2越大,两个分类变量有关系的可能性越大.
参考答案
课前小测
1.答案:√ √ √
2.答案:A
3.答案:B
解析:∵χ2=7.069>6.635=x0.01,∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
题型突破
【例1】解:零假设为H0:喜欢体育还是喜欢文娱与性别没有关系
∵a=21,b=23,c=6,d=29,n=79,
∴χ2=
=≈8.106>7.879=x0.005.
根据小概率值α=0.005的χ2独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关系,此推断犯错误的概率不大于0.005.
【跟踪训练】
1. 解:零假设为H0:打鼾与患心脏病无关系
由列联表中的数据,得
χ2=
≈68.033>10.828=x0.001.
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,即认为打鼾与患心脏病有关系,此推断犯错误的概率不大于0.001.
【例2】解:零假设为H0:选报文、理科与对外语的兴趣无关.
列出2×2列联表
理 文 合计
有兴趣 138 73 211
无兴趣 98 52 150
合计 236 125 361
代入公式得χ2的观测值
χ2=≈1.871×10-4.
∵1.871×10-4<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,即选报文、理科与对外语的兴趣无关.
【跟踪训练】
2. 解:零假设为H0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度无关.
根据表中数据,计算得
χ2=≈1.78.
因为1.78<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,所以我们没有理由说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.
【例3】解:(1)由分层随机抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:
男生 女生 合计
每周平均体育运动时间不超过4小时 45 30 75
每周平均体育运动时间超过4小时 165 60 225
合计 210 90 300
零假设为H0:该校学生的每周平均体育运动时间与性别无关.
结合列联表可算得
χ2=≈4.762>3.841=x0.05.
根据小概率值α=0.1的χ2独立性检验,我们推断H0不成立,即认为“该校学生的每周平均体育运动时间与性别有关”,此推断犯错误的概率不大于0.05.
【跟踪训练】
3.解:零假设为H0:数学成绩优秀与物理、化学、总分成绩优秀都无关系.
列出数学成绩与物理成绩的2×2列联表如下:
物理优秀 物理非优秀 合计
数学优秀 228 132 360
数学非优秀 143 737 880
合计 371 869 1 240
将表中数据代入公式,得
χ=≈270.1>10.828=x0.001.
列出数学成绩与化学成绩的2×2列联表如下:
化学优秀 化学非优秀 合计
数学优秀 225 135 360
数学非优秀 156 724 880
合计 381 859 1 240
将表中数据代入公式,得
χ=≈240.6>10.828=x0.001.
列出数学成绩与总分成绩的2×2列联表如下:
总分优秀 总分非优秀 合计
数学优秀 267 93 360
数学非优秀 99 781 880
合计 366 874 1 240
将表中数据代入公式,得
χ=≈486.1>10.828=x0.001.
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,即认为数学成绩优秀与物理、化学、总分成绩优秀都有关系,此推断犯错误的概率不大于0.001.
达标检测
1.答案:B
解析:①错误,A与B无关说明两件事影响较小,不是互不影响;
②正确,A与B关系越密切,说明A与B相关性就越强,χ2的值就越大;
③不正确,例如借助三维柱形图、二维条形图等.故选B.
2.答案:A
解析:根据列联表中的数据,可得χ2=≈0.600.故选A.
3.答案:B
解析:由χ2=≈0.164<2.706=x0.1,
故没有把握认为种子是否经过处理跟是否生病有关.
4.答案:BD
解析:χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.
5.解:(1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
b=478+399=877.
(2)零假设为H0:文科学生总成绩不好与数学成绩不好没有关系.
计算得χ2=≈6.233>5.024=x0.05,
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为文科学生总成绩不好与数学成绩不好有关系,此推断犯错误的概率不大于0.05.