8.3.2 独立性检验
课标要求
素养要求
了解随机变量χ2的意义,通过对典型案例分析,了解独立性检验的基本思想和方法.
通过运用列联表进行独立性检验,提升数学抽象及数据分析素养.
新知探究
山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
问题 如何判定“喜欢体育还是文娱与性别是否有联系”?
提示 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
1.临界值
χ2
统计量也可以用来作相关性的度量.χ2
越小说明变量之间越独立,χ2越大说明变量之间越相关
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
2.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立
,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验(test
of
independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
3.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
拓展深化
[微判断]
1.概率值α越小,临界值xα越大.(√)
2.独立性检验的思想类似于反证法.(√)
3.独立性检验的结论是有多大的把握认为两个分类变量有关系.(√)
[微训练]
1.如果根据小概率α=0.01的χ2检测试验,认为H0成立,那么具体算出的数据满足( )
附表:
α
0.05
0.025
0.010
0.005
0.001
xα
3.841
5.024
6.635
7.879
10.828
A.χ2>6.635
B.χ2>5.024
C.χ2>7.879
D.χ2>3.841
答案 A
2.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( )
A.0.1%
B.1%
C.99%
D.99.9%
解析 ∵χ2=7.069>6.635=x0.01,∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
答案 B
[微思考]
1.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺病有关,是指每100个吸烟者中就会有99个患肺病的.”你认为这种观点正确吗?为什么?
提示 观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺病有关的程度,不是患肺病的百分数.
2.应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?
提示 不一定.所有的推断只代表一种可能性,不代表具体情况.
题型一 有关“相关的检验”
【例1】 某校对学生课外活动进行调查,结果整理成下表,用你所学过的知识进行分析,能否在犯错误的概率不超过0.005
的前提下,认为“喜欢体育还是文娱与性别有关系”?
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
解 零假设为H0:喜欢体育还是喜欢文娱与性别没有关系
∵a=21,b=23,c=6,d=29,n=79,
∴χ2=
=≈8.106>7.879=x0.005.
根据小概率值α=0.005的χ2独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关系,此推断犯错误的概率不大于0.005.
规律方法 独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值xα.
②利用公式χ2=计算χ2.
③如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
【训练1】 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:
患心脏病
未患心脏病
合计
每一晚都打鼾
30
224
254
不打鼾
24
1
355
1
379
合计
54
1
579
1
633
根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?
解 零假设为H0:打鼾与患心脏病无关系
由列联表中的数据,得
χ2=
≈68.033>10.828=x0.001.
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,即认为打鼾与患心脏病有关系,此推断犯错误的概率不大于0.001.
题型二 有关“无关的检验”
【例2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科生对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
解 零假设为H0:选报文、理科与对外语的兴趣无关.
列出2×2列联表
理
文
合计
有兴趣
138
73
211
无兴趣
98
52
150
合计
236
125
361
代入公式得χ2的观测值
χ2=≈1.871×10-4.
∵1.871×10-4<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,即选报文、理科与对外语的兴趣无关.
规律方法 独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【训练2】 某教育机构为了研究成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革
不太赞成教育改革
合计
大学专科以上学历
39
157
196
大学专科以下学历
29
167
196
合计
68
324
392
对于教育机构的研究项目,根据上述数据能得出什么结论?
解 零假设为H0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度无关.
根据表中数据,计算得
χ2=≈1.78.
因为1.78<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,所以我们没有理由说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.
题型三 独立性检验的综合应用
【例3】 某高校共有学生15
000人,其中男生10
500人,女生4
500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
α
0.100
0.050
0.010
0.005
xα
2.706
3.841
6.635
7.879
χ2=.
解 (1)由分层随机抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:
男生
女生
合计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
合计
210
90
300
零假设为H0:该校学生的每周平均体育运动时间与性别无关.
结合列联表可算得
χ2=≈4.762>3.841=x0.05.
根据小概率值α=0.1的χ2独立性检验,我们推断H0不成立,即认为“该校学生的每周平均体育运动时间与性别有关”,此推断犯错误的概率不大于0.05.
规律方法 (1)解答此类题目的关键在于正确利用χ2=计算χ2的值,再用它与临界值xα的大小作比较来判断假设检验是否成立,从而使问题得到解决.
(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
【训练3】 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.
解 零假设为H0:数学成绩优秀与物理、化学、总分成绩优秀都无关系.
列出数学成绩与物理成绩的2×2列联表如下:
物理优秀
物理非优秀
合计
数学优秀
228
132
360
数学非优秀
143
737
880
合计
371
869
1
240
将表中数据代入公式,得
χ=≈270.1>10.828=x0.001.
列出数学成绩与化学成绩的2×2列联表如下:
化学优秀
化学非优秀
合计
数学优秀
225
135
360
数学非优秀
156
724
880
合计
381
859
1
240
将表中数据代入公式,得
χ=≈240.6>10.828
=x0.001.
列出数学成绩与总分成绩的2×2列联表如下:
总分优秀
总分非优秀
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
874
1
240
将表中数据代入公式,得
χ=≈486.1>10.828=x0.001.
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,即认为数学成绩优秀与物理、化学、总分成绩优秀都有关系,此推断犯错误的概率不大于0.001.
一、素养落地
1.通过本节课的学习,提升数学抽象及数据分析素养.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算χ2的值,如果χ2值很大,说明假设不合理,χ2越大,两个分类变量有关系的可能性越大.
二、素养训练
1.对两个分类变量A,B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则χ2的值就越大;
③χ2的大小是判定A与B是否相关的唯一依据
A.0
B.1
C.2
D.3
解析 ①正确,A与B无关即A与B相互独立;②不正确,χ2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.
答案 B
2.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
优秀
及格
合计
甲班
11
34
45
乙班
8
37
45
合计
19
71
90
则χ2的观测值约为( )
A.0.600
B.0.828
C.2.712
D.6.004
解析 根据列联表中的数据,可得χ2=≈0.600.故选A.
答案 A
3.考察棉花种子经过处理跟生病之间的关系得到下表数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据,可得出( )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
解析 由χ2=≈0.164<2.706=x0.1,故没有把握认为种子是否经过处理跟是否生病有关.
答案 B
4.(多选题)对于分类变量X与Y的随机变量χ2的值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越小
解析 χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.
答案 BD
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
总成绩好
总成绩不好
合计
数学成绩好
478
a
490
数学成绩不好
399
24
423
合计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
解 (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
b=478+399=877.
(2)零假设为H0:文科学生总成绩不好与数学成绩不好没有关系.计算得
χ2=≈6.233>5.024=x0.05,
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为文科学生总成绩不好与数学成绩不好有关系,此推断犯错误的概率不大于0.05.
基础达标
一、选择题
1.想要检验是否喜欢参加体育活动是不是与性别有关,应该检验( )
A.零假设H0:男性喜欢参加体育活动
B.零假设H0:女性不喜欢参加体育活动
C.零假设H0:喜欢参加体育活动与性别有关
D.零假设H0:喜欢参加体育活动与性别无关
解析 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设.
答案 D
2.某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3
000人,计算得χ2=6.023,则市政府断言市民收入增减与旅游愿望有关系的可信程度是( )
A.90%
B.95%
C.99%
D.99.5%
解析 由临界值表,得6.023>3.841=x0.05,所以可断言市民收入增减与旅游愿望有关系的可信程度为95%.
答案 B
3.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得χ2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
A.0.1%
B.1%
C.99%
D.99.9%
解析 易知χ2=7.01>6.635=x0.01,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.
答案 C
4.在独立性检验中,两个分类变量“X与Y有关系”的可信度为99%,则随机变量χ2的取值范围是( )
A.[2.706,3.841)
B.[3.841,6.635)
C.[6.635,7.879)
D.[7.879,10.828)
解析 对照临界值表可知选C.
答案 C
5.某班主任对全班50名学生进行了作业量的调查,数据如下表:
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( )
A.0.01
B.0.025
C.0.05
D.0.001
解析 由公式得χ2=≈5.059>3.841=x0.05.∴犯错误的概率不超过0.05.
答案 C
二、填空题
6.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________(填序号).
①若χ2=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
解析 χ2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.
答案 ③
7.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
专业性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=≈4.844>3.841=x0.05,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.
解析 因为χ2>3.841=x0.05,所以有95%的把握认为主修统计专业与性别有关,出错的可能性不超过5%.
答案 5%
8.世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
不喜欢西班牙队
喜欢西班牙队
合计
高于40岁
p
q
50
不高于40岁
15
35
50
合计
a
b
100
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为,则在犯错误的概率不超过__________下认为年龄与西班牙队的被喜欢程度有关.
附:χ2=.
α
0.15
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,由已知得P(A)==,
所以q=25,p=25,a=40,b=60.
χ2==≈4.167>3.841=x0.05.
故认为年龄与西班牙队的被喜欢程度有关,此推断犯错误的概率不超过5%.
答案 5%
三、解答题
9.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用条形图和独立性检验的方法判断.
解 建立性别与态度的2×2列联表如下:
肯定
否定
合计
男生
22
88
110
女生
22
38
60
合计
44
126
170
根据列联表中所给的数据,可求出男生中作肯定态度的频率为=0.2,女生中作肯定态度的频率为≈0.37.作等高条形图如图,其中两个深色条形的高分别表示男生和女生中作肯定态度的频率,比较图中深色条形的高可以发现,女生中作肯定态度的频率明显高于男生中作肯定态度的频率,因此可以认为性别与态度有关系.
零假设为H0:性别和态度没有关系.
根据列联表中的数据得到
χ2=≈5.622>
5.024=x0.025.
根据小概率值α=0.025的χ2独立性检验,我们推断H0不成立,即认为性别和态度有关系,此推断犯错误的概率不大于0.025.
10.某旅行社为调查市民喜欢“人文景观”景点是否与年龄有关,随机抽取了55名市民,得到数据如下表所示:
喜欢
不喜欢
合计
大于40岁
20
5
25
20岁至40岁
10
20
30
合计
30
25
55
(1)推断能否在犯错误的概率不大于0.005的情况下认为喜欢“人文景观”景点与年龄有关?
(2)用分层随机抽样的方法从喜欢“人文景观”景点的市民中随机抽取6人作进一步调查,将这6名市民作为一个样本,从中任选2人,求恰有1位大于40岁的市民和1位20岁至40岁的市民的概率.
解 (1)零假设为H0:喜欢“人文景观”景点与年龄无关.
由公式χ2=得,χ2≈11.978>7.879=x0.005,
根据小概率值α=0.005的χ2独立性检验,我们推断H0不成立,即认为喜欢“人文景观”景点与年龄有关,此推断犯错误的概率不大于0.005.
(2)由题意知抽取的6人中大于40岁的市民有4个,20岁至40岁的市民有2个,分别记为B1,B2,B3,B4,C1,C2,
从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,C1),(B1,C2),(B2,B3),(B2,B4),(B2,C1),(B2,C2),(B3,B4),(B3,C1),(B3,C2),(B4,C1),(B4,C2),(C1,C2),共15个,其中恰有1位大于40岁的市民和1
位20岁至40岁的市民的事件有(B1,C1),(B1,C2),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(B4,C1),(B4,C2),共8个,所以恰有1位大于40岁的市民和1位20岁至40岁的市民的概率为.
能力提升
11.(多选题)有两个分类变量X,Y,其列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( )
A.8
B.9
C.7
D.6
解析 根据公式,得
χ2=
=>3.841=x0.05,根据a>5且15-a>5,a∈Z,求得当a=8或9时满足题意.
答案 AB
12.为调查某社区居民的业余生活状况,研究这一社区居民在20:00~22:00时间段的休闲方式与性别的关系,随机调查了该社区80人,得到下面的数据表:
休闲方式性别
看电视
看书
合计
男
10
50
60
女
10
10
20
合计
20
60
80
(1)根据以上数据,能否在犯错误的概率不大于0.01的前提下认为“在20:00~22:00时间段居民的休闲方式与性别有关系”?
(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查3人,设调查的3人在这一时间段以看书为休闲方式的人数为随机变量X,求X的数学期望和方差.
解 (1)零假设为H0:在20:00~22:00时间段居民的休闲方式与性别无关系,
根据样本提供的2×2列联表得,
χ2==
≈8.889>6.635=x0.01,
根据小概率值α=0.01的χ2独立性检验,我们推断H0不成立,即认为“在20:00~22:00时间段居民的休闲方式与性别有关系”,此推断犯错误的概率不超过0.01.
(2)由题意得,X~B,
且P(X=k)=C,k=0,1,2,3,
故E(X)=3×=,D(X)=3××=.
创新猜想
13.(多选题)下列关于χ2的说法正确的是( )
A.根据2×2列联表中的数据计算得出χ2=6.735>6.635=x0.01,则有99%的把握认为两个分类变量有关系
B.χ2越大,认为两个分类变量有关系的把握性就越大
C.χ2是用来判断两个分类变量有关系的可信程度的随机变量
D.χ2=,其中n=a+b+c+d为样本容量
解析 D选项的公式中分子应该是n(ad-bc)2.故选ABC.
答案 ABC
14.(多空题)对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据计算χ2≈__________,能否作出这两种手术对病人又发作心脏病的影响有差别的结论________(填“能”或“不能”).
解析 零假设为H0:这两种手术对病人又发作心脏病的影响无差别.根据列联表中的数据,可以求得χ2=≈1.779.
χ2<2.076=x0.1,根据小概率值α=0.1的χ2独立性检验,我们没有充分的证据推断H0不成立,即认为这两种手术对病人又发作心脏病的影响无差别.
答案 1.779 不能(共42张PPT)
8.3.2 独立性检验
课标要求
素养要求
了解随机变量χ2的意义,通过对典型案例分析,了解独立性检验的基本思想和方法.
通过运用列联表进行独立性检验,提升数学抽象及数据分析素养.
新知探究
山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
问题 如何判定“喜欢体育还是文娱与性别是否有联系”?
提示 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
1.
临界值
χ2
统计量也可以用来作相关性的度量.χ2
越小说明变量之间越独立,χ2越大说明变量之间越相关
2.独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立
,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验(test
of
independence).
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
3.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
拓展深化
[微判断]
1.概率值α越小,临界值xα越大.
(
)
2.独立性检验的思想类似于反证法.
(
)
3.独立性检验的结论是有多大的把握认为两个分类变量有关系.
(
)
√
√
√
[微训练]
1.如果根据小概率α=0.01的χ2检测试验,认为H0成立,那么具体算出的数据满足( )
附表:
α
0.05
0.025
0.010
0.005
0.001
xα
3.841
5.024
6.635
7.879
10.828
A.χ2>6.635
B.χ2>5.024
C.χ2>7.879
D.χ2>3.841
答案 A
2.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( )
A.0.1%
B.1%
C.99%
D.99.9%
解析 ∵χ2=7.069>6.635=x0.01,∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
答案 B
[微思考]
1.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺病有关,是指每100个吸烟者中就会有99个患肺病的.”你认为这种观点正确吗?为什么?
提示 观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺病有关的程度,不是患肺病的百分数.
2.应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?
提示 不一定.所有的推断只代表一种可能性,不代表具体情况.
题型一 有关“相关的检验”
【例1】 某校对学生课外活动进行调查,结果整理成下表,用你所学过的知识进行分析,能否在犯错误的概率不超过0.005
的前提下,认为“喜欢体育还是文娱与性别有关系”?
?
体育
文娱
合计
男生
21
23
44
女生
6
29
35
合计
27
52
79
解 零假设为H0:喜欢体育还是喜欢文娱与性别没有关系
∵a=21,b=23,c=6,d=29,n=79,
根据小概率值α=0.005的χ2独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关系,此推断犯错误的概率不大于0.005.
【训练1】 打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:
?
患心脏病
未患心脏病
合计
每一晚都打鼾
30
224
254
不打鼾
24
1
355
1
379
合计
54
1
579
1
633
根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?
解 零假设为H0:打鼾与患心脏病无关系
由列联表中的数据,得
≈68.033>10.828=x0.001.
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,即认为打鼾与患心脏病有关系,此推断犯错误的概率不大于0.001.
题型二 有关“无关的检验”
【例2】 为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科生对外语有兴趣的有138人,无兴趣的有98人,文科生对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?
解 零假设为H0:选报文、理科与对外语的兴趣无关.
列出2×2列联表
?
理
文
合计
有兴趣
138
73
211
无兴趣
98
52
150
合计
236
125
361
代入公式得χ2的观测值
∵1.871×10-4<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,即选报文、理科与对外语的兴趣无关.
规律方法 独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【训练2】 某教育机构为了研究成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
?
积极支持教育改革
不太赞成教育改革
合计
大学专科以上学历
39
157
196
大学专科以下学历
29
167
196
合计
68
324
392
解 零假设为H0:成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度无关.
根据表中数据,计算得
因为1.78<2.706=x0.1,
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,所以我们没有理由说成年人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.
题型三 独立性检验的综合应用
【例3】 某高校共有学生15
000人,其中男生10
500人,女生4
500人.为调查该校学生每周平均体育运动时间的情况,采用分层随机抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别的列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
附:
α
0.100
0.050
0.010
0.005
xα
2.706
3.841
6.635
7.879
(2)由频率分布直方图得学生每周平均体育运动时间超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别的列联表如下:
?
男生
女生
合计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
合计
210
90
300
零假设为H0:该校学生的每周平均体育运动时间与性别无关.
结合列联表可算得
根据小概率值α=0.1的χ2独立性检验,我们推断H0不成立,即认为“该校学生的每周平均体育运动时间与性别有关”,此推断犯错误的概率不大于0.05.
【训练3】 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?
?
物理优秀
化学优秀
总分优秀
数学优秀
228
225
267
数学非优秀
143
156
99
解 零假设为H0:数学成绩优秀与物理、化学、总分成绩优秀都无关系.
列出数学成绩与物理成绩的2×2列联表如下:
?
物理优秀
物理非优秀
合计
数学优秀
228
132
360
数学非优秀
143
737
880
合计
371
869
1
240
列出数学成绩与化学成绩的2×2列联表如下:
?
化学优秀
化学非优秀
合计
数学优秀
225
135
360
数学非优秀
156
724
880
合计
381
859
1
240
列出数学成绩与总分成绩的2×2列联表如下:
?
总分优秀
总分非优秀
合计
数学优秀
267
93
360
数学非优秀
99
781
880
合计
366
874
1
240
根据小概率值α=0.001的χ2独立性检验,我们推断H0不成立,即认为数学成绩优秀与物理、化学、总分成绩优秀都有关系,此推断犯错误的概率不大于0.001.
一、素养落地
1.通过本节课的学习,提升数学抽象及数据分析素养.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算χ2的值,如果χ2值很大,说明假设不合理,χ2越大,两个分类变量有关系的可能性越大.
二、素养训练
1.对两个分类变量A,B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则χ2的值就越大;
③χ2的大小是判定A与B是否相关的唯一依据
A.0
B.1
C.2
D.3
解析 ①正确,A与B无关即A与B相互独立;②不正确,χ2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.
答案 B
2.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
?
优秀
及格
合计
甲班
11
34
45
乙班
8
37
45
合计
19
71
90
则χ2的观测值约为( )
A.0.600
B.0.828
C.2.712
D.6.004
答案 A
3.考察棉花种子经过处理跟生病之间的关系得到下表数据:
?
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据,可得出( )
A.种子是否经过处理跟是否生病有关
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
答案 B
4.(多选题)对于分类变量X与Y的随机变量χ2的值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越小
解析 χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.
答案 BD
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
?
总成绩好
总成绩不好
合计
数学成绩好
478
a
490
数学成绩不好
399
24
423
合计
b
c
913
(1)计算a,b,c的值;
(2)文科学生总成绩不好与数学成绩不好有关系吗?
解 (1)由478+a=490,得a=12.
由a+24=c,得c=12+24=36.
b=478+399=877.
(2)零假设为H0:文科学生总成绩不好与数学成绩不好没有关系.计算得
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为文科学生总成绩不好与数学成绩不好有关系,此推断犯错误的概率不大于0.05.