(共47张PPT)
8.3 列联表与独立性检验
第八章
2026
内容索引
01
02
03
自主预习 新知导学
合作探究 释疑解惑
随堂练习
课标定位素养阐释
1.了解分类变量、2×2列联表、随机变量χ2的意义.
2.了解独立性检验的基本思想方法.
3.能够运用2×2列联表及χ2进行独立性检验.
4.通过本节课的学习,进一步提升逻辑推理、数据分析的核心素养.
自主预习 新知导学
一、分类变量与列联表
1.为了解高中生的课外活动方式,某校进行了抽样调查,结果整理成下表:
如何直观判定“喜欢体育还是文娱与性别有联系”
提示:可通过表格内分类统计的数据进行直观分析.
性别 课外活动 合计
体育 文娱 男生 210 230 440
女生 60 290 350
合计 270 520 790
2.(1)我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为 分类变量 .
(2)按研究问题的需要,将数据分类统计,并做成表格加以保存.这种形式的数据统计表称为 2×2列联表 ,关于分类变量X和Y的抽样数据的2×2列联表如下:
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
3.下面是一个2×2列联表:
X Y 合计
Y=0 Y=1 X=0 a 21 73
X=1 2 25 27
合计 b 46 100
则表中a,b处的值分别为( )
A.94,96 B.52,50 C.52,54 D.54,52
解析:a=73-21=52,b=100-46=54.
答案:C
二、独立性检验
1.有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗 为什么
提示:观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
2.(1)利用χ2的取值推断分类变量X和Y是否独立的方法称为
χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过 α ;
当χ2(4)χ2独立性检验中几个常用的小概率值和相应的临界值:
(5)应用独立性检验解决实际问题大致应包括以下几个主要环节:
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【思考辨析】
判断下列说法是否正确,正确的在后面的括号内画“√”,错误的画“×”.
(1)列联表中的数据是两个分类变量的频数.( √ )
(2)χ2是判断分类变量X与Y是否相关的统计量.( √ )
(3)当χ2≥x0.05=3.841时,认为X和Y不独立,该推断犯错误的概率超过0.05.
( × )
合作探究 释疑解惑
探究一
利用等高堆积条形图判断两个分类变量是否存在差异
【例1】 某学校对高三学生是否爱好某项运动作了调查发现:426名男生中有332人爱好该项运动,594名女生中有213人爱好该项运动.作出等高堆积条形图,利用图形判断爱好该项运动与性别是否有关系.
解:作列联表如下:
是否爱好该项运动 性别 合计
男生 女生 爱好 332 213 545
不爱好 94 381 475
合计 426 594 1 020
在爱好的学生中,男生约占61%,在不爱好的学生中,男生约占20%.
相应的等高堆积条形图如图所示:
图中阴影部分表示爱好与不爱好的学生中男生的比例,从图中可以看出爱好的学生中男生占的比例比不爱好的学生中男生占的比例高,可以认为爱好该项运动与性别有关.
利用等高堆积条形图判断两个分类变量是否相关的步骤:
(1)统计:收集数据,统计结果.
(2)列表:列出2×2列联表,计算频率、粗略估计.
(3)绘图:绘制等高堆积条形图,直观分析.
【变式训练1】 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试数学成绩不及格,而另外800人中有120人数学成绩不及格.利用图形判断学生经常上网与数学学习成绩是否有关.
解:根据题目所给的数据得到如下2×2列联表:
数学成绩 上网 合计
经常上网 不经常上网 不及格 80 120 200
及格 120 680 800
合计 200 800 1 000
得出的等高堆积条形图如图所示:
比较图中阴影部分的高可以发现经常上网数学成绩不及格的频率明显高于经常上网数学成绩及格的频率,因此可以认为经常上网与数学成绩有关.
探究二
独立性检验
【例2】 某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分也为优秀的人数如下表所示,依据α=0.001的独立性检验,分析数学成绩优秀分别与物理、化学、总分优秀的相关性.
注:该年级此次考试中数学成绩优秀的有360人,非优秀的有880人.
数学成绩 物理优秀 化学优秀 总分优秀
优秀 228 225 267
非优秀 143 156 99
解:(1)零假设为H0:数学成绩与物理成绩独立,即数学成绩对物理成绩没有影响.根据已知数据列出2×2列联表如下:
数学成绩 物理成绩 合计
物理优秀 物理非优秀 数学优秀 228 b 360
数学非优秀 143 d 880
合计 371 b+d 1 240
∴b=360-228=132,d=880-143=737,b+d=132+737=869.
代入公式可得χ2≈270.114>10.828=x0.001.
(2)按照上述方法列出数学与化学优秀的2×2列联表如下:
数学成绩 化学成绩 合计
化学优秀 化学非优秀 数学优秀 225 135 360
数学非优秀 156 724 880
合计 381 859 1 240
代入公式可得χ2≈240.611>10.828=x0.001.
(3)列出数学与总分优秀的2×2列联表如下:
数学成绩 总成绩 合计
总分优秀 总分非优秀 数学优秀 267 93 360
数学非优秀 99 781 880
合计 366 874 1 240
代入公式可得χ2≈486.123>10.828=x0.001.
根据小概率值α=0.001的独立性检验,我们认为数学成绩优秀与物理、化学、总分优秀有关系,此推断犯错误的概率不大于0.001.
利用χ2进行独立性检验的步骤
(1)列表:列出2×2列联表.
(2)求值:求出χ2的值.
(3)判断:与临界值比较,得出事件有关的可能性大小,作出判断.
【变式训练2】 某周末,某公园内汇聚了很多游客.面对该公园内相邻的两个主题园区A和B,成年人和未成年人选择游玩的意向会有所不同.某统计机构对公园内的100位游客(这些游客只在两个主题园区中二选一)进行了问卷调查.调查结果显示,在被调查的50位成年人中,只有10人选择A,而选择A的未成年人有20人.
(1)根据题意,请将下面的2×2列联表填写完整;
年龄特征 主题园区 合计
选择A 选择B 成年人
未成年人
合计
(2)根据小概率值α=0.01的独立性检验,分析选择哪个主题园区与年龄特征的相关性.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:(1)根据题目中的数据,列出2×2列联表如下:
年龄特征 主题园区 合计
选择A 选择B 成年人 10 40 50
未成年人 20 30 50
合计 30 70 100
(2)零假设为H0:年龄特征与选择主题园区独立,即成年人和未成年人对主题园区的选择没有差异.
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为年龄特征与选择主题园区无关.
探究三
独立性检验的综合应用
【例3】 某市环保部门对该市市民进行了一次垃圾分类知识的网络问卷调查,每位市民仅有一次参加机会,通过简单随机抽样,得到参与问卷调查的100人的得分(满分:100分)数据,统计结果如表所示.
组别 [40,50) [50,60) [60,70) [70,80) [80,90) [90,100)
男 2 3 5 15 18 12
女 0 5 10 10 7 13
(1)若规定问卷得分不低于70分的市民称为“环保关注者”,请列出2×2列联表,依据小概率值α=0.05的独立性检验,分析“环保关注者”是否与性别有关.
(2)若问卷得分不低于80分的人称为“环保达人”,视频率为概率:
①在我市所有“环保达人”中,随机抽取3人,求抽取的3人中,既有男“环保达人”又有女“环保达人”的概率;
②为了鼓励市民关注环保,针对此次的调查制定了如下奖励方案:“环保达人”获得两次抽奖活动;其他参与的市民获得一次抽奖活动,每次抽奖获得红包的金额和对应的概率如下表:
现某市民要参加此次问卷调查,记X(单位:元)为该市民参加问卷调查获得的红包金额,求X的分布列及均值.
χ2独立性检验中常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:(1)零假设为H0:性别与是否为“环保关注者”独立,
由题中表格可得2×2列联表如下:
性别 是否为“环保关注者” 合计
非“环保关注者” “环保关注者” 男 10 45 55
女 15 30 45
合计 25 75 100
将2×2列联表中的数据代入公式
根据小概率值α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为性别与“环保关注者”独立.
独立性检验综合应用的方法策略
(1)独立性检验是判断两个分类变量是否相互独立的一种检验方法,主要依据是先计算χ2的值,再与临界值进行比较从而作出判断.
(2)统计的特征之一是通过样本的部分数据来推测总体全部数据的特征,因此统计推断可能犯错误,即从数据上体现的只是统计关系而不是因果关系.
【变式训练3】 为比较注射A,B两种药物产生的皮肤疱疹的面积,选200只家兔作试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2所示的分别是注射药物A和药物B后皮肤疱疹面积的频数分布.(疱疹面积单位:mm2)
表1
疱疹面积 [60,65) [65,70) [70,75) [75,80]
频数 30 40 20 10
表2
疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85]
频数 10 25 20 30 15
(1)完成图①和图②所示的分别注射药物A,B后皮肤疱疹面积的频率分布直方图,并求注射药物A后疱疹面积的中位数;
图①
图②
(2)完成下面的2×2列联表,依据小概率值α=0.001的独立性检验,分析注射两种药物是否与疱疹面积有关.
注射药物 疱疹面积 合计
疱疹面积小于70 mm2 疱疹面积不小于70 mm2 注射药物A a= b=
注射药物B c= d=
合计
χ2独立性检验中常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:(1)根据题意,完成图①和图②所示的频率分布直方图如图所示:
图①
图②
(2)零假设为H0:注射药物与疱疹面积独立,即注射两种药物对疱疹面积没有差异.
根据题意填写列联表如下:
注射药物 疱疹面积 合计
疱疹面积小于70 mm2 疱疹面积不小于70 mm2 注射药物A a=70 b=30 100
注射药物B c=35 d=65 100
合计 105 95 200
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为注射两种药物对疱疹面积有差异,此推断犯错误的概率不大于0.001.
易错辨析
独立性检验思想的应用
【典例】 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
是否需要志愿者 性别 男 女
需要 40 30
不需要 160 270
(1)估计该地区老年人中需要志愿者提供帮助的老年人的比例.
(2)试根据小概率值α=0.01的独立性检验,分析该地区老年人需要志愿者提供帮助是否与性别有关.
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例 说明理由.
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该地区老年人需要志愿者提供帮助与性别有关,此推断犯错误的概率不大于0.01.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层随机抽样方法,比采用简单随机抽样方法更好.
独立性检验与反证法的区别与联系
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不大于这个小概率.另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
随堂练习
1.对于分类变量X与Y的随机变量χ2的值,下列说法正确的是( )
A.χ2越大,“X与Y有关系”的可信程度越小
B.χ2越小,“X与Y有关系”的可信程度越小
C.χ2越接近于0,“X与Y没有关系”的可信程度越小
D.χ2越大,“X与Y没有关系”的可信程度越大
解析:χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.
答案:B
2.根据分类变量X与Y的观测数据,计算得到χ2=2.974,依据α=0.05的独立性检验,结论为( )
A.变量X与Y不独立
B.变量X与Y不独立,这个结论犯错误的概率不超过0.05
C.变量X与Y独立
D.变量X与Y独立,这个结论犯错误的概率不超过0.05
解析:因为χ2=2.974答案:C
α 0.10 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
3.利用独立性检验来考虑两个分类变量X与Y是否有关系时,通过查阅下表来确定“X和Y有关系”的可信度.如果χ2>3.841,那么在犯错误的概率不大于 的前提下认为“X和Y有关系”.
χ2独立性检验中常用的小概率值和相应的临界值:
答案:0.05
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
4.研究人员选取170名青年男女大学生,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定回答的有22名,作否定回答的有38名;男生110名在相同的题目上作肯定回答的有22名,作否定回答的有88名.问:性别与态度之间是否存在某种关系 分别用等高堆积条形图和独立性检验的方法判断.
解:建立性别与态度的2×2列联表如下:
学生性别 肯定与否定 合计
肯定 否定 男生 22 88 110
女生 22 38 60
合计 44 126 170
根据列联表中所给的数据,可求出男生中作肯定回答的频率为 =0.2,女生中作肯定回答的频率为 ≈0.37.作出的等高堆积条形图如图所示,其中两个阴影条形的高分别表示男生和女生中作肯定回答的频率,比较图中阴影条形的高可以发现,女生中作肯定回答的频率明显高于男生中作肯定回答的频率,因此可以认为性别与态度有关系.
零假设为H0:性别与态度相互独立.
根据小概率值α=0.05的独立性检验,我们推断H0不成立,即性别与态度有关系,该推断犯错误的概率不超过0.05.