8.3 列联表与独立性检验
课时1 分类变量与列联表
【学习目标】 1.了解探究分类变量之间的关系的方法.(数学抽象、数据分析) 2.能利用条形图、列联表探究两个分类变量的关系.(直观想象、数据分析)
【自主预习】
1.什么是分类变量
2.什么是2×2列联表
3.2×2列联表的用途是什么
4.等高堆积条形图与表格相比有哪些优点
1.判断下列结论是否正确.(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数的变量是同一概念. ( )
(2)等高堆积条形图可初步分析两分类变量是否有关系. ( )
(3)分类变量的取值可以用实数表示. ( )
2.观察下列各图,其中两个分类变量x,y之间关系最强的是( ).
A B
C D
3.下面是2×2列联表,
X Y 合计
y1 y2
x1 a 21 73
x2 2 25 27
合计 b 46 100
则表中a= ,b= .
【合作探究】
2×2列联表
问题1:饮用水的质量是人类普遍关心的问题.根据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.请问人的身体健康状况与饮用水的质量之间有关系吗
问题2:请举出2个有关分类变量的实例,并表示分类变量.
问题3:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼,601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗
1.2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},将同时符合(x1,y1),(x2,y1),(x1,y2),(x2,y2)的个体数量排列成一个2×2的表格,这种形式的数据统计表称为2×2列联表.
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
2.2×2列联表给出了成对分类变量数据的交叉分类频数.
在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁及以上的有70人,六十岁以下的有54人.六十岁及以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的2×2列联表,并利用与判断二者是否有关系.
【方法总结】利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据列出2×2列联表,然后根据频率特征,即将与或与的值进行比较,这能直观地反映出两个分类变量间是否相互影响,但方法较粗略.
下表是关于男婴与女婴出生时间的2×2列联表:
性别 时间 合计
晚上 白天
男 45 A B
女 E 35 C
合计 98 D 180
那么,A= ,B= ,C= ,D= ,E= .
等高堆积条形图
如图,这是调查某学校高一、高二年级学生参加社团的等高堆积条形图.已知该校高一、高二年级的学生人数均为600(所有学生都参加了调查).
问题1:根据等高堆积条形图,你能得到参加社团的高一和高二学生人数的什么信息
问题2:现从参加社团的学生中按分层随机抽样的方式抽取45人,则抽取的高二学生人数是多少
1.等高堆积条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示2×2列联表数据的频率特征.
2.观察等高堆积条形图,若发现和相差很大,则可以判断两个分类变量之间有关系.
为了了解铅中毒病人与尿棕色素为阳性是否有关系,分别对铅中毒病人和对照组的尿液做尿棕色素定性检查,结果如下:
尿液 尿棕色素 合计
阳性 阴性
铅中毒病人 29 7 36
对照组 9 28 37
合计 38 35 73
试画出2×2列联表的等高堆积条形图,分析铅中毒病人和对照组的尿棕色素阳性的频率有无差别,判断铅中毒病人与尿棕色素为阳性是否有关系.
【方法总结】利用等高堆积条形图判断两个分类变量是否相关的步骤:
为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人进行调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用2×2列联表和等高堆积条形图判断中学生学习成绩与是否经常上网有关.
【随堂检测】
1.在统计学中,研究两个分类变量是否存在关联性时,常用的图表有( ).
A.散点图和残差图
B.残差图和列联表
C.散点图和等高堆积条形图
D.等高堆积条形图和2×2列联表
2.为了考察A,B两种药物对某疾病的预防效果,进行了动物实验,分别得到如下等高堆积条形图.根据图中信息,下列说法正确的是( ).
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
3.某艺术馆为了研究学生性别和学生是否喜欢国画之间的联系,随机抽取了80名学生(男生50名、女生30名)进行调查,并将调查结果绘制成如图所示的等高堆积条形图,则这80名学生中喜欢国画的人数为 .
4.吃零食是在中学生中普遍存在的现象,吃零食对中学生的身体发育有诸多不利的影响.下表所示的是性别与是否喜欢吃零食的2×2列联表:
是否喜欢吃零食 性别 合计
男 女
喜欢吃零食 5 12 17
不喜欢吃零食 40 28 68
合计 45 40 85
试用等高堆积条形图分析性别与是否喜欢吃零食有关系.
参考答案
8.3 列联表与独立性检验
课时1 分类变量与列联表
自主预习·悟新知
预学忆思
1.为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
2.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},将同时符合(x1,y1),(x2,y1),(x1,y2),(x2,y2)的个体数量排列成一个2×2的表格,这种形式的数据统计表称为2×2列联表.
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
3.2×2列联表主要用于研究两个事件之间是相互独立的还是存在某种关联性,它适用于分析两个事件之间的关系.
4.等高堆积条形图与表格相比,等高堆积条形图更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列表数据的频率特征.
自学检测
1.(1)× (2)√ (3)√
2.D 【解析】观察等高堆积条形图,易知D选项中两个深色条的高度相差最明显,说明两个分类变量之间关系最强.
3.52 54 【解析】由列联表可知,a=73-21=52,b=a+2=52+2=54.
合作探究·提素养
探究1 情境设置
问题1:有关系.我们可以根据2×2列联表来判断人的身体健康状况与饮用水的质量之间的关系.
问题2:分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义.
问题3:能.为了方便,我们设f0=,f1=.
那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否存在差异.由所给的数据,计算得到f0=≈0.633,f1=≈0.787.
由f1-f0≈0.787-0.633=0.154,可知男生经常锻炼的比率比女生的高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
新知运用
例1 【解析】2×2列联表如下:
饮食习惯 年龄 合计
六十岁 及以上 六十岁 以下
饮食以蔬菜为主 43 21 64
饮食以肉类为主 27 33 60
合计 70 54 124
将表中数据代入公式得==0.671 875,==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
巩固训练 47 92 88 82 53 【解析】由2×2列联表得
解得
探究2 情境设置
问题1:根据等高堆积条形图可知,参加社团的高一和高二的学生人数之比为2∶3.
问题2:根据等高堆积条形图可知,参加社团的高一和高二的学生人数之比为2∶3,由分层随机抽样的性质可得,抽取的高二学生人数为45×=27.
新知运用
例2 【解析】等高堆积条形图如图所示:
其中两个斜条纹小矩形的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出,铅中毒病人和对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
巩固训练 【解析】根据题目所给的数据得到如下2×2列联表:
学习成绩 是否经常上网 合计
经常 不经常
不及格 80 120 200
及格 120 680 800
合计 200 800 1 000
等高堆积条形图如图所示:
比较图中阴影部分的高度可以发现经常上网中不及格的频率明显高于经常上网中及格的频率,因此可以认为中学生学习成绩与是否经常上网有关.
随堂检测·精评价
1.D 【解析】散点图研究的是两个变量间的关系,2×2列联表研究的是两个分类变量之间是否有关联,残差图体现的是预测值与观测值间的差距,等高堆积条形图能直观地反映两个分类变量的关系.
故选D.
2.B 【解析】根据两个表中的等高堆积条形图知,药物A实验结果显示未服用药与服用药时的患病差异较药物B实验结果显示的大,故药物A的预防效果优于药物B的预防效果.
3.58 【解析】由等高堆积条形图可知,男生中喜欢国画的占80%,女生中喜欢国画的占60%,
则这80名学生中喜欢国画的人数为50×80%+30×60%=58.
4.【解析】根据2×2列联表所给的数据,可得出男生中喜欢吃零食的频率为≈0.11,女生中喜欢吃零食的频率为=0.3,两者差距是|0.3-0.11|=0.19,两者相差较大.作出等高堆积条形图,如图所示,比较图中两个深色条形的高度可以发现,女生中喜欢吃零食的频率明显高于男生中喜欢吃零食的频率,因此可以认为性别与是否喜欢吃零食有关系.8.3 列联表与独立性检验
课时2 独立性检验
【学习目标】 1.通过实例,理解2×2列联表的统计意义.(数据分析) 2.理解独立性检验的基本思想及其实施步骤.(数学抽象、数学分析) 3.通过实例,了解2×2列联表、独立性检验及其应用.(数学分析、数学运算、数学建模)
【自主预习】
1.什么是独立性检验
2.独立性检验的计算公式是什么
3.独立性检验解决实际问题的主要环节有哪些
4.独立性检验与反证法的思想类似,那么独立性检验是反证法吗
1.判断下列结论是否正确.(正确的打“√”,错误的打“×”)
(1)独立性检验的方法就是反证法. ( )
(2)独立性检验中χ2的取值可通过统计表从数据上说明两分类变量的相关性的大小. ( )
(3)事件A与B的独立性检验无关,即两个事件互不影响. ( )
(4)χ2的大小是判断事件A与B是否相关的统计量. ( )
2.下列选项中,可以有95%以上的把握认为“A与B有关系”的χ2的值是( ).
A.2.700 B.2.710 C.3.765 D.5.014
3.为了调查一线城市和非一线城市的育龄妇女的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
二孩生育意愿 城市级别 合计
非一线 一线
愿生 45 20 65
不愿生 13 22 35
合计 58 42 100
由χ2=,n=a+b+c+d,
得χ2=≈9.616.
参照下表:
α 0.1 0.05 0.01 0.001
xα 2.706 3.841 6.635 10.828
根据小概率值α=0.01的独立性检验,可以得到的结论是 .
4.某校对学生课外活动进行调查,结果整理成下表:
性别 课外活动 合计
喜欢体育 喜欢文娱
男生 21 23 44
女生 6 29 35
合计 27 52 79
试根据小概率值α=0.005的独立性检验,分析喜欢体育还是文娱与性别是否有关系.
参考公式:χ2=,n=a+b+c+d.
α 0.100 0.050 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【合作探究】
独立性检验
高中流行这样一句话:文科就怕数学不好,理科就怕英语不好.以下是一次针对高三文科学生成绩的调查所得的数据:
数学成绩 总成绩 合计
总成绩好 总成绩不好
数学成绩好 478 a 490
数学成绩不好 399 24 423
合计 b c 913
问题:你能求出表中a,b,c的值吗 由表中的数据,能否认为文科学生总成绩不好与数学成绩不好有关系.
1.零假设
设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.我们希望判断事件{X=1}和{Y=1}之间是否有关联.注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,我们需要判断下面的假定关系,H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设.
2.χ2的计算公式
设X和Y的2×2列联表如下:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d a+b+c+d
则χ2=,n=a+b+c+d.
为了了解某班学生喜爱打篮球是否与性别有关,对本班45人进行了问卷调查,得到了如下的2×2列联表:
性别 是否喜爱打篮球 合计
喜爱打篮球 不喜爱打篮球
男 5
女 5
合计 45
已知从45人中随机抽取1人,是男同学的概率为.
(1)请将上面的2×2列联表补充完整;
(2)根据小概率值α=0.001的独立性检验,分析喜爱打篮球是否与性别有关.
参考公式:χ2=,n=a+b+c+d.
α 0.100 0.050 0.010 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【方法总结】这类问题的解决方法:先确定a,b,c,d,n的值并求出χ2的值,再与临界值相比较,作出判断,解题时注意正确运用公式,代入数据准确计算.
为了调查观众对某电影结局的满意程度,研究人员在某电影院随机抽取了1 000名观众作调查,所得结果如下表所示,其中不满意该电影的结局的观众占被调查观众总数的.
对该电影的结局 的满意程度 性别 合计
男 女
满意 400
不满意 200
合计
(1)完善上述2×2列联表.
(2)依据α=0.001的独立性检验,分析观众对该电影结局的满意程度与性别是否有关.
附:χ2=,n=a+b+c+d.
α 0.100 0.050 0.010 0.001
xα 2.706 3.841 6.635 10.828
独立性检验的应用
问题1:当χ2≥3.841时,认为事件A与B有关,此推断犯错误的概率不超过多少
问题2:在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.我们是否可以判定100个心脏病患者中一定有打鼾的人
1.临界值
根据小概率事件在一次试验中不大可能发生的规律,确定χ2大小的标准来推断H0是否成立可以通过确定一个与H0相矛盾的小概率事件来实现.在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了χ2的近似分布.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.
我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.当总体很大时,抽样有、无放回对χ2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由P(χ2≥xα)=α可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件{χ2≥xα}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.
2.独立性检验
基于小概率值α的检验规则:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
为了了解某市创建文明城市过程中,学生对创建工作的满意情况,相关部门对某中学的100名学生进行调查,其中有50名男生对创建工作表示满意,有15名女生对创建工作表示不满意.已知在全部100名学生中随机抽取1人,其对创建工作表示满意的概率为.是否有充足的证据说明学生对创建工作的满意情况与性别有关
附:χ2=,n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【方法总结】独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设“两个分类变量没有关系”,在该假设下我们构造的统计量χ2应该很小,若用观测数据计算的统计量χ2很大,则在一定程度上说明假设不合理.由χ2与临界值的大小关系作出判断.
为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),整理得下表:
PM2.5 SO2
[0,50] [0,150] (150,475]
[0,35] 32 18 4
(35,75] 6 8 12
(75,115] 3 7 10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
PM2.5 SO2 合计
[0,150] (150,475]
[0,75]
(75,115]
合计
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
附:χ2=,n=a+b+c+d.
α 0.050 0.010 0.001
xα 3.841 6.635 10.828
【随堂检测】
1.在某次飞行航程中,因遭遇恶劣气候,机内55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( ).
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
2.某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过( ).
A.0.1% B.1% C.99% D.99.9%
3.两个分类变量X和Y的值域分别为{x1,x2}和{y1,y2},在2×2列联表中,其样本频数分别是a=10,b=21,c+d=35.若X与Y有关系的可信程度不小于97.5%,则c=( ).
A.3 B.4 C.5 D.6
附:
α 0.05 0.025
xα 3.841 5.024
4.某高校《统计初步》课程的教师随机调查了选该课的学生的一些情况,得到如下2×2列联表:
性别 专业 合计
非统计专业 统计专业
男 13 10 23
女 7 20 27
合计 20 30 50
则χ2≈ (结果保留三位小数),在犯错误的概率不超过 的前提下认为学生主修统计专业与性别有关.
参考答案
课时2 独立性检验
自主预习·悟新知
预学忆思
1.利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.χ2=,其中n=a+b+c+d.
3.(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y之间的影响规律.
4.不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.
自学检测
1.(1)× (2)√ (3)× (4)√
2.D 【解析】χ2=5.014>3.841,故D正确.
3.二孩生育意愿与城市级别有关 【解析】因为χ2≈9.616>6.635,
所以根据小概率值α=0.01的独立性检验,可以得到的结论是二孩生育意愿与城市级别有关.
4.【解析】零假设为H0:喜欢体育还是文娱与性别没有关系.
∵a=21,b=23,c=6,d=29,n=79,
∴χ2=
=≈8.106>7.879=x0.005.
根据小概率值α=0.005的独立性检验,推断H0不成立,即认为喜欢体育还是文娱与性别有关.
合作探究·提素养
探究1 情境设置
问题:a=490-478=12,b=478+399=877,c=a+24=12+24=36.
零假设为H0:文科学生的总成绩与数学成绩的好坏无关系.
根据表中数据,计算得到χ2=≈6.233>3.841,
根据小概率值α=0.05的独立性检验,推断H0不成立,
即认为文科学生总成绩不好与数学成绩不好有关系.
新知运用
例1 【解析】(1)根据题意,男同学有45×=25(人),补充2×2列联表如下:
性别 是否喜爱打篮球 合计
喜爱打篮球 不喜爱打篮球
男 20 5 25
女 5 15 20
合计 25 20 45
(2)零假设为H0:喜爱打篮球与性别无关.
根据表中数据,计算χ2==≈13.613>10.828,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为喜爱打篮球与性别有关.
巩固训练 【解析】(1)不满意该电影结局的观众的人数为1 000×=300,
完善表格中的数据,如下表所示:
对该电影的结局 的满意程度 性别 合计
男 女
满意 400 300 700
不满意 100 200 300
合计 500 500 1 000
(2)零假设为H0:观众对该电影结局的满意程度与性别无关.
根据表中数据,计算χ2=≈47.619>10.828,
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为观众对该电影结局的满意程度与性别有关.
探究2 情境设置
问题1:由临界值表可知,当χ2≥3.841时,认为事件A与B有关,此推断犯错误的概率不超过0.05.
问题2:这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”,这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知100个心脏病患者中可能一个打鼾的人都没有.
新知运用
例2 【解析】由题意得2×2列联表如下:
性别 满意情况 合计
满意 不满意
男 50 5 55
女 30 15 45
合计 80 20 100
零假设为H0:学生对创建工作的满意情况与性别无关.
根据表中的数据,计算得到χ2=≈9.091>6.635,
根据小概率值α=0.01的独立性检验,我们推出H0不成立,即认为学生对创建工作的满意情况与性别有关.
巩固训练 【解析】(1)根据抽查数据,该市100天里空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据所给数据,可得如下2×2列联表:
PM2.5 SO2 合计
[0,150] (150,475]
[0,75] 64 16 80
(75,115] 10 10 20
合计 74 26 100
(3)根据2×2列联表中的数据可得χ2=≈7.484.
由于7.484>6.635=x0.010,根据小概率值α=0.010的独立性检验,有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
随堂检测·精评价
1.C 【解析】根据题意,结合题目中的数据,列出2×2列联表,计算χ2的值,对照临界值表可得出概率结论,这种分析数据的方法是独立性检验.
2.B 【解析】∵χ2=7.069>6.635=x0.01,
∴认为“学生性别与支持某项活动有关系”的犯错误的概率不超过1%.
3.A 【解析】2×2列联表如下:
X Y 合计
y1 y2
x1 10 21 31
x2 c d 35
合计 10+c 21+d 66
故χ2=≥5.024.把选项A,B,C,D分别代入验证,可知选A.
4.4.844 0.05 【解析】χ2=≈4.844>3.841,
故在犯错误的概率不超过0.05的前提下认为学生主修统计专业与性别有关.