(共17张PPT)
8.3列联表与独立性检验
8.3.1 分类变量与列联表
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.
新课引入
在讨论上述问题时,为了表述方便,
经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
分类变量:用实数表示不同的现象或性质.
本节主要讨论取值于{0,1}的分类变量的关联性
如:班级:1、2、3, 男生、女生:0、1.
问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗
新课引入
最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,设
=, =
由所给的数据,经计算得到=≈0.633, =.
由 f1-f0 0.787-0.633=0.154
可知,男生经常锻炼的比率比女生高出15.4个百分点.
所以,该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼.
新课引入
用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以Ω为样本空间的古典概型,并定义一对分类变量X和Y如下:
对于Ω中的每一名学生,分别令
,,
如果从该校女生和男生中各随机选取一名学生,那么
该女生属于经常锻炼群体的概率是P(Y=1|X=0),
该男生属于经常锻炼群体的概率是P(Y=1|X=1).
“性别对体育锻炼的经常性没有影响”可以描述为
“性别对体育锻炼的经常性有影响”可以描述为
P(Y=1|X=0)=P(Y=1|X=1);
P(Y=1|X=0)≠P(Y=1|X=1).
学习新知
用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有
由P(Y=1|X=1)>P(Y=1|X=0)可以作出判断,
P(Y=1|X=0)==≈0.633
P(Y=1|X=1)==≈0.787
为了清楚起见,我们用表格整理数据
在该校的学生中,性别对体育锻炼的经常性有影响,
即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。
分类变量X和Y的抽样数据的2×2列联表:
2×2列联表给出成对分类变量数据的交叉分类频数
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X
2×2列联表的概念
学习新知
按研究问题的需要,将数据分类统计,并做成表格加以保存,这种形式的数据统计表称为列联表。
以下表为例,它包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;
中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数。
对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.
在这种情况下,比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。
例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:
88
17
71
合计
45
7
38
乙校(X=1)
43
10
33
甲校(X=0)
优秀(Y=1)
不优秀(Y=0)
合计
数学成绩
学校
典例分析
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为
可以用等高堆积条形图直观地展示上述计算结果:
通过比较发现,两个学校学生抽样数据中数学成
绩优秀的频率存在差异,甲校的频率明显高于乙校
的频率.依据频率稳定于概率的原理,我们可以推
断那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
有可能
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
独立性检验方法
1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联,你能举出更多的描述生活中两种属性或现象之间关联的成语吗
2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率 为什么
巩固练习
水涨船高、登高望远
不能.
因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.
在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,
这种推断可能犯错误,因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率。
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么
(1)吸烟是否对每位烟民一定会引发健康问题
(2)有人说吸烟不一定引起健康问题,因此可以吸烟,这种说法对吗
巩固练习
3.(1)从已掌握的知识来看,吸烟会损害身体的健康。但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果,吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者,因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.
(2)这种说法不正确,虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
4.(1)根据列联表中的数据,计算得女生中不经常锻炼和经常锻炼的频率分别为=0.25和=0.75. 男生中不经常锻炼和经常锻炼的频率=0.25和=0.75通过对比发现,女生中不经常锻炼和经常锻炼的频率与男生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1).因此,可以认为性别对体育锻炼的经常性没有影响.
(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误。
4.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如右的列联表:单位:人
性别 数学成绩 合计
不经常(Y=0) 经常 (Y=1) 女生(X=0) 5 15 20
男生(X=1) 6 18 24
合计 11 33 44
(1)据此推断性别因素是否影响学生锻炼的经常性;
(2)说明你的推断结论是否可能犯错,并解释原因
巩固练习
5.下列关于等高堆积条形图的叙述正确的是( )
A.从等高堆积条形图中可以精确地判断两个分类变量是否有关系
B.从等高堆积条形图中可以看出两个变量频数的相对大小
C.从等高堆积条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
C
6.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
D
巩固练习
y1 y2 总计
x1 a 21 73
x2 2 25 27
总计 b 46
7.下面是一个2×2列联表:
则表中a、b处的分别为( )
A.94,96
B.52,50
C.52,54
D.54,52
巩固练习
C
8.假设有两个变量x与y的2×2列联表如下表:
B
2.2×2列联表
课堂小结
3.两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:
(2)图形分析法:
1.分类变量
n=a+b+c+d
b+d
a+c
合计
c+d
d
c
X=1
a+b
b
a
X=0
Y=1
Y=0
合计
Y
X