8.3.1 分类变量与列联表
1. 了解分类变量的意义.
2. 通过实例,理解2×2列联表的统计意义.
3. 能通过等高堆积条形图分析两个分类变量之间的关系.
活动一 分类变量及2×2列联表
1. 情境导学
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
2. 基本概念
(1) 分类变量:
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
问题:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
思考1
你能用随机变量和古典概型及条件概率的语言解释上述问题吗?
(2) 列联表:
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)如下:
y1 y2 合计
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
例1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生. 通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀. 试分析两所学校中数学成绩优秀率之间是否存在差异.
利用统计数据表格判断两个分类变量之间的关联性,主要通过比率来判断.
在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
分数段 [29,40) [40,50) [50,60) [60,70) [70,80) [80,90) [90,100)
午休考生人数 23 47 30 21 14 31 14
不午休考生人数 17 51 67 15 30 17 3
(1) 根据上述表格完成列联表:
及格人数 不及格人数 合计
午休
不午休
合计
(2) 根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
活动二 等高堆积条形图
思考2
能否用等高堆积条形图直观地展示例1中的计算结果?
例2 在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )
A. 与 B. 与
C. 与 D. 与
1. 等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
2. 观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
观察下列各图,其中两个分类变量x,y之间关系最强的是( )
1. 为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如图所示的等高条形图,根据图中的信息,则下列结论中不正确的是( )
A. 样本中多数男生喜欢手机支付
B. 样本中的女生数量少于男生数量
C. 样本中多数女生喜欢现金支付
D. 样本中喜欢现金支付的数量少于喜欢手机支付的数量
2. 下面是一个2×2列联表:
y1 y2 合计
x1 a 21 73
x2 2 25 27
合计 b 46
则表中a,b的值分别为( )
A. 94,96 B. 52,50 C. 52,54 D. 54,52
3. (多选)为了调查A,B两种药物预防某种疾病的效果,某研究所进行了动物试验.已知参与两种药物试验的动物的品种、状态、数量均相同,图1是A药物试验结果对应的等高堆积条形图,图2是B药物试验结果对应的等高堆积条形图,则下列说法中正确的是( )
图1 图2
A. 服用A药物的动物的患病比例低于未服用A药物的动物的患病比例
B. 服用A药物对预防该疾病没有效果
C. 在对B药物的试验中,患病动物的数量约占参与B药物试验动物总数量的60%
D. B药物比A药物预防该种疾病的效果好
4. 下表是不完整的2×2列联表,其中3a=c,b=2d,则a=________.
y1 y2 合计
x1 a b 55
x2 c d
合计 120
5. 某学校对高三学生作了一项调查,发现在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
8.3.1 分类变量与列联表
【活动方案】
问题:直接计算出经常锻炼的女生占所有女生的比率,及经常锻炼的男生占所有男生的比率,两个值一比较,就能看出其差异.
思考1:用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体.考虑以Ω为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令X= Y=
我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题. 按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1). 因此,“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);而“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).
为了清楚起见,我们用表格整理数据,如下表所示.
单位:人
性别 锻炼 合计
不经常 (Y=0) 经常 (Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1 124
我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件. 根据古典概型和条件概率的计算公式,我们有P(Y=1|X=0)==≈0.633,P(Y=1|X=1)==≈0.787.
由P(Y=1|X=1)大于P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
例1 用Ω表示两所学校的全体学生构成的集合. 考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:
X=Y=
我们将所给数据整理成下表:
单位:人
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的频数;最后一列的前两个数分别是事件{X=0}和{X=1}的频数;中间的四个格中的数是事件{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数是样本容量.
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为≈0.767 4 和≈0.232 6;
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为≈0.844 4和≈0.155 6.
依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1). 也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率. 因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
跟踪训练 (1) 根据题表中数据可以得到列联表如下:
及格人数 不及格人数 合计
午休 80 100 180
不午休 65 135 200
合计 145 235 380
(2) 计算可知,午休的考生及格率为P1==,不午休的考生的及格率为P2==,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
思考2:等高堆积条形图如下:
例2 C 由等高条形图可知与的值相差越大,论述成立的可能性就越大.
跟踪训练 D 在四幅图中,D图中阴影部分的高相差最明显,说明两个分类变量之间关系最强.
【检测反馈】
1. C 对于A,由右图可知,样本中多数男生喜欢手机支付,故A正确;对于B,由左图可知,样本中的男生数量多于女生数量,故B正确;对于C,由右图可知,样本中多数女生喜欢手机支付,故C错误;对于D,由右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,故D正确.
2. C 由得
3. AD 根据图1两组等高堆积条形图,可知服用A药物的动物的患病比例低于未服用A药物的动物的患病比例,故A正确;服用A药物未患病的动物的频率明显大于未服用A药物的,所以可以认为服用A药物对预防该疾病有一定效果,故B不正确;在对B药物的试验中,患病动物的数量占参与B药物试验动物总数量的比例为×100%=30%<60%,故C不正确;B药物试验结果对应的等高堆积条形图显示未服用药与服用药动物的患病数量的差异较A药物试验的大,所以B药物比A药物预防该种疾病的效果好,故D正确.故选AD.
4. 15 由题意,得又3a=c,b=2d,所以解得a=15.
5. 作2×2列联表如下:
性格内向 性格外向 合计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
合计 426 594 1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张的样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.