8.3 列联表与独立性检验
8.3.1 分类变量与列联表
一、教学内容与内容解析
内容:分类变量的概念、2×2列联表、等高条形图
内容解析:
引入分类变量的必要性:在当今大数据时代和“互联网 + ”的大背景下, 本节课对提升学生的数据分析素养和提高学生的信息处理能力起到一个至关重要的作用. “独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的. 因此,教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即利用随机抽样获得一定的样本数据,再利用随机事件发生的频率稳定于概率的原理,求出相关概率进行比较,或借助更加直观的方法—等高条形图, 为后续引出相对更精确的解决办法——独立性检验做铺垫.
分类变量:分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等. 教材首先举例说明了前面两节讨论的变量都是数值变量, 通过数值变量与分类变量的对比,引出分类变量.从而引出我们本节课主要讨论分类变量的关联性问题.
2×2列联表:实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 教材通过举例的方法介绍了什么是2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
等高条形图:教材介绍了如何通过不同的统计软件绘制等高条形图,并让学生感受利用等高堆积条形图可以更加直观地展示分类变量的关联性.
教学重点:
通过案例的分析研究,展现统计中数据分析的全过程.
让学生体会分析分类变量关联性的方法,并意识到这种分析得到的结果有可能是错误的.
二、教学目标与目标解析
目标:
(1)了解分类变量与数值变量的区别.
(2)了解回归与相关的区别.
(3)通过实例,理解通过比较相关比率,利用2×2列联表或等高图可以初步检验两个随机变量的独立性.
(4)通过对建立回归分析模型步骤的回忆,获得分析统计案例的一般性过程;能够将研究统计案例的一般化步骤应用到新的统计案例中.
(5)理解通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误.
目标解析:
达成上述目标的标志分别是:
(1)会判断一个变量是否是分类变量、是否是数值变量.
(2)面对不同的数据分析案例,知道什么时候用回归分析,什么时候用相关分析.
(3)会通过比较相关比率,判断两个随机变量的独立性.
(4)会对简单的数据分析案例进行初步独立性分析.
(5)明白通过比较相关比率判断随机变量独立性得到的结果有可能会犯错误,为下节课独立性检验做准备.
三、教学问题诊断解析
问题诊断
(1)回归和相关的区别是初学者容易感到迷惑的地方.也是本章内容的重点,我们要从课前预习、课中设问、课后反思的不同学习阶段突出重点、突破难点.
(2)通过频率分析法和图形分析法,得到的结论有可能是错误的,是同学们的理解难点,这里通过合理设问突破难点.
教学难点
分析清楚回归与相关的区别.
四、教学支持条件分析
本节课研究的是2019人教A版《普通高中教科书·数学 (选择性必修·第三册)》第八章“成对数据的统计分析”,第三节“列联表与独立性检验”的内容,是在前面学生学习的《普通高中教科书· 数学(必修·第二册)》(第九章“统计”) 中的统计知识的进一步应用, 并与本册教材前面提到的事件的独立性一节关系紧密. 本节课是在学生学习完回归分析之后的内容,所以可以将上一节课的统计研究方法进行总结,并应用到本节课的统计案例中来.
五、教学过程设计
引导语 在现实生活中,人们经常需要回答例如吸烟是否会增加患肺癌的风险,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别等等这样一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案.
概念解析1
数值变量:是说明事物数字特征的一个名称,其取值是数值型数据.其大小和运算都有实际意义,如人的身高、树的胸径、树的高度等.
分类变量:是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或“女”;“行业”也是一个分类变量,其变量值可以为“零售业”、“旅游业”、“汽车制造业”等.
补充 1:分类变量的取值可以用实数表示,例如,男性、女性可以用1,0表示,在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
补充 2:前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.
补充3:回归分析法和相关分析法是统计学中的两种重要方法,前者用于由一个变量的变化去推测另一个变量的变化,通常用于数值变量的研究,后者研究随机变量之间的相关关系,通常用于分类变量的研究.
[设计意图]理解数值变量与分类变量的区别对理解回归分析法与相关分析法的区别起着至关要的作用,概念解析1的设计意图即是帮助理解回归分析法与相关分析法的区别,为突破这一教学难点做铺垫.
问题探究1
问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
补充4:这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设=, =
那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到=≈0.633, =. 由f1 - f0 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.
所以该校的女生和男生在体育锻练的经常性方面有差异,而且男生更经常锻炼.
[设计意图]给出本节课第一个重点,判断两个分类变量之间关联关系的方法1—频率分析法.
补充5:除此之外,上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法.
用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以Ω为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,
分别令,,
“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);
“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).
我们希望通过比较条件概率P(Y=1|X=0和P(Y=1|X=1回答上面的问题.按照条概率的直观解释,
如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).
为了清楚起见,我们用表格整理数据
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有
P(Y=1|X=0)==≈0.633;P(Y=1|X=1)==≈0.787
由P(Y=1|X=1)>P(Y=1|X=0),可以做出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
[设计意图]给出本节课第二个重点,判断两个分类变量之间关联关系方法1的另外一种表述方法—使用条件概率的语言,给出解答.
概念解析2
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingency table).
2×2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;
最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;
中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;
右下角格中的数是样本空间中样本点的总数.
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
[设计意图]给出本节课第三个重点,举例说明什么是2×2列联表.
典例解析
例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:,,
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
我们将所给数据整理成表(单位:人)
表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;
甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为≈0.7674和≈ 0.2326;
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为≈ 0.8444和≈ 0.1556
[设计意图]
(1)巩固判断两个分类变量之间关联关系的方法1—频率分析法.
(2)引出判断两个分类变量之间关联关系的方法1—图形分析法.
(3)由于频率和概率之间存在误差,所以此例题可以说明方法一的局限性,为引出第二节课,独立性检验做铺垫.
补充6.我们可以用等高堆积条形图直观地展示上述计算结果,如图所示
上边绿色和粉色条的长度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率;下边绿色和粉色条的长度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率,由此可以直观地看出,甲校学生数学成绩的优秀率比乙校学生的高.
通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1).
也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
[设计意图]给出本节课重点,判断两个分类变量之间关联关系的方法1—图形分析法.
补充7.如何画出等高堆积条形图?
根据教材提示,用R软件及Excel软件得到等高条形图,这里给同学们展示如何通过Excel软件画出等高条形图.
[设计意图]提高学生Excel软件应用能力.
5总结:两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.如可以通过列联表中值的大小粗略地判断分类变量X和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
【设计意图】总结本节课重点,为引出下节课做准备.
问题探究2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
有可能
因为“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大. 因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
后面,我们将讨论犯这种错误的概率大小问题. 学习“独立性检验”.
【设计意图】引发学生思考,承前启后.
六、板书设计
一、概念:数值变量 分类变量 2×2列联表 等高堆积条形图 二、两个分类变量之间关联关系的定性分析的方法: (1)频率分析法 (2)图形分析法 探究一: 例一:(规范解答)
七、目标检测设计
检测 1 如图列联表中,的值分别为( )
总计
23 48
总计 78 121
A.54,43 B.53,43 C.53,42 D.54,42
检测 2 假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表如下:
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
在下列数据中,对同一样本能说明X与Y有关的可能性最大的一组为( )
A.a=5,b=7,c=6,d=5 B.a=5,b=7,c=8,d=6
C.a=8,b=7,c=5,d=6 D.a=7,b=6,c=5,d=7
[设计意图]检测 1、2 考查学生对2×2列联表的掌握情况. 观察2×2列联表的结构特征,为后续学习独立性检验做铺垫.
检测 3观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是( )
A. B.
C. D.
检测 4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男 女学生意愿的一份样本,制作出如下两个等高堆积条形图:
根据这两幅图中的信息,下列哪个统计结论是不正确的( )
A.样本中的女生数量多于男生数量
B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量
C.样本中的男生偏爱两理一文
D.样本中的女生偏爱两文一理
[设计意图]检测 3、4考查学生对等高条形图的理解及在判断相关关系的应用.
检测 5: 某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
超过 不超过
第一种生产方式
第二种生产方式
[设计意图]综合应用
知识拓展:思考回归和分析的区别?举例什么时候用回归分析,什么时候用独立性分析?
实践应用:如何判断吸烟和患肺癌之间的相关关系?