《独立性检验》教学设计
一、内容和内容解析
1.内容
两个分类变量的独立性检验.
2.内容解析
独立性检验是研究随机变量独立性的一种统计方法.为了解总体中两个分类变量是否相互独立,可以从总体中抽取简单随机样本,整理成一个的列联表,独立性检验就是根据列联表检验两个分类变量是否相互独立.独立性检验本质上是一种概率推断,是一种依据概率进行“二中选一”的方法,即根据样本数据,在“:无实质差异”与“:有实质差异”这两种推断中选择其一.这是一种“概率反证法”,通过样本出现的事件是否属于小概率事件来判断总体假设的真伪.
独立性检验的数学基础是条件概率与独立事件概率的乘法公式,其推断步骤可分为:第一步,提出想要验证的假设,称为零假设;第二步,若假设不成立,则提出假设,称为对立假设;第三步,若假设成立,构造一个只有在小概率的情况下才能观察到的现象;第四步,依据样本数据确认是否观察到了现象;第五步,若能观察到现象的情况下,则推断假设是错误的,此时便可以拒绝,而选择假设;第六步,若能观察到现象,则无法拒绝假设,可选择假设.
因为独立性检验是检验假设而不是证明假设,所以推论会出现两类错误:第一类错误是拒绝了正确的零假设,犯第一类错误的概率是α;第二类错误是没有拒绝错误的零假设.独立性检验在犯第一类错误的概率和犯第二类错误概率之间作平衡,希望犯这两种错误的概率都尽可能地小,但减少第一类错误的概率就会增大犯第二类错误的概率.因为第二类错误对于样本量特别敏感,所以可以通过增加样本量降低犯第二类错误的概率.
独立性检验是从样本数据中发现关系,是成对样本数据统计分析的重要内容,是依据数据进行合理推理的典型方法,体现了数学的理性精神,也是提升数据分析和逻辑推理素养的重要素材.
基于以上分析,确定本节课的教学重点:独立性检验的基本思想和独立性检验的基本方法.二、目标和目标解析
1.目标
基于2×2列联表,通过实例了解独立性检验的基本思想,掌握独立性检验的基本步骤,会用独立性检验解决简单的实际问题,提升数据分析能力.
2.目标解析
达成上述目标的标志是:
(1)基于2×2列联表,能通过具体实例,解释通过条件概率分析两个分类变量独立性的方法以及能说明用于推断两个分类变量独立性的统计量构造的合理性;能说出基于小概率原则的独立性检验的基本思想,发展数据分析和逻辑推理素养.
(2)能说出独立性检验的基本步骤,并能用独立性检验方法解决简单的实际问题.
三、教学问题诊断分析
通过上一节课的学习,学生能根据列联表直观推断两分类变量的独立性,也知道这种推断有可能出现错误.在本节课中,通过引导,学生能将分类变量的独立性与事件的独立性联系起来,但要将独立性检验与一个小概率事件进行关联存在困难,这不仅是学生首次遇到这样的问题,更是从逻辑推理过渡到概率推理的统计思想的提升,这是本节课的第一个难点.第二个难点是关于小概率(显著性水平)的正确理解.如果从一个样本中能够观察到小概率事件发生,表明拒绝假设而接受假设这个结论发生错误的概率不超过,但不表明假设成立的概率超过.小概率是针对检验的样本的,并不是关于零假设的,零假设或者对或者错,永远只能是这二者之一,对于这样的结论的理解是比较困难的,这是造成学生对于独立性检验的结论认知困难的主要原因.第三个难点,在理解独立性检验的推断可能会犯错误,学生也可能存在接受上的困难.
为了突破学习上的障碍,教学中应从具体实例出发,创设一些生活化的问题情境引导教学,强调用分类变量的样本频率分布与理论分布的误差及频率稳定于概率的原理来构造小概率事件,通过举例、讨论、辩论等形式突破难点.
四、教学支持条件分析
对于本节课的教学难点,可借助Excel或软件模拟从总体中抽取简单随机样本.编制列联表和绘制频率等高堆积条形图等直观分析两个分类变量的独立性.可借助GeoGebra软件的统计功能,通过直观呈现分布的密度曲线,计算统计量的观测值,利用密度曲线确定临界值等,帮助理解独立性检验的思想.
五、教学过程设计
1.问题探究
引导语1:在现实问题中,我们常常需要推断两个分类变量之间是否存在关联.通过分类变量的样本观测数据,依据随机事件概率的稳定性可以推断两个变量之间是否有关联.通过上节课的学习我们已经知道,对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本量较少时犯错误的可能性会比较大.因此需要找到一种更为合理的推断方法,同时也希望能对出现的错误推断的概率有一定的控制或估计,这是本节课的主要任务.
设计意图:教师开门见山地提出学习任务,以任务驱动学习.
问题1:在上节课例1中,我们通过频率比较得到“两所学校学生的数学成绩优秀率存在差异”的结论,但由于数据的随机性,这一推断有可能是错误的.那么犯错误的概率有多大呢 如何从概率的角度去研究两个分类变量和是否有关联
师生活动:首先要做的工作是将问题数学化.要求学生用数学语言描述一下两个分类变量是否有关联,教师梳理总结:
设和为定义在样本空间上的两个分类变量,可设.例如,在这个问题中我们定义
我们希望判别的是性别因素是否影响学生的数学成绩,即事件与事件或事件是否有关联.
接着教师作进一步引导:通过列联表判断事件与事件或事件是否有关联,用概率语言表示,就是判断下面的关系是否成立:
.
其中表示从集合中随机先取一个样本点,该样本点属于的概率,而表示从集合中随机选取一个样本点,该样本点属于的概率.
教师指出,我们通过样本数据去推断两个变量是否有关联,有点类似法官凭证据判案.法官在判定一个嫌疑犯是否有罪前,应先作一个无罪假设.统计里在推断两个变量有关联前,也往往先作一个无关联的假定,即零假设.
设计意图:在独立性检验中,零假设是一个比较难以理解的概念.零假设既是研究的起始点,也是测量实际研究结果的基准.通过以法官判案为例,形象地解释零假设的含义,可以帮助学生突破难点.通过将问题抽象为以概率语言表达的数学问题,以提升学生的数学抽象素养.追问:请用条件概率的知识,分析零假设,给出分类变量和独立的定义.
师生活动:教师引导学生阅读教科书,并让学生说出自己的想法,在学生阅读、思考和讨论的基础上,教师再给出有条理的分析(具体过程见教科书),最后用概率语言将零假设改述为
:分类变量和独立.
设计意图:通过概率语言,经过严格的推理,将零假设中分类变量的无关联转化为分类变量的独立性,为后续利用概率知识推断是否独立打下基础.
引导语2:有了无罪假设后,法官需要去寻找证据.如果能够找到在无罪情况下不可能出现的物证,那么我们就可以否定无罪假设,从而证明嫌犯有罪.
在统计学中,我们通常要从样本数据中找证据,寻找证据的方法是构造一个统计量,并且了解它的统计特征,利用样本计算这个统计量的观测值.如果这个观测值不符合零假设成立时统计量的应有统计性质,那么我们就有理由相信不成立.
问题2:请根据分类变量和独立的定义及等价条件,利用列联表中的数据,构造一个用于推断两个分类变量是否独立的统计量.
师生活动:要求学生先将问题一般化(符号化),列联表如表1所示.
表1
追问(1):你能对这个分类变量和的抽样数据的列联表作一个解读吗
师生活动:通过追问(1)使学生了解:对于随机样本,表中的频数都是随机变量,相应数据是这些随机变量的一次观测结果,最后一行的前两个数分别是事件和的频数,最后一列的前两个数分别是事件和的频数,中间的四个数是事件的频数,右下角格中的数是样本量.
追问:依据频率稳定于概率的原理,你能构造一个能对分类变量和的独立性作出推断的统计量吗
师生活动:教师引导学生明确,构造出的统计量需要满足:
(1)这个统计量一定要与有关.
(2)基于及其等价条件.
(3)根据统计量值的大小能判断是否有利于零假设.
在以上原则下,可以先让学生阅读教科书,然后教师带领学生一起分析,逐步构造出统计量,并指出:当零假设成立的条件下,应该是一个很小的数.因为这个问题对于大多数学生而言都比较困难,所以必要时教师可以直接讲解.
教师可以向学生指出,英国统计学家卡尔 皮尔逊(KarlPearson,1857-1936)研究发现,在某些条件下统计量近似地服从一个自由度为1的卡方分布.
进一步地,教师在GeoGebra工具栏“视图”“自由度”中填入1,得到卡方分布密度曲线(如图),这条密度曲线给出了的概率.对于任何的小概率值,可以找到,使,我们称为的临界值.例如,可以求得.
设计意图:经历统计量的构造王程,体会根据观测值大小推断两个分类变量独立性的合理性.了解下方分布密度曲线和小概率原则,为学习独立性检验方法作准备.
追问(3):在假设下,如果通过简单随机样本计算的一个观测值.给定小概率值,你能根据统计量的构造过程得出怎样的结论
师生活动:提出问题后,让学生在GeoGebra的“概率统计”区,在“分布”菜单选择“卡方分布”,在最后一行,输入概率值,得到临界值,并据此进行推断.
设计意图:让学生通过GeoGebra等工具,直观演示卡方密度曲线来阐述统计量的统计性质,用概率语言描述一个统计推断,从而进一步理解独立性检验思想:任何一个统计推断都有可能犯错,若能将犯错的概率控制在可接受的范围内,我们就能接受这个推断,这就是独立性检验的基本思想.
追问(4):你能总结基于小概率值的检验规则吗
师生活动:教师引导学生进行总结,当时,我们就推断不成立,即认为和不独立,该推断犯错误的概率不超过;当时,我们没有充分证据推断不成立,即在小概率下没有发现充分的证据反对,所以我们可保持原有对两个变量关系的认识.在此基础上给出独立性检验的定义,并给出几个常用的小概率值和对应的临界值表.
设计意图:归纳提炼独立性检验的具体检验规则.
2.例题精析
例1 对于小概率,请说出以下式子的统计意义.
(1).
(2).
师生活动:学生自主完成,交流结论,教师点评.
例2 采用简单随机抽样的方法抽取甲、乙两校数学测试成绩,整理成列联表,如表2所示.
表2
依据小概率值的独立性检验,能否据此推断两校学生的数学成绩优秀率有差异
师生活动:(1)要求学生写出零假设.
(2)让学生利用GeoGebra解决问题,并给出详细解答,在此基础上进行交流,教师要通过纠正学生的表达,使学生掌握规范表达.
追问:在例2的解题过程中,按计算频率利画等高条形图得出的结论是两个学校学生的数学成绩优秀率存在差异,甲校学生的数学优秀率比乙校学生的高.基于同一组样本数据,采用独立性检验却得出了不同的结论,你能说明其中的原因吗
师生活动:让学生分组讨论,再进行班级交流,在此基础上再让学生阅读教科书,以印证自已的想法.
设计意图:通过具体问题,让学生掌握独立性检验的一般步骤和推断原理,要使学生理解到,在统计推断中,不同的统计方法会有不同的推断结论,也会发生推断错误.当我们接受零假设时,也可能犯错误,我们不知道犯这类错误的概率p的大小,但是知道,若越大,则p就越小.
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良,采用放回简单随机抽样的方法对治疗情况进行检查,得到如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值的独立性检验,分析乙种疗法是否比甲种疗法好.
师生活动:先让学生认真读题、分析题意,再分享自已的理解,在此基础上,要求学生利用统计软件独立完成解答.完成后再进行全班交流.
设计意图:通过具体实例,进一步熟悉独立性检验进行检验的方法和步骤,了解当独立性检验不显著时的推断原理.
追问:若对调两种疗法的位置或对调两种疗效的位置,则表达式中的赋值都会相应地改变,这样做会影响观测值的计算结果吗
师生活动:让学生在GeoGebra中调整行、列的位置,可以发现不改变观测值.
设计意图:从列联表的结构特征,进一步理解观测值.
例4 为研究吸烟是否与肺癌有关,某肿痛研究所采用放回简单随机抽样的方法调查了9965人,得到成对样本观测数据的分类统计结果,如表3所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌的风险.
表3
师生活动:要求学生先自主进行解题,然后让学生代表进行讲解.
追问:在吸烟与患肺癌相关的推断下,你能通过频率分析吸烟对患肺癌影响的规律吗?
师生活动:先利用表格中的数据计算吸烟者和不吸烟者中患肺癌的频率,分别为0.0228,
.教师组织学生分析,由可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
设计意图:当利用独立性检验推断两个变量相关时,可利用频率稳定于概率的原理,进一步利用概率分析变量间的影响程度.
3.归纳总结
教师引导学生回顾本节课所学内容,并让学生回答下列问题:
(1)回顾本节课的学习,请你总结应用独立性检验解决实际问题时大致包括几个主要环节
(2)独立性检验的思想类似于我们常用的反证法,你能指出两者之间的相同和不同之处吗
(3)你能说一说独立性检验的本质吗
师生活动:组织学生依次讨论这几个问题,教师适时点评、总结.
对于(1),根据上面例题的解决过程,师生共同总结出应用独立性检验解决问题的主要环节(见教科书).
对于(2),先让学生回顾什么是反证法,并与独立性检验思想进行比较,然后教师归纳.
对于(3),师生共同总结,独立性检验的本质是通过比较观测值与期望值之间的差异,来判断事件发生的概率大小.具体地,由所代表的这种差异的大小是通过确定的小概率值进行判断的,这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的思维方式.
设计意图:回顾学习过程,梳理知识体系,了解原理法则,体会思想方法.
4.布置作业
教科书第134页练习第1,2,3,4题,习题8.3第8题.
六、目标检测设计
想了解青少年喝牛奶对感冒发病率有没有影响,采用放回简单随机抽样的方法调查了2480人,得到成对样本观测数据的分类结果,如表4所示,依据小概率的独立性检验,分析喝牛奶对感冒发病率有无影响?若有影响,请分析喝牛奶和感冒发病率之间的规律.
表4
设计意图:考查学生运用2×2列联表,以及利用独立性检验解决简单实际问题的能力.
1 / 9