8.3.2 独立性检验教学设计
人教A版2019 选必3
一、教学内容、学情分析、教情分析
1.主要知识点内容解析
(1)统计最基本的思想:用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法.例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等.
(2)假设检验:统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.
(3)独立性检验的基本原理:根据观测值与期望值的差异的大小作出推断,这种差异由卡方统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.
(4)独立性检验的依据是小概率原理:即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.
2.学生学情分析
本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深人的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.
3.教材及教学过程分析
教材首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量和的零假设的两种严格的数学表述.然后结合列联表,给出了在零假设成立的前提下,构造卡方统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.
教材注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.
二、教学目标
1.知识与技能
通过频率与概率的比较探究,由条件概率分析事件独立性、频率的期望值与实际值之间的比较、构造卡方统计量、小概率事件原理等系列知识点了解独立性检验的基本思想,会对两个分类变量进行独立性检验,并能利用独立性检验的基本思想来解决实际问题.
2.过程与方法:
本节课在学生已了解列联表的基础上,通过探究分析列联表频率与独立事件的概率之间的联系引出两个分类变量独立判断的缺点,以及如何得到更加严谨科学的推断.通过条件概率的分析及逻辑推理,得到独立含义的全解,由频率的期望值与实际值之间的比较,恰当构造卡方统计量及利用小概率事件原理实现对两个分类变量的是否独立的科学检验.通过例2及例3学习并总结独立性检验的基本步骤及方法,比较独立性检验与反证法的区别与不同.
3.情感态度价值观:
通过本节课的学习,加强数学与现实生活的联系.以科学的态度评价两个分类变量有关系的可能性.培养学生运用所学知识,分析与解决实际问题的能力,体会主观感受结果与数学严谨推理结论之间的差异性.借用于GGB软件,体会数值变化对检验结果的影响,信息技术在数学统计中的科用应用与便捷性.
三、教学重点、难点、能力层次要求
重点:2×2列联表,独立性检验的思想和方法.
难点:卡方统计量的导出和意义,独立性检验的思想和方法.
课程标准对于本节内容能力层次要求:
①通过实例,理解2×2列联表的统计意义;
②通过实例,了解2×2列联表独立性检验及其应用;
本节结合具体实例,根据频率稳定到概率的原理及小概率原理,检验两个取值于的分类变量的独立性,了解独立性检验的思想方法,进一步提升学生的数据分析素养.
实现对卡方统计量的理解,要求学生对条件概率及独立事件有较好的理解,并具备一定的逻辑推理能力,这对于学生有挑战性.为突出本节课的重点,实际教学过程对卡方统计量的由构造到最终形式的推导没有给出完整的演算步骤,留予基础较好、兴趣较高、能力较强的同学们完成.
四、具体教学过程设计
1.问题引入及情境架设
(1)旧知回顾:在上一节课,我们学习了列联表,由随机事件的稳定性,了解并作出判断两个分类变量是否有关联,请同学们思考:用频率推断两个分类变量是否独立有什么缺点?
引导学生对频率与概率的比较,由频率具有随机性,与概率之间存在差异;
通过数据改变,由样本容量较小时,犯错误的概率较大.
(2)问题激发:有没有更合理的推断方法,同时也希望对出现的错误推断的概率一定的控制或估算?由概率知识分析,如果两个事件的独立,它们的充要条件是什么?
我们需要更好的方法弥补因频率的随机性带来判断两个分类变量的不可靠性,改进提高判断的结论科学性与稳定性.如何改进提高,先回头看独立事件,我们已知道,事件与事件独立的充要条件是,这与两个分类变量的频率之间又有什么样的联系呢?
2.教师引导分析与学生合作探究
我们将两个分类变量的列联表抽象简化,以0,1分别表示事件发生的两种结果,如下表所示,独立的另一层含义,即我们需要了解事件与是否存在关联?
我们知道与不独立,互为对立事件,与不独立,互为对立事件.
我们需要判断下面的假定关系:是否成立?
通常称为零假设或原假设(nullhypothesis).
这里,表示从中随机选取一个样本点,该样本点属于的概率;而表示从中随机选取一个样本点,该样本点属于的概率.
由条件概率的定义可知,零假设等价于.
;
同理:独立含义的全解(展示)
与独立;
与独立;
与独立;
与独立;
我们将列联表分类汇总:
得到,,
和对应的频率的乘积;
发生的频率的期望值;
其中与实际值应当相差不大,如何衡量两者之间的差别呢?
同理,,,
,,这四个量差别也不应太大,
疑问:有没有更好的方式一次性将4个量全部考虑包含?
于是,1900年,英国数学家卡方·皮尔逊在研究的基础上,提出了如下统计量:
化简得是不是看起来更好一点?
其中具体的化简过程为:(本部分内容不讲,留学有余力的同学自行完成)
把代人上式各项分子,
得,
对上式右边的分式进行通分,
得
进一步化简得.
连续疑问:卡方统计量有什么用呢?
统计学家建议,用卡方的大小作为判断零假设是否成立的依据,当它比较大时推断不成立,否则认为成立.那么,究竟大到什么程度,可以推断不成立呢?或者说,怎样确定判断卡方大小的标准呢?
在假定的条件下,对于有放回简单随机抽样,当样本容量充分大时,统计学家得到了卡方的近似分布。忽略卡方的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得下面关系成立:.(*)
我们称为的临界值,这个临界值就可作为判断大小的标准.概率值越小,临界值越大.当总体很大时,抽样有、无放回对的分布影吅较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由(*)式可知,只要把概率值取得充分小,在假设成立的情况下,事件是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过.
基于小概率值的检验规则是:
当时,我们就推断不成立,即认为和不独立,
该推断犯错误的概率不超过;
当时,我们没有充分证据推断不成立,可以认为和独立.
这种利用的取值推断分类变量和是否独立的方法称为独立性检验,
读作“卡方独立性检验”,简称独立性检验(testofindependence).
(小概率值)临界值表
3.典例讲解,实际操作
例2.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生,通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀。依据的卡方独立性检验,试分析两校学生中数学成绩优秀率之间是否存在差异?
解:零假设:分类变量与相互独立,
即两校学生的数学成绩优秀率无差异根据表中的数据,
计算得到,
根据小概率值的卡方独立性检验,没有允分证据推断不成立,
因此可以认为成立,即认为两校的数学成绩优秀率没有差异.
基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.
思考:为什么出现了与例1完全不同的结论?
例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响。但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断,由于样本具有随机性,依据频率所作的推断可能会犯错误.
通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而独立性检验可能会得出不同的结论,可见统计量能够有效地提取样本所包含的有用信息.
例3.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示.依据小概率值的独立性检验,分析吸烟是否会增加患肺癌的风险.
解:零假设:吸烟与患肺癌之间无关联
,
根据小概率值的卡方独立性检验,推断不成立,
因此可以吸烟与患肺癌之间有关联,此推断犯错误的概率不大于.
用频率计算再次进行比较:
不吸烟者中患肺癌的频率:; 吸烟者中患肺癌的频率:;
其中两者的比值为:;
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.
4.总结独立性检验的步骤
应用独立性检验解决实际问题主要环节:
(1)提出零假设:和相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出列联表,计算的值,并与临界值比较.
(3)根据检验规则得出推断结论.
(4)在和不独立的情况下,根据需要,通过比较相应的频率,分析和间的影响规律.
5.思考与升华
思考1:列联表中,对换行或列的值,会影响卡方的取值计算结果吗?自己动手试一试!
教师借助于GGB软件展示,结论对换行或列的值是不会影响卡方的取值计算结果.
思考2:独立性检验与反证法有什么区别?
反证法:在假设下,如果推出一个矛盾,则证明不成立;若末推出矛盾、不能对下任何结论,即反证法不成功.
独立性检验:在假设下,如果出现一个与相矛盾的小概率事件,则推断不成立,且该推断犯错误的概率不大于这个小概率.否则,不能推断不成立,通常会接受,即认为两个分类变量相互独立.
通述的讲,反证法只有两种结果中的一种,在严密正确的推理下,结论100%可靠;但独立性检验不是,结论是否成立与犯错误的概率有关系,有可能出现将正解的结论判断成错误,也有可能将错误的结论判断成正确.
6.自主学习与练习,巩固并提高
自主学习课本例3,并完成练习3.
通过课本例3的学习,了解到两个分类变量卡方统计量偏小的情况,对于原假设如何下结论.
7.本节课知识点小结
(1)独立性检验的基本原理,小概率事件;
(2)列联表,卡方统计量,临界值表;
(3)独立性检验的基本步骤:假设 计算 查表 下结论
8.板书设计略
五、教学及课后反思
本节课教学内容与人教社2007年版本有了较大的区别,在旧教材中,卡方统计量从天而降,来历不明,让老师与学生一头雾水,只告诉你就是这样做,没有道明为什是这样?但新教材通过条件概率推导出事件独立,以及如何科学构造卡方统计量,将前因后果,来龙去脉讲清楚了,这是最大的亮点.但由此也会引出内容增加,难度上升,耗时增多,对师生都是一个新的挑战.在具体讲授进程中,适当调整安排,减少一个例题讲解,让学生自行完成.由于说明了卡方统计量来源,在知识体系上更加完备与严谨.我们离真相更近了一步,但其实还有疑问,临界值表是怎么来的?
本节课知识属性是属于操作性知识,重点是掌握如何进行独立性检验,所以学习具体的检验步骤是关键.细节之处还需要老师点透,例如,一般情况在没有指定错误的概率下如何查表下结论?若指定犯错误的概率条件下又该如何下结论?这两类需要练习加以区分.GGB软件的小帮助,让我们体会到计算机信息技术的强大,而这强大又是以数学知识为基础的.知识是有连贯性和区别的,在学习已熟悉反证法的情况下,通过两者的对比,有助于更好的理解独立性检验的思想,数学是客观的,但不是绝对的.第 页