(共36张PPT)
数学-RJ·A-选择性必修第三册
8.3 列联表与独立性检验
第八章 成对数据的统计分析
学习目标
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表与独立性检验及其应用.
重点:理解独立性检验的基本思想及实施步骤.
难点:χ2的含义、独立性检验及其应用.
知识梳理
一、分类变量及其关联性
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
1.应用比率判断关联性
为了方便,我们设,.
那么,只要求出和的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异.由所给的数据,经计算得到,
由 可知,男生经常锻炼的比率比女生高出15.4个百分点,所以该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.
2.应用条件概率判断关联性
用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体.考虑以Ω为样本
空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令
我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.
按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么
该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体
的概率是P(Y=1|X=1).因此,“性别对体育锻炼的经常性没有影响”可以描述
为P(Y=1|X=0)=P(Y=1|X=1);
而“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).
为了清楚起见,我们用表格整理数据,如表8.3-1所示.
表8.3-1 单位:人
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1 124
我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件.根据古典概型和条件概率的计算公式,我们有
P(Y=1|X=0)==≈0.633,P(Y=1|X=1)==≈0.787.
由P(Y=1|X=1)大于P(Y=1|X=0)可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
二、2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将如表8.3-1这种形式的数据统计表称为2×2列联表(contingency table).2×2列联表给出了成对分类变量数据的交叉分类频数.以表8.3-1为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.
三、独立性检验的零假设
考虑以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.我们希望判断事件{X=1}和{Y=1}之间是否有关联.注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系
H0:P(Y=1|X=0)=P(Y=1|X=1)
是否成立,通常称H0为零假设或原假设.
这里,P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;而P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率.
由条件概率的定义可知,零假设H0等价于=,
或P(X=0,Y=1)P(X=1)=P(X=1,Y=1)P(X=0).①
注意到{X=0}和{X=1}为对立事件,于是P(X=0)=1-P(X=1).
再由概率的性质,我们有
P(X=0,Y=1)=P(Y=1)-P(X=1,Y=1).
由此推得①式等价于
P(X=1)P(Y=1)=P(X=1,Y=1).
因此,零假设H0等价于{X=1}与{Y=1}独立.
根据已经学过的概率知识,下面的四条性质彼此等价:
{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.
如果这些性质成立,我们就称分类变量X和Y独立.这相当于下面四个等式成立:
P(X=0,Y=0)=P(X=0)P(Y=0);
P(X=0,Y=1)=P(X=0)P(Y=1);
P(X=1,Y=0)=P(X=1)P(Y=0);
P(X=1,Y=1)=P(X=1)P(Y=1).
因此,我们可以用概率语言,将零假设改述为
H0:分类变量X和Y独立.
②
四、独立性检验的统计量χ2及其临界值
χ2=.
统计学家建议,用随机变量χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.那么,究竟χ2大到什么程度,可以推断H0不成立呢?或者说,怎样确定判断χ2大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与H0相矛盾的小概率事件来实现.在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了χ2的近似分布.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:
P(χ2≥xα)=α. ④
我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.当总体很大时,抽样有、无放回对χ2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件{χ2≥xα}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
常考题型
一、等高堆积条形图及2×2列联表的简单应用
1.等高堆积条形图的简单应用
例1 [2020·广东广州市执信中学高三月考]为了解户籍、性别对生育二孩选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人.绘制不同群体中倾向选择生育二孩与倾向选择不生育二孩的人数比例图(如图所示),其中阴影部分表示倾向选择生育二孩的对应比例,则下列叙述中错误的是 ( )
A.是否倾向选择生育二孩与户籍有关
B.是否倾向选择生育二孩与性别无关
C.倾向选择生育二孩的人员中,男性人数与女性人数相同
D.倾向选择不生育二孩的人员中,农村户籍人数少于城镇户籍人数
【解析】由不同群体中倾向选择生育二孩与倾向选择不生育二孩的人数比例图知:在A中,∵ 城镇户籍倾向选择生育二孩的比例为40%,农村户籍倾向选择生育二孩的比例为80%,∴ 是否倾向选择生育二孩与户籍有关,故A正确;在B中,∵ 男性倾向选择生育二孩的比例为60%,女性倾向选择生育二孩的比例为60%,∴ 是否倾向选择生育二孩与性别无关,故B正确;
在C中,∵ 男性倾向选择生育二孩的比例为60%,人数为60×60%=36,
女性倾向选择生育二孩的比例为60%,人数为40×60%=24,∴ 倾向选择生育二孩的人员中,男性人数比女性人数多,故C错误;在D中,∵ 倾向选择不生育二孩的人员中,农村户籍人数为50×(1-80%)=10,城镇户籍人数为50×(1-40%)=30,∴ 倾向选择不生育二孩的人员中,农村户籍人数少于城镇户籍人数,故D正确.
【答案】C
D
2.[2020·福建宁德高二月考]“微信”和“QQ”是两款社交产品,小明为了解不同群体对这两款产品的首选情况,统计了周围老师和同学关于首选“微信”或“QQ”的比例,得到如图所示的等高堆积条形图.根据等高堆积条形图中的信息,可判断下列说法正确的是 ( )
A.对老师而言,更倾向于首选“微信”
B.对学生而言,更倾向于首选“QQ”
C.首选“微信”的老师比首选“微信”的学生多
D.如果首选“微信”的老师比首选“微信”的学
生多,那么小明统计的老师人数一定比学生多
A
3.[2020·河北张家口高三月考]如图是调查某学校高一、高二年级学生参加社团活动的等高堆积条形图,阴影部分的高表示参加社团的频率.已知该校高一、高二年级学生人数均为600人(所有学生都参加了调查),现从参加社团的同学中按分层随机抽样的方式抽取45人,则抽取的高二学生人数为 ( )
A.9 B.18 C.27 D.36
C
2. 2×2列联表的简单应用
例2 [2020·山东烟台高三月考]某校团委对“学生性别和喜欢社团活动是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢社团活动的人数占男生人数的,女生喜欢社团活动的人数占女生人数的,若有95%的把握认为是否喜欢社团活动和性别有关,则调查人数中男生可能有 ( )
A.25人 B.40人 C.60人 D.75人
◆2×2列联表与等高堆积条形图的关系与特点
2×2列联表与等高堆积条形图都可以用来分析两个分类变量之间是否有关系,但是等高堆积条形图能直观反映出两个分类变量之间是否相互影响,而2×2列联表则需要相关计算才能确定.
C
二、独立性检验的基本思想及综合应用
1.对χ2≥xα含义的理解
例3 [2020·安徽芜湖高三月考]在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是 ( )
A.若χ2>6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
【解析】若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1% 的可能性使得判断出现错误,并不是说某人吸烟,那么他有99%的可能患有肺癌,更不是说在100个吸烟的人中必有99人患有肺癌.故应选C.
【答案】C
近视 不近视
足够的户外暴露时间 20 35
不足够的户外暴露时间 30 15
2.独立性检验的基本思想在实际问题中的应用
例4 [2020·吉林四平高三检测]为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:
(1)用样本估计总体思想估计该中学一年级学生的近视率;
(2)能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视有关系?
◆独立性检验的步骤
(1)构造2×2列联表;
(2)计算χ2;
(3)查表确定有多大的把握判定两个变量有关系.
【注意】
用独立性检验解题应注意的问题:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的xα值与求得的χ2值相比较.另外,表中第一行数据表示两个变量没有关联的可能性P,所以其有关联的可能性为1-P.
阅读时间 [0,20) [20,40) [40,60) [60,80) [80,100) [100,120]
人数 8 10 12 11 7 2
训练题 [2020·福建师大附中高二期中]为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高堆积条形图.
(1)根据已知条件完成2×2列联表;
(2)判断是否有99%的把握认为是否为“阅读达人”
跟性别有关.
男生 女生 合计
阅读达人 6 14 20
非阅读达人 18 12 30
合计 24 26 50
解:(1)由频数分布表得“阅读达人”的人数是11+7+2=20,
根据等高堆积条形图得2×2列联表如下:
(2)由列联表可得χ2= ≈ 4.327 <6.635,
故没有99%的把握认为是否为“阅读达人”跟性别有关.
知易行难,重在行动
千里之行,始于足下
谢谢
21世纪教育网(www.21cnjy.com) 中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php