(共45张PPT)
8.3 列联表与独立性检验
学习指导 核心素养
1.通过实例,理解2×2列联表的统计意义. 2.通过实例,了解独立性检验及其应用. 1.数学抽象:列联表、独立性检验的概念.
2.数据分析:独立性检验的应用.
1.分类变量与列联表
(1)分类变量
用以区别不同的_____或______的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
现象
性质
a+b
c+d
a+c
b+d
a+b+c+d
2.独立性检验
(1)分类变量X和Y独立:如果下面这些性质成立,
{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.
我们就称分类变量X和Y独立.
③独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
④基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.(其中xα为α的临界值)
⑤应用独立性检验解决实际问题大致应包括的主要环节:
(ⅰ)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(ⅱ)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(ⅲ)根据检验规则得出推断结论.
(ⅳ)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
⑥独立性检验中几个常用的小概率值和相应的临界值:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
1.怎样对两个分类变量的关联性进行定性分析?
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.
将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
2.独立性检验的基本思想和反证法的思想有什么联系?
1.判断正误(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数的变量是同一概念.( )
(2)等高堆积条形图可初步分析两分类变量是否有关系,而独立性检验中χ2取值则可通过统计表从数据上说明两分类变量的相关性的大小.( )
(3)事件A与B的独立性检验无关,即两个事件互不影响.( )
(4)χ2的大小是判断事件A与B是否相关的统计量.( )
×
√
×
√
2.对于独立性检验,下列说法正确的是( )
A.χ2独立性检验的统计假设是各事件之间相互独立
B.χ2可以为负值
C.χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”
D.2×2列联表中的4个数据可以是任意正数
√
解析:由独立性检验的检验步骤可知A正确;
因为2×2列联表中的数据均为正整数,故χ2不可能为负值,排除B;
因为χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的把握说他们相关,或者说有一定的出错率,故排除C;
因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D.
√
解析:因为x0.025=5.024,故在犯错误的概率不超过0.025的前提下,认为“X和Y有关系”.
探究点1 等高堆积条形图的应用
[问题探究]
等高堆积条形图和列联表有什么关系?
探究感悟:(1)列联表与等高堆积条形图都可以用来分析两个分类变量之间是否有关系,但是等高堆积条形图能直观反映出两个分类变量之间是否相互影响,而2×2列联表则需要相关计算才能确定.
(2)等高堆积条形图中,列联表的行对应的是高度,两行的数据不相等,但对应的等高堆积条形图的高度是相同的.
网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
【解】 根据题目所给的数据得到如下2×2列联表:
成绩 上网 合计
经常上网 不经常上网
不及格 80 120 200
及格 120 680 800
合计 200 800 1 000
得到等高堆积条形图如图所示:
比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关.
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高堆积条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
解:根据题目所给数据得如下2×2列联表:
合格品数 次品数 合计
甲在生产现场 982 8 990
甲不在生产现场 493 17 510
合计 1 475 25 1 500
所以ad-bc=982×17-8×493=12 750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高堆积条形图如图所示:
图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
探究点2 独立性检验
[问题探究]
独立性检验得出的结论“两个变量x,y有关联”,是否为确定性结论?
探究感悟:独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论.
(2021·吉林四平高三检验)为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:
近视 不近视
足够的户外暴露时间 20 35
不足够的户外暴露时间 30 15
(1)用样本估计总体思想估计该中学一年级学生的近视率;
(2)能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视有关系?
本例中能否在犯错误的概率不超过0.001的前提下认为不足够的户外暴露时间与近视有关系?
解:由例题解法可知χ2=9.091<10.828=x0.001,所以没有充分证据推断H0不成立,故在犯错误的概率不超过0.001的前提下不能认为不足够的户外暴露时间与近视有关系.
解决独立性检验问题的基本步骤
(2021·河南省南阳市期中)为了检验两种不同的课堂教学模式对学生的成绩是否有影响,现从高二年级的甲(实行“问题—探究式”模式)、乙(实行“自学—指导式”模式)两个班中每班任意抽取20名学生进行测试,他们的成绩(总分150分)如下.
甲班:88 92 95 98 103 108 110 112 118 118
120 121 126 132 134 135 140 142 146 148
乙班:96 97 104 107 108 108 114 117 119 121 124 124 125 127 132 135 135 137 138
147
记成绩在120分以上(包括120分)为优秀,其他的成绩为一般,试根据小概率值α=0.1的独立性检验,分析这两种课堂教学模式对学生的成绩是否有影响.
解:零假设为H0:课堂教学模式与学生的成绩相互独立.根据题中所给数据得到如下2×2列联表:
班级 成绩 合计
优秀 一般
甲班 10 10 20
乙班 11 9 20
合计 21 19 40
1.某飞机在一次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( )
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
√
解析:根据题意,结合题目中的数据,列出2×2列联表,求出χ2,对照数表可得出概率结论,这种分析数据的方法是独立性检验.
解析:a=73-21=52,b=a+22=52+22=74.
√
3.以下关于独立性检验的说法中,错误的是( )
A.独立性检验的依据是小概率原理
B.独立性检验的结论一定正确
C.样本不同,独立检验的结论可能有差异
D.独立性检验不是判定两个分类变量是否相关的唯一方法
解析:独立性检验会犯随机性错误,犯错误的概率不会超过小概率值.
√
解析:由公式计算得χ2≈4.882.
因为χ2>3.841=x0.05,所以我们有95%的把握认为服用此药的效果与患者的性别有关,从而出错的可能性为5%.
答案:4.882 5%
【戮力同心 共赴前程】
生如蝼蚁当立鸿鹄之志
命如纸薄应有不屈之心
谢谢
21世纪教育网(www.21cnjy.com) 中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php