8.3.1 分类变量与列联表 课件(共18张PPT)

文档属性

名称 8.3.1 分类变量与列联表 课件(共18张PPT)
格式 pptx
文件大小 1.4MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-07-02 22:47:29

图片预览

文档简介

(共18张PPT)
8.3列联表与独立性检验
8.3.1 分类变量与列联表
回顾旧知
2.残差平方和:
3.最小二乘法
将 称为Y 关于x 的经验回归方程,
4.判断模型拟合的效果:残差分析
R2越大,表示残差平方和越小,即模型的拟合效果越好R2越小,表示残差平方和越大,即模型拟合效果越差.
1.线性回归模型y=bx+a+e含有随机误差e,其中x为解释变量,y响应变量
残差:yi-是随机误差的估计值
前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100m世界纪录和创纪录的时间等,都是数值变量,数值变量的取值为实数.其大小和运算都有实际含义.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等,本节将要学习的独立性检验方法为我们提供了解决这类问题的方案。
在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义,本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
新课引入
如何利用统计数据判断一对分类变量之间是否具有关联性呢 对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法,我们先看下面的具体问题。
问题1. 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查,全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗
新课引入
这是一个简单的统计问题,最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率,为了方便,我们设=, =
那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异,由所给的数据,经计算得到=≈0.633, =.
由f1-f0 0.787-0.633=0.154可知,男生经常锻炼的比率比女生高出15.4个百分点.
所以该校的女生和男生在体育锻等的经常性方面有差异,而且男生更经常锻炼.
新课引入
用n表示该校全体学生构成的集合,这是我们所关心的对象的总体,考虑以n为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生,分别令
,,
我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题.按照条件本概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1).
“性别对体育锻炼的经常性没有影响”可以描述为P(Y=1|X=0)=P(Y=1|X=1);
“性别对体育锻炼的经常性有影响”可以描述为P(Y=1|X=0)≠P(Y=1|X=1).
为了清楚起见,我们用表格整理数据
学习新知
我们用{X=0,Y=1}表示事件{X=0}和{Y=1}的积事件,用{X=1,Y=1}表示事件{X=1}和{Y=1}的积事件,根据古典概型和条件概率的计算公式,我们有
由P(Y=1|X=1)>P(Y=1|X=0)
可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。
P(Y=1|X=0)==≈0.633
P(Y=1|X=1)==≈0.787
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存,我们将下表这种形式的数据统计表称为2×2列联表(contingency table).
2×2列联表给出了成对分类变量数据的交叉
分类频数,以右表为例,它包含了X和Y的如下信息:
最后一行的前两个数分别是事件{Y=0}和{Y=1}
中样本点的个数;最后一列的前两个数分别是
事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。
在上面问题的两种解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.在这种情况下,上述古典概型和条件概率的观点为我们提供了一个解决问题的思路.比较简单的做法是利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。
例1为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀,试分析两校学生中数学成绩优秀率之间是否存在差异.
典型例题
解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:
,,
我们将所给数据整理成表(单位:人)
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0)
乙校(X=1)
合计
左表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件(Y=0)和(Y=1)的频数;最后一列的前两个数分别是事件(X=0)和(X=1)的频数;中间的四个格中的数是事件(X=x,Y=y)(x,y=0,1)的频数;
33
10
43
38
7
45
71
17
88
甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为≈0.7674和≈ 0.2326;
乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为≈ 0.8444和≈ 0.1556
我们可以用等高堆积条形图直观地展示上述计算结果,如下图所示
左边的蓝色和红色条的高度分别是甲校学生中数学成绩不优秀和数学成绩优秀的频率;右边的蓝色和红色条的高度分别是乙校学生中数学成绩不优秀和数学成绩优秀的频率,通过比较发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率,依据频率稳定于概率的原理,我们可以推断P(Y=1|X=0)>P(Y=1|X=1).也就是说,如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校学生数学成绩优秀的概率,因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。
88
17
71
合计
45
7
38
乙校(X=1)
43
10
33
甲校(X=0)
优秀(Y=1)
不优秀(Y=0)
合计
数学成绩
学校
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2.两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变 量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
分数段 29~40 41~50 51~60 61~70 71~80 81~90 91~100
午休考生人数 23 47 30 21 14 31 14
不午休考生人数 17 51 67 15 30 17 3
及格人数 不及格人数 总计
午休
不午休
总计
【例2】在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
(1)根据上述表格完成列联表:
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
典型例题
计算可知,午休的考生及格率为P1=,不午休的考生的及格率为P2= ,则P1>P2,因此,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
问题2.你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
有可能
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
独立性检验方法
1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联,你能举出更多的描述生活中两种属性或现象之间关联的成语吗
2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率 为什么
巩固练习
水涨船高、登高望远
不能.
因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.
在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,
这种推断可能犯错误,因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率。
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语,那么
(1)吸烟是否对每位烟民一定会引发健康问题
(2)有人说吸烟不一定引起健康问题,因此可以吸烟,这种说法对吗
巩固练习
3.(1)从已掌握的知识来看,吸烟会损害身体的健康。但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果,吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者,因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.
(2)这种说法不正确,虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
4.(1)根据列联表中的数据,计算得女生中不经常锻炼和经常锻炼的频率分别为=0.25和=0.75. 男生中不经常锻炼和经常锻炼的频率=0.25和=0.75通过对比发现,女生中不经常锻炼和经常锻炼的频率与男生中不经常锻炼和经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1).因此,可以认为性别对体育锻炼的经常性没有影响.
(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误。
4.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如右的列联表:单位:人
性别 数学成绩 合计
不经常(Y=0) 经常 (Y=1) 女生(X=0) 5 15 20
男生(X=1) 6 18 24
合计 11 33 44
(1)据此推断性别因素是否影响学生锻炼的经常性;
(2)说明你的推断结论是否可能犯错,并解释原因
巩固练习
5.下列关于等高堆积条形图的叙述正确的是(  )
A.从等高堆积条形图中可以精确地判断两个分类变量是否有关系
B.从等高堆积条形图中可以看出两个变量频数的相对大小
C.从等高堆积条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
C
6.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
D
巩固练习
y1 y2 总计
x1 a 21 73
x2 2 25 27
总计 b 46
7.下面是一个2×2列联表:
则表中a、b处的分别为(  )
A.94,96
B.52,50
C.52,54
D.54,52
巩固练习
C
8.假设有两个变量x与y的2×2列联表如下表:
B
我们将下表这种形式的数据统计表称为2×2列联表(contingency table).
巩固练习
两个分类变量之间关联关系的定性分析的方法:
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大.
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
2×2列联表给出了成对分类变量数据的交叉分类频数,以右表为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;
中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。