(共31张PPT)
第八章成对数据的统计分析
8.3.1分类变量与列联表
Ⅲ
人教A版(2019)选择性必修第三册
03 新知探究
课本练习
课本习题
情景导入
课本例题
题型探究 方法归纳
课堂小结
目录
学习目标
1. 了解探究分类变量之间关系的方法
2.制作、理解 2×2列联表, 用频率分析法、图形分析法探究两个 分类变量之间的关系
3.能够对统计数据进行简单整理、初步分析提升数学抽象、数据 建模及数据分析素养
学习目标
情景导入
饮用水的质量是人类普遍关心的问题,根据统计,饮用优质水的 518人中,身体状况优秀的有466人,饮用一般水的312人中,身体
状况优秀的有218人.
问题 人的身体健康状况与饮用水的质量之间有关系吗
情景导入
例 : 人 的 身 高 ; 1 0 0 米 短 跑 所 用 时 间 ; 产 品 月 销 量 数值变量 数值变量的取值为实数.其大小和运算都有实际含义.
变量 两个数值变量之间的关系: 回归分析法;
分类变量 例:班级;性别;是否经常锻炼;是否每年体检
分类变量的取值可以用实数来表示;这些数值只作为编号使用,
用来表示不同的类别;并没有通常的大小和运算意义.
例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0
表示
如何利用统计数据判断一对分类变量之间是否具有关联性呢 对于这样的统
计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答 ,但在大多数情况下,需要借助概率的观点和方法 .我们先看下面的具体问 题
性别 锻炼
合计
不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331
523
男生(X=1) 128 473
601
合计 320 804
1124
某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生
是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331 名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生 和男生在体育锻炼的经常性方面是否存在差异吗
新知探究
性别 锻炼
合计
不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331
523
男生(X=1) 128 473
601
合计 320 804
1124
性别在体育锻炼的经常性方面是否存在差异呢
方法1——由频率估计概率
f >fo 结 论 :该校的女生和男生在体育锻炼的经常性方面存在差异,
男生更经常锻炼。
性别 锻炼
总计
不经常(Y=0) 经常(Y=1) 女生(X=0) 192 331
523
男生(X=1) 128 473
601
总计 320 804
1124
P(Y=1|X=1)>P(Y=1|X=0)
结论:该校的女生和男生在体育锻炼的经常性方面存在差异,男生更经常锻炼。
方法2——借助条件概率
性别在体育锻炼的经常性方面是否存在差异呢
性别 锻炼
总计
不经常 (Y=0) 经常 (Y=1) 女生 (X=0) 192 331
523
男生 (X=1) 128 473
601
总计 320 804
1124
方法3——借助等高堆积条形图
性别在体育锻炼的经常性方面是否存在差异呢
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
女生
■经 常
■不经常
男生
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需
要,将数据分类统计,并做成表格加以保存.我们将形如下表这种形式 的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交 叉分类频数.
组别 甲(Y=0) 乙(Y=1)
合计
A(X=0) a b
a+b
B(X=1) C d
c+d
合计 a+c b+d
a+b+c+d
概念归纳
例1 为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学 生 . 通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学 生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用Ω表示两所学校的全体学生构成的集合.考虑以Ω为样本空间的
古典概型.对于Ω中每一名学生,定义分类变量X和Y如下:
学校 数学成绩
合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10
43
乙校(X=1) 38 7
45
合计 71 17
88
我们将所给数据整理成表
例题讲解
1.0
0.8
0.6
0.4
0.2
0.0
甲校 乙校
学校 数学成绩
合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10
43
乙校(X=1) 38 7
45
合计 71 17
88
由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校
学生的数学成绩优秀率比乙校学生的高.
由2×2列联表可
得,甲校学生中数 学成绩不优秀和数 学成绩优秀的频率
分别为 作出等高堆积条形图如图示.
乙校学生中数学成绩不优秀和数
学成绩优秀的频率分别为
□ 优秀
□ 不优秀
思考 你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有 可能是错误的
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两
个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的 这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀 率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间 出现较大差异.在这种情况下,我们推断出的结论就是错误的.后面 我们将讨论犯这种错误的概率大小问题.
1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的
概率较大”,即老师的名声与学生的水平之间有关联。你能举出更 多的描述生活中两种属性或现象之间关联的成语吗
解:例如水涨船高、登高望远等.
课堂练习
2. 例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件
概率 为什么
解:不能。因为随机抽样得到的样本具有随机性,根据样本数据计算
出来的频率也具有随机性。在统计推断中,依据频率稳定于概率的原 理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具 有随机性,这种推断可能犯错误.因此,随机抽样数据不足以确定与 X和Y有关的所有概率和条件概率.
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语.那么
(1)吸烟是否对每位烟民一定会引发健康问题
(2)有人说吸烟不一定引起健康问题,因此可以吸烟。这种说法对吗
解:(1)从已掌握的知识来看,吸烟会损害身体的健康.但除了吸烟之
外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用 的结果.吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者.因 此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定 会对每位烟民都引起健康问题.
(2)这种说法不正确.虽然吸烟不一定会对每个人都引起健康问题,但根 据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定 引起健康问题,因此可以吸烟”的说法是不对的.
性别 锻炼
合计
不经常 经常 女生 5 15
20
男生 6 18
24
合计 11 33
44
4. 假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体
育锻炼情况整理为如下的列联表:
(1)据此推断性别因素是否影响学生锻炼的经常性;
(2)说明你的推断结论是否可能犯错,并解释原因.
通过对比发现,男生中不经常锻炼和经常锻炼的频率与女生中不经常锻炼和
经常锻炼的频率分别相等,依据频率稳定于概率的原理,可以推断
P(Y=1|X=0)=P(Y=1|X=1). 因此,可以认为性别对体育锻炼的经常性没有影响.
(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性, 因
此推断可能犯错误.
性别 锻炼
合计
不经常(Y=0) 经常(Y=1) 女生(X=0) 5 15
20
男生(X=1) 6 18
24
合计 11 33
44
(1)据此推断性别因素是否影 响学生锻炼的经常性;
(2)说明你的推断结论是否可 能犯错,并解释原因.
解: (1)根据列联表中的数据
,计算得男女生中不经常锻
炼和经常锻炼的频率分别为
=0.2524=0.75,20=0.25,25=0.75.
【例1】某大学通过随机询问100名性别不同的大学生是否爱好某项运动后发现:
爱好该项运动的男生有40人,接受调查的45名女生中有25人不爱好该项运动.请 作出2×2列联表.
解:列表如下:
是否爱好 性别
合计
男 女 爱好 40 20
60
不爱好 15 25
40
合计 55 45
100
题型探究方法归纳
题型1 列2×2联表
规律方法
分清类别是作列表的关键步骤.表中排成两行两列的数据是调查得来
的结果.
例 2 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁
以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以 蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21 人饮食以 蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年
题型2 用2×2列联表分析两分类变量间的关系
断二者是否有关系.
龄的列联表,并利
饮食情况 年龄
合计
在六十岁以上 在六十岁以下 以蔬菜为主 43 21
64
以肉类为主 27 33
60
合计 70 54
124
将表中数据代入公式 .显然
二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与 年龄有关系.
解:2×2列联表如下:
1. 作2×2列联表时,关键是对涉及的变量分清类别.计算时要准 确无误.
2. 利用2×2列联表分析两个分类变量间的关系时,首先要根据题 中 数 据 获 得 2 × 2 列联表,然后根据频率特征,即将
的值相比,直观地反映出两个分类变量间是否相互影响.
规律方法
题型3 用等高堆积条形图分析两分类变量间的关系
【例3】某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的
学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心 情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
考前心情 性格
合计
内向 外向 紧张 332 213
545
不紧张 94 381
475
合计 426 594
1020
紧张的学生中内向的频率 ,外向的频率为1-0.61=0.39;
不紧张的学生中内向的频率为 ,外向的频率为1-0.20=0.80.
解 :作列联表如下:
性格外向
性格内向
8:
0l
考前心情紧张考前心情不紧张
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从
图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张 样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
相应的等高堆积条形图如图所示:
0.9 0.8 0. 0.6 0.5 0. 0
规律方法
利用等高堆积条形图判断两个分类变量是否相关的步骤
统计 收集数据,统计结果
列 表
列出2×2列联表,计算频率进行估计
画图
画等高条形图,直观分析
【例4】某工厂有工人1000名,其中250名工人参加过短期培训(称为A类工人),
另外750名工人参加过长期培训(称为B类工人).现用分层随机抽样的方法(按A类、 B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能 力指一天加工的零件数),结果如下表:
表 1 :A 类工人生产能力的频数分布表
生产能力分组 [110,120] [120,130] [130,140]
(140,150)
人数 8 X 3
2
规范答题样板
工人类别 生产能力分组
合计
(110,130) [130,150] A类
B类
合计
生产能力分组 (110,120) [120,130] [130,140]
[140,150]
人数 6 y 27
18
(1)确定x,y 的 值 ;
(2)完成下面2×2列联表:
表 2 :B类工人生产能力的频数分布表
【解题思路探究】第一步,审题. 审结论明确解题方向,确定x,y 的值,可
用分层随机抽样解决.
审条件,挖解题信息,已知工厂中A, B 类工人的人数和抽取工人数,进行分
层随机抽样,可直接计算A,B 类工人样本数.
第二步,确定解题步骤.
分层随机抽样确定A,B 类工人抽取数 → 求x,y 的值 → 完成列联表.
第三步,规范解答.
解:(1)∵从该工厂的工人中抽取100名工人,且该工厂中有250名A 类工人,750
名B 类工人,
∴要从A 类工人中抽取25名,从B 类工人中抽取75名,
∴x=25-8-3-2=12,y=75-6-27-18=24.
(2)根据所给的数据可以完成列联表,如下表所示:
工人类别 生产能力分组
合计
[110,130] [130,150] A类 20 5
25
B类 30 45
75
合计 50 50
100
y1 y2
合计
X1 a b
a+b
X2 C d
c+d
合计 a+c b+d
a+b+c+d
频率分析法
条件概率法
图形分析法
课堂小结
1.2×2列联表——给出了两个分类变量数据的交叉分类频数
这样得出的结论是否会出现错误呢 是由什么引起的
2.判断两个分类变量之间是否具有关联性的三种方法