8.3.1 分类变量与列联表 课件(共41张PPT)

文档属性

名称 8.3.1 分类变量与列联表 课件(共41张PPT)
格式 pptx
文件大小 24.0MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2026-03-15 00:00:00

图片预览

文档简介

(共41张PPT)
·选择性必修第三册·
第八章 成对数据的统计分析
8.3.1
分类变量与列联表
学习目标
1.了解 探究分类变量之间关系的方法
2.制作、理解 2×2列联表,用频率分析法、图形分析法探究两个分类变量之间的关系(重点)
3.能够对统计数据进行简单整理、初步分析提升数学抽象、数据建模及数据分析素养(难点)
情景导入
8.3.1 分类变量与列联表
01
创设背景,引入新知
吸烟是否会增加患肺癌的风险?
吸烟已成为全球范围内严重危害健康、危害人类生存环境、降低人们的生活质量、缩短人类寿命的紧迫问题.为此,联合国固定每年5月31日为全球戒烟日.
创设背景,引入新知
变量
数值变量
分类变量
例:人的身高;100米短跑所用时间;产品月销量
数值变量的取值为实数.其大小和运算都有实际含义.
两个数值变量之间的关系:回归分析法;
例:班级;性别;是否经常锻炼;是否每年体检
分类变量的取值可以用实数来表示;
这些数值只作为编号使用,用来表示不同的类别;并没有通
常的大小和运算意义.例如,学生所在的班级可以用1,2,3等表示,
男性、女性可以用1,0表示
如何利用统计数据判断一对分类变量之间是否具有关联性呢?对于这样的统计问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法.我们先看下面的具体问题.
分类变量与列联表
8.3.1 分类变量与列联表
02
探究新知
某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
方法1——由频率估计概率
设,.
由可知,男生经常锻炼的比率比女生
高出个百分点,所以该校的女生和男生在体育锻炼的经常性方面
有差异,而且男生更经常锻炼.
问题
探究新知
方法2——借助条件概率
建立以为样本空间的古典概型,并定义一对分类变量和如下:对于中的每一名学生,分别令
为了清楚起见, 我们用表格整理数据
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
探究新知
根据条件概率的计算公式,我们有
由大于可以作出判断,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
探究新知
方法3——借助等高堆积条形图
通过比较发现,男生与女生经常锻炼的人生存在差异,男生经常锻炼的的频率高于女生经常锻炼的人数.
依据频率稳定于概率的原理,我们可以推断.因此,该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼.
性别 锻炼 合计
不经常(Y=0) 经常(Y=1)
女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
探究新知
2×2列联表
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存. 我们将形如下表这种形式的数据统计表称为2×2列联表. 2×2列联表给出了成对分类变量数据的交叉分类频数.
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b a+b
B(X=1) c d c+d
合计 a+c b+d a+b+c+d
应用新知
例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据: 甲校43名学生中有10 名数学成绩优秀;乙校45名学生中有7名数学成绩优秀. 试分析两校学生中数学成绩优秀率之间是否存在差异.
解:用表示两所学校的全体学生构成的集合.考虑以为样本空间的古典概型.对于中每一名学生,定义分类变量和如下:
我们将所给数据整理成2×2列联表.
应用新知
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
因此,甲校学生中数学成绩不优秀和数学成绩优秀的频率分别为和;乙校学生中数学成绩不优秀和数学成绩优秀的频率分别为和.
应用新知
我们可以用等高堆积条形图直观地展示上述计算结果,如图所示.
由等高堆积条形图可以发现发现,两个学校学生抽样数据中数学成绩优秀的频率存在差异,甲校的频率明显高于乙校的频率.依据频率稳定于概率的原理,我们可以推断.因此,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高.
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1)
甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
应用新知
你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
思考
事实上,“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.这就是说,样本的随机性导致了两个频率间出现较大差异.在这种情况下,我们推断出的结论就是错误的.
下一节课,我们将讨论犯这种错误的概率大小问题.
能力提升
8.3.1 分类变量与列联表
03
题型一
等高堆积条形图的辨析
例题1
C
等高堆积条形图的辨析
总结
能力提升
(3)等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.
能力提升
题型二
完善列联表(求参数值)
例题2
能力提升
解析
能力提升
题型二
完善列联表(求参数值)
例题2
D
能力提升
解析
能力提升
题型三
列联表分析两个分类变量是否有关联(差异)
例题3
能力提升
解析
总结
课堂小结+限时小练
8.3.1 分类变量与列联表
04
能力提升
随堂限时小练

B
随堂限时小练

从等高条形图上可以明显地看出吸烟患肺病的频率远远大于不吸烟患肺病的频率.故答案为:有

随堂限时小练

B
随堂限时小练
随堂限时小练

随堂限时小练

5.某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
随堂限时小练

作业布置与课后练习答案
8.3.1 分类变量与列联表
06
巩固作业
作业布置
作业1:完成教材:第127页练习 第4题.
作业2:配套辅导资料对应的《分类变量与列联表》.
课后作业答案
1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大“,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活中两种属性或现象之间关联的成语吗?
例如:勤能补拙,水涨船高,登高望远.
2.例1中的随机抽样数据是否足够确定与X和Y有关的所有概率和条件概率?为什么?
不能.因为随机抽样得到的样本具有随机性,根据样本数据计算出来的频率也具有随机性.在统计推断中,依据频率稳定于概率的原理,可以利用频率推断与X和Y有关的概率和条件概率,但由于频率具有随机性,这种推断可能犯错误.因此,随机抽样数据不足以确定与X和Y有关的所有概率和条件概率.
课后作业答案
3.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语.那么
(1)吸烟是否对每位烟民一定会引发健康问题?
(2)有人说吸烟不一定引起健康问题,因此可以吸烟.这种说法对吗?
(1)从已掌握的知识来看,吸烟会损害身体的健康.但除了吸烟之外,身体的健康还受许多其他随机因素的影响,它是很多因素共同作用的结果.吸烟导致患病的案例非常普遍,但也可以找到长寿的吸烟者.因此健康与吸烟有关联,即从统计意义上讲,吸烟会损害健康,但不一定会对每位烟民都引起健康问题.
(2)这种说法不正确.虽然吸烟不一定会对每个人都引起健康问题,但根据统计数据,吸烟比不吸烟引起健康问题的可能性大,因此“吸烟不一定引起健康问题,因此可以吸烟”的说法是不对的.
课后作业答案
4.假设在本小节“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
性别 锻炼 合计
不经常 经常
女生 5 15 20
男生 6 18 24
合计 11 33 44
(1)据此推断性别因素是否影响学生锻炼的经常性;
(2)说明你的推断结论是否可能犯错,并解释原因.
课后作业答案
(2)推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
THANKS
感谢您的聆听