8.3.1分类变量与列联表 课件(共21张PPT)

文档属性

名称 8.3.1分类变量与列联表 课件(共21张PPT)
格式 pptx
文件大小 485.3KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-06-13 10:15:17

图片预览

文档简介

(共21张PPT)
8.3.1分类变量与列联表
一、提出问题
每年5月31日是“世界无烟日”。
你认为吸烟与患肺癌有关系吗?
怎样用数学知识说明呢?
问题1 下列变量:人的身高,直尺的长度,性别,国籍,民族有什么不同?
提示 人的身高,直尺的长度都是数值变量;性别,国籍,民族这些变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
数值变量:数值变量的取值为 ,其大小和运算都有实际含义.
分类变量:这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为 ,分类变量的取值可以用 _____表示.
实数
分类变量
实数
知识梳理一、数值变量与分类变量
例1 下列不是分类变量的是
A.近视 B.成绩 C.血压 D.饮酒
解析 近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种.

反思感悟 变量的不同“值”表示个体所属的不同类别,像这样的变量才是分类变量.
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或互相影响的问题。
例如:就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否存在区别,吸烟是否会增加患肺癌的风险等。
分类变量:一种特殊的随机变量,以区别不同的现象或性质
分类变量的取值可以用实数表示,这些数值只作为编号使用,并没有通常的大小和运算意义
举例:
学生所在的班级可以用1,2,3等表示,
男性、女性可以用1,0表示
本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
知识梳理一、数值变量与分类变量
二、问题情境:
问题2 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查的数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
问题解答:第一步 数据整理
性别 锻炼 合计
不经常锻炼(Y=0) 经常锻炼(Y=1) 女生(X=0)
男生(X=1)
合计
为了清楚起见,我们用表格整理数据如下:
问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查的数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
对于Ω中的每一名学生,分别令
知识梳理二、2X2列联表
2×2列联表
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}中的 ;最后一列的前两个数分别是事件{X=0}和{X=1}中的 ;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)中的 ;右下角格中的数n是 .
样本点个数
样本容量
样本点个数
样本点个数
用途:可以清晰的给出成对分类变量数据的交叉分类频数。
问题解答:第二步 数据分析
性别 锻炼 合计
不经常锻炼(Y=0) 经常锻炼(Y=1) 女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
为了清楚起见,我们用表格整理数据如下:
问题2 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查的数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
女生经常锻炼的比率是
男生经常锻炼的比率是
法一、比率(概率或频率)比较法
比较经常锻炼的学生在女生和男生中的比率
结论:该校女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼
问题解答:第二步 数据分析
性别 锻炼 合计
不经常锻炼(Y=0) 经常锻炼(Y=1) 女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
为了清楚起见,我们用表格整理数据如下:
法二、条件概率分析法
“性别对体育锻炼的经常性没有影响”
“性别对体育锻炼的经常性有影响”
如果从该校女生中随机选取一名学生,那么该女生属于经常锻炼群体的概率是_____________
如果从该校男生中随机选取一名学生,那么该男生属于经常锻炼群体的概率是_____________
P(Y=1|X=0)
P(Y=1|X=1)
P(Y=1|X=0)
=P(Y=1|X=1)
P(Y=1|X=0)
≠P(Y=1|X=1)
结论:该校女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼
问题解答:第二步 数据分析
性别 锻炼 合计
不经常锻炼(Y=0) 经常锻炼(Y=1) 女生(X=0) 192 331 523
男生(X=1) 128 473 601
合计 320 804 1124
为了清楚起见,我们用表格整理数据如下:
问题2 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查的数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
法三、等高堆积条形图
女生经常锻炼的比率是
男生经常锻炼的比率是
结论:该校女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼
等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的 特征,依据______
______ _的原理,我们可以推断结果.
频率
频率稳
定于概率
知识梳理三、等高堆积条形图
在上面问题的解答中,使用了学校全部学生的调查数据,利用这些数据能够完全确定解答问题所需的比率和条件概率.
然而,对于大多数实际问题,我们无法获得所关心的全部对象的数据,因此无法准确计算出有关的比率或条件概率.
利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理对问题答案作出推断。
反思
变式:
假设在“问题”中,只是随机抽取了44名学生,按照性别和体育锻炼情况整理为如下的列联表:
(1)据此推断性别因素是否影响学生锻炼的经常性;
(2)说明你的推断结论是否可能犯错,并解释原因。
性别 锻炼 合计
不经常锻炼(Y=0) 经常锻炼(Y=1) 女生(X=0) 5 15 20
男生(X=1) 6 18 24
合计 11 33 44
数据分析:女生中不经常锻炼和经常锻炼的频率分别为5/20=1/4和15/20=3/4;
男生中不经常锻炼和经常锻炼的频率分别为6/24=1/4和18/24=3/4;
女生中不经常锻炼和经常锻炼的频率与男生中不经常锻炼和经常锻炼的频率分别相等,
结论:依据频率稳定于概率的原理,可以推断P(Y=1|X=0)=P(Y=1|X=1),可以认为性别对 体育锻炼的经常性没有影响.
分析原因:推断可能犯错误.因为样本是通过随机抽样得到的,频率具有随机性,因此推断可能犯错误.
普查与抽样调查的区别:
为了比较甲、乙两所学校的数学水平,采用简单随机抽样的方法抽取88名学生.通过测验得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
例2
数据整理(2X2列联表):
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
甲校学生中数学成绩不优秀的频率_____________,数学成绩优秀的频率_____________.
乙校学生中数学成绩不优秀的频率_____________,数学成绩优秀的频率_____________.
数据分析:
思考:“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
学校 数学成绩 合计
不优秀(Y=0) 优秀(Y=1) 甲校(X=0) 33 10 43
乙校(X=1) 38 7 45
合计 71 17 88
结论:如果从甲校和乙校各随机选取一名学生,那么甲校学生数学成绩优秀的概率大于乙校数学成绩优秀的概率。因此可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高。
P(Y=1|X=0)
>P(Y=1|X=1)
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.有可能出现这种情况:在随机抽取的这个样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.
如可以通过列联表中与值的大小粗略地判断分类变量x和Y之间有无关系.一般其值相差越大,分类变量有关系的可能性越大。
(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高堆积条形图展示列联表数据的频率特征.将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响。
三、两个分类变量之间关联关系的定性分析的方法
练习:
1.成语“名师出高徒”可以解释为“知名老师指导出高水平学生的概率较大”,即老师的名声与学生的水平之间有关联.你能举出更多的描述生活中两种属性或现象之间关联的成语吗?
2.根据有关规定,香烟盒上必须印上“吸烟有害健康”的警示语.那么
(1)吸烟是否对每位烟民一定会引发健康问题?
(2)有人说吸烟不一定引起健康问题,因此可以吸烟.这种说法对吗?
谢谢观看!