8.3.1 分类变量与列联表 课件(共58张PPT)

文档属性

名称 8.3.1 分类变量与列联表 课件(共58张PPT)
格式 pptx
文件大小 2.4MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2026-03-12 00:00:00

图片预览

文档简介

(共58张PPT)
8.3.1 分类变量与列联表
1. 通过实例,理解2×2列联表的统计意义(数学抽象).
2. 理解判断两个分类变量是否有关系的常用方法(数据分析).
课标要求
有关医学研究表明,许多疾病,如心脏病、癌症、脑血管病、慢性阻塞性
肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为
此,联合国固定每年5月31日为世界无烟日.那么这些疾病与吸烟有怎样的
关系呢?
情境导入
知识点一 数值变量与分类变量
01
知识点二 2×2列联表
02
知识点三 等高堆积条形图
03
课时作业
04
目录
知识点一 数值变量与分类变量
01
PART
问题1 下列变量:人的身高,直尺的长度,民族有什么不同?
提示:人的身高,直尺的长度都是数值变量;民族有汉族,回族等
“值”,不同“值”表示个体所属的不同类别.
【知识梳理】
1. 数值变量:数值变量的取值为实数,其大小和运算都有实际含义.
2. 分类变量:为了表述方便,经常会使用一种特殊的随机变量,以区别不
同的 或 ,这类随机变量称为分类变量.
  提醒:分类变量的取值可以用实数来表示,例如男性,女性可以用
1,0表示,学生的班级可以用1,2,3来表示.这些数值只作编号使用,并
没有大小和运算意义.分类变量是相对于数值变量来说的.
现象 
性质 
【例1】 〔多选〕下列是分类变量的是( ACD )
A. 近视 B. 成绩 C. 血压 D. 饮酒
解析: 近视有近视与不近视两种类别,血压有异常、正常两种类别,饮
酒有饮酒与不饮酒两种类别.成绩不是分类变量,它的取值不一定有两种.
ACD
【规律方法】
1. 数值变量的取值为实数,其大小和运算都有实际含义.
2. 分类变量是用随机变量区别不同的现象或性质,分类变量的取值可以用
实数表示,变量的不同“值”表示个体所属的不同类别,没有大小和运算
意义.
训练1 〔多选〕下列变量中属于分类变量的是( ACD )
A. 性别
B. 某医院逐年的就诊人数
C. 宗教信仰
D. 某药物的疗效
解析: 性别有男、女之分,宗教信仰有某一宗教的信仰、不信仰之分,
某药物的疗效有无效、有效之分;B项中,某医院逐年的就诊人数为数值
变量.
ACD
知识点二 2×2列联表
02
PART
问题2 为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9
965人,其中,不吸烟的7 817人中有42人患肺癌,吸烟的2 148人中有49人
患肺癌,试分析吸烟是否对患肺癌有影响.
我们在研究“吸烟与患肺癌的关系”时,需要关注哪些量呢?请补全表
格,并完成问题(1)(2).
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 42 7 817
吸烟者 49 2 148
合计 9 965
(1)在非吸烟者中患肺癌的比例为        ;
(2)在吸烟者中患肺癌的比例为     .
提示:吸烟患肺癌的人数;不吸烟患肺癌的人数;吸烟不患肺癌的人数;
不吸烟不患肺癌的人数.
吸烟 肺癌 合计
非肺癌患者 肺癌患者
非吸烟者 7 775 42 7 817
吸烟者 2 099 49 2 148
合计 9 874 91 9 965
(1)0.54% (2)2.28%
说明:吸烟者和非吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能
性大.
【知识梳理】
1. 列联表定义:观测数据按两个或更多属性进行交叉分类时所列出的频数
表,称为列联表.
2.2×2列联表:定义一对分类变量X和Y如下:X= 和Y= 其样
本频数列联表(称为2×2列联表)为:
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+
b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个
数分别是事件{Y=0}和{Y=1}的 ;最后一列的前两个数分别是
事件{X=0}和{X=1}的频数;中间的四个格中的数a,b,c,d是事件
{X=x,Y=y}(x,y=0,1)的频数;右下角格中的数n是
.
频数 
样本容
量 
【例2】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁
以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜
为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为
主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联
表,并利用 与 判断二者是否有关系.
解:2×2列联表如下:
饮食习惯 年龄 合计
六十岁以上 六十岁以下
以蔬菜为主 43 21 64
以肉类为主 27 33 60
合计 70 54 124
将表中数据代入公式得 = ≈0.67, = =0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯
与年龄有关系.
【规律方法】
利用2×2列联表分析两变量间关系的步骤
(1)根据题中数据列出2×2列联表;
(2)根据频率特征,即将 与 (或 与 )的值相比较,直
观地反映出两个分类变量间是否相互影响.
训练2 在对人们的休闲方式的一次调查中,共调查了110人,其中女性50
人,男性60人.女性中有30人主要的休闲方式是看电视,另外20人主要的
休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外40人主要
的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
解: 2×2列联表如下:
性别 休闲方式 合计
看电视 运动
女 30 20 50
男 20 40 60
合计 50 60 110
(2)由列联表判断性别与休闲方式是否有关系.
解: 根据列联表中的数据,可得女性中休闲方式为看电视的频率为
=0.6,男性中休闲方式为看电视的频率为 ≈0.333,二者差别较大,
可知性别与休闲方式有关系.
知识点三 等高堆积条形图
03
PART
问题3 问题2中“调查吸烟是否对患肺癌有影响”,我们能从图形中得到
吸烟与患肺癌之间的关系吗?
提示:从等高堆积条形图中可直观地得出吸烟者患肺癌的可能性大.
【知识梳理】
1. 将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据
分别对应不同的颜色,这就是等高堆积条形图.
2. 等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相
互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定
于概率的原理,我们可以推断结果.
【例3】 (链接教材P126例1)某学校对高三学生作了一项调查,发现:
在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,
性格外向的594名学生中有213名在考前心情紧张.作出等高堆积条形图,
利用图形判断考前心情紧张与性格类别是否有关系.
解:作列联表如下:
考前心情 性格 合计
内向 外向
紧张 332 213 545
不紧张 94 381 475
合计 426 594 1 020
相应的等高堆积条形图如图所示.
图中阴影部分表示考前心情紧张与考前
心情不紧张中性格内向的比例.
从图中可以看出考前心情紧张的样本中
性格内向占的比例比考前心情不紧张的
样本中性格内向占的比例高,可以认为考前心情紧张与性格类别有关.
【规律方法】
利用等高堆积条形图判断两个分类变量是否相关的步骤
训练3 某艺术馆为了研究学生性别和喜欢国画之间的联系,随机抽取80
名学生进行调查(其中有男生50名,女生30名),并绘制等高堆积条形图
如图,则这80名学生中喜欢国画的人数为( D )
A. 24 B. 32 C. 48 D. 58
D
解析: 由等高堆积条形图可知,男生中喜欢国画的占80%,女生中喜欢
国画的占60%,则这80名学生中喜欢国画的人数为50×80%+30×60%=
58,故选D.
1. 与表格相比,能更直观地反映出相关数据总体状况的是(  )
A. 列联表 B. 散点图
C. 残差图 D. 等高堆积条形图

2. 下面是一个2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a 21 73
X=1 8 25 33
合计 b 46 106
则表中a,b处的值分别为(  )
A. 94,96 B. 52,50
C. 52,60 D. 54,52

解析:  因为a+21=73,所以a=52,b=a+8=52+8=60.
3. 根据如图所示的等高堆积条形图可知吸烟与患肺病 关系.
(填“有”或“没有”)
解析:从等高堆积条形图上可以明显地看出吸烟患肺病的频率远远大于不
吸烟患肺病的频率,所以吸烟与患肺病有关系.

4. 在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到
以下数据:对150只动物服用药物,其中132只动物存活,18只动物死亡,
对150只动物进行常规治疗,其中114只动物存活,36只动物死亡.请根据
以上数据建立一个2×2列联表.
解:2×2列联表如表所示:
类别 治疗效果 合计
存活 死亡
药物治疗 132 18 150
常规治疗 114 36 150
合计 246 54 300
课堂小结
1. 理清单
(1)数值变量与分类变量;
(2)2×2列联表;
(3)等高堆积条形图.
2. 应体会
利用等高堆积条形图判断两个变量是否相关,体现了数形结合思想.
3. 避易错
不理解等高堆积条形图.
课时作业
04
PART
1
2
3
4
5
6
7
8
9
10
11
12
1. 下表是一个2×2列联表,则表中m,n的值分别为(  )
x y 合计
y1 y2
x1 a 35 45
x2 7 b n
合计 m 73 s
A. 10,38 B. 17,45 C. 10,45 D. 17,38

解析:  根据2×2列联表可知,a+35=45,解得a=10,则m=a+7=
10+7=17,又由35+b=73,解得b=38,则n=7+38=45,故选B.
2. 已知两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},观
察下列各图,其中两个分类变量X,Y之间关系最强的是(  )

解析: 等高堆积条形图中 和 相差越大,两个分类变量之
间关系越强.
1
2
3
4
5
6
7
8
9
10
11
12
3. 假设有两个分类变量X与Y,它们的可能取值分别为X= 和Y=
其2×2列联表为:
X Y 合计
Y=0 Y=1
X=0 10 18 28
X=1 m 26 m+26
合计 10+m 44 m+54
则当m取下面何值时,X与Y的关系最弱(  )
A. 8 B. 9
C. 14 D. 19

1
2
3
4
5
6
7
8
9
10
11
12
解析:  若X与Y之间没有影响,则有 = .解得m≈14.4,所以当
m=14时,X与Y的关系最弱.
1
2
3
4
5
6
7
8
9
10
11
12
4. 〔多选〕如图是调查某地区男、女中学生喜欢数学的等高堆积条形图,
阴影部分表示喜欢数学的百分比,从图中可以看出(  )
A. 性别与喜欢数学无关
B. 女生中喜欢数学的百分比为80%
C. 男生比女生喜欢数学的可能性大些
D. 男生不喜欢数学的百分比为40%
解析:  由题图知女生中喜欢数学的百分比为20%,男生不喜欢数学的
百分比为40%,男生比女生喜欢数学的可能性大些,故A、B不正确,C、
D正确.


1
2
3
4
5
6
7
8
9
10
11
12
5. 〔多选〕随着我国经济结构调整和方式转变,社会对高质量人才的需求
越来越大,因此考研现象在我国不断升温.某大学一学院甲、乙两个本科
专业,研究生的报考和录取情况如表,则(  )
性别 甲专业报 考人数 乙专业报 考人数 甲专业 录取率 乙专业
录取率
男 100 400 25% 45%
女 300 100 30% 50%
A. 甲专业比乙专业的录取率高 B. 乙专业比甲专业的录取率高
C. 男生比女生的录取率高 D. 女生比男生的录取率高


1
2
3
4
5
6
7
8
9
10
11
12
解析:  由题意可得甲专业录取了男生25人,女生90人,乙专业录
取了男生180人,女生50人.甲专业的录取率为 =28.75%,乙
专业的录取率为 =46%,所以乙专业比甲专业的录取率高.男生
的录取率为 =41%,女生的录取率为 =35%,所以男生
比女生的录取率高.
1
2
3
4
5
6
7
8
9
10
11
12
6. 下表是不完整的2×2列联表,其中3a=c,b=2d,则a= .
X Y 合计
y1 y2
x1 a b 55
x2 c d
合计 120
15
1
2
3
4
5
6
7
8
9
10
11
12
解析:由题意得 又3a=c,b=2d,所以
解得a=15.
1
2
3
4
5
6
7
8
9
10
11
12
7. 某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽
取了100名电视观众,相关的数据如表所示:
年龄 电视节目 合计
文艺节目 新闻节目
20至40岁 40 18 58
大于40岁 15 27 42
合计 55 45 100
由表中数据直观分析,收看新闻节目与年龄 关联.(填“有”或
“无”)

1
2
3
4
5
6
7
8
9
10
11
12
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40
岁的42名观众中有27名观众收看新闻节目,则 = ≈0.310 3, =
≈0.642 9,两者相差较大,所以可以在某种程度上认为收看新闻节目与
年龄有关联.
1
2
3
4
5
6
7
8
9
10
11
12
8. 针对某新型病毒,某科研机构已研发出甲、乙两种疫苗,为比较两种疫
苗的效果,选取100名志愿者,将他们随机分成两组,每组50人.第一组志
愿者注射甲种疫苗,第二组志愿者注射乙种疫苗,经过一段时间后,对这
100名志愿者进行该新型病毒抗体检测,发现有 的志愿者未产生该新型
病毒抗体,在未产生该新型病毒抗体的志愿者中,注射甲种疫苗的志愿者
占 .根据上述数据建立一个2×2列联表.
1
2
3
4
5
6
7
8
9
10
11
12
解:由题意可得未产生该新型病毒抗体的志愿者的人数为100× =10,
则注射甲种疫苗的志愿者中未产生抗体的人数为10× =2,产生抗体的人
数为50-2=48,注射乙种疫苗的志愿者中未产生抗体的人数为10-2=
8,产生抗体的人数为50-8=42.所得2×2列联表为:
疫苗类别 是否产生抗体 合计
产生抗体 未产生抗体
甲 48 2 50
乙 42 8 50
合计 90 10 100
1
2
3
4
5
6
7
8
9
10
11
12
9. 为了解某高校学生使用手机支付和
现金支付的情况,抽取了部分学生作
为样本,统计其喜欢的支付方式,并
制作出等高堆积条形图(如图),根
据图中的信息,下列结论中不正确的
是(  )
A. 样本中的男生数量多于女生数量
B. 样本中喜欢手机支付的数量多于现金支付的数量
C. 样本中多数男生喜欢现金支付
D. 样本中多数女生喜欢手机支付

1
2
3
4
5
6
7
8
9
10
11
12
解析: 对于A,由题中如图可知,样本中的男生数量多于女生数量,所
以A正确;对于B,由题中右图可知,样本中喜欢手机支付的数量多于现金
支付的数量,所以B正确;对于C,由题中右图可知,样本中多数男生喜欢
手机支付,所以C不正确;对于D,由题中右图可知,样本中多数女生喜欢
手机支付,所以D正确.故选C.
1
2
3
4
5
6
7
8
9
10
11
12
10. 〔多选〕户外运动已经成为一种时尚,某单位为了了解员工喜欢户外
运动是否与性别有关,从本单位所有员工共计650人中采用分层随机抽样
的方法抽取50人进行问卷调查,得到了如下2×2列联表:
性别 户外运动 合计
喜欢 不喜欢
男性 a 5 b
女性 10 c d
合计 e f 50
1
2
3
4
5
6
7
8
9
10
11
12
在这50人中随机抽取1人,抽到喜欢户外运动的员工的概率是0.6,则下列
说法正确的是(  )
A. 抽取的50人中喜欢户外运动的有30人
B. a=20,c=15
C. e=30,f=10
D. 女性中喜欢户外运动的概率为0.4



1
2
3
4
5
6
7
8
9
10
11
12
解析: 从50人中随机抽取1人,抽到喜欢户外运动的员工的概率是
0.6,可得50人中喜欢户外运动的人数为50×0.6=30,即e=30,f=20.
因为喜欢户外运动的女性有10人,所以喜欢户外运动的男性有30-10=20
(人),即a=20,b=25.因为不喜欢户外运动的男性有5人,所以不喜
欢户外运动的女性有20-5=15(人),即c=15,d=25.女性中喜欢户
外运动的概率为 =0.4.故选A、B、D.
1
2
3
4
5
6
7
8
9
10
11
12
11. 如图是调查某学校高三年级男、女学生是否喜欢徒步运动而得到的等
高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女
生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按
分层随机抽样的方法抽取23人,则抽取的男生人数为 .
15
1
2
3
4
5
6
7
8
9
10
11
12
解析:根据等高堆积条形图可知:喜欢徒步的男生人数为0.6×500=
300,喜欢徒步的女生人数为0.4×400=160,所以喜欢徒步的总人数为
300+160=460,按分层随机抽样的方法抽取23人,则抽取的男生人数为
×23=15.
1
2
3
4
5
6
7
8
9
10
11
12
12. 在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测
试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进
行了测试成绩的统计,数据如表所示:
分数段 29~40 41~50 51~60 61~70 71~80 81~90 91~
100
午休考生 人数 23 47 30 21 14 31 14
不午休考 生人数 17 51 67 15 30 17 3
1
2
3
4
5
6
7
8
9
10
11
12
(1)根据上述表格列出是否午休与成绩及格、不及格的2×2列联表;
解: 根据题表中数据可以得到2×2列联表如下:
是否午休 成绩 合计
及格 不及格
午休 80 100 180
不午休 65 135 200
合计 145 235 380
1
2
3
4
5
6
7
8
9
10
11
12
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意
义?
解: 计算可知,午休的考生及格率为P1= = ,不午休的考生的
及格率为P2= = ,则P1>P2,因此,可以粗略判断午休与考生考试
及格有关系,并且午休的及格率高,所以在以后的复习中考生应适当午
休,以保持最佳的学习状态.
1
2
3
4
5
6
7
8
9
10
11
12
THANKS
演示完毕 感谢观看