(共40张PPT)
8.3 列联表与独立性检验
1.通过实例,理解2×2列联表的统计意义. 2.理解判断两个分类变量是否有关系的常用方法. 3.了解随机变量χ2的意义. 4.通过对典型案例的分析,了解独立性检验的基本思想和方法.
学 习
目 标
新知学习 探究
PART
01
第一部分
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手.为此,联合国固定每年5月31日为世界无烟日.那么如何探究这些疾病与吸烟的关系呢?
思考1 人的身高、直尺的长度、民族种类、是否吸烟等都是变量,它们有什么不同?
提示:人的身高,直尺的长度都是数值变量;民族有汉族,回族等“值”,一个人要么属于吸烟人群,要么属于不吸烟人群,后两个变量取不同“值”表示个体所属的不同类别.
思考2 调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,其数据如下:
单位:人
行为 疾病 合计
不患肺癌 患肺癌 不吸烟 7 775 42 7 817
吸烟 2 099 49 2 148
合计 9 874 91 9 965
根据上表,不吸烟人群患肺癌的比例与吸烟人群患肺癌的比例各是多少?
一 分类变量与列联表
1.数值变量与分类变量
数值变量:数值变量的取值为________,其大小和运算都有实际含义.
分类变量:为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为____________.分类变量的取值可以用________表示,例如,性别变量,其取值男和女可以用1和0表示.
实数
分类变量
实数
2.2×2列联表
定义一对分类变量X和Y,我们整理数据如表所示:
X Y 合计
Y=0 Y=1 X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
上表是关于分类变量X和Y的抽样数据的2×2列联表:最后一行的前两个数分别是事件{Y=0}和{Y=1}的________;最后一列的前两个数分别是事件{X=0}和{X=1}的________;中间的四个数a,b,c,d是事件{X=x,Y=y}(x,y=0,1)的________;右下角格中的数n是____________.
频数
频数
频数
样本容量
某单位主管为了解男、女职工对工作量大小的看法是否存在差异,对50名员工进行了工作量的调查,得到的数据如下:
单位:人
性别 工作量 合计
认为工作量大 (Y=1) 认为工作量小 (Y=0) 男(X=1) 18 9 27
女(X=0) 8 15 23
合计 26 24 50
请判断认为工作量的大小与性别是否有关.
[跟踪训练1] 假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
X Y 合计
y1 y2 x1 10 18 28
x2 m 26 m+26
合计 m+10 44 m+54
√
则若X与Y的关系最弱,整数m的值为( )
A.8 B.9
C.14 D.19
二 等高堆积条形图
等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的__________特征,依据________________的原理,我们可以推断结果.
频率
频率稳定于概率
某省从2023年开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高堆积条形图,则下列结论正确的是( )
A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数
B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数
C.样本中选择物理学科的人数较多
D.样本中男生人数少于女生人数
√
【解析】 根据题图1可知样本中选择物理学科的人数较多,故C正确;
根据题图2可知样本中男生人数多于女生人数,故D错误;
样本中选择物理意愿的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;
因为样本中男生人数多于女生人数,所以样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.故选C.
利用等高堆积条形图判断两个分类
变量是否相关的步骤
[跟踪训练2] 某校为研究该校学生性别与体育锻炼的经常性之间的联系,随机抽取100名学生(其中男生60名,女生40名),并绘制得到如图所示的等高堆积条形图,则这100名学生中经常锻炼的人数为________.
解析:由题图进行数据分析,这100名学生中经常锻炼的人数为60×0.8+40×0.5=68.
68
a+b+c+d
是否独立
独立性检验
2.小概率值α的检验规则
对于任何小概率值α,可以找到相应的正实数xα,使P(χ2≥xα)=α成立,我们称xα为α的临界值.如下表:
(1)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
(2)当χ2α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
为了有针对性地提高学生体育锻炼的积极性,某中学随机抽取了80名学生,按照性别和体育锻炼情况整理为如下列联表:
单位:人
性别 锻炼 合计
不经常 经常 男 20 20 40
女 24 16 40
合计 44 36 80
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【变式探究】
(条件变式)若列联表中的所有样本观测数据都变为原来的10倍,依据α=0.05的独立性检验,能否认为性别因素会影响学生锻炼的经常性.
解决独立性检验问题的基本步骤
[跟踪训练3] 为了解某比赛中是否接受挑战与受邀者的性别是否有关系(假设每个人是否接受挑战互不影响),某机构进行了随机抽样调查,得到如下调查结果:
单位:人
性别 是否接受挑战 合计
接受挑战 不接受挑战 男 50 10 60
女 20 20 40
合计 70 30 100
根据小概率值α=0.001的独立性检验,能否认为比赛中是否接受挑战与受邀者的性别有关?
课堂巩固 自测
PART
02
第二部分
√
1.在一项中学生近视情况的调查中,某校150名男生中有80名近视,140名女生中有70名近视,在检验这些中学生眼睛近视是否与性别有关时最有说服力的方法是( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
解析:近视与性别是两个分类变量,在检验两个分类变量是否有关时,最有说服力的方法是独立性检验.故选C.
√
2.(多选)(教材P134 T3改编)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的2×2列联表中,由列联表中的数据计算得χ2≈9.616.参照附表,下列结论正确的是( )
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.根据小概率值α=0.001的独立性检验,分析认为“药物有效”
B.根据小概率值α=0.001的独立性检验,分析认为“药物无效”
C.根据小概率值α=0.005的独立性检验,分析认为“药物有效”
D.根据小概率值α=0.005的独立性检验,分析认为“药物无效”
√
解析:因为χ2≈9.616,所以7.879<χ2<10.828,所以根据小概率值α=0.001的独立性检验,分析认为“药物无效”;根据小概率值α=0.005的独立性检验,分析认为“药物有效”.故选BC.
3.如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人,则抽取的男生人数为________.
15
4.(教材P134 T4改编)体育比赛既是运动员展示个人实力的舞台,也是教练团队排兵布阵的战场.在某团体比赛项目中,教练组想研究主力队员甲对运动队赢得奖牌的贡献,根据以往的比赛数据得到如下列联表:
甲是否参加 运动队是否赢得奖牌 合计
赢得奖牌 未得奖牌 参加 40 b 70
未参加 c 40 f
合计 50 e n
根据小概率值α=0.001的独立性检验,能否认为该运动队赢得奖牌与甲参赛有关联?
解:由题意知,b=70-40=30,c=50-40=10,
e=30+40=70,f=10+40=50,n=70+50=120,
2×2列联表如下:
甲是否参加 运动队是否赢得奖牌 合计
赢得奖牌 未得奖牌 参加 40 30 70
未参加 10 40 50
合计 50 70 120
1.已学习:分类变量的概念、2×2列联表、等高堆积条形图、独立性检验及其应用
2.须贯通:(1)直观显示两分类变量的方法:2×2列联表、等高堆积条形图;
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,否则就可能对统计计算的结果作出错误的解释.
3.应注意:对独立性检验的原理理解不到位,不会用χ2分析问题.