8.3 列联表与独立性检验
【学习目标】
学习目标 素养要求
(1)通过实例,理解2×2列联表的统计意义. (2)了解随机变量χ2的意义. (3)通过实例,了解2×2列联表独立性检验及其应用. 逻辑推理 数学运算
【自主学习】
一、分类变量与列联表
1.分类变量:区别不同的现象或性质的 称为分类变量.
注意:(1)分类变量的取值一定是离散的.
(2)分类变量是大量存在的,如是否吸烟,商品的等级等.
2. 2×2列联表:
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1 y2 合计
x1 a b a+b
x2 c d
合计 b+d
(1)列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表.
(2)列联表有助于直观地观测数据之间的关系,如a表示既满足x1,又满足y1的样本量, 表示在x1情况下,又满足y1条件的样本所占的频率.
二、独立性检验
1.独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作 ,简称 .
2.χ2= ,其中n=a+b+c+d.
注意:
(1)卡方越小,独立性越强,相关性越弱;卡方越大,独立性越弱,相关性越强.
(2)当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
常用临界值表如下:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【小试牛刀】
1、思维辨析(对的打“√”,错的打“×”)
(1)列联表中的数据是两个分类变量的频数.( )
(2)事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)χ2的大小是判断事件A与B是否相关的统计量.( )
(4)独立性检验的方法和数学上的反证法是一样的.( )
2.下表是一个2×2列联表:
y1 y2 总计
x1 a 21 73
x2 2 25 27
总计 b 46 100
则表中a、b处的值分别为( )
A.94,96 B.52,50 C.52,54 D.54,52
【经典例题】
题型一 随机变量χ2的意义
例1 依据小概率值α=0.05的独立性检验,认为“X与Y有关系”,随机变量χ2必须满足( )
α 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
A.大于10.828 B.大于3.841
C.小于6.635 D.大于2.706
【跟踪训练】 1为 了判定两个分类变量X和Y是否有关系,应用独立性检验法算的χ2为5.003,又已知P(χ2≥3.841)=0.05,P(χ2≥6.635)=0.01,则下列说法正确的是( )
A.在犯错误的概率不超过5%的前提下,认为“X和Y有关系”
B.在犯错误的概率不超过5%的前提下,认为“X和Y没有关系”
C.依据小概率值α=0.01的独立性检验,认为“X和Y有关系”
D.依据小概率值α=0.01的独立性检验,认为“X和Y没有关系”
题型二 独立性检验
点拨:独立性检验的步骤:
(1)列出2×2列联表;
(2)根据实际问题的需要零假设;
(3)利用公式,计算χ2.
(4)与临界值xα比较作出判断.
例2 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.
【跟踪训练】2某校对学生课外活动进行调查,结果整理成下表,试根据小概率值α=0.005的独立性检验,分析喜欢体育还是文娱与性别是否有关系.
性别 喜欢 合计
体育 文娱
男生 21 23 44
女生 6 29 35
合计 27 52 79
【当堂达标】
1.对两个分类变量A,B的下列说法中正确的个数为( )
①A与B无关,即A与B互不影响;
②A与B关系越密切,则χ2的值就越大;
③χ2的大小是判定A与B是否相关的唯一依据.
A.0 B.1 C.2 D.3
2.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线 一线 合计
愿生 45 20 65
不愿生 13 22 35
合计 58 42 100
由χ2=,得χ2=≈9.616.
参照下表:
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
2.下列结论正确的是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.依据小概率值α=0.01的独立性检验,认为“生育意愿与城市级别有关”
D.依据小概率值α=0.01的独立性检验,认为“生育意愿与城市级别无关”
3.下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:
知道想学专业 不知道想学专业 合计
男生 63 117 180
女生 42 82 124
合计 105 199 304
根据表中数据,则下列说法正确的是________.(填序号)
①性别与知道想学专业有关;
②性别与知道想学专业无关;
③女生比男生更易知道所学专业.
4.下表是某地区的一种传染病与饮用水的调查表:
得病 不得病 合计
干净水 52 466 518
不干净水 94 218 312
合计 146 684 830
这种传染病是否与饮用水的卫生程度有关?请说明理由.
【参考答案】
【自主学习】
一、1. 随机变量 2. a+c c+d a+b+c+d
二、1. “卡方独立性检验” 独立性检验 2.
【小试牛刀】
1.(1)√ (2)× (3)√ (4)×
2.C 解析:a=73-21=52,b=a+22=52+22=74.故选C.
【经典例题】
例1 B 解析:查表可知犯错误的概率不超过0.05时对应的χ2为3.841,所以确定结论“X与Y有关系”时,随机变量χ2需大于3.841.
【跟踪训练】 1 A 解析:因为3.841<χ2=5.003<6.635=x0.01,又P(χ2≥3.841)=0.05,所以依据小概率值α=0.05的独立性检验,认为“X和Y有关系”.
例2解: (1)2×2列联表如表所示:
教师年龄 对新课程教学模式 合计
赞同 不赞同
老教师 10 10 20
青年教师 24 6 30
合计 34 16 50
(2)零假设为H0:对新课程教学模式的赞同情况与教师年龄无关.
由公式得
χ2=≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,即认为对新课程教学模式的赞同情况与教师年龄无关.
【跟踪训练】2 解: 零假设为H0:喜欢体育还是喜欢文娱与性别没有关系.
∵a=21,b=23,c=6,d=29,n=79,
∴χ2=
=≈8.106>7.879=x0.005.
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关.
【当堂达标】
1. B 解析:①正确,A与B无关即A与B相互独立;②不正确,χ2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.
2. C 解析: 因为χ2≈9.616>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,认为“生育意愿与城市级别有关”,故选C.
② 解析: χ2=≈0.041<2.706=x0.1,所以性别与知道想学专业无关.
解:零假设为:H0:传染病与饮用水的卫生程度无关.
根据列联表中的数据,经计算得到
χ2=≈54.21>10.828=x0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为这种传染病与饮用水的卫生程度有关.