高中数学选择性必修第三册第八章计数原理(人教A版2019)
8.3列联表与独立性检验
【基础梳理】
一、分类变量与列联表
1.分类变量
这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种
我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示
2.2X2列联表
在实践中,由于保存原始数据的成本较高,人们经常技研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2X2列联表,2X2
列联表给出了成对分类变量数心的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2X2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
3.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量问是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果
二、独立性检验
1.临界值
统计量也可以用来作相关性的度量,越小说明变量之间越独立,越大说明变量之间越相关
.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,这个临界值就可作为判断大小的标准.
2.独立性检验
基于小概丰值的检验规则是:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
这种利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验
下表给出了产独立性检验中几个常用的小概车值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2X2列联表,计算的值,并与临界值比较:
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的顿率,分析X和Y间影响规律
【课堂探究】
例1.对于独立性检验,下列说法正确的是(
)
A.时,有95%的把握说事件与无关
B.时,有99%的把握说事件与有关
C.时,有95%的把握说事件与有关
D.时,有99%的把握说事件与无关
【答案】B
【分析】
根据独立性检验中卡方的概念知,选B.
【详解】
根据独立性检验中卡方的概念知,时,有99%的把握说事件与有关选B.
【点睛】
本题主要考查了独立性检验中卡方的概念,属于中档题.
例2.经过对K2的统计量的研究,得到了若干个观测值,当K2≈6.706时,我们认为两分类变量A、B( )
A.有67.06%的把握认为A与B有关系
B.有99%的把握认为A与B有关系
C.有0.010的把握认为A与B有关系
D.没有充分理由说明A与B有关系
【答案】B
【分析】
根据所给的观测值,同临界值表中的临界值进行比较,根据P(K2>3.841)=0.05,得到我们有1-0.05=95%的把握认为A与B有关系.
【详解】
依据下表:
P(
K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
,
∴我们在错误的概率不超过0.01的前提下有99%的把握认为A与B有关系,
故选B.
【课后练习】
1.某村庄对改村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检
每年未体检
合计
老年人
7
年轻人
6
合计
50
已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是(
)
A.
B.
C.
D.
【答案】D
【解析】
分析:先根据列联表列方程组,解得a,b,c,d,e,f,再判断真假.
详解:因为,
所以
选D.
2.下列命题:①在线性回归模型中,相关指数表示解释变量对于预报变量的贡献率,越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均减少0.5个单位;④对分类变量与,它们的随机变量的观测值来说,越小,“与有关系”的把握程度越大.其中正确命题的个数是(
)
A.1个
B.2个
C.3个
D.4个
【答案】C
【解析】
对于①,在回归分析模型中,相关指数表示解释变量对于预报变量的贡献率,越接近于1,表示回归效果越好,正确,因为相关指数越大,则残差平方和越小,模型的拟合效果越好,①正确.
对于②两个变量相关性越强,则相关系数的绝对值就越接近于1;
对于③在回归直线方程中,当解释变量每增加一个单位时,预报变量平均减少0.5个单位;正确;
对于④对分类变量与,它们的随机变量的观测值来说,越小,“与有关系”的把握程度越大.错误,因为在对分类变量与进行独立性检验时,随机变量的观测值越大,则“与相关”可信程度越大,故④错误;
故选C
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(
)
A.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若的观测值为,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
D.以上三种说法均不正确
【答案】A
【解析】
要正确认识观测值的意义,观测值同临界值进行比较得到一个概率,这个概率是推断出错误的概率,若从统计量中求出有的把握认为吸烟与患肺病有关系,是指有的可能性使得推断出现错误
故选
4.为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如下等高条形图:
根据图中的信息,下列结论中不正确的是(
)
A.样本中的男生数量多于女生数量
B.样本中喜欢手机支付的数量多于现金支付的数量
C.样本中多数男生喜欢手机支付
D.样本中多数女生喜欢现金支付
【答案】D
【详解】
由右边条形图知,男生女生喜欢手机支付的比例都高于现金支付的比例,所以男生女生都喜欢手机支付,故对,错,由左边条形图知,男生女生手机支付都比现金支付比例相同,对,结合两个条形图可知,样本中的男生数量多于女生数量,对,故选D.
5.假设2个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
a+c
40
100
对于同一样本,以下数据能说明和有关系的可能性最大的一组是(
)
A.a=40,c=20
B.a=45,c=15
C.a=35,c=25
D.a=30,c=30
【答案】B
【分析】
根据题意,
一定时,,相差越大,与相差就越大,的观测值就越大,由此能说明和有关系的可能性越大.
【详解】
的观测值,
根据2×2列联表和独立性检验的相关知识,当,
一定时,,相差越大,与相差就越大,就越大,即和有关系的可能性越大,选项B中与其它选项相比相差最大.
故选:B
6.某校对学生进行心理障碍测试,得到的数据如下表:
焦虑
说谎
懒惰
总计
女生
5
10
15
30
男生
20
10
50
80
总计
25
20
65
110
根据以上数据可判断在这三种心理障碍中,与性别关系最大的是(
)
A.焦虑
B.说谎
C.懒惰
D.以上都不对
【答案】B
【分析】
分别求出三种关系的观测值,比较后可得结论.
【详解】
解:对于焦虑,说谎,懒惰三种心理障碍,设它们观测值分别为,
由表中数据可得:
,
,
,
因为的值最大,所以说谎与性别关系最大.
故选:B.
7.某校学生会为研究该校学生的性别与语文、数学、英语成绩这3个变量之间的关系,随机抽查了100名学生,得到某次期末考试的成绩数据如表1至表3,根据表中数据可知该校学生语文、数学、英语这三门学科中(
)
表1
表2
表3
语文
性别
不及格
及格
总计
数学
性别
不及格
及格
总计
英语
性别
不及格
及格
总计
男
14
36
50
男
10
40
50
男
25
25
50
女
16
34
50
女
20
30
50
女
5
45
50
总计
30
70
100
总计
30
70
100
总计
30
70
100
A.语文成绩与性别有关联性的可能性最大,数学成绩与性别有关联性的可能性最小
B.数学成绩与性别有关联性的可能性最大,语文成绩与性别有关联性的可能性最小
C.英语成绩与性别有关联性的可能性最大,语文成绩与性别有关联性的可能性最小
D.英语成绩与性别有关联性的可能性最大,数学成绩与性别有关联性的可能性最小
【答案】C
【分析】
根据题目所给的数据填写2×2列联表即可;计算K的观测值K2,对照题目中的表格,得出统计结论.
【详解】
因为,所以英语成绩与性别有关联性的可能性最大,语文成绩与性别有关联性的可能性最小.
故选C
8.为考察某种药物预防疾病的效果,进行动物试验,得到如下药物效果与动物试验列联表:
患病
未患病
总计
服用药
没服用药
总计
由上述数据给出下列结论,其中正确结论的个数是(
)
附:;
①能在犯错误的概率不超过的前提下认为药物有效
②不能在犯错误的概率不超过的前提下认为药物有效
③能在犯错误的概率不超过的前提下认为药物有效
④不能在犯错误的概率不超过的前提下认为药物有效
A.
B.
C.
D.
【答案】B
【分析】
计算出的值,由此判断出正确结论的个数.
【详解】
依题意,故能在犯错误的概率不超过0.05的前提下认为药物有效,
不能在犯错误的概率不超过0.005的前提下认为药物有效,即①④结论正确,本小题选B.