(共43张PPT)
3.2 独立性检验的基本思想及其初步应用
目标定位
重点难点
了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.
重点:理解独立性检验的基本思想及步骤.
难点:独立性检验的基本思想;随机变量K2的含义.
1.2×2列联表
(1)分类变量:变量的不同“值”表示个体所属的__________,像这类变量称为分类变量.
不同类别
(2)2×2列联表
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为
像上表这样列出的两个分类变量的________称为列联表.
在列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0.因此|ad-bc|越小,说明两个分类变量之间关系越弱;|ad-bc|越大,说明两个分类变量之间关系越强.
变 量
y1
y2
总 计
x1
a
b
a+b
x2
c
d
c+d
总 计
a+c
b+d
a+b+c+d
频数表
a+b+c+d
K2
有关系
附表:
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
k
0.455
0.708
1.323
2.072
2.706
P(K2≥k)
0.05
0.025
0.010
0.005
0.001
k
3.841
5.024
6.635
7.879
10.828
注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.
统计学研究表明:当K2≤3.841时,认为X与Y无关;
当K2>3.841时,有95%的把握说X与Y有关;
当K2>6.635时,有99%的把握说X与Y有关;
当K2>10.828时,有99.9%的把握说X与Y有关.
1.想要检验是否喜欢参加体育活动是不是与性别有关,应该假设( )
A.H0:男性喜欢参加体育活动
B.H0:女性不喜欢参加体育活动
C.H0:喜欢参加体育活动与性别有关
D.H0:喜欢参加体育活动与性别无关
【答案】D
【答案】A
3.(2015年兴平市期末考)某班主任对全班50名学生进行了作业量多少的调查,数据如下:
则估计是否喜欢玩手机与认为作业多少有关系的把握大约为________.
【答案】97.5%
变 量
认为作业多
认为作业不多
喜欢玩手机
18
9
不喜欢玩手机
7
16
4.独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________,在此假设下构造随机变量K2.如果K2的观测值较大,那么在一定程度上说明假设________.
【答案】无关 不成立
【例1】
在500人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较结果如下:
试用等高条形图分析血清是否能起到预防感冒的作用.
用等高条形图判断两个分类变量的相关性
组 别
未感冒
感 冒
合 计
试 验
252
248
500
未试验
244
256
500
合 计
496
504
1
000
【解题探究】根据列联表画出等高条形图,并进行分析.
8
(1)如果题目仅要求粗略地判断“两个分类变量”是否有关,则利用三维柱图和二维条形图即可,这种判断可加深对独立性检验基本思想的理解.(2)进行独立性检验时,要准确作出列联表,正确利用计算K2的公式.
1.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示:
据此资料你是否认为在恶劣气候飞行中男性比女性更容易晕机?
性 别
晕 机
不晕机
合 计
男 性
24
31
55
女 性
8
26
34
合 计
32
57
89
【例2】
某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?
独立性检验
学 生
喜欢甜品
不喜欢甜品
合 计
南方学生
60
20
80
北方学生
10
10
20
合 计
70
30
100
【解题探究】由列联表计算出K2的值,运用独立性检验得出结论.
8
在2×2列联表独立性检验中,随机变量K2的观测值可以确定“两个分类变量有关系”的可信度.如果K2的值很大,说明关系很大;如果K2的值比较小,则说明二者之间关系不明显.
2.某大型企业人力资源部为了研究企业员工工作态度和对待企业改革态度的关系,经过调查得到如下列联表:
根据列联表,能否在犯错误的概率不超过0.005的前提下认为工作态度与对待企业改革态度之间有关系?
态 度
积极支持
企业改革
不太支持
企业改革
总 计
工作积极
54
40
94
工作一般
32
63
95
总 计
86
103
189
【例3】
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?
【解题探究】首先作出调查数据的列联表,再根据列联表画出条形图.计算K2的值,运用独立性检验得出结论.
独立性检验的综合应用
【解析】根据题目所给数据得如下2×2列联表:
相应的等高条形图如图所示.
类 别
合格品数
次品数
总 计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总 计
1
475
25
1
500
8
解决此类问题的关键是能正确作出列联表及对独立性检验思想的理解.
3.(2018年广州综合测试)某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人,按性别分层抽样,抽取90名同学做意向调查.
(1)将下列2×2列联表补充完整;
学生
愿意选修
英语口语课程
不愿意选修
英语口语课程
总计
男生
25
女生
总计
35
【示例】
为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:
药物效果试验列联表
请问有多大把握认为该药有效?
公式记忆不准确,计算错误
类 别
患 病
未患病
服用药
10
45
没服用药
20
30
1.所谓独立性检验,就是根据采集样本的数据,先利用等高条形图粗略判断两个分类变量是否有关系,再利用公式计算K2的值,比较与临界值的大小关系,来判定事件x与y是否无关的问题.
2.根据事件的相互独立检验,可用公式P(AB)=P(A)·P(B)进行检验两分类变量没有关系.
2.在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( )
A.若求出统计量K2>6.635,有99%的把握说“吸烟与患肺病有关”,则某人吸烟,那么他有99%的可能患肺病
B.若求出统计量K2>6.635,有99%的把握说“吸烟与患肺病有关”,则在100个吸烟者中必定有99人患肺病
C.若求出统计量K2>3.841,有95%的把握说“吸烟与患肺病有关”,是指有5%的可能性使得推断错误
D.以上说法都不对
【答案】C
3.(2019年通辽月考)通过随机询问100名性别不同的大学生是否爱好踢毽子,得到如下的列联表:
根据上表得到的正确结论是( )
A.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过5%的前提下,认为“爱好该项运动与性别无关”
C.有97.5%以上的把握认为“爱好该项运动与性别有关”
D.有97.5%以上的把握认为“爱好该项运动与性别无关”
【答案】A
4.利用独立性检验来判断两个分类变量X和Y是否有关系,通过查阅下表来确定“X和Y有关系”的可信度.为了调查用电脑时间与视力下降是否有关系,现从某地网民中抽取100位居民进行调查.经过计算得K2≈3.855,那么有________%的把握认为用电脑时间与视力下降有关系.
附表:
P(K2≥k)
0.10
0.05
0.025
0.010
0.005
0.001
k
2.706
3.841
5.024
6.635
7.879
10.828
【答案】95 第三章 3.2
【基础练习】
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
【答案】D
2.(2019年沧州期中)独立性检验中,假设:变量X与变量Y没有关系,则在上述假设成立的情况下,算得K2=6.9,已知P(K2≥6.635)≈0.01,表示的意义是(
)
A.变量X与变量Y有关系的概率为1%
B.变量X与变量Y没有关系的概率为99.9%
C.变量X与变量Y没有关系的概率为99%
D.变量X与变量Y有关系的概率为99%
【答案】D
3.(2017年遵义模拟)通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如表所示的2×2列联表:
性 别
男
女
总 计
走天桥
40
20
60
走斑马线
20
30
50
总 计
60
50
110
由K2=,算得K2=≈7.8.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“选择过马路的方式与性别有关”
B.有99%以上的把握认为“选择过马路的方式与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”
【答案】A
4.考查某班学生数学、外语成绩得到2×2列联表如下:
类 别
数学优
数学差
总 计
外语优
34
17
51
外语差
15
19
34
总 计
49
36
85
那么,随机变量K2的观测值k等于( )
A.10.3
B.8
C.4.25
D.9.3
【答案】C
5.若由一个2×2列联表中的数据计算得K2的观测值k≈4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.
【答案】0.05
6.为了考察是否喜欢运动与性别之间的关系,得到一个2×2列联表,经计算得K2=6.679,则有________%以上的把握认为是否喜欢运动与性别有关系.
【答案】99
【解析】∵K2≈6.679>6.635,∴有99%的把握认为是否喜欢运动与性别有关系.
7.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.为验证其正确性,对高三文科成绩调查得到如下列联表:
成 绩
总成绩好
总成绩不好
总 计
数学成绩好
478
12
490
数学成绩不好
399
24
423
总 计
877
36
913
能否在犯错误的概率不超过0.025的前提下认为文科学生总成绩不好与数学成绩不好有关系?
【解析】根据列联表中的数据,得K2的观测值为
k=≈6.233>5.024.
因此,在犯错误的概率不超过0.025的前提下,认为文科学生总成绩不好与数学成绩不好有关系.
8.(2018年乌鲁木齐模拟)自淘宝创立“双十一”以来,到2018年,“双十一”已经走过了十个年头,随着消费者消费水平越来越高,低价已经不再是最核心的要素,消费者对于品质的追求也越来越高.某公司对“双十一”当天在淘宝购物的男、女各1
000名消费者的消费金额(单位:千元)进行统计,得到了消费金额的频率分布直方图如下:
(1)根据频率分布直方图,从在淘宝购物的这2
000名消费者中任选一人,估计消费金额在2
000元以上(包括2
000元)的概率;
(2)若“双十一”当天在淘宝上至少购买3
000元商品,就称此消费者为“酷爱淘宝者”,列出“酷爱淘宝者”人数与消费者性别的2×2列联表,并确定能否在犯错误的概率不超过0.001的前提下认为“酷爱淘宝者”与性别有关?
参考公式和数据:K2=.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
【解析】(1)根据频率分布直方图,可得男、女各1
000名消费者消费金额的频数分布表如下:
消费金额/千元
[0,1)
[1,2)
[2,3)
[3,4)
[4,5]
男性频数
50
200
350
300
100
女性频数
250
300
150
100
200
2
000名消费者中消费金额在2
000元以上(包括2
000元)的人数共1
200名,估计消费金额在2
000元以上(包括2
000元)的概率为=0.6,故所求概率为0.6.
(2)列出2×2列联表如下所示:
性别
非酷爱淘宝者
酷爱淘宝者
总计
男
600
400
1
000
女
700
300
1
000
总计
1
300
700
2
000
k=≈21.978>10.828.
∴能在犯错误的概率不超过0.001的前提下认为“酷爱淘宝者”与性别有关.
【能力提升】
9.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:
班 级
优 秀
非优秀
总 计
甲 班
10
b
乙 班
c
30
总 计
105
已知在全部105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系”
【答案】C
【解析】∵成绩优秀的概率为,∴成绩优秀的学生数是105×=30,成绩非优秀的学生数是75,∴c=20,b=45.又根据列联表中的数据,得到K2=≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.
10.(2019年大庆模拟)一款短视频手机应用最近在某校学生中流行起来,某校团委对“学生性别和喜欢该手机应用是否有关”作了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该手机应用的人数占男生人数的,女生喜欢该手机应用的人数占女生人数.若有95%的把握认为是否喜欢该手机应用和性别有关,则被调查的男生人数至少为(
)
P(K2≥k0)
0.050
0.010
k0
3.841
6.635
A.12
B.6
C.10
D.18
【答案】A
【解析】【解析】设被调查的男生人数为x,则女生人数为,可得列联表如下:
喜欢
不喜欢
总计
男生
x
女生
总计
x
由公式算得K2=,因为95%的把握认为是否喜欢该手机应用和性别有关,所以≥3.841,则x≥×3.841≈10.24.而x,,,都是整数,所以x的最小值为12,即男生至少有12人.
11.甲、乙两个班级均有40人,进行一门考试后,按学生考试成绩及格与不及格进行统计,甲班及格人数为36人,乙班及格人数为24人.根据以上信息有______%的把握认为“成绩与班级有关系”.
【答案】99.5
【解析】由题意得列联表如下:
班 级
不及格
及 格
总 计
甲 班
4
36
40
乙 班
16
24
40
总 计
20
60
80
则K2==9.6>7.879,
由P(K2≥7.879)≈0.005,∴有1-0.5%=99.5%的把握认为“成绩与班级有关系”.
12.某高校共有学生15
000人,其中男生10
500人,女生4
500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
附:K2=.
【解析】(1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知300位学生中有300×0.75=225(位)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
性 别
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总 计
210
90
300
结合列联表可算得K2==≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.