2019年高一高二数学同步学案人教A版选修2-3 第三章 3.2 独立性检验的基本思想及其初步应用(课件+讲义)

文档属性

名称 2019年高一高二数学同步学案人教A版选修2-3 第三章 3.2 独立性检验的基本思想及其初步应用(课件+讲义)
格式 zip
文件大小 3.2MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-05-06 08:17:07

文档简介



[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P91~P96的内容,回答下列问题.
阅读教材P91“探究”的内容,思考:
(1)是否吸烟、是否患肺癌是什么变量?
提示:分类变量.
(2)吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗?
提示:不是.
(3)如何研究吸烟是否对患肺癌有影响?
提示:独立性检验.
2.归纳总结,核心必记
(1)分类变量和列联表
①分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
②列联表
(ⅰ)定义:列出的两个分类变量的频数表,称为列联表.
(ⅱ)2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)等高条形图
①等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
②观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
(3)独立性检验
定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式
K2=,其中n=a+b+c+d
具体
步骤
①确定α,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②计算K2,利用公式计算随机变量K2的观测值k.
③下结论,如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”
[问题思考]
(1)有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
提示:观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
(2)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?
提示:不一定.所有的推断只代表一种可能性,不代表具体情况.
(3)下面是2×2列联表.
y1
y2
总计
x1
33
21
54
x2
a
13
46
总计
b
34
则表中a,b处的值应为多少?
提示:a=46-13=33,b=33+a=33+33=66.
[课前反思]
1.分类变量的定义是什么?
 ;
2.列联表的定义是什么?2×2列联表中的各个数据有什么意义?
 ;
3.什么是等高条形图,有什么作用?
 ;
4.独立性检验的内容是什么?
 .
知识点1
用2×2列联表分析两分类变量间的关系  
 
?讲一讲
1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
[尝试解答] 2×2列联表如下:
年龄在六
十岁以上
年龄在六
十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得
==0.671 875.==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
——————————————————
(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
?练一练
1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
x1
10
18
x2
m
26
则当m取下面何值时,X与Y的关系最弱(  )
A.8    B.9    C.14    D.19
解析:选C 由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.
知识点2
用等高条形图分析两分类变量间的关系 
 
?讲一讲
2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
[尝试解答] 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
续表
性格内向
性格外向
总计
考前心情不紧张
94
381
475
总计
426
594
1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.
————————————————————————————
利用等高条形图判断两个分类变量是否相关的步骤:
?练一练
2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?
解:根据题目给出的数据作出如下的列联表:
色盲
不色盲
总计

38
442
480

6
514
520
总计
44
956
1000
根据列联表作出相应的等高条形图:
从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.
知识点3
独立性检验
?讲一讲
3.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P95-例1)
附:
P(K2≥k0)
0.10
0.05
0.025
k0
2.706
3.841
5.024
[尝试解答] 根据题目所给数据建立如下2×2列联表:
肯定
否定
总计
男生
22
88
110
女生
22
38
60
总计
44
126
170
根据2×2列联表中的数据得到:
k=≈5.622>5.024.
所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.
————————————————————————————
根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.
?练一练
3.“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.
(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系;说明你的理由;(下面的临界值表供参考)
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
(2)现计划在这次场外调查中按年龄段用分层抽样的方法选取6名选手,并抽取3名幸运选手,求3名幸运选手中至少有一人在20~30岁之间的概率.
解:(1)根据所给的二维条形图得到列联表:
正确
错误
总计
20~30岁
10
30
40
30~40岁
10
70
80
总计
20
100
120
根据列联表所给的数据代入观测值的公式得到
k==3.
∵3>2.706,∴在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.
(2)按照分层抽样方法可知,
20~30(岁)抽取:6×=2(人);
30~40(岁)抽取:6×=4(人).
在上述抽取的6名选手中,年龄在20~30(岁)有2人,年龄在30~40(岁)有4人.
记至少有一人年龄在20~30岁为事件A,则
P(A)=1-=1-=.
故至少有一人年龄在20~30岁之间的概率为.
—————————————[课堂归纳·感悟提升]——————————————
1.本节课的重点是用2×2列联表、等高条形图分析两个分类变量间的关系以及独立性检验.
2.本节课要重点掌握的规律方法
(1)用2×2列联表分析两分类变量间的关系,见讲1;
(2)用等高条形图分析两分类变量间的关系,见讲2;
(3)独立性检验,见讲3.
3.解决一般的独立性检验问题的步骤:
(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用K2=求出K2的观测值k;
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.
其中第(2)步易算错K2的值,是本节课的易错点.
课下能力提升(十八)
[学业水平达标练]
题组1 用2×2列联表分析两分类变量间的关系
1.分类变量X和Y的列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则下列说法正确的是(  )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
解析:选C |ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.
2.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为(  )
A.a=50,b=40,c=30,d=20
B.a=50,b=30,c=40,d=20
C.a=20,b=30,c=40,d=50
D.a=20,b=30,c=50,d=40
解析:选D 当(ad-bc)2的值越大,随机变量K2=的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.
3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
题组2 用等高条形图分析两分类变量间的关系
4.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
5.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是(  )
                
A.散点图
B.等高条形图
C.假设检验的思想
D.以上都不对
解析:选B 用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.
6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1 200
总计
915
605
1 520
利用等高条形图判断父母吸烟对子女吸烟是否有影响?
解:等高条形图如图所示:
由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.
题组3 独立性检验
7.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
                
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
解析:选C 判断两个分类变量是否有关的最有效方法是进行独立性检验.
8.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.
9.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为(  )
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
A.99% B.97.5%
C.90% D.无充分证据
解析:选B 由2×2列联表得K2的观测值k=≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.
10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.
70及70分以下
70分以上
总计
对照班
32
18
50
试验班
12
38
50
总计
44
56
100
附:
P(K2≥k0)
0.025
0.010
0.005
k0
5.024
6.635
7.879
解:根据列联表中的数据,由公式得K2的观测值
k=
=≈16.234.
因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.
[能力提升综合练]
1.下列关于K2的说法不正确的是(  )
A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系
B.K2的观测值k越大,两个分类变量的相关性就越大
C.K2是用来判断两个分类变量是否有关系的随机变量
D.K2=,其中n=a+b+c+d为样本容量
解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.
2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )
表1          表2
成绩性别
不及格
及格
总计

6
14
20

10
22
32
总计
16
36
52
视力性别


总计

4
16
20

12
20
32
总计
16
36
52
表3          表4
智商性别
偏高
正常
总计

8
12
20

8
24
32
总计
16
36
52
阅读量性别
丰富
不丰富
总计

14
6
20

2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
解析:选D 因为K=
=,
K==,
K==,
K==,
则有K>K>K>K,
所以阅读量与性别有关联的可能性最大.
2.在某次独立性检验中,得到如下列联表:
A

总计
B
200
800
1 000

180
a
180+a
总计
380
800+a
1 180+a
最后发现,两个分类变量没有任何关系,则a的值可能是(  )
A.200 B.720
C.100 D.180
解析:选B 由于A和B没有任何关系,根据列联表可知和基本相等,检验可知,B满足条件,故选B.
3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:
y1
y3
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).
①ad≈bc;②≈;③≈;④≈;
⑤≈0.
解析:因为分类变量X,Y独立,所以≈,化简得ad≈bc,所以①②⑤正确,③④显然不正确.
答案:①②⑤
4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:
常饮酒
不常饮酒
总计
患肝病2
不患肝病18
总计30
已知在全部30人中随机抽取1人,抽到肝病患者的概率为.
(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;
(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?
解:(1)设患肝病中常饮酒的人有x人,=,x=6.
常饮酒
不常饮酒
总计
患肝病
6
2
8
不患肝病
4
18
22
总计
10
20
30
由已知数据可求得K2=≈8.523>7.879,
因此有99.5%的把握认为患肝病与常饮酒有关.
(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.
故抽出一男一女的概率是P=.
5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.
表1 甲流水线样本频数分布表
产品质量/克
频数
(490,495]
6
(495,500]
8
(500,505]
14
(505,510]
8
(510,515]
4
(1)根据上表数据作出甲流水线样本频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;
(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.
解:(1)甲流水线样本频率分布直方图如下:
(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为=0.75,乙样本合格品的频率为=0.9,
据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.
从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.
(3)2×2列联表如下:
甲流水线
乙流水线
总计
合格品
a=30
b=36
66
不合格品
c=10
d=4
14
总计
40
40
n=80
因为K2的观测值
k==≈3.117>2.706,
所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.
课件32张PPT。谢谢!课下能力提升(十八)
[学业水平达标练]
题组1 用2×2列联表分析两分类变量间的关系
1.分类变量X和Y的列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则下列说法正确的是(  )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
解析:选C |ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.
2.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为(  )
A.a=50,b=40,c=30,d=20
B.a=50,b=30,c=40,d=20
C.a=20,b=30,c=40,d=50
D.a=20,b=30,c=50,d=40
解析:选D 当(ad-bc)2的值越大,随机变量K2=的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.
3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
题组2 用等高条形图分析两分类变量间的关系
4.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
5.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是(  )
                
A.散点图
B.等高条形图
C.假设检验的思想
D.以上都不对
解析:选B 用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.
6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1 200
总计
915
605
1 520
利用等高条形图判断父母吸烟对子女吸烟是否有影响?
解:等高条形图如图所示:
由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.
题组3 独立性检验
7.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
                
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
解析:选C 判断两个分类变量是否有关的最有效方法是进行独立性检验.
8.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.
9.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为(  )
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
A.99% B.97.5%
C.90% D.无充分证据
解析:选B 由2×2列联表得K2的观测值k=≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.
10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.
70及70分以下
70分以上
总计
对照班
32
18
50
试验班
12
38
50
总计
44
56
100
附:
P(K2≥k0)
0.025
0.010
0.005
k0
5.024
6.635
7.879
解:根据列联表中的数据,由公式得K2的观测值
k=
=≈16.234.
因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.
[能力提升综合练]
1.下列关于K2的说法不正确的是(  )
A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系
B.K2的观测值k越大,两个分类变量的相关性就越大
C.K2是用来判断两个分类变量是否有关系的随机变量
D.K2=,其中n=a+b+c+d为样本容量
解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.
2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )
表1          表2
成绩性别
不及格
及格
总计

6
14
20

10
22
32
总计
16
36
52
视力性别


总计

4
16
20

12
20
32
总计
16
36
52
表3          表4
智商性别
偏高
正常
总计

8
12
20

8
24
32
总计
16
36
52
阅读量性别
丰富
不丰富
总计

14
6
20

2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
解析:选D 因为K=
=,
K==,
K==,
K==,
则有K>K>K>K,
所以阅读量与性别有关联的可能性最大.
2.在某次独立性检验中,得到如下列联表:
A

总计
B
200
800
1 000

180
a
180+a
总计
380
800+a
1 180+a
最后发现,两个分类变量没有任何关系,则a的值可能是(  )
A.200 B.720
C.100 D.180
解析:选B 由于A和B没有任何关系,根据列联表可知和基本相等,检验可知,B满足条件,故选B.
3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:
y1
y3
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).
①ad≈bc;②≈;③≈;④≈;
⑤≈0.
解析:因为分类变量X,Y独立,所以≈,化简得ad≈bc,所以①②⑤正确,③④显然不正确.
答案:①②⑤
4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:
常饮酒
不常饮酒
总计
患肝病2
不患肝病18
总计30
已知在全部30人中随机抽取1人,抽到肝病患者的概率为.
(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;
(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?
解:(1)设患肝病中常饮酒的人有x人,=,x=6.
常饮酒
不常饮酒
总计
患肝病
6
2
8
不患肝病
4
18
22
总计
10
20
30
由已知数据可求得K2=≈8.523>7.879,
因此有99.5%的把握认为患肝病与常饮酒有关.
(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.
故抽出一男一女的概率是P=.
5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.
表1 甲流水线样本频数分布表
产品质量/克
频数
(490,495]
6
(495,500]
8
(500,505]
14
(505,510]
8
(510,515]
4
(1)根据上表数据作出甲流水线样本频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;
(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.
解:(1)甲流水线样本频率分布直方图如下:
(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为=0.75,乙样本合格品的频率为=0.9,
据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.
从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.
(3)2×2列联表如下:
甲流水线
乙流水线
总计
合格品
a=30
b=36
66
不合格品
c=10
d=4
14
总计
40
40
n=80
因为K2的观测值
k==≈3.117>2.706,
所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.