2019年高一高二数学同步学案人教A版选修1-2 第一章 1.2 独立性检验的基本思想及其初步应用(课件+讲义)

文档属性

名称 2019年高一高二数学同步学案人教A版选修1-2 第一章 1.2 独立性检验的基本思想及其初步应用(课件+讲义)
格式 zip
文件大小 3.2MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-05-06 08:59:49

文档简介



[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P10~P15的内容,回答下列问题.
阅读教材P10“探究”的内容,思考:
(1)是否吸烟、是否患肺癌是什么变量?
提示:分类变量.
(2)吸烟与患肺癌之间的关系还是前面我们研究的线性相关关系吗?
提示:不是.
(3)如何研究吸烟是否对患肺癌有影响?
提示:独立性检验.
2.归纳总结,核心必记
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(3)等高条形图
①图形与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
②通过直接计算或观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
(4)独立性检验
定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式
K2=,
其中n=a+b+c+d
具体
步骤
①确定α,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②计算K2,利用公式计算随机变量K2的观测值k.
③下结论,如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”
[问题思考]
(1)有人说:“在犯错误的概率不超过0.01的前提下认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
提示:观点不正确.犯错误的概率不超过0.01说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
(2)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的吗?
提示:不一定.所有的推断只代表一种可能性,不代表具体情况.
(3)下面是2×2列联表.
y1
y2
总计
x1
33
21
54
x2
a
13
46
总计
b
34
则表中a,b处的值应为多少?
提示:a=46-13=33,b=33+a=33+33=66.
[课前反思]
(1)分类变量的定义是什么?
(2)列联表的定义是什么?2×2列联表中的各个数据有什么意义?
(3)什么是等高条形图,有什么作用?
(4)独立性检验的内容是什么?
 
 
知识点1
用2×2列联表分析两分类变量间的关系  
?讲一讲
1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
[尝试解答] 2×2列联表如下:
年龄在六
十岁以上
年龄在六
十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得
==0.671 875.==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.

(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.
(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
?练一练
1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
x1
10
18
x2
m
26
则当m取下面何值时,X与Y的关系最弱(  )
A.8    B.9    C.14    D.19
解析:选C 由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.
知识点2
用等高条形图分析两分类变量间的关系 
 
?讲一讲
2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
[尝试解答] 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.

利用等高条形图判断两个分类变量是否相关的步骤:
?练一练
2.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是(  )
解析:选D 分析四个等高条形图得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.
知识点3
独立性检验
?讲一讲
3.“一带一路”国际合作高峰论坛圆满落幕了,相关话题在网络上引起了网友们的高度关注,为此,21财经APP联合UC推出“一带一路”大数据微报告,在全国抽取的7亿网民(其中30%为高学历)中有2亿人(其中70%为高学历)对此关注.
(1)根据以上统计数据填写下面2×2列联表;
(2)根据列联表,用独立性检验的方法分析,能否有99%的把握认为“一带一路”的关注度与学历有关系?
高学历网民
非高学历网民
总计
关注
不关注
总计
附:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
[尝试解答] (1)
高学历网民
非高学历网民
总计
关注
1.4×108
0.6×108
2×108
不关注
0.7×108
4.3×108
5×108
总计
2.1×108
4.9×108
7×108
(2)K2的观测值k=
≈2.13×108,
因为2.13×108>6.635,所以有99%的把握认为“一带一路”的关注度与学历有关系.

根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.
?练一练
3.某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:
积极参加
班级工作
不太主动参
加班级工作
总计
学习积
极性高
18
7
25
学习积极
性一般
6
19
25
总计
24
26
50
(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?
(2)试运用独立性检验的思想方法分析学生的学习积极性与对待班级工作的态度是否有关,并说明理由.
解:(1)积极参加班级工作的学生有24名,总人数为50,概率为=.
不太主动参加班级工作且学习积极性一般的学生有19名,总人数为50,概率为.
(2)K2==≈11.5.∵K2>10.828,
∴有99.9%的把握认为学习积极性与对待班级工作的态度有关系.
———————[课堂归纳·感悟提升]——————
1.本节课的重点是用2×2列联表、等高条形图分析两个分类变量间的关系以及独立性检验.
2.本节课要重点掌握的规律方法
(1)用2×2列联表分析两分类变量间的关系,见讲1;
(2)用等高条形图分析两分类变量间的关系,见讲2;
(3)独立性检验,见讲3.
3.解决一般的独立性检验问题的步骤:
(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用K2=求出K2的观测值k;
(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.
其中第(2)步易算错K2的值,是本节课的易错点.
课下能力提升(二)
[学业水平达标练]
题组1 用2×2列联表分析两分类变量间的关系
1.分类变量X和Y的列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则下列说法正确的是(  )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
解析:选C |ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.
2.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为(  )
A.a=50,b=40,c=30,d=20
B.a=50,b=30,c=40,d=20
C.a=20,b=30,c=40,d=50
D.a=20,b=30,c=50,d=40
解析:选D 当(ad-bc)2的值越大,随机变量K2=的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.
3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
题组2 用等高条形图分析两分类变量间的关系
4.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出(  )
A.性别与喜欢理科无关
B.女生中喜欢理科的百分比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
解析:选C 从图中可以分析,男生喜欢理科的可能性比女生大一些.
5.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1 200
总计
915
605
1 520
利用等高条形图判断父母吸烟对子女吸烟是否有影响?
解:等高条形图如图所示:
由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.
题组3 独立性检验
7.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.
8.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为(  )
A.90%   B.95%
C.99% D.99.9%
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解析:选C 因为K2==10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.
9.为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K2≈3.918.经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学得出了以下结论:
①有95%的把握认为“这套眼保健操能起到预防近视的作用”;
②若某人未做该套眼保健操,那么他有95%的可能近视;
③这套眼保健操预防近视的有效率为95%;
④这套眼保健操预防近视的有效率为5%.
其中所有正确结论的序号是________.
解析:根据查对临界值表知P(K2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.
答案:①
10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.
70及70分以下
70分以上
总计
对照班
32
18
50
试验班
12
38
50
总计
44
56
100
附:
P(K2≥k0)
0.025
0.010
0.005
k0
5.024
6.635
7.879
解:根据列联表中的数据,由公式得K2的观测值
k=
=≈16.234.
因为16.234>6.635,
所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.
[能力提升综合练]
1.利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件A和B有关系,则具体计算出的数据应该是(  )
A.k≥6.635 B.k<6.635
C.k≥7.879 D.k<7.879
解析:选C 有99.5%的把握认为事件A和B有关系,即犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:


总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,观测值k=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是(  )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”
解析:选A 由k≈7.8及P(K2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
3.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )
A.成绩 B.视力
C.智商 D.阅读量
解析:选D 因为K=
=,
K==,
k==,
K==,
则有K>K>K>K,
所以阅读量与性别有关联的可能性最大.
4.下列关于K2的说法中,正确的有________.
①K2的值越大,两个分类变量的相关性越大;
②K2的计算公式是K2=;
③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.
解析:对于①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad-bc)应为(ad-bc)2,故②错;③④对.
答案:③④
5.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635,本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
答案:不能
6.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:
常饮酒
不常饮酒
合计
患肝病2
不患肝病18
合计30
已知在全部30人中随机抽取1人,抽到肝病患者的概率为.
(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;
(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?
参考数据:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)设患肝病中常饮酒的人有x人,=,x=6.
常饮酒
不常饮酒
合计
患肝病
6
2
8
不患肝病
4
18
22
合计
10
20
30
由已知数据可求得K2=≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.
(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.
故抽出一男一女的概率是P=.
7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.
表1 甲流水线样本频数分布表
产品质量/克
频数
(490,495]
6
(495,500]
8
(500,505]
14
(505,510]
8
(510,515]
4
(1)根据上表数据作出甲流水线样本频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;
(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.
解:(1)甲流水线样本频率分布直方图如下:
(2)由表1知甲样本合格品数为8+14+8=30,
由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,
故甲样本合格品的频率为=0.75,
乙样本合格品的频率为=0.9,
据此可估计从甲流水线任取1件产品,
该产品恰好是合格品的概率为0.75.
从乙流水线任取1件产品,
该产品恰好是合格品的概率为0.9.
(3)2×2列联表如下:
甲流水线
乙流水线
总计
合格品
a=30
b=36
66
不合格品
c=10
d=4
14
总计
40
40
n=80
因为K2的观测值k==≈3.117>2.706,所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.
课件32张PPT。a+b+c+d 用2×2列联表分析两分类变量间的关系用等高条形图分析两分类变量间的关系独立性检验 谢谢!课下能力提升(二)
[学业水平达标练]
题组1 用2×2列联表分析两分类变量间的关系
1.分类变量X和Y的列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则下列说法正确的是(  )
A.ad-bc越小,说明X与Y关系越弱
B.ad-bc越大,说明X与Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
解析:选C |ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.
2.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为(  )
A.a=50,b=40,c=30,d=20
B.a=50,b=30,c=40,d=20
C.a=20,b=30,c=40,d=50
D.a=20,b=30,c=50,d=40
解析:选D 当(ad-bc)2的值越大,随机变量K2=的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.
3.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
题组2 用等高条形图分析两分类变量间的关系
4.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出(  )
A.性别与喜欢理科无关
B.女生中喜欢理科的百分比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比为60%
解析:选C 从图中可以分析,男生喜欢理科的可能性比女生大一些.
5.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
解析:选D 在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.
6.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:
父母吸烟
父母不吸烟
总计
子女吸烟
237
83
320
子女不吸烟
678
522
1 200
总计
915
605
1 520
利用等高条形图判断父母吸烟对子女吸烟是否有影响?
解:等高条形图如图所示:
由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.
题组3 独立性检验
7.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.
8.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为(  )
A.90%   B.95%
C.99% D.99.9%
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解析:选C 因为K2==10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.
9.为了检验某套眼保健操预防学生近视的作用,把500名做该套眼保健操的学生与另外500名未做该套眼保健操的学生的视力情况作记录并比较,提出假设H0:“这套眼保健操不能起到预防近视的作用”,利用2×2列联表计算所得的K2≈3.918.经查对临界值表知P(K2≥3.841)≈0.05.对此,四名同学得出了以下结论:
①有95%的把握认为“这套眼保健操能起到预防近视的作用”;
②若某人未做该套眼保健操,那么他有95%的可能近视;
③这套眼保健操预防近视的有效率为95%;
④这套眼保健操预防近视的有效率为5%.
其中所有正确结论的序号是________.
解析:根据查对临界值表知P(K2≥3.841)≈0.05,故有95%的把握认为“这套眼保健操能起到预防近视的作用”,即①正确;95%仅指“这套眼保健操能起到预防近视的作用”的可信程度,所以②③④错误.
答案:①
10.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.
70及70分以下
70分以上
总计
对照班
32
18
50
试验班
12
38
50
总计
44
56
100
附:
P(K2≥k0)
0.025
0.010
0.005
k0
5.024
6.635
7.879
解:根据列联表中的数据,由公式得K2的观测值
k=
=≈16.234.
因为16.234>6.635,
所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.
[能力提升综合练]
1.利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件A和B有关系,则具体计算出的数据应该是(  )
A.k≥6.635 B.k<6.635
C.k≥7.879 D.k<7.879
解析:选C 有99.5%的把握认为事件A和B有关系,即犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:


总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,观测值k=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是(  )
A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”
解析:选A 由k≈7.8及P(K2≥6.635)=0.010可知,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”,也就是有99%以上的把握认为“爱好该项运动与性别有关”.
3.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )
A.成绩 B.视力
C.智商 D.阅读量
解析:选D 因为K=
=,
K==,
k==,
K==,
则有K>K>K>K,
所以阅读量与性别有关联的可能性最大.
4.下列关于K2的说法中,正确的有________.
①K2的值越大,两个分类变量的相关性越大;
②K2的计算公式是K2=;
③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.
解析:对于①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad-bc)应为(ad-bc)2,故②错;③④对.
答案:③④
5.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635,本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
答案:不能
6.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:
常饮酒
不常饮酒
合计
患肝病2
不患肝病18
合计30
已知在全部30人中随机抽取1人,抽到肝病患者的概率为.
(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;
(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?
参考数据:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)设患肝病中常饮酒的人有x人,=,x=6.
常饮酒
不常饮酒
合计
患肝病
6
2
8
不患肝病
4
18
22
合计
10
20
30
由已知数据可求得K2=≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.
(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.
故抽出一男一女的概率是P=.
7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.
表1 甲流水线样本频数分布表
产品质量/克
频数
(490,495]
6
(495,500]
8
(500,505]
14
(505,510]
8
(510,515]
4
(1)根据上表数据作出甲流水线样本频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;
(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.
解:(1)甲流水线样本频率分布直方图如下:
(2)由表1知甲样本合格品数为8+14+8=30,
由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,
故甲样本合格品的频率为=0.75,
乙样本合格品的频率为=0.9,
据此可估计从甲流水线任取1件产品,
该产品恰好是合格品的概率为0.75.
从乙流水线任取1件产品,
该产品恰好是合格品的概率为0.9.
(3)2×2列联表如下:
甲流水线
乙流水线
总计
合格品
a=30
b=36
66
不合格品
c=10
d=4
14
总计
40
40
n=80
因为K2的观测值k==≈3.117>2.706,所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.