高中数学第三章统计案例3.2独立性检验的基本思想及其初步应用学案(打包6套)新人教A版选修2_3

文档属性

名称 高中数学第三章统计案例3.2独立性检验的基本思想及其初步应用学案(打包6套)新人教A版选修2_3
格式 zip
文件大小 11.6MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2017-11-18 09:29:52

文档简介

3.2 独立性检验的基本思想及其初步应用
学习目标
重点、难点
1.能用等高条形图反映两个分类变量之间是否有关系.
2.能够根据条件列出列联表并会由公式求K2.
3.能知道独立性检验的基本思想和方法.
重点:能够根据题目所给数据列出列联表及求K2.
难点:独立性检验的基本思想和方法.
1.分类变量
变量的不同“值”表示个体所属的________,像这样的变量称为______.
2.2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
预习交流1
下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b的值分别为(  ).
A.94,96        B.52,50 C.52,54 D.54,52
3.等高条形图
(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否________,常用等高条形图展示列联表数据的________.
(2)观察等高条形图发现____和______相差很大,就判断两个分类变量之间有关系.
4.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)公式K2=__________________.
其中n=a+b+c+d为样本容量.
预习交流2
(1)怎样理解独立性检验的思想?
(2)在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是(  ).
A.100个吸烟者中至少有99人患肺癌
B.1个人吸烟,那么这个人至少有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
答案:
1.不同类别 分类变量
预习交流1:提示:C
3.(1)相互影响 频率特征 (2) 
4.(2)
预习交流2:
(1)提示:独立性检验的基本思想类似于反证法,要判断“两个分类变量有关系”,首先假设结论不成立,即H0:两个分类变量没有关系成立.在该假设下构造的随机变量K2应该很小.如果由观测数据计算得到的K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”;如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H0.
(2)提示:D
在预习中,还有哪些问题需要你在听课时加以关注?请在下列表格中做个备忘吧!
我的学困点
我的学疑点
一、用列联表和等高条形图分析两变量间的关系
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图、表判断监督员甲在不在生产现场对产品质量好坏有无影响.
思路分析:由题目所给数据列出列联表并画出相应的等高条形图,直观判断两个分类变量之间的关系.
某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
  (1)利用列联表直接计算和,如果两者相差很大,就判断两个分类变量之间有关系.
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
二、独立性检验与应用
为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:


需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
思路分析:(1)求出老年人需要帮助的共有多少人,再求比值.
(2)利用公式计算出K2,再进行判断.
某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:
积极支持企业改革
不太支持企业改革
总计
工作积极
54
40
94
工作一般
32
63
95
总计
86
103
189
根据列联表的独立性检验,能否在犯错误的概率不超过0.005的前提下认为工作态度与支持企业改革之间有关系?
  进行独立性检验时,首先要根据题意列出两个分类变量的列联表,然后代入公式计算随机变量K2的观测值k,再对照相应的临界值给出结论,以决定两个变量是否有关,还是在犯错误概率不超过多少的前提下有关系.
答案:
活动与探究1:解:根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
∴ad-bc=982×17-8×493=12 750,
∴ad-bc比较大,说明甲不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
迁移与应用:解:作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
∴ad-bc=332×381-213×94=106 470.
∴ad-bc比较大,说明考前紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
活动与探究2:解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为=14%.
(2)由列联表中数据,得K2观测值为
k=≈9.967.
由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.
迁移与应用:解:由列联表中的数据,得K2的观测值为
k=≈10.759>7.879,
因此,在犯错误的概率不超过0.005的前提下,认为工作态度与支持企业改革之间有关系.
1.观察下列各图,其中两个分类变量x,y之间关系最强的是(  ).
2.为调查中学生近视情况,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  ).
A.平均数 B.方差 C.独立性检验 D.概率
3.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
文化程度与月收入列联表    (单位:人)
月收入2 000元以下
月收入2 000元及以上
总计
高中文化以上
10
45
55
高中文化及以下
20
30
50
总计
30
75
105
由上表中数据计算得K2的观测值k=≈6.109,请估计有多大把握认为“文化程度与月收入有关系”(  ).
A.1%         B.99%
C.2.5% D.97.5%
4.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是______(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
5.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是______.
①有95%的把握认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
答案:
1.D 解析:在四幅图中,D图中的两个深色条的高相差最明显,说明两个分类变量之间关系最强.
2.C
3.D 解析:由于6.109>5.024,故在犯错误的概率不超过0.025的前提下,即有97.5%的把握认为“文化程度与月收入有关系”.
4.不能 解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
5.① 解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
用精练的语言把你当堂掌握的核心知识的精华部分和基本技能的要领部分写下来,并进行识记.
知识精华
技能要领
3.2独立性检验的基本思想及其初步应用
知识梳理
1.数据的表示方法
(1)变量的不同值表示个体所属的不同类别,象这种变量称为分类____________变量.
(2)用图表列出两个变量的频数表,称为____________.
(3)与表格相比, ____________和____________能更直观地反应出相关数据的总体状态;从列联表中能清晰地看出各个数据的相对大小;而等高条形图更能反应出每一类数据的相对特点.
2.独立性检验的方法
(1)利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的____________.
(2)在H0成立的情况下,统计学家估计出的概率为____________.
(3)独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信度,首先假设结论不成立,即假设结论____________成立,在该假设下构造的随机变量K2应该____________.如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明____________.根据随机变量K2的含义,可以通过概率式____________评价该假设不合理的程度.
(4)一般地,假设有两个变量X和Y,它们的值域分别为{x1,x2},{y1,y2},若要推断的结论为:
H1:“X和Y有关系”.可以按照下列步骤判断结论H1成立的可能性:
1)通过____________和____________,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
①在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上的两个柱形高度的乘积相差越大,H1成立的可能性就____________.
②在二维条形图中,可以估计满足条件____________的个体中具有____________的个体所占的比例,也可以估计满足条件____________的个体中具有____________的个体的比例,两个比例的值相差越大,H1成立的可能性____________.
2)可以利于独立性检验来考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:根据观测数据计算随机变量K2的值k,其值越大,说明“X与Y有关系”成立的可能性____________.
知识导学
要学好本节内容,首先要理解独立性检验的含义,为什么要进行独立性检验,要在实际问题中加深理解.
对于三维柱形图和二维条形图,首先要理解这两个图表的数据意义,另外,还要知道从三维柱形图和二维条形图可以较直观地看出变量之间的某种关系,得出基本的结论,同时要进一步判断这个关系的可信度.这就是引入独立性检验的意义.
独立性检验主要是对分类变量之间是否有关系,以及分类变量之间关系的可信程度,即概率进行检验,这就需要建立一个随机变量,对随机变量的大小进行判断,得出相应的结论.它主要体现两个方面的内容,一是两个变量之间有什么样的关系,二是这种关系有多大的可信度.
对于两个分类变量X和Y之间的关系进行判断的方法类似于反证法,也即是首先假设两个变量没有关系,再根据所设的随机变量对应概率的大小得出多大程度上变量X和Y存在某种关系.
疑难突破
1.理解独立性检验的基本思想
剖析:独立性检验是对两个分类变量之间是否具有某种关系的研究.一般是先画出对应数据的三维柱形图或二维条形图,首先从直观上对它们之间的关系有一个初步的认识,但是这种认识还需要理论上的证明,其证明类似于反证法,首先假设两个分类变量之间没有关系,然后构造某分类变量,通过对分类变量概率的讨论不仅能证明它们之间具有的关系,还能计算出它们之间存在这种关系的可能性,也就是在数字上认识它们的这种关系.
2.独立性检验在实际中的重要作用
剖析:独立性检验是数理统计的一种方法,是数学中的一种基本理论,是数学体系中对数据关系进行探索的一种基本思想.当然,对数据的统计分析得出的结论只能是在一定程度上对某种关系进行判断,而不是一种确定性的关系,这也是统计思想与确定性思维的差异所在.独立性检验在实际中也有着广泛的应用,是对实际生活中数据进行分析的一种方法,通过这种分析得出的结论对实际生活或者生产都有一定的指导作用.例如,通过研究吸烟和患肺癌关系的研究可以让我们认识吸烟的危害,及时预防吸烟对人体的危害;通过对水稻产量和施肥量关系的研究可以帮助人们正确施肥,提高水稻的产量,从而提高生活的质量等.
3.2独立性检验的基本思想及其初步应用
课堂导学
三点剖析
一、初识独立性检验的思想方法
【例1】为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
思路分析:最理想的解决办法是向所有50岁以上的人做调查,然后对得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的.339个人相对于全体50岁以上的人,只是一个小部分.回忆一下数学3(必修)中学过的总体和样本的关系,当用样本平均数、样本标准差去估计总体相应的数字特征时,由于抽样的随机性,结果并不惟一.现在情况类似,我们用部分对全体作推断,推断可能正确,也可能错误.例如我们知道,不少中老年烟民的身体很好,没有患慢性气管炎;而又有很多从不吸烟的中老年人体质很差,患有慢性气管炎.如果抽取的339个调查对象中很多人来自上述两个群体,试想会得出什么结论吧.我们有95%(或99%)的把握说事件A与B有关,是指推断犯错误的可能性为5%(或1%),这也常常说成是“以95%(或99%)的概率”,其含义是一样的.
解:根据列联表中的数据,得到
K2==7.469.
因为7.469>6.635,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关.
二、分类变量之间的相互影响即独立性检验的判断步骤
【例2】在一次恶劣气候的飞行航程中调查男女乘客在机上晕机的情况如下表所示,根据此资料您是否认为在恶劣气候飞行中男人比女人更容易晕机?
晕机
不晕机
合计
男人
24
31
55
女人
8
26
34
合计
32
57
89
解析:这是一个2×2列联表的独立性检验问题,根据列联表中的数据,得到
K2==3.689.
因为3.689<3.841,所以我们没有理由说晕机与否跟男女性别有关,尽管这次航班中男人晕机的比例()比女人晕机的比例()高,但我们不能认为在恶劣气候飞行中男人比女人更容易晕机.
温馨提示
在使用K2作统计量作2×2列联表的独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点.本例中的4个数据24,31,8,26都大于5,是满足这一要求的.
三、深刻领会独立性检验的基本思想
【例3】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?
患心脏病
未患心脏病
合计
每一晚都打鼾
30
224
254
不打鼾
24
1 355
1 379
合计
54
1 579
1 633
解:根据列联表中数据,得到,K2==68.033.
因为68.033>6.635,所以有99%的把握说,每一晚都打鼾与患心脏病有关.
温馨提示
在本例中,我们所说“每一晚都打鼾与患心脏病有关”或“患慢性气管炎与吸烟有关”指的是统计上的关系,不要误以为这里是因果关系.具体到某一个每晚都打鼾的人,并不能说他患心脏病,其实从2×2列联表中也可以看出,每一晚都打鼾的人群中,患心脏病的概率也只有,稍微超过十分之一.至于他患不患心脏病,应该由医学检查来确定,这已经不是统计学的事了.
各个击破
【类题演练1】对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.
解析:根据列联表中的数据,得到
K2==1.78.
因为1.78<3.841,所以我们没有理由说“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其做过何种手术无关.
【变式提升1】某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:
积极支持企业改革
不太赞成企业改革
合计
工作积极
54
40
94
工作一般
32
63
95
合计
86
103
189
对于人力资源部的研究项目,根据上述数据能得出什么结论?
解析:根据列联表中的数据,得到:
K2==10.76.
因为10.76>6.635,所以有99%的把握说:员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.
【类题演练2】某猪场用80头猪检验某种疫苗是否有预防效果.结果是注射疫苗的44头中有12头发病,32头未发病;未注射的36头中有22头发病,14头未发病,问该疫苗是否有预防效果?你有多大把握认为药物有效?
解析:先将题给数据整理成2×2列联表如下:
发病
未发病
总计
注射
12
32
44
未注射
22
14
36
总计
34
46
80
假设H0:发病与否和注射疫苗无关,即二变量相互独立.
由K2表达式计算出其观测值k:
k=≈9.277
由表1查得:
P(K2≥7.879)≈0.005
即在H0成立的情况下K2的值大小7.879的概率非常小,近似于0.005.因此我们有99.5%的把握认为H0不成立,即有99.5%的把握认为该疫苗是有预防效果的.
【变式提升2】在500个人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较,结果如下:
未感冒
感冒
合计
处理
252
248
500
未处理
224
276
500
合计
476
524
1 000
问该种血清能否起到预防感冒的作用?
解析:∵K2=≈3.14>2.706
∴我们有90%的把握认为该种血清能起到预防感冒的作用.
【类题演练3】考察小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示:
种子灭菌
种子未灭菌
合计
黑穗病
26
184
210
无黑穗病
50
200
250
合计
76
384
460
试按照原试验目的作统计分析推断.
解析:K2=≈4.8>3.841
∴我们有95%的把握认为小麦种子灭菌与否跟发生黑穗病有关系.
【变式提升3】调查者通过询问72名男女大学生在购买食品时是否看营养说明得到的数据如下表所示:
看营养说明
不看营养说明
合计
男大学生
28
8
36
女大学生
16
20
36
合计
44
28
72
问大学生的性别和是否看营养说明之间有没有关系?
解析:K2=≈8.4>7.879
∴我们有99.5%的把握认为大学生的性别和是否看营养说明之间有关系.
3.2独立性检验的基本思想及其初步应用
课堂探究
探究一 利用图形与分类变量间的关系作出分析
(1)利用列联表直接计算和,如果两者相差很大,就判断两个分类变量之间有关系.
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
【典型例题1】某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
解:作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
∴ad-bc=332×381-213×94=106 470.
∴ad-bc比较大,说明考前紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
规律总结 →
探究二 独立性检验与应用
进行独立性检验时,首先要根据题意列出两个分类变量的列联表,然后代入公式计算随机变量K2的观测值k,再对照相应的临界值给出结论,以决定两个变量有关,还是在犯错误概率不超过多少的前提下有关系.
【典型例题2】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:


需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人需要志愿者提供帮助与性别有关?
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
思路分析:(1)求出老年人需要帮助的共有多少人,再求比值.
(2)利用公式计算出K2,再进行判断.
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为=14%.
(2)由列联表中数据,得K2观测值为
k=≈9.967.
由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人需要志愿者提供帮助与性别有关.
规律总结 在判断两个分类变量关系的可靠性时一般利用随机变量K2来确定,把计算出的K2的值与相关的临界值作比较,确定出两个变量有关系的把握程度.
探究三 易错辨析
易错点 对概念理解不当致误.
【典型例题3】若两个分类变量x和y的列联表为:
y1
y2
x1
5
15
x2
40
10
则x与y之间有关系的概率约为__________.
错解:计算K2的观测值得k≈18.822,查表知P(K2≥10.828)≈0.001.
答案:0.001
错因分析:没有理解好独立性检验的基本思想.
正解:k=≈18.822.查表知P(K2≥10.828)≈0.001,
则x与y之间有关系的概率约为1-0.001=0.999.
答案:0.999
3.2 独立性检验的基本思想及其初步应用
问题导学
一、用列联表和等高条形图分析两变量间的关系
活动与探究1
某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图、表判断监督员甲在不在生产现场对产品质量好坏有无影响.
迁移与应用
某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
(1)利用列联表直接计算和,如果两者相差很大,就判断两个分类变量之间有关系.
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论,这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.
二、独立性检验与应用
活动与探究2
为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:


需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
迁移与应用
1.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如下表所示:
性别
学位
合计
硕士
博士

162
27
189

143
8
151
合计
305
35
340
根据以上数据,则(  )
A.性别与获取学位类别有关
B.性别与获取学位类别无关
C.性别决定获取学位的类别
D.以上都是错误的
2.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:
积极支持
企业改革
不太支持
企业改革
总计
工作积极
54
40
94
工作一般
32
63
95
总计
86
103
189
根据列联表的独立性检验,能否在犯错误的概率不超过0.005的前提下认为工作态度与支持企业改革之间有关系?
进行独立性检验时,首先要根据题意列出两个分类变量的列联表,然后代入公式计算随机变量K2的观测值k,再对照相应的临界值给出结论,以决定两个变量是否有关,还是在犯错误概率不超过多少的前提下有关系.
答案:
课前·预习导学
【预习导引】
1.不同类别 分类变量
预习交流1 C
3.(1)相互影响 频率特征 (2) 
4.(2)
预习交流2 (1)提示:独立性检验的基本思想类似于反证法,要判断“两个分类变量有关系”,首先假设结论不成立,即H0:两个分类变量没有关系成立.在该假设下构造的随机变量K2应该很小.如果由观测数据计算得到的K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”;如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H0.
(2)D
课堂·合作探究
【问题导学】
活动与探究1 思路分析:由题目所给数据列出列联表并画出相应的等高条形图,直观判断两个分类变量之间的关系.
解:根据题目所给数据得如下2×2列联表:
合格品数
次品数
总计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
总计
1 475
25
1 500
∵ad-bc=982×17-8×493=12 750,
∴ad-bc比较大,说明甲不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
迁移与应用 解:作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
∵ad-bc=332×381-213×94=106 470,
∴ad-bc比较大,说明考前紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
活动与探究2 思路分析:(1)求出老年人需要帮助的共有多少人,再求比值.
(2)利用公式计算出K2,再进行判断.
解:(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为=14%.
(2)由列联表中数据,得K2观测值为
k=≈9.967.
由于9.967>6.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人是否需要帮助与性别有关.
迁移与应用 1.A 解析:由列联表可得:K2的观测值
k=≈7.34>6.635,
所以性别与获取学位的类别有关,故选A.
2.解:由列联表中的数据,得K2的观测值为
k=≈10.759>7.879,
因此,在犯错误的概率不超过0.005的前提下,认为工作态度与支持企业改革之间有关系.
当堂检测
1.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
答案:D 解析:在四幅图中,D图中的两个深色条的高相差最明显,说明两个分类变量之间关系最强.
2.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
文化程度与月收入列联表    (单位:人)
月收入2 000
元以下
月收入2 000
元及以上
总计
高中文化以上
10
45
55
高中文化及以下
20
30
50
总计
30
75
105
由上表中数据计算得K2的观测值k=≈6.109,请估计认为“文化程度与月收入有关系”的把握是(  )
A.1%   B.99%   C.2.5%   D.97.5%
答案:D 解析:由于6.109>5.024,故在犯错误的概率不超过0.025的前提下,即有97.5%的把握认为“文化程度与月收入有关系”.
3.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是______(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
答案:不能 解析:查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
4.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是______.
①有95%的把握认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
③这种血清预防感冒的有效率为95%;
④这种血清预防感冒的有效率为5%.
答案:① 解析:K2≈3.918≥3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
5.中国医药学院周医师从事原住民痛风流行率的研究,周医师发现原住民342人中,患有痛风的有40人,其中17位TG(三酸甘油酯)超出正常值160,而非痛风组302人中有66位TG超出正常值.
(1)请根据上面信息列出2×2列联表;
答案:
解:2×2列联表:
痛风
非痛风
合计
TG>160
17
66
83
TG≤160
23
236
259
合计
40
302
342
(2)请分析痛风组与非痛风组其TG(三酸甘油酯)超过正常值160的比率是否有关系.
答案:计算K2的观测值k为8.191 7,
P(K2≥7.879)≈0.005,
这说明在犯错误的概率不超过0.005的前提下认为“TG超出正常值与痛风有关”.
  提示:用最精练的语言把你当堂掌握的核心知识的精华部分和基本技能的要领部分写下来并进行识记.
3.2独立性检验的基本思想及其初步应用
预习导航
课程目标
学习脉络
1.能用等高条形图反映两个分类变量之间是否有关系.
2.能够根据条件列出列联表并会由公式求r.
3.能知道独立性检验的基本思想和方法.
1.数据的表示方法
(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)用图表列出两个分类变量的频数表,称为列联表.
(3)与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
思考1 班级与成绩2×2列联表:
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
p
总计
m
n
q
表示数据m,n,p,q的值应分别为(  )
A.70,73,45,188 B.17,73,45,90
C.73,17,45,90 D.17,73,45,45
提示:B
2.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}{y1,y2},其样本频数列联表如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
公式K2=,其中n=a+b+c+d为样本容量.
思考2 如何理解独立性检验的思想?
提示:独立性检验的基本思想类似于反证法.要判断“两个分类变量有关系”,首先假设结论不成立,即H0:“两个分类变量没有关系”成立,在该假设下构造的随机变量K2,应该很小.如果由观测数据计算得到的K2的观测值k很大,则断言H0不成立,即认为“两个分类变量有关系”;如果观测值k很小,则说明在样本数据中没有发现足够证据拒绝H0.