高二数学文科1.2独立性检验的基本思想及其初步应用(学生版+解析版)

文档属性

名称 高二数学文科1.2独立性检验的基本思想及其初步应用(学生版+解析版)
格式 rar
文件大小 726.7KB
资源类型 试卷
版本资源 人教新课标A版
科目 数学
更新时间 2019-02-28 08:48:53

文档简介








中小学教育资源及组卷应用平台


1.2 独立性检验的基本思想及其初步应用(解析版)
考纲要求
考 点 考纲要求 要求 高考题型
等高条形图的应用 会观察等高条形图 II 选择题
独立性检验 了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. I 填空题
独立性检验与统计的综合应用 独立性检验的思想及简单应用. I 解答题
知识梳理
1.分类变量和列联表
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)公式:K2=,其中n=a+b+c+d为样本容量.


考向一 等高条形图的应用
[例1] 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解析] 作列联表:
性格内向 性格外向 总计
考前心情紧张 332 213 545
考前心情不紧张 94 381 475
总计 426 594 1 020
相应的等高条形图如图所示:

图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.

如何利用等高条形图判定分类变量间关系强弱
(1)绘制等高条形图时,列联表的行对应的是高度,两行的数据不相等,但对应的条形图的高度是相同的;两列的数据对应不同的颜色.
(2)等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即和相差很大),就直观判断两个分类变量之间有关系.

1.观察各图,其中两个分类变量X,Y之间关系最强的是(  )


解析:在四个选项中,选项D中等高条形图中阴影的高度相差最明显,说明两个分类变量之间的关系最强.
答案:D
考向二 独立性检验
[例2] 如表是某地区的一种传染病与饮用水的调查表:
得病 不得病 总计
干净水 52 466 518
不干净水 94 218 312
总计 146 684 830
(1)这种传染病是否与饮用水的卫生程度有关?请说明理由.
(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.
[解析] (1)假设H0:传染病与饮用水无关.把表中数据代入公式得:
K2的观测值k=≈54.21.
在H0成立的情况下,P(K2>10.828)≈0.001,是小概率事件,
所以拒绝H0.
因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.
(2)依题意得2×2列联表:
得病 不得病 总计
干净水 5 50 55
不干净水 9 22 31
总计 14 72 86
此时,K2的观测值k=≈5.785.
因为5.785>5.024,P(K2>5.024)≈0.025,
所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.

独立性检验问题的一般步骤
(1)通过列联表确定a、b、c、d、n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用K2=求出K2的观测值k;
(3)如果k≥k0,就推断“两个分类变量有关系”.这种推断犯错误的概率不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.

2.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的18名,否定的42名;110名男生在相同的题目上作肯定的有60名,否定的有50名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.
解析:列2×2列联表得
  态度 性别 肯定 否定 总计
男生 60 50 110
女生 18 42 60
总计 78 92 170
根据表中的数据得K2的观测值
k=≈9.420>7.879.
所以有99.5%的把握认为性别与态度有关.
考向三 独立性检验与统计的综合应用
[例3] 某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如表.
表1:A类工人生产能力的频数分布表
生产能力分组 [110,120) [120,130) [130,140) [140,150)
人数 8 x 3 2
表2:B类工人生产能力的频数分布表
生产能力分组 [110,120) [120,130) [130,140) [140,150)
人数 6 y 27 18
(1)确定x,y的值;
(2)完成2×2列联表,并回答能否在犯错误的概率不超过0.001的前提下认为工人的生产能力与工人的类别有关系?
    生产能力分组 工人类别 [110,130) [130,150) 总计
A类工人
B类工人
总计
附:K2=,
P(K2≥k0) 0.050 0.010 0.001
k0 3.841 6.635 10.828
[解析] (1)∵从该工厂的工人中抽取100名工人,且该工厂中有250名A类工人,750名B类工人,∴要从A类工人中抽取25名,从B类工人中抽取75名,因此x=25-8-3-2=12;y=75-6-27-18=24.
(2)根据所给数据完成列联表如表所示:
    生产能力分组 工人类别 [110,130) [130,150) 总计
A类工人 20 5 25
B类工人 30 45 75
总计 50 50 100
由列联表中的数据,得K2的观测值为
k==12>10.828.
因此,在犯错误的概率不超过0.001的前提下,认为工人的生产能力与工人的类别有关系.

求解本题要抓住三点:
(1)利用分层抽样确定A、B两类抽取的人数,求得x,y;
(2)正确列出列联表,防止数据混淆;
(3)计算K2的观测值k,做出准确判断.

3.某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.

规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”?
解析:由频率分布直方图,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手40×0.375=15(人),
因此,可得2×2列联表如表:
生产能手 非生产能手 总计
25周岁以上组 15 45 60
25周岁以下组 15 25 40
总计 30 70 100
所以得:K2==
=≈1.79.
因为1.79<2.706,
所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”.
练:(本小题满分12分)调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
出生时间性别 晚上 白天 总计
男婴
女婴
总计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
[规范解答] (1)
出生时间性别 晚上 白天 总计
男婴 24 31 55
女婴 8 26 34
总计 32 57 89
4分
(2)由所给数据计算K2的观测值
k=≈3.689>2.706.8分
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.12分

课时检测
1.下列不是分类变量的是(  )
A.近视        B.身高
C.血压 D.药物反应
解析:A、C、D选项的不同值可以表示个体的不同类别为分类变量,但“身高”的不同值不是表示个体的不同类别,不是分类变量.
答案:B
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是(  )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大
解析:k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.
答案:B
3.下列说法错误的是________.
(1)K2的观测值越大,两个分类变量相关性越强;
(2)式子|ad-bc|越大,K2的值就越大;
(3)在吸烟与患肺病是否有关的判定中:若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100位吸烟的人中必有99人患有肺病.
答案:(3)
4.如表是2×2列联表:
y1 y2 总计
x1 a 21 73
x2 2 25 27
总计 b 46
则表中a,b处的值分别为(  )
A.94,96       B.52,50
C.52,54 D.54,52
解析:由得
答案:C
5.如图是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图可以看出(  )

A.性别与喜欢理科无关
B.女生中喜欢理科的比例为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的比例为60%
解析:由等高条形图知:女生喜欢理科的比例为20%,男生不喜欢理科的比例为40%,因此B、D不正确.从图形中,男生比女生喜欢理科的可能性大些.
答案:C
6.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力(  )
A.平均数与方差    B.回归分析
C.独立性检验 D.概率
解析:判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.
答案:C
7.分类变量X和Y的列联表,则(  )
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
解析:由K2的计算公式可知,(ad-bc)2越大,则K2越大,故相关关系越强.
答案:C
8.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过(  )
A.0.25       B.0.75
C.0.025 D.0.975
解析:∵P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y有关系”.
答案:C
9.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:
做不到“光盘” 能做到“光盘”
男 45 10
女 30 15
由此列联表得到的正确结论是(  )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
解析:列出列联表:
做不到“光盘” 能做到“光盘” 总计
男 45 10 55
女 30 15 45
总计 75 25 100
∴K2的观测值k=≈3.030,
又3.030>2.706,且P(K2≥2.706)=0.10,
∴在犯错误的概率不超过0.1的前提下,认为该市居民能否做到“光盘”与性别有关.
答案:C
10.某班主任对全班50名学生进行了作业量的调查,数据如表
认为作业量大 认为作业量不大 总计
男生 18 9 27
女生 8 15 23
总计 26 24 50
则推断“学生的性别与认为作业量大有关”,这种推断犯错误的概率不超过(  )
A.0.01 B.0.005
C.0.025 D.0.001
解析:K2的观测值
k=≈5.059>5.024.
∵P(K2≥5.024)=0.025,
∴犯错误的概率不超过0.025.
答案:C
11.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是(  )
A.100个吸烟者中至少有99人患有肺癌
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
解析:独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.
答案:D
12.利用独立性检验对两个分类变量是否有关系进行研究时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系,则具体计算出的数据应该是(  )
A.k≥6.635 B.k<6.635
C.k≥7.879 D.k<7.879
解析:犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验的思想可知应为k≥7.879.
答案:C
13.对某校小学生进行心理障碍测试得到的列联表
有心理障碍 没有心理障碍 总计
女生 10 20 30
男生 10 70 80
总计 20 90 110
试说明心理障碍与性别的关系:________.
解析:由2×2列联表,代入计算K2的观测值k=
=≈6.365 7.
因为6.365 7>5.024,所以在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.
答案:在犯错误的概率不超过0.025的前提下认为心理障碍与性别有关系.
14.有2×2列联表:
B 总计
A 54 40 94
32 63 95
总计 86 103 189
由上表可计算K2的观测值k≈________.
解析:k=≈10.76.
答案:10.76
15.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如表所示:
文艺节目 新闻节目 总计
20至40岁 40 18 58
大于40岁 15 27 42
总计 55 45 100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).
解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
答案:是
16.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如表:
   专业 性别 非统计专业 统计专业
男生 13 10
女生 7 20
为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K2的观测值为k=≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.
解析:因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.
答案:5%
17.在一次天气恶劣的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.能否在犯错误的概率不超过0.10的前提下推断:在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机?
解析:由已知条件得出2×2列联表:
晕机 不晕机 总计
男乘客 24 31 55
女乘客 8 26 34
总计 32 57 89
由公式可得K2的观测值
k=
=≈3.689>2.706.
故在犯错误的概率不超过0.10的前提下,认为“在天气恶劣的飞机航程中,男乘客比女乘客更容易晕机”.

18.某地震观测站对地下水位的变化和发生地震的情况共进行1 700次观测,列联表:
有震 无震 总计
水位有变化 98 902 1 000
水位无变化 82 618 700
总计 180 1 520 1 700
利用图形判断地下水位的变化与地震的发生是否有关系,并用独立性检验分析是否有充分的证据显示二者有关系.
解析:相应的等高条形图如图所示.

图中两个阴影条的高分别表示水位有变化和水位无变化的样本中有震的频率.由图可看出,水位有变化样本中有震的频率与水位无变化样本中有震的频率相差不大,因此不能判断地震与水位变化有关系.根据列联表中的数据,得K2的观测值为
k=≈1.594<2.072.
所以题中数据没有充分的证据显示地下水位的变化与地震的发生有关系.
19.在对人们休闲方式的调查中,已知男性占总调查人数的,其中有一半的休闲方式是运动,而女性只有的休闲方式是运动.经过调查员计算,在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么被调查的人中最少有多少人的休闲方式是运动?
解析:设总共调查n人,则被调查的男性人数应为n,其中有人的休闲方式是运动;被调查的女性人数应为,其中有人的休闲方式是运动,列出2×2列联表:
运动 非运动 总计
男性 n
女性 n
总计 n n
由表中数据,得k==.
要使调查员在犯错误的概率不超过0.05的前提下认为“休闲方式与性别有关”,则k≥3.841.所以≥3.841.
解得n≥138.276.又∈N*,所以n≥140.
所以被调查的人中,以运动为休闲方式的最少有140×=56(人).
20.某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:
分组 [50,60) [60,70) [70,80) [80,90) [90,100]
频数 10 25 35 30 x
乙校高二年级数学成绩:
分组 [50,60) [60,70) [70,80) [80,90) [90,100]
频数 15 30 25 y 5
(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分).
(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”?
甲校 乙校 总计
优秀
非优秀
总计
解析:(1)依题意,知甲校应抽取110人,乙应抽取90人.所以x=10,y=15.
甲校的平均分为
≈75.
乙校的平均分为
≈71.
(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表:
甲校 乙校 总计
优秀 40 20 60
非优秀 70 70 140
总计 110 90 200
所以K2的观测值k=≈4.714,
又因为4.714>3.841,
故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”.









21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)



HYPERLINK "http://21世纪教育网(www.21cnjy.com)
" 21世纪教育网(www.21cnjy.com)