第一章 1.2
A级 基础巩固
一、选择题
1.下列关于等高条形图的叙述正确的是( C )
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条例形图中可以看出两个变量频数的相对大小
C.从等高条形图可以粗略地看出两个分类变量是否有关系
D.以上说法都不对
[解析] 在等高条形图中仅能粗略判断两个分类变量的关系,故A错.在等高条形图中仅能找出频率,无法找出频数,故B错.
2.在2×2列联表中,两个比值____相差越大,两个分类变量之间的关系越强( A )
A.与 B.与
C.与 D.与
[解析] 与相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.
3.在吸烟与患肺病是否有关的研究中,下列属于两个分类变量的是( C )
A.吸烟,不吸烟 B.患病,不患病
C.是否吸烟、是否患病 D.以上都不对
[解析] “是否吸烟”是分类变量,它的两个不同取值;吸烟和不吸烟;“是否患病”是分类变量,它的两个不同取值:患病和不患病.可知A、B都是一个分类变量所取的两个不同值.故选C.
4.利用独立性检测来考查两个分类变量X,Y是否有关系,当随机变量K2的值( A )
A.越大,“X与Y有关系”成立的可能性越大
B.越大,“X与Y有关系”成立的可能性越小
C.越小,“X与Y有关系”成立的可能性越大
D.与“X与Y有关系”成立的可能性无关
[解析] 用独立性检验来考查两个分类变量是否有关系时,算出的随机变量K2的值越大,说明“X与Y有关系”成立的可能性越大,由此可知A正确.
故选A.
5.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性不超过( D )
A.0.1 B.0.05
C.0.025 D.0.01
[解析] 因为k>6.635,由P(k>6.635)的临界值为0.01,故这种判断出错的可能性不超过0.01,故选D.
6.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
以下各组数据中,对于同一样本能说明X与Y有关系的可能性最大的一组为( D )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=2,b=3,c=5,d=4
[解析] 比较|-|.
选项A中,|-|=;
选项B中,|-|=;
选项C中,|-|=;
选项D中,|-|=.故选D.
二、填空题
7.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
根据列表数据,求得K2的观测值K≈__7.469__.
[解析] K=≈7.469.
8.调查者通过随机询问72名男女中学生喜欢文科还是理科,得到如下列联表(单位:名)
性别与喜欢文科还是理科列联表
喜欢文科
喜欢理科
总计
男生
8
28
36
女生
20
16
36
总计
28
44
72
中学生的性别和喜欢文科还是理科__有__关系.(填“有”或“没有”)
[解析] 通过计算K2的观测值k=≈8.42>7.879.故我们有99.5%的把握认为中学生的性别和喜欢文科还是理科有关系.
三、解答题
9.近年来,共享单车已经悄然进入了广大市民的日常生活,并慢慢改变了人们的出行方式.为了更好地服务民众,某共享单车公司在其官方APP中设置了用户评价反馈系统,以了解用户对车辆状况和优惠活动的评价.现从评价系统中选出200条较为详细的评价信息进行统计,车辆状况的优惠活动评价的2×2列联表如下:
对优惠活动好评
对优惠活动不满意
合计
对车辆状况好评
100
30
130
对车辆状况不满意
40
30
70
合计
140
60
200
能否在犯错误的概率不超过0.001的前提下认为优惠活动好评与车辆状况好评之间有关系?
P(K2≥k)
0.150
0.100
0.050
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=,其中n=a+b+c+d.
[解析] 由2×2列联表的数据,有
K2=
=
=≈8.48<10.823.
因此,在犯错误的概率不超过0.001的前提下,不能认为优惠活动好评与车辆状况好评有关系.
B级 素养提升
一、选择题
1.某研究中心为研究运动与性别的关系得到2×2列联表如下:
喜欢运动
不喜欢运动
合计
男生
60
20
80
女生
10
10
20
合计
70
30
100
则随机变量K2的观测值约为( A )
A.4.762 B.9.524
C.0.011 9 D.0.023 8
[解析] K2=≈4.762.
2.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总数
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总数
26
24
50
则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为( B )
A.99% B.95%
C.90% D.无充分依据
[解析] 由表中数据得k=
≈5.059>3.841.
所以约有95%的把握认为两变量之间有关系.
3.某卫生机构对366人进行健康体检,其中某项检测指标阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有____的把握认为糖尿病患者与遗传有关系.( D )
A.99.9% B.99.5%
C.99% D.97.5%
[解析] 可以先作出如下列联表(单位:人):
糖尿病患者与遗传列联表
糖尿病发病
糖尿病不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
根据列联表中的数据,得到K2的观测值为
k=≈6.067>5.024.
故我们有97.5%的把握认为糖尿病患者与遗传有关系.
4.有两个分类变量X,Y,其一组的2×2列联表如下所示,
Y1
Y2
X1
a
20-a
X2
15-a
30+a
其中a,15-a均为大于5的整数,若在犯错误的概率不超过0.05的前提下认为X,Y有关,则a的值为( C )
A.8 B.9
C.8,9 D.6,8
[解析] 根据公式,得K2的观测值
k==>3.841,
数据a>5且15-a>5,a∈Z,求得a=8,9满足题意.
二、填空题
5.某研究小组为了研究中学生的身体发育情况,在某中学随机抽出20名15至16周岁的男生将他们的身高和体重制成2×2列联表,根据列联表中的数据,可以在犯错误的概率不超过__0.025__的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.
超重
不超重
总计
偏高
4
1
5
不偏高
3
12
15
总计
7
13
20
[解析] 根据公式K2=得,K2的观测值k=≈5.934,
因为k>5.024,因此在犯错误的概率不超过0.025的前提下认为该学校15至16周岁的男生的身高和体重之间有关系.
6.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是__小白鼠的死亡与电离辐射的剂量无关__.
[解析] 根据独立性检验的基本思想,可知类似于反证法,即要确认“两个分量有关系”这一结论成立的可信程度,首先假设该结论不成立.对于本题,进行统计分析时的统计假设应为“小白鼠的死亡与电离辐射的剂量无关”.
三、解答题
7.2016年夏季奥运会在巴西里约热内卢举行.体育频道为了解某地区关于奥运会直播的收视情况.随机抽取了100名观众进行调查.其中40岁以上的观众有55名.下面是奥运会直播时间的频率分布表(时间:min):
分组
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120)
频率
0.1
0.18
0.22
0.25
0.2
0.05
将每天收看奥运会直播的时间不低于80 min的观众称为“奥运迷”.已知“奥运迷”中有10名40岁以上的观众.
(1)根据已知条件完成下面的2×2列联表;
非“奥运迷”
“奥运迷”
合计
40岁以下
40岁以上
合计
(2)并据此资料你是否有95%以上的把握认为“奥运迷”与年龄有关.
附:K2=
P(K2≥k)
0.05
0.01
k
3.841
6.635
[解析] (1)由题意得100名观众中“奥运迷”共有(0.2+0.05)×100=25名,其中40岁以上的“奥运迷”有10名,∴40岁以下的“奥运迷”有15名,∴2×2列联表如下:
非“奥运迷”
“奥运迷”
合计
40岁以下
30
15
45
40岁以上
45
10
55
合计
75
25
100
(2)K2=
≈4.862>3.841,
∴有95%以上的把握认为“奥运迷”与年龄有关.
8.为了解学生的课外阅读时间情况,某学校随机抽取了 50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读时间
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120]
人数
8
10
12
11
7
2
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
男生
女生
总计
阅读达人
非阅读达人
总计
附:参考公式K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
[解析] (1)该校学生的每天平均阅读时间为:
10×+30×+50×+70×+90×+110×=1.6+6+12+15.4+12.6+4.4=52(分);
(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,
根据等高条形图作出2×2列联表如下:
男生
女生
总计
阅读达人
6
14
20
非阅读达人
18
12
30
总计
24
26
50
计算K2==≈4.327,
由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.
课件53张PPT。第一章统计案例1.2 独立性检验的基本思想及其初步应用自主预习学案饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?
1.分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的____________,像这样的变量称为分类变量.不同类别 (2)列联表:
①定义:列出的两个分类变量的__________称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为频数表 2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否____________,常用等高条形图表示列联表数据的____________.
(2)观察等高条形图发现________和________相差很大,就判断两个分类变量之间有关系.相互影响 频率特征 3.独立性检验a+b+c+d 临界值K0 观测值k k≥K0 犯错误的概率 没有发现足够证据 C 2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( )
A.0.25 B.0.75
C.0.025 D.0.975
[解析] 通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.C 参照附表,得到的正确结论是______.(只填正确的序号)
①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;
②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;
③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;
④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.③ 互动探究学案 从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:
试分析血液中含有酒精与对事故负有责任是否有关系.命题方向1 ?等高条形图的应用典例 1 [解析] 作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系.
〔跟踪练习1〕
某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.
[解析] 作列联表如下:相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关. 某中学对高二甲、乙两个同类班级,进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:命题方向2 ?独立性检验的应用典例 2 现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?[思路分析] (1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;
(2)依统计数据填写列联表,代入公式计算K2的估计值,查表下结论.第四步,作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
2.由于独立性检验计算量大,要细致,避免计算失误.〔跟踪练习2〕
“十一”黄金周前某地的一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:
能否在犯错误的概率不超过0.01的前提下认为票价上浮后游客人数与所处地区有关系? 有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
试问能有多大把握认为“成绩与班级有关系”?准确掌握公式中的参数含义 典例 3 [辨析] 由于对2×2列联表中a,b,c,d的位置不清楚,在代入公式时代错了数值导致计算结果的错误.1.独立性检验的基本思想
独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k≥6.635)≈0.01来评价假设不合理的程度,计算出k>6.635,说明假设不合理的程度约为99%,即两个分类变量有关这一结论成立的可信度为99%,不合理的程度可查下表得出:独立性检验的基本思想 2.反证法与假设检验的对照表3.独立性检验与反证法的异同
独立性检验的思想来自统计中的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生,而假设检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立.其基本步骤如下:(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量.
(2)根据样本数据作出2×2列联表.
(3)通过等高条形图直观地判断两个分类变量是否相关.
(4)计算随机变量K2,并查表分析,当K2的观测值很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关. 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:典例 4 [思路分析] (1)根据频率估计概率.
(2)根据独立性检验的步骤求解.
(3)观察频率分布直方图得出平均值(或中位数)的取值区间,再进行比较.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是( )
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
[解析] 根据题意,结合题目中的数据,列出2×2列联表,求出K2观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.C [解析] a=73-21=52,b=a+22=52+22=74.C 3.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
[解析] 从等高条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.B 是 课时作业学案