第三章 3.2
A级 基础巩固
一、选择题
1.给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有( B )
A.①②③ B.②④⑤
C.②③④⑤ D.①②③④⑤
[解析] 独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验.
2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强( A )
A.与 B.与
C.与 D.与
[解析] 与相差越大,说明ad与bc相差越大,两个分类变量之间的关系越强.
3.判断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是( D )
A.三维柱形图 B.二维条形图
C.等高条形图 D.独立性检验
[解析] 前三种方法只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度.独立性检验通过计算得出相关的可能性,较为准确.
4.(2019·天心区校级期末)利用独立性检测来考查两个分类变量X,Y是否有关系,当随机变量K2的值( A )
A.越大,“X与Y有关系”成立的可能性越大
B.越大,“X与Y有关系”成立的可能性越小
C.越小,“X与Y有关系”成立的可能性越大
D.与“X与Y有关系”成立的可能性无关
[解析] 用独立性检验来考查两个分类变量是否有关系时,算出的随机变量k2的值越大,说明“x与y有关系”成立的可能性越大,由此可知A正确.故选A.
5.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性不超过( D )
A.0.1 B.0.05
C.0.025 D.0.01
[解析] 因为k>6.635,由P(k>6.635)的临界值为0.01,故这种判断出错的可能性不超过0.01,故选D.
6.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( C )
①若K2的观测值满足K2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患病有关系,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
A.① B.①③
C.③ D.②
[解析] ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A、B,③正确.排除D,选C.
7.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
总计
20至40岁
40
18
58
大于40岁
15
27
42
总计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关:__是__.(填“是”或“否”)
[解析] 因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.
8.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
K2的观测值k≈__4.514__(保留3位小数),据此我们所得出的结论是__在犯错误的概率不超过0.05的前提下,我们认为是否看电视与性别有关__.
[解析] K2的观测值为k=
≈4.514.
由4.514>3.841,知在犯错误的概率不超过0.05的前提下认为是否看电视与性别有关.
二、填空题
9.下列关于K2的说法中,正确的有__③④__.
①K2的值越大,两个分类变量的相关性越大;
②K2的计算公式是K2=;
③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;
④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.
[解析] 对于①,K2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故①错;对于②,(ad-bc)应为(ad-bc)2,故②错;③④对.
三、解答题
10.(2018·全国卷Ⅲ理,18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[解析] (1)解:第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80分钟;用第二种生产方式的工人完成生产任务所需平均时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)
(2)解:由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)解:因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
B级 素养提升
一、选择题
1.下列说法:
①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
②设有一条直线的回归方程为=3-5x,变量x增加一个单位时,y平均增加5个单位;
③线性回归直线=x+必过点(,);
④在一个2×2列联表中,由计算得K2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( B )
A.0 B.1
C.2 D.3
本题可以参考独立性检验临界值表:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
[解析] 一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x的系数具备直线斜率的功能,对于回归方程=3-5x,当x增加一个单位时,y平均减少5个单位,②错误;由线性回归方程的定义知,线性回归直线=x+必过点(,),③正确;因为K2=13.079>10.828,故有99%的把握确认这两个变量有关系,④正确,故选B.
2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( D )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读
性别
量
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
[解析] A中,K2==;
B中,K2==;
C中,K2==;
D中,K2==.
因此阅读量与性别相关的可能性最大,所以选D.
二、填空题
3.某高校《统计初步》课程的教师随机调查了选该课程的学生的一些情况,具体数据如下:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了判断主修统计专业是否与性别有关系,根据表中数据,得到K2=≈4.844>3.841,所以断定主修统计专业与性别有关系,那么这种判断出错的可能性约是__5%__.
[解析] ∵P(k2≥3.841)≈0.05,故判断出错的可能性为5%.
4.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是__小白鼠的死亡与电离辐射的剂量无关__.
[解析] 根据独立性检验的基本思想,可知类似于反证法,即要确认“两个分量有关系”这一结论成立的可信程度,首先假设该结论不成立.对于本题,进行统计分析时的统计假设应为“小白鼠的死亡与电离辐射的剂量无关”.
三、解答题
5.(2018·江西模拟)由中央电视台综合频道(CCTV-1)和唯众传媒联合制作的《开讲啦》是中国首档青年电视公开课.每期节目由一位知名人士讲述自己的故事,分享他们对于生活和生命的感悟,给予中国青年现实的讨论和心灵的滋养,讨论青年们的人生问题,同时也在讨论青春中国的社会问题,受到青年观众的喜爱,为了了解观众对节目的喜爱程度,电视台随机调查了A,B两个地区共100名观众,得到如下的2×2列联表:
非常满意
满意
合计
A
30
y
45
B
x
z
55
合计
65
35
100
已知在被调查的100名观众中随机抽取1名,该观众是B地区当中“非常满意”的观众的概率为0.35,且4y=3z.
(1)现从100名观众中用分层抽样的方法抽取20名进行问卷调查,则应抽取“满意”的A,B地区的人数各是多少?
(2)在(1)抽取的“满意”的观众中,随机选出2人进行座谈,求至少有1名是B地区观众的概率?
(3)完成上述表格,并根据表格判断是否有90%的把握认为观众的满意程度与所在地区有关系?
附:参考公式:k2=
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
[解析] (1)由题意,得=0.35,解得x=35,
∴y+z=25,
又4y=3z,
∴y=15,z=20,
∴应抽取A地区的“满意”观众为×15=3,
抽取B地区的“满意”观众为×20=4;
(2)所抽取的A地区的“满意”观众记为A、B、C,
所抽取的B地区的“满意”观众记为d、e、f、g,
则随机选出2人的不同选法有AB、AC、Ad、Ae、Af、Ag、
BC、Bd、Be、Bf、Bg、Cd、Ce、Cf、Cg、de、df、dg、ef、eg、fg共21个结果,
至少有1名是B地区的结果有18个,
其概率为P==.
(3)根据题意,填写2×2列联表如下:
非常满意
满意
合计
A
30
15
45
B
35
20
55
合计
65
35
100
计算K2==≈0.1<3.841;
所以没有90%的把握认为观众的满意程度与所在地区有关系.
6.(2018·厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了 50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读时间
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120]
人数
8
10
12
11
7
2
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
男生
女生
总计
阅读达人
非阅读达人
总计
附:参考公式k2=,其中n=a+b+c+d.
临界值表:
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
[解析] (1)该校学生的每天平均阅读时间为:
10×+30×+50×+70×+90×+110×=1.6+6+12+15.4+12.6+4.4=52(分);
(2)由频数分布表得,“阅读达人”的人数是
11+7+2=20人,
根据等高条形图作出2×2列联表如下:
男生
女生
总计
阅读达人
6
14
20
非阅读达人
18
12
30
总计
24
26
50
计算K2==≈4.327,
由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.
课件56张PPT。第三章统计案例3.2 独立性检验的基本思想及其初步应用自主预习学案饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人.
人的身体健康状况与饮用水的质量之间有关系吗?
1.与列联表相关的概念
(1)分类变量:变量的不同“______”表示个体所属的____________,像这样的变量称为分类变量.
(2)列联表:
①列出________分类变量的__________,称为列联表.值 不同类别 两个 频数表 ②一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
a+b c+d a+c b+d
2.等高条形图
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否____________,常用等高条形图展示列表数据的____________.
3.独立性检验的基本思想
(1)定义:利用随机变量_____来判断“两个分类变量__________”的方法称为独立性检验.
(2)公式:K2=___________________________,其中n=______________.
相互影响 频率特征 K2 有关系 a+b+c+d (3)独立性检验的具体做法:
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定__________k0.
②利用公式计算随机变量K2的__________k.
③如果________,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在________________不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中____________________支持结论“X与Y有关系”.临界值 观测值 k≥k0 犯错误的概率 没有发现足够证据 C 2.对于研究两个分类变量A与B关系的统计量K2,下列说法正确的是 ( )
A.K2越大,说明“A与B有关系”的可信度越小
B.K2越小,说明“A与B有关系”的可信度越小
C.K2越大,说明“A与B无关”的程度越大
D.K2接近于0,说明“A与B无关”的程度越小B 3.(2018·泸州模拟)某中学兴趣小组为调查该校学生对学校食堂的某种食品喜爱与否是否与性别有关,随机询问了100名性别不同的学生,得到如下的2×2列联表:C B 互动探究学案命题方向1 ?利用等高条形图判断两个分类变量是否相关 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:典例 1试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系.
[解析] 等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比较尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
B [解析] 根据观测值求解的公式可以知道,当ad与bc差距越大,两个变量有关的可能性就越大,检验四个选项中所给的ad与bc的差距:
A:ad-bc=10-12=-2,B:ad-bc=20-9=11,C:ad-bc=15-12=3,D:ad-bc=15-12=3.
显然B中|ad-bc|最大,故选B.(2)某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
[解析] 根据题目所给数据得如下2×2列联表:所以ad-bc=982×17-8×493=12750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样品中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.命题方向2 ?独立性检验的应用 某中学对高二甲、乙两个同类班级,进行“加强‘语文阅读理解’训练,对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:典例 2现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助?[思路分析] (1)由表格统计出甲、乙两个班的总人数和优秀人数,求出优秀率;
(2)依统计数据填写列联表,代入公式计算K2的估计值,查表下结论.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
2.由于独立性检验计算量大,要细致,避免计算失误.〔跟踪练习2〕
为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
[解析] 根据题目所给的数据得到如下联系:独立性检验的综合应用 独立性检验的思想来自统计上的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一个不符合逻辑的事情发生,而假设检验中的“矛盾”是指一个小概率事件发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立. 某工厂有工人1000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人).现用分层抽样的方法(按A类、B类分两层)从该工厂的工人中抽取100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数),结果如下表:
表1:A类工人生产能力的频数分布表
表2:B类工人生产能力的频数分布表典例 3[思路分析] (1)确定x、y的值,可用分层抽样解决;(2)判断在规定条件下工人的生产能力与工人的类别是否有关系可通过独立性检验解决.
由已知工厂中A、B类工人的人数和抽取工人数,进行分层抽样,可直接计算A、B类工人样本数;由表1、表2可得列联表,计算K2的观测值k与临界值可比较.[解析] (1)∵从该工厂的工人中抽取100名工人,且该工厂中有250名A类工人,750名B类工人,
∴要从A类工人中抽取25名,从B类工人中抽取75名,
∴x=25-8-3-2=12,y=75-6-27-18=24.
(2)根据所给的数据可以完成列联表,如下表所示:
〔跟踪练习3〕
某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.因对独立性检验的基本思想不理解而致错 典例 4D [错解] 独立性检验的基本思想是指某件事发生在犯错概率不超过某个非常小的数据的前提下,我们有把握认为有关.理解有误会致误.
[辨析] 1.在求K2的过程中,弄混a,b,c,d而致错或者因运算量大而致错.
2.没有理解好独立性检验的基本思想而致错.1.在某次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是 ( )
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
[解析] 根据题意,结合题目中的数据,列出2×2列联表,求出K2观测值,对照数表可得出概率结论,这种分析数据的方法是独立性检验.C C [解析] a=73-21=52,b=a+22=52+22=74.D [解析] 因为K2的观测值k>5.025,而在临界值表中对应于5.024的是0.025,所以可以在犯错误的概率不超过0.025的前提下认为“X和Y有关系”.4.为考察A,B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:
根据图中信息,在下列各项中,说法最佳的一项是 ( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
[解析] 从等高条形图可以看出,服用药物A后未患病的比例比服用药物B后未患病的比例大得多,预防效果更好.B C 课 时 作 业 学 案