1-2
[课后提升案·素养达成]
[限时45分钟;满分80分]
一、选择题(每小题5分,共30分)
1.在一项学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
解析 判断两个分类变量是否有关的最有效方法是进行独立性检验.
答案 C
2.给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.其中用独立性检验可以解决的问题有
A.①②③ B.②④⑤
C.②③④⑤ D.①②③④⑤
解析 独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验解决.
答案 B
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过
A.0.25 B.0.75 C.0.025 D.0.975
解析 因为P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y有关系”.
答案 C
4.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出
A.性别与喜欢理科无关
B.女生中喜欢理科的百分比为80%
C.男生比女生喜欢理科的可能性大些
D.男生不喜欢理科的百分比为60%
解析 本题考查学生的识图能力,从图中可以分析,男生喜欢理科的可能性比女生大一些.
答案 C
5.某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和卡方统计量,研究患肺病是否与吸烟有关.计算得K2≈4.453,经查临界值表知P(K2≥3.841)≈0.05,则下列结论正确的是
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.在犯错误的概率不超过0.05的前提下,认为“患肺病与吸烟有关”
D.在犯错误的概率不超过0.95的前提下,认为“患肺病与吸烟有关”
解析 由独立性假设检验知C正确.
答案 C
6.春节期间,“厉行节约,反对浪费”之风悄悄吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
附:K2=,则得到的正确结论是
A.在犯错误的概率不超过0.010的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过0.010的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.10的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.10的前提下,认为“该市居民能否做到‘光盘’与性别无关”
解析 由K2=≈3.030,借助临界值表,因为K2>2.706,即得P(K2≥2.706)=0.10,所以在犯错误的概率不超过0.10的前提下认为“该市居民能否做到‘光盘’与性别有关”.
答案 C
二、填空题(每小题5分,共15分)
7.在对某小学的学生进行吃零食的调查中,得到如下表数据:
吃零食
不吃零食
总计
男学生
24
31
55
女学生
8
26
34
总计
32
57
89
根据上述数据分析,我们得出的K2的观测值k约为______.
解析 由公式可计算得k=≈3.689.
答案 3.689
8.为了判断高中二年级学生是否喜欢足球运动与性别的关系,现随机抽取50名学生,得到2×2列联表:
喜欢
不喜欢
总计
男
15
10
25
女
5
20
25
总计
20
30
50
则在犯错误的概率不超过________的前提下认为“喜欢足球与性别有关”.
解析 因为根据表中数据,得到K2的观测值k=≈8.333≥7.879.
由于P(K2≥7.879)≈0.005,
所以在犯错误的概率不超过0.005的前提下认为“喜欢足球与性别有关”.
答案 0.005
9.某班主任对全班50名学生作了一次调查,所得数据如表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
18
9
27
不喜欢玩电脑游戏
8
15
23
总计
26
24
50
由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
解析 查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.
答案 不能
三、解答题(本大题共3小题,共35分)
10.(10分)从发生汽车碰撞事故的司机中抽取2 000名司机,调查他们的血液中是否含有酒精以及他们是否对事故负有责任,将数据整理如下:
有责任
无责任
总计
有酒精
650
150
800
无酒精
700
500
1 200
总计
1 350
650
2 000
那么司机对事故负有责任与血液中含有酒精是否有关系?若有关系,你认为在多大程度上有关系.
解析 在假设“对事故负有责任与血液中含有酒精没有关系”的前提下,K2的观测值为k=≈114.9,
且P(K2≥10.828)≈0.001,而我们得到的K2的观测值k≈114.9,超过10.828,这就意味着“对事故负有责任与血液中含有酒精没有关系”这一结论成立的可能性为0.001,即在犯错误的概率不超过0.001的前提下认为对事故负有责任与血液中含有酒精有关系.
11.(12分)有甲乙两个班进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下列联表:
优秀
非优秀
总计
甲班
10
乙班
30
总计
105
已知在全部105人中随机抽取1人为优秀的概率为.
(1)请完成上面的列联表.
(2)根据列联表的数据,若在犯错误的概率不超过0.05的前提下,能否认为“成绩与班级有关系”.参考公式:K2=,其中n=a+b+c+d.
概率表
P(K2≥k0)
0.15
0.10
0.05
0.010
k0
2.072
2.706
3.841
6.635
解析 (1)由题意知优秀的人数为105×=30,
则列联表如下:
优秀
非优秀
总计
甲班
10
45
55
乙班
20
30
50
总计
30
75
105
(2)根据列联表中的数据,得到k=≈6.109>3.841.
因此在犯错误的概率不超过0.05的前提下可以认为“成绩与班级有关系”.
12.(13分)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”?
解析 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名,
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3.25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有可能的结果共有10种,即:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少抽到一名“25周岁以下组”工人的可能结果共有7种,是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1)(A3,B2),(B1,B2).故所求概率P=.
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:
生产能手
非生产能手
总计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
总计
30
70
100
所以得:K2===≈1.79.
因为1.79<2.706,所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”.
课件56张PPT。§1.2 独立性检验的基本思想及其初步应用
[课标解读]
1.了解独立性检验的基本思想、方法及初步应用;了解独立性检验的常用方法:等高条形图及K2统计量法.(重点)
2.了解实际推断原理和假设检验的基本思想、方法及初步应用.(难点)
3.能运用自己所学知识对具体案例进行检验.(难点)1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的________,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的________,称为列联表.
基础知识整合不同类别频数表②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否________,常用等高条形图展示列联表数据的________.
(2)观察等高条形图发现________和________相关很大,就判断两个分类变量之间有关系.相互影响频率特征3.独立性检验a+b+c+d临界值k0观测值kk≥k0犯错误的概率没有发现足够证据?知识点一 分类变量、列联表与等高条形图
【探究1】 分类变量的值就是指的一些具体实数吗?
提示 这里的“变量”和“值”都应作为广义的变量和值来理解,只要不属于同种类别都是变量和值,并不一定是取具体的数值,如:男、女;上、下;左、右等.
核心要点探究【探究2】 在交通事故中,司机的血液中是否含有酒精和是否有事故责任是分类变量吗?
提示 是.是否含有酒精,其取值为含有酒精和不含有酒精;是否有责任,其取值为有责任和无责任.
【探究3】 利用等高条形图能否精确地判断两个分类变量是否有关系?为什么?
提示 不能,因为通过等高条形图,可以粗略地判断两个分类变量是否有关系,但这种判断无法精确地给出所得结论的可靠程度.
?知识点二 独立检验的基本思想
【探究1】 利用列联表及等高条形图判断两个分类变量是否有关有什么优缺点?
提示 优点:比较直观.
缺点:缺少精确性和可靠性.
【探究2】 随机变量K2有何作用?
【探究3】 独立性检验的必要性为什么不能只凭列联表的数据和图形下结论?
提示 列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.
【探究4】 在K2运算时,在判断变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?
提示 两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.【拓展提高】
独立性检验的基本思想与反证法的思想的相似之处
(1)观察下列各图,其中两个分类变量X,Y之间关系最强的是题型一 列联表和等高条形图的应用例1(2)某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病),不吸烟的295人中有21人患病,274人未患病.
根据这些数据能否断定“患呼吸道疾病与吸烟有关”?(用列联表和等高条形图说明).
【自主解答】 (1)在四幅图中,选项D的图中两个深色条的高相差最明显,说明两个分类变量之间的关系最强.
(2)①作出列联表如下:
②画出等高条形图如下:
通过上面的等高条形图可以直观看出,吸烟者中患病的比例与不吸烟者中患病的比例相比有很大的差异,故“患呼吸道疾病与吸烟可能有关”.
1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.◎变式训练解析 作列联表如下:
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类型有关.
(1)在独立性检验中,统计量K2有三个临界值:2.706,3.841和6.635;当K2>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当K2>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当K2<2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2 000人,经计算K2=20.87,根据这一数据分析,认为打鼾与患心脏病之间
题型二 独立性检验例2A.在犯错误的概率不超过0.05的前提下认为两者有关
B.约有95%的打鼾者患心脏病
C.在犯错误的概率不超过0.01的前提下认为两者有关
D.约有99%的打鼾者患心脏病(2)国家虽然出台了多次限购令,但各地房地产市场依然热火朝天,主要是利益的驱使,有些开发商不遵守职业道德,违规使用未经淡化海砂;为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大学实验室随机抽取了60个样本,得到了如下的2×2列联表:补充完整表中的数据,利用独立性检验的方法判断,能否在犯错误的概率不超过0.01的前提下,认为使用淡化海砂与混凝土耐久性是否达标有关?
【自主解答】 (1)C 因为K2=20.87>6.635,
根据P(K2>6.635)=0.01可知,在犯错误的概率不超过0.01的前提下认为打鼾与患心脏病有关.
(2)列联表如表所示:
2.在对人们休闲方式的一次调查中,共调查了120人,其中女性70人、男性50人.女性中有40人主要的休闲方式是看电视,另外30人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外30人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2的列联表.
(2)休闲方式与性别是否有关?
◎变式训练解析 (1)2×2的列联表为
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
题型三 独立检验的综合应用例3(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
【自主解答】 (1)第二种生产方式的效率更高.理由如下:
解法一 由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
解法二 由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
解法三 由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
解法四 由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同.故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
方法规律
(1)独立性检验类似于数学中的反证法,要确认“两个变量有关联”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量K2应该很小.如果由观测数据计算得到的K2值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的相关关系作出判断.
(2)统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质,因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
3.为了解某班关注NBA是否与性别有关,对本班48人进行了问卷调查得到如下的列联表:
◎变式训练 (12分)为调查某生产线上某质量监督员甲对产品质量的好坏有无影响,现统计数据如下:质量监督员甲在场时,990件产品中合格品有982件,次品有8件;甲不在场时,510件产品中合格品有493件,次品有17件.试分别用列联表及独立性检验的方法对数据进行分析.
◎典题示例规范解答1 独立性检验的思想及解法典例[审题流程]
[规范解答]
2×2列联表如下:[名师点睛]
(1)在解题时要明确已知条件,分清楚各种情况下的不同数据,不要混淆.如本例中的2×2列联表中的数据极易混淆.
(2)在解题中,若用到公式计算,则要对公式记忆准确,同时计算不能失误,否则影响对两个分类变量的相关性判断,如本例中K2的观测值的计算.
下表是某地区的一种传染病与饮用水的调查表:
◎典题试解(1)这种传染病是否与饮用不干净水有关?请说明理由;
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人,试按此样本数据分析这种疾病是否与饮用不干净水有关,并比较两种样本在反映总体的差异.
(2)依题意得2×2列联表如下:
本讲结束
请按ESC键返回课后提升案·素养达成