4.3.2 独立性检验
基础过关练
题组一 2×2列联表
1.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检 每年未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名,则对列联表中数据的分析错误的是( )
A.a=18 B.b=19
C.c+d=50 D.e-f=2
2.已知甲、乙两个班级进行数学考试,按照大于或等于85分为优秀,85分以下为非优秀,得到如下列联表:
优秀 非优秀 总计
甲班 10 b
乙班 c 30
总计 105
已知在105人中随机抽取1人,成绩优秀的概率为,则下列说法正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为15,b的值为50
C.列联表中c的值为20,b的值为50
D.由列联表可看出成绩与班级有关系
题组二 对独立性检验的理解
3.下列关于回归分析与独立性检验的说法正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量之间确定性关系的分析,而独立性检验是分析两个变量之间的不确定性关系
C.回归分析研究的是两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验一定可以确定两个变量之间是否具有某种关系
4.下列对变量X与Y的统计量χ2的值的说法正确的是( )
A. χ2越大,“X与Y有关系”的可信程度越小
B. χ2越小,“X与Y有关系”的可信程度越大
C. χ2越小,“X与Y有关系”的可信程度越小
D. χ2越大,“X与Y无关”的可信程度越大
题组三 独立性检验的应用
5.根据分类变量x与y的观察数据,计算得到χ2=2.974,依据给出的临界值表作出下列判断,其中正确的是( )
P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
A.有95%的把握认为变量x与y独立
B.有95%的把握认为变量x与y不独立
C.认为变量x与y独立,这个结论犯错误的概率不超过10%
D.认为变量x与y不独立,这个结论犯错误的概率不超过10%
6.某机构为了解某地区中学生在校月消费情况,随机抽取了100名中学生进行调查,将月消费金额不低于550元的学生看成“高消费群”,调查结果如表所示:
高消费群 非高消费群 合计
男 15 35 50
女 10 40 50
合计 25 75 100
附:χ2=.
P(χ2≥k) 0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
下列结论正确的是( )
A.有90%的把握认为“高消费群与性别有关”
B.没有90%的把握认为“高消费群与性别有关”
C.在犯错误的概率不超过1%的前提下,认为“高消费群与性别无关”
D.在犯错误的概率不超过1%的前提下,认为“高消费群与性别有关”
7.某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中x∈N+,且x<20,若有90%的把握认为性别与对工作的满意程度具有相关性,则x的值可以是 .(给出一个满足条件的x值即可)
对工作满意 对工作不满意
男 5x 5x
女 4x 6x
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
8.某大学餐饮中心对全校一年级新生的饮食习惯进行抽样调查,调查结果如下:南方学生喜欢甜品的有60人,不喜欢甜品的有20人;北方学生喜欢甜品的有10人,不喜欢甜品的有10人.那么至少有 %的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
附: χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.1 0.05 0.01 0.005
k 2.706 3.841 6.635 7.879
9.有一项研究同年龄段的男、女生的注意力差别的脑功能实验,实验数据如下表:
注意力稳定 注意力不稳定
男生 29 7
女生 33 5
则χ2= (精确到小数点后三位),依据P(χ2≥3.841)=0.05,该实验
(填“不支持”或“支持”)该年龄段的学生在注意力的稳定性上关于性别没有显著差异.
10.某乡镇在实施乡村振兴的进程中,大力推广科学种田,引导广大农户种植优良品种,进一步推动当地农业发展,不断促进农业增产农民增收.为了解某新品种水稻的产量情况,现从种植该新品种水稻的不同自然条件的田地中随机抽取400亩,统计其亩产量x(单位:t),并以此为样本绘制了如图所示的频率分布直方图.
(1)求这400亩水稻平均亩产量的估计值(同一组中的数据用该组区间的中点值为代表,精确到小数点后两位);
(2)若这400亩水稻的灌溉水源有河水和井水,现统计了两种水源灌溉水稻的亩产量,并得到下表:
亩产量超过0.7 t 亩产量不超过0.7 t 总计
河水灌溉 180 90 270
井水灌溉 70 60 130
总计 250 150 400
判断能否有95%的把握认为亩产量与所用灌溉水源有关.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.10 0.05 0.01 0.001
k 2.706 3.841 6.635 10.828
11.相关统计数据显示,中国经常参与体育锻炼的人数比例为37.2%,城乡居民达到《国民体质测定标准》合格以上的人数比例达到90%以上.某市一健身连锁机构对其会员进行了统计,制作成如下两个统计图,会员年龄等级分布图(年龄为整数)如图1,会员一个月内到健身房次数分布扇形图如图2.若将会员按年龄分为“年轻人”(20~39岁)和“非年轻人”(19岁及以下或40岁及以上)两类,将一个月内到健身房锻炼16次及以上的会员称为“健身达人”,15次及以下的会员称为“健身爱好者”,已知在“健身达人”中有是“年轻人”.
图1 会员年龄等级分布图
图2 会员一个月内到健身房次数分布扇形图
(1)现从该健身连锁机构会员中随机抽取一个容量为100的样本,根据图中的数据,补全下方2×2列联表,并判断是否有95%的把握认为是不是“健身达人”与年龄有关;
年轻人 非年轻人 合计
健身达人
健身爱好者
合计
(2)将(1)中相应的频率作为概率,该健身连锁机构随机选取3名会员进行回访,设3名会员中既是“年轻人”又是“健身达人”的人数为随机变量X,求X的分布列和数学期望.
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.05 0.01 0.005 0.001
k 3.841 6.635 7.879 10.828
能力提升练
题组 独立性检验及其应用
1.假设两个分类变量X和Y的2×2列联表如下:
X Y 合计
y1 y2
x1 a 10 a+10
x2 c 30 c+30
合计 a+c 40 100
对于同一样本,以下数据能说明X和Y有关系的可能性最大的一组是( )
A.a=40,c=20 B.a=45,c=15
C.a=35,c=25 D.a=30,c=30
2.第19届亚运会结束后,某网络直播平台调研“大学生是否喜欢观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100名进行问卷调查,得到如下数据(5≤m≤15,m∈N):
喜欢观看 不喜欢观看
男生 80-m 20+m
女生 50+m 50-m
通过计算,有95%的把握认为大学生喜欢观看体育比赛直播与性别有关,则在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为( )
附:χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.15 0.10 0.05 0.01 0.001
k 2.072 2.706 3.841 6.635 10.828
A.55 B.57 C.58 D.60
3.针对中学生追星问题,某校团委对“中学生是否追星和性别有关”进行了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的.若有95%的把握认为中学生是否追星和性别有关,则男生至少有 人.
附: χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
4.动漫电影《哪吒2》一经上映,就获得较好的评价,也取得了很好的票房成绩,某平台为了解观众对该影片的评价情况(评价结果仅有“好评”“差评”),从平台所有参与评价的观众中随机抽取400人进行调查,数据如下表所示(单位:人):
好评 差评 合计
男性 80 200
女性 90
合计 400
(1)把2×2列联表补充完整,并判断是否有99.5%的把握认为“对该部影片的评价情况与性别有关”;
(2)从随机抽取的400人中所有给出“好评”的观众中采用按男女分层抽样的方法随机抽取7人参加平台和影片出品方组织的活动,为了方便活动,现从7人中随机选出2人作为正、副领队,求所选出的正、副领队是一男一女的概率.
参考公式:χ2=,其中n=a+b+c+d.
参考数据:
P(χ2≥k) 0.10 0.05 0.025 0.010 0.005 0.001
k 2.706 3.841 5.024 6.635 7.879 10.828
5.某医疗用品生产企业对原有的生产线进行技术升级,为了更好地对比技术升级前和升级后的效果,甲生产线继续使用旧的生产模式,乙生产线采用新的生产模式,现质检部门随机抽检了甲、乙两条生产线的各200件该医疗用品,在抽取的400件产品中,根据检测结果将它们分为A,B,C三个等级,A,B等级都是合格品,C等级是次品,统计结果如表所示.
表一:
等级 A B C
频数 200 150 50
表二:
合格品 次品 合计
甲 160
乙 10
合计
在相关政策扶持下,确保每件该医疗用品的合格品都有对口销售渠道,但按照国家对该医疗用品产品质量的要求,所有的次品必须由厂家自行销毁.
(1)请根据所提供的数据,完成上面的2×2列联表(表二),并判断是否有99.9%的把握认为产品的合格率与技术升级有关;
(2)在抽检的所有次品中,按甲、乙生产线生产的次品比例进行分层抽样抽取10件该医疗用品,然后从这10件中随机抽取5件,记甲生产线生产的有X件,求X的分布列和数学期望;
(3)已知每件该医疗用品的生产成本为20元,A,B等级产品的出厂单价分别为m元、40元,甲生产线抽检的该医疗用品中有70件为A等级,用样本的频率估计概率,若进行技术升级后,平均生产1件该医疗用品比技术升级前多盈利不超过9元,求A等级产品的出厂单价最高为多少元.
附: χ2=,其中n=a+b+c+d.
P(χ2≥k) 0.05 0.01 0.005 0.001
k 3.841 6.635 7.879 10.828
答案与分层梯度式解析
4.3.2 独立性检验
基础过关练
1.D 2.D 3.C 4.C 5.D 6.B
1.D 由题意得,a+7=c=25,6+b=d=25,c+d=50,a+6=e,7+b=f,e+f=50,所以a=18,b=19,e=24,f=26,所以e-f=-2.故选D.
2.D 依题意,得,解得c=20,由10+b+20+30=105,得b=45.
补全列联表如下:
优秀 非优秀 总计
甲班 10 45 55
乙班 20 30 50
总计 30 75 105
甲班的优秀率为,乙班的优秀率为,所以成绩与班级有关系,故选D.
3.C
4.C
5.D 因为χ2=2.974>2.706,所以在犯错误的概率不超过10%的前提下,认为变量x与y有关,即认为变量x与y不独立.故选D.
6.B 由题表得χ2=≈1.333<2.706,所以没有90%的把握认为“高消费群与性别有关”.故选B.
7.答案 14(或15,16,17,18,19中任意一个)
解析 χ2=>2.706,解得x>13.394 7,因为x∈N+且x<20,所以x=14或x=15或x=16或x=17或x=18或x=19.
8.答案 95
解析 由题意得,2×2列联表如下:
喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
χ2=≈4.762>3.841,所以至少有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
9.答案 0.538;支持
解析 由题表中数据可知,a=29,b=7,c=33,d=5,根据χ2=,其中n=a+b+c+d计算可知χ2=≈0.538<3.841,
所以没有足够的把握认为学生在注意力的稳定性上与性别有关,
即该实验支持该年龄段的学生在注意力的稳定性上关于性别没有显著差异.
10.解析 (1)由题意得,(0.75×2+1.25×2+1.75+2.25+b)×0.1=1,解得b=2,
所以这400亩水稻平均亩产量的估计值为(0.45×0.75+0.55×1.25+0.65×1.75+0.75×2.25+0.85×2+0.95×1.25+1.05×0.75)×0.1≈0.75.
(2)χ2=≈6.154>3.841,
所以有95%的把握认为亩产量与所用灌溉水源有关.
11.解析 (1)由题图1得“年轻人”占比为45.5%+34.5%=80%,则样本中“年轻人”的人数为100×80%=80,“非年轻人”的人数为100-80=20.
由题图2得“健身达人”占比为30.1%+19.2%+10.7%=60%,则样本中“健身达人”的人数为100×60%=60,又“健身达人”中有是“年轻人”,所以“健身达人”中“年轻人”的人数为60×=50,“非年轻人”的人数为60-50=10;
“健身爱好者”的人数为100-60=40,其中“年轻人”的人数为80-50=30,“非年轻人”的人数为40-30=10.
2×2列联表如下:
年轻人 非年轻人 合计
健身达人 50 10 60
健身爱好者 30 10 40
合计 80 20 100
可得χ2=≈1.042<3.841,所以没有95%的把握认为是不是“健身达人”与年龄有关.
(2)由(1)可知,任意一名会员既是“年轻人”又是“健身达人”的概率为,则X~B,
P(X=0)=,
P(X=2)=,
故X的分布列为
X 0 1 2 3
P
数学期望E(X)=3×.
能力提升练
1.B χ2=·.根据2×2列联表和独立性检验的相关知识知,当b,d 一定时,a,c相差越大,与相差就越大, χ2就越大,即X和Y有关系的可能性越大,结合选项知,B中a-c=30与其他选项相比相差最大.
2.C 由题意得, χ2=
=
=≥3.841,
所以(15-m)2≥43.7,
又5≤m≤15,m∈N,所以15-m≥7,解得m≤8,
故在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为58.
故选C.
3.答案 12
解析 设男生人数为x,依题意可得2×2列联表如下:
追星 不追星 总计
男生 x
女生
总计 x
若有95%的把握认为中学生是否追星和性别有关,则χ2≥3.841,由χ2=x≥3.841,解得x≥10.24,∵均为整数,∴男生至少有12人.
4.解析 (1)2×2列联表补充完整如下:
好评 差评 合计
男性 120 80 200
女性 90 110 200
合计 210 190 400
χ2=≈9.023>7.879,
因此有99.5%的把握认为“对该部影片的评价情况与性别有关”.
(2)采用分层抽样的方法从男性给出“好评”者中抽取的人数为120×=4;从女性给出“好评”者中抽取的人数为90×=3.
从7人中抽取2人有=21种情况,
其中包含一男一女的有=12种情况,
故所求概率P=.
5.解析 (1)2×2列联表如下:
合格品 次品 合计
甲 160 40 200
乙 190 10 200
合计 350 50 400
χ2=≈20.571>10.828,
故有99.9%的把握认为产品的合格率与技术升级有关.
(2)由题意得抽取的10件中有8件甲生产线的,2件乙生产线的,所以X的所有可能取值为3,4,5.
P(X=3)=,
P(X=5)=.
所以X的分布列为
X 3 4 5
P
所以E(X)=3×=4.
(3)易得甲生产线抽检的产品中有70件A等级产品,90件B等级产品,40件C等级产品;
乙生产线抽检的产品中有130件A等级产品,60件B等级产品,10件C等级产品.
所以对于甲生产线,单件产品的利润为-2;
对于乙生产线,单件产品的利润为-8.
由题意得≤9,解得m≤50,
所以A等级产品的出厂单价最高为50元.
20(共13张PPT)
1.2×2列联表
(1)定义:随机事件A与B的样本数据整理成如下的表格形式.
知识 清单破
4.3.2 独立性检验
知识点 独立性检验
A 总计
B a b a+b
c d c+d
总计 a+c b+d a+b+c+d
因为这个表格中,核心的数据是中间4个格子,所以这样的表格通常称为2×2列联表.
(2)χ2计算公式:χ2= ,其中n=a+b+c+d.
知识拓展 列联表的统计意义
(1)事件A发生的概率可估计为P(A)= ;(2)事件B发生的概率可估计为P(B)= ;(3)事件
AB发生的概率可估计为P(AB)= .
2.独立性检验
任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k
(称为显著性水平α对应的分位数).若χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以
认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2到前述结论.这一过程通常称为独立性检验.
知识拓展
(1)χ2A与B独立时,也称为A与B无关.当χ2通常得到的结果,或者是有1-α的把握认为A与B有关,或者没有1-α的把握认为A与B有关.
(2)常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
知识辨析
判断正误,正确的画“√”,错误的画“ ”.
1.2×2列联表中的数据是两个分类变量的频数. ( )
2.分类变量中的变量与函数中的变量是同一概念.( )
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么有95%的把握认为两个变量之间有关系.
( )
4.在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强. ( )
√
√
应用独立性检验解决实际问题的一般步骤
(1)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值k比较;
(2)根据检验规则得出推断结论;
(3)在两个分类变量X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影
响规律.
讲解分析
疑难 独立性检验的应用
疑难 情境破
典例 随着智能手机的普及,手机计步软件迅速流行开来,这类软件能自动记载每个人每日健
步走的步数,从而为科学健身提供一定的帮助.某市工会为了解该市市民每日健步走的情况,
从本市市民中随机抽取了2 000名(其中不超过40岁的市民恰好有1 000名),利用手机计步软
件统计了他们某天健步走的步数(单位:千),并将样本数据分为[3,5),[5,7),[7,9),[9,11),[11,13),
[13,15),[15,17),[17,19),[19,21]九组,将抽取的不超过40岁的市民的样本数据绘制成频率分布
直方图,将40岁以上的市民的样本数据整理为频数分布表,并利用该样本的频率分布估计总
体的概率分布.
分组(单位:千) [3,5) [5,7) [7,9) [9,11) [11,13)
频数 10 20 20 30 400
分组(单位:千) [13,15) [15,17) [17,19) [19,21]
频数 200 200 100 20
(1)现规定,每日健步走的步数不低于13 000的为“健步达人”,填写列联表,并分析能否在犯
错误的概率不超过0.1%的前提下,认为是不是“健步达人”与年龄有关;
健步达人 非健步达人 总计
40岁以上的市民
不超过40岁的市民
总计
(2)(i)利用样本平均数和中位数估计该市不超过40岁的市民每日健步走的步数(单位:千)的平
均数和中位数(每组数据取区间的中点值代替);
(ii)由频率分布直方图可以认为,不超过40岁的市民每日健步走的步数Z(单位:千)近似地服从
正态分布N(μ,σ2),其中μ近似为样本平均数 ,σ的值已求出约为3.64.现从该市不超过40岁的市
民中随机抽取5人,记其中每日健步走的步数Z(单位:千)位于[4.88,15.8]的人数为X,求X的数学
期望.
参考公式:χ2= ,其中n=a+b+c+d.
参考数据:
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
若Z~N(μ,σ2),则P(μ-σ≤Z≤μ+σ)≈0.683,P(μ-2σ≤Z≤μ+2σ)≈0.954.
解析 (1)列联表为
健步达人 非健步达人 总计
40岁以上的市民 520 480 1 000
不超过40岁的市民 400 600 1 000
总计 920 1 080 2 000
计算可得χ2= ≈28.986>10.828,
能在犯错误的概率不超过0.1%的前提下,认为是不是“健步达人”与年龄有关.
(2)(i)样本平均数为4×0.04+6×0.06+8×0.10+10×0.10+12×0.30+14×0.20+16×0.10+18×0.08+20
×0.02=12.16.
由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0.6,知样本
中位数落在第5组,
设样本中位数为t,则(t-11)×0.15=0.5-0.3,
所以t= .
故可以估计该市不超过40岁的市民每日健步走的步数(单位:千)的平均数为12.16,中位数为
.
(ii)由题意得[μ-2σ,μ+σ]=[4.88,15.8],
而P(μ-2σ≤Z≤μ+σ)= P(μ-2σ≤Z≤μ+2σ)+ P(μ-σ≤Z≤μ+σ)≈0.818 5,
所以X~B(5,0.818 5),
所以E(X)=5×0.818 5=4.092 5.
解后反思
独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定
一个结论,在分析问题时一定要注意这一点,不可对某个问题下确定性结论,否则就可能对统
计计算的结果给出错误的解释.