列联表与独立性检验练习
一、单选题(本大题共12小题,共60.0分)
某班主任对全班50名学生进行了作业量的调查,所得数据如下表:
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
则推断“学生的性别与认为作业量大有关”,这种推断犯错误的概率不超过(??? )
A. 0.01 B. 0.005 C. 0.025 D. 0.001
在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是(? ? )
A. 100个心脏病患者中至少有99人打鼾
B. 1个人患心脏病,则这个人有99%的概率打鼾
C. 100个心脏病患者中一定有打鼾的人
D. 100个心脏病患者中可能一个打鼾的人都没有
利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用2×2列联表,由计算可得K2≈7.245,参照下表:得到的正确结论是(??? )
P(K2≥k0)
0.01
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
A. 有99%以上的把握认为“爱好该项运动与性别无关”
B. 有99%以上的把握认为“爱好该项运动与性别有关”、
C. 在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”
D. 在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”
独立性检验中,假设运动员受伤与不做热身运动无关.在上述假设成立的情况下,经过计算得到K2的观测值k≈7.236.下列结论正确的是(????)
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A. 在犯错误的概率不超过0.010的前提下,认为运动员受伤与不做热身运动有关
B. 在犯错误的概率不超过0.010的前提下,认为运动员受伤与不做热身运动无关
C. 在犯错误的概率不超过0.005的前提下,认为运动员受伤与不做热身运动有关
D. 在犯错误的概率不超过0.005的前提下,认为运动员受伤与不做热身运动无关
某校为了研究“学生的性别”和“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算K2=7.069,则认为“学生性别与支持活动有关系”的犯错误的概率不超过(???)附:P(K2≥6.635)=0.01,P(K2≥10.828)=0.001.
A. 0.1% B. 1% C. 99% D. 99.9%
在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(????)
A. 若K2的观测值k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B. 从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能性患有肺病
C. 从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得判断出现错误
D. 以上三种说法都不正确
两个变量y和x进行回归分析,得到一组样本数据x1,y1,x2,y2,...,xn,yn,则下列说法中不正确的是(???)
A. 由样本数据得到的回归方程∧?=∧?x+∧?必过样本点的中心x,y
B. 残差平方和越小的模型,拟合的效果越好
C. 用相关指数R2来刻画回归效果,R2越小说明拟合效果越好
D. 若变量y和x之间的相关系数为r=?0.9462,则变量y和x之间具有线性相关关系
观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是(????)
A. B.
C. D.
给出以下四个说法:
①残差点分布的带状区域的宽度越窄,说明拟合效果相关指数越小
②在刻画回归模型的拟合效果时,相关指数R2的值越大,说明拟合的效果越好;
③在回归直线方程y=0.2x+12中,当解释变量x每增加一个单位时,预报变量y平均增加0.2个单位;
④对分类变量X与Y,若它们的随机变量K2的观测值k越小,则判断“X与Y有关系”的把握程度越大.
其中正确的说法是(?? )
A. ①④ B. ②④ C. ①③ D. ②③
下列说法:
①将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
②设有一个线性回归方程y=3?5x,变量x增加1个单位时,y平均增加5个单位;
③线性回归方程y=bx+a必过(x,y);
④设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越高;
⑤在一个2×2列联表中,由计算得k的值,则k的值越大,判断两个变量间有关联的把握就越大.
其中错误的个数是(????)
A. 0 B. 1 C. 2 D. 3
利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.
P(K2≥k0)
0.05
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
如果k≥5.024,那么就有把握认为“X与Y有关系”的百分比为? (??? )
A. 25% B. 75% C. 2.5% D. 97.5%
某市政府在调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3000人,计算发现K2的观测值k=6.023,根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系这一断言犯错误的概率不超过(??? )
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.5
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A. 0.1 B. 0.05 C. 0.025 D. 0.005
二、单空题(本大题共4小题,共20.0分)
为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
已知P(K2≥7.879)≈0.005,P(K2≥10.828)≈0.001,由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,在犯错误的概率不超过____________的前提下认为课外阅读量大与作文成绩优秀有关.
某卫生机构对366人进行健康体检,有阳性家族史者糖尿病发病的有16例,不发病的有93例,阴性家族史者糖尿病发病的有17例,不发病的有240例,那么,在犯错误的概率不超过________的前提下认为糖尿病患者与遗传有关系.
P(K2?k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
在独立性检测中,在犯错误不超过0.01的前提下认为两个分类变量“X和Y有关系”,则K2的观测值k的取值范围是________.
已知变量X,Y,由它们的数据计算得到K2的观测值k≈4.238,K2的部分临界值表如表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
则最大有??????????的把握说变量X,Y有关系.(填百分数)
三、解答题(本大题共2小题,共24.0分)
近年来随着我国在教育科研上的投入不断加大,科学技术得到迅猛发展,国内企业的国际竞争力得到大幅提升.伴随着国内市场增速放缓,国内有实力企业纷纷进行海外布局,第二轮企业出海潮到来.如在智能手机行业,国产品牌已在赶超国外巨头,某品牌手机公司一直默默拓展海外市场,在海外共设30多个分支机构,需要国内公司外派大量70后、80后中青年员工.该企业为了解这两个年龄层员工是否愿意被外派工作的态度,按分层抽样的方式从70后和80后的员工中随机调查了100位,得到数据如表:
愿意被外派
不愿意被外派
合计
70后
20
20
40
80后
40
20
60
合计
60
40
100
(Ⅰ)根据调查的数据,是否有90%以上的把握认为“是否愿意被外派与年龄有关”,并说明理由;
(Ⅱ)该公司举行参观驻海外分支机构的交流体验活动,拟安排6名参与调查的70后、80后员工参加.70后员工中有愿意被外派的3人和不愿意被外派的3人报名参加,从中随机选出3人,记选到愿意被外派的人数为x;80后员工中有愿意被外派的4人和不愿意被外派的2人报名参加,从中随机选出3人,记选到愿意被外派的人数为y,求x参考数据:
P(K2>k)
0.15
0.10
0.05
0.025
0.010
0.005
k
2.072
2.706
3.841
5.024
6.635
7.879
(参考公式:K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d).
随着科技的发展,网络已逐渐融入了人们的生活.网购是非常方便的购物方式,为了了解网购在我市的普及情况,某调查机构进行了有关网购的调查问卷,并从参与调查的市民中随机抽取了男女各100人进行分析,从而得到表(单位:人)
经常网购
偶尔或不用网购
合计
男性
50
100
女性
70
100
合计
(1)完成上表,并根据以上数据判断能否在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关?
(2)①现从所抽取的女市民中利用分层抽样的方法抽取10人,再从这10人中随机选取3人赠送优惠券,求选取的3人中至少有2人经常网购的概率;
②将频率视为概率,从我市所有参与调查的市民中随机抽取3人赠送礼品,记其中经常网购的人数为X,求随机变量X的分布列及数学期望和方差.
P(K2≥K0)
0.025
0.010
0.005
0.001
K0
5.024
6.635
7.879
10.828
K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d)
答案和解析
1.【答案】C
【解析】略
2.【答案】D
【解析】
【分析】
本题考查独立性检验的应用,解题的关键是正确理解有多大把握认为这件事正确,属于基础题.
由独立性检验的概念即可判断.
【解答】
解:“打鼾与患心脏病有关”的犯错误的概率不超过0.01,表示有99%的把握认为这个结论成立,与多少个人打鼾没关系,
只有D正确.
故选D.?
3.【答案】B
【解析】
【分析】
利用独立性检验的方法计算得K2,参照临界值表即可得出正确的结论.
本题考查了独立性检验的应用问题,是基础题.
【解答】
解:独立性检验的方法计算得K2≈7.245,参照临界值表,得7.245>6.635,
所以有99%以上的把握认为“爱好该项运动与性别有关”.
故选:B.
4.【答案】A
【解析】
【分析】本题考查独立性检验的应用,属于基础题.
计算K2的观测值,可判断在犯错误的概率不超过0.010的前提下,认为运动员受伤与不做热身运动有关.
【解答】解:∵K2的观测值k≈7.236>6.635,
∴在犯错误的概率不超过0.010的前提下,认为运动员受伤与不做热身运动有关,
故选A.
5.【答案】B
【解析】
【分析】
本题考查独立性检验知识的运用,正确对照临界值表是关键,属于基础题.
将K2与临界值比较即可.
【解答】
解:因为K2=7.069>6.635,
所以认为“学生性别与支持活动有关系”的犯错误的概率不超过1%.
故选B.
6.【答案】C
【解析】
【分析】本题考查了独立性检验的应用,属于基础题.
由独立性检验知,概率值是指我们认为我下的结论正确的概率,从而对四个命题判断.
【解答】解:若K2的观测值k=6.635,我们有99%的把握认为吸烟与患肺病有关系,但在100个吸烟的人中未必有99人患有肺病,故A不正确;
从独立性检验可以知道有99%的把握认为吸烟与患肺病有关系时,是指吸烟与患肺病有关系的概率,而不是吸烟的人有99%的可能性患有肺病,故B不正确;
若从统计量中求出有95%的把握认为吸烟与患肺病有关系,则有5%的可能性使得判断出现错误,故C正确.
故选C.
7.【答案】C
【解析】
【分析】
本题考查衡量两个变量之间相关关系的方法,要想知道两个变量之间的有关或无关的精确的可信程度,只有利用独立性检验的有关计算,才能做出判断.
线性回归方程一定过样本中心点,在一组模型中残差平方和越小,拟合效果越好,相关指数表示拟合效果的好坏,指数越小,相关性越强.?
【解答】
解:样本中心点在直线上,故 A正确,
残差平方和越小的模型,拟合效果越好,故B正确,
R2越大拟合效果越好,故C不正确,
当r的绝对值值大于0.75时,表示两个变量具有线性相关关系,D正确.
故选C .
8.【答案】D
【解析】
【分析】
本题考查独立性检验,属于基础题.
在频率等高条形图中,aa+b与cc+d相差很大时,我们认为两个分类变量有关系,即可得出结论.
【解答】
解:在频率等高条形图中,aa+b与cc+d相差很大时,我们认为两个分类变量有关系,
四个选项中,即等高的条形图中x1,x2所占比例相差越大,则分类变量x,y关系越强,
故选D.
9.【答案】D
【解析】
【分析】
本题以命题的真假判断为载体考查了线性回归及独立性检验的基本概念,属于基础题.
利用残差图判断模型的拟合效果,从而可判断①的正误;②相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好;③在回归直线方程y=0.2x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.2个单位;④根据独立性检验的定义,即可判断.
【解答】
解:在做回归分析时,残差图中残差点分布的带状区域的宽度越窄,说明拟合精度越高,相关指数的绝对值越接近1,而不是拟合效果相关指数越小,故①错误;
②相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好,因此②正确.
③在回归直线方程y=0.2x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.2个单位,故③正确;
④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,故④错误,
故选D.
10.【答案】C
【解析】
【分析】
本题考查命题的真假判断与应用,考查了变量间的相关关系,熟记教材结论是关键,是基础题.
由一组数据中的每一个数据都加上或减去同一个常数后,方差不变判断①;利用回归方程的意义判断②;根据具有相关关系的两个变量的相关系数值与相关性判断③;由独立性检验中k的值越大,判断两个变量间有关联的把握就越大判断④.??
【解答】
解:
①.根据方差公式,将一组数据中的每一个数据都加上或减去同一个常数后,方差不变,故①正确;?
②.设一个线性回归方程y=3?5x,变量x增加1个单位时,y平均减少5个单位,故②不正确;
③.由回归直线方程的性质可知,故③正确;?
④.设具有相关关系的两个变量x,y的相关系数为r,则|r|越接近于0,x和y之间的线性相关程度越弱,故④不正确;?
⑤.在一个2×2列联表中,由计算得k的值,则k的值越大,判断两个变量间有关联的把握就越大,故⑤正确.?
所以其中错误的个数是2个.?
故选C.
11.【答案】D
【解析】
【分析】
本题考查独立性检验的应用,是一个基础题.
根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,有1?0.025的把握认为“X和Y有关系”,得到结果.
【解答】
解:∵k>5.024而在观测值表中对应于5.024的是0.025,
∴有1?0.025=97.5%的把握认为“X和Y有关系”,
故选D.
12.【答案】C
【解析】略
13.【答案】0.005
【解析】
【分析】
本题考查了独立性检验的应用,属基础题.
解答本题的关键是正确理解临界值对应概率的含义.
【解答】
解:∵10.828>k≈9.643>7.879,
∴在犯错误的概率不超过0.005的前提下认为作文成绩优秀与课外阅读量大有关.
故答案为0.005.
14.【答案】0.025
【解析】
【分析】
本题考查独立性检验,考查判断两个变量之间有没有关系,属于基础题.
通过所给的数据计算K2的观测值k,同临界值表中的数据进行比较,可得到结论;
【解答】
解:列出2×2列联表:
发病
不发病
总计
阳性家族史
16
93
109
阴性家族史
17
240
257
总计
33
333
366
所以K2的观测值k=366×(16×240?17×93)2109×257×33×333≈6.067>5.024,
因此,在犯错误的概率不超过0.025的前提下认为糖尿病患者与遗传有关.
15.【答案】(6.635,+∞)
【解析】略
16.【答案】95%
【解析】解:由样本数据计算得到K2的观测值k≈4.238,
且4.328>3.841,
所以最大有95%的把握说变量X,Y有关系.
故答案为:95%.
由K2的观测值,对照附表即可得出结论.
本题考查了独立性检验的应用问题,是基础题.
17.【答案】解:(Ⅰ)K2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d)=100×(20×20?40×20)260×40×60×40=400×400×1005760000≈2.778>2.706
所以有90%?以上的把握认为“是否愿意被外派与年龄有关”
(Ⅱ)“x且P(x=0,y=1)=C30C33C63×C41C22C63=4400,P(x=0,y=2)=C30C33C63×C42C21C63=12400P(x=0,y=3)=C30C33C63×C43C20C63=4400,P(x=1,y=2)=C31C32C63×C42C21C63=108400P(x=1,y=3)=C31C32C63×C43C20C63=36400,P(x=2,y=3)=C32C31C63×C43C20C63=36400
所以:P(x【解析】(Ⅰ)求出K2,与临界值比较,即可得出结论;
(Ⅱ)利用互斥事件的概率公式,可得结论.
本题考查独立性检验知识的运用,考查概率的计算,正确计算是关键.
18.【答案】?解:(1)完成列联表(单位:人):
经常网购
偶尔或不用网购
合计
男性
50
50
100
女性
70
30
100
合计
120
80
200
由列联表,得:
K2的观测值k=200×(50×30?50×70)2120×80×100×100=253≈8.333>6.635,
∴能在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关.
(2)①由题意所抽取的10名女市民中,经常网购的有10×70100=7人,
偶尔或不用网购的有10×30100=3人,
∴选取的3人中至少有2人经常网购的概率为:P=C72C31+C73C103=4960.
②由2×2列联表可知,抽到经常网购的市民的频率为:120200=0.6,
将频率视为概率,P(X=k)?=C3k(35)k(25)3?k(k=0,1,2,3),
∴从我市市民中任意抽取一人,恰抽到经常网购市民的概率为0.6,
由题意X?B(10,0.6),
X
0
1
2
3
P
8125
36125
54125
27125
∴随机变量X的数学期望E(X)=10×0.6=6,
方差D(X)=10×0.6×0.4=2.4.
【解析】本题考查独立检验的应用,考查概率、离散型随机变量的分布列、数学期望、方差的求法,考查古典概型、二项分布等基础知识,考查运算求解能力,是中档题.
(1)完成列联表,由列联表,得K2的观测值k=253≈8.333>6.635,由此能在犯错误的概率不超过0.01的前提下认为我市市民网购与性别有关.
(2)①由题意所抽取的10名女市民中,经常网购的有10×70100=7人,偶尔或不用网购的有10×30100=3人,由此能选取的3人中至少有2人经常网购的概率.
②由2×2列联表可知,抽到经常网购的市民的频率为:120200=0.6,由题意X?B(10,0.6),求出分布列,进而求出数学期望和方差.