9.2 独立性检验(概念课——逐点理清式教学)
课时目标
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表独立性检验及其应用.
逐点清(一) 2×2列联表
[多维度理解]
一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下列联表所示的抽样数据:
Ⅱ
类1 类2 合计
Ⅰ 类A a b a+b
类B c d c+d
合计 a+c b+d a+b+c+d
上述表格称为2×2列联表.
微点助解
(1)作2×2列联表时,关键是对涉及的变量分清类别,要对Ω中的对象定义分类变量X和Y,计算时要准确无误;
(2)利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与 的值相比,直观地反映出两个分类变量间是否相互影响.
[细微点练明]
1.假设有两个分类变量x与y的2×2列联表如表:
y1 y2
x1 a b
x2 c d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为 ( )
A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5
D.a=2,b=3,c=5,d=4
2.下面是一个2×2列联表:
X Y 合计
Y=0 Y=1
X=0 a 21 73
X=1 8 25 33
合计 b 46
则表中a,b处的值分别为 , .
3.下表是A,B两所中学的学生对报考某类大学意愿的列联表:
愿意报考 某类大学 不愿意报考 某类大学 合计
A中学 18 37 55
B中学 38 57 95
合计 56 94 150
根据表中的数据回答:A,B两所中学的学生对报考某类大学的态度是否有显著差异
逐点清(二) 独立性检验
[多维度理解]
(1)定义:用χ2统计量研究两个变量X和Y是否有关的方法称为独立性检验.
(2)χ2统计量:
χ2= .
(3)独立性检验的步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
①提出假设H0:Ⅰ与Ⅱ没有关系;
②根据2×2列联表及χ2公式,计算χ2的值;
③根据临界值,做出判断.
其中临界值如表所示:
P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如:
①若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
②若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
③若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
④若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能得出结论“H0成立”,即Ⅰ与Ⅱ没有关系.
[细微点练明]
1.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足 ( )
A.χ2>6.635 B.χ2>5.024
C.χ2>7.879 D.χ2>3.841
2.通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明有关,则调查的总人数的最小整数为 ( )
A.150 B.170
C.240 D.180
3.为了调查患胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
患胃病 未患胃病 合计
生活不规律 60 260 320
生活有规律 20 200 220
合计 80 460 540
根据以上数据判断是否有99%的把握认为40岁以上的人患胃病与生活规律有关.
附:χ2=,n=a+b+c+d.
P(χ2≥x0) 0.025 0.010 0.005
x0 5.024 6.635 7.879
逐点清(三) 独立性检验的综合应用
[典例] 为促进全面阅读,建设书香校园,鼓励学生参加阅读活动,某校随机抽查了男、女生各200名,统计他们在暑假期间每天阅读时长,并把每天阅读时长超过1小时的记为“阅读达标”,时长不超过1小时的记为“阅读不达标”,阅读达标与阅读不达标的人数比为1∶1,阅读达标的女生与男生的人数比为3∶2.
(1)完成下面的2×2列联表:
性别 阅读达标情况 合计
阅读达标 阅读不达标
男生
女生
合计
(2)根据上述数据,能否有99.9%的把握认为“阅读达标情况”与“性别”有关系
(3)从阅读达标的学生中按男、女生人数比例用分层抽样的方法抽取5人进行座谈,再从这5人中任选2人,记这2人中男生人数为X,求X的分布列和数学期望.
参考公式:χ2=,n=a+b+c+d.
P(χ2≥x0) 0.10 0.05 0.01 0.001
x0 2.706 3.841 6.635 10.828
听课记录:
[针对训练]
绿化祖国要扩绿、兴绿、护绿并举.某校植树节分别在甲、乙两块不同的土地上栽种某品种树苗各500株.甲地土质含有M元素,乙地土质不含有M元素,其他土质情况均相同,一段时间后,为了弄清楚该品种树苗的成活情况与M元素含量是否有关联,分别在甲、乙两块土地上随机抽取树苗各50株作为样本进行统计分析.经统计,甲地成活45株,乙地成活40株.
(1)根据所给数据,完成下面的2×2列联表(单位:株),并判断能否有90%的把握认为该品种树苗成活与M元素含量有关联.
类别 树苗成活情况 合计
成活 不成活
含M元素
不含M元素
合计
(2)若将频率视为概率,从样本中不成活的树苗中随机抽取3株,其中取自甲地的株数为X,求X的分布列及方差.
P(χ2≥x0) 0.10 0.05 0.010 0.005
x0 2.706 3.841 6.635 7.879
9.2 独立性检验
[逐点清(一)]
1.选D 对于两个分类变量x与y而言,|ad-bc|的值越大,说明x与y有关系的可能性越大.对于A选项,|ad-bc|=|5×2-4×3|=2,对于B选项,|ad-bc|=|5×2-3×4|=2,对于C选项,|ad-bc|=|2×5-3×4|=2,对于D选项,|ad-bc|=|2×4-3×5|=7,显然D中|ad-bc|最大.
2.解析:根据已知条件,结合列联表之间的数据关系,由表中数据可知,a+21=73,所以a=73-21=52,b=a+8=52+8=60.
答案:52 60
3.解:A中学愿意报考某类大学的比例为fA=≈0.327;
B中学愿意报考某类大学的比例为fB==0.4.
∵fB-fA≈0.4-0.327=0.073,即B中学愿意报考某类大学的比例比A中学高了7.3%,
∴A,B两所中学的学生对报考某类大学的态度有显著差异,且B中学更愿意报考.
[逐点清(二)]
[多维度理解]
(2)
[细微点练明]
1.A
2.选D 设男、女大学生各有m人,根据题意列出2×2列联表:
看 不看 合计
男 m m m
女 m m m
合计 m m 2m
所以χ2==,
因为有99%的把握认为性别与是否看营养说明有关,所以>6.635,解得2m>179.145,所以总人数的最小整数为180.故选D.
3.解:提出假设
H0:40岁以上的人患胃病与生活规律无关.
由公式得χ2=≈9.638.
∵9.638>6.635,
∴有99%的把握认为40岁以上的人患胃病与生活是否有规律有关.
[逐点清(三)]
[典例] 解:(1)由题意可知阅读达标与阅读不达标的人数分别为200,200,
阅读达标的女生人数为×200=120,男生人数为×200=80,
据此可得2×2列联表:
性别 阅读达标情况 合计
阅读达标 阅读不达标
男生 80 120 200
女生 120 80 200
合计 200 200 400
(2)提出假设
H0: “阅读达标情况”与“性别”没有关系.
由(1)可得χ2==16>10.828,
因为当H0成立时,P(χ2≥10.828)≈0.001,所以我们有99.9%的把握认为“阅读达标情况”与“性别”有关系.
(3)因为抽取5人中男、女生人数分别为×5=3,×5=2,
由题意可知X的可能取值为0,1,2,则
P(X=0)==,P(X=1)==,P(X=2)==,
所以X的概率分布为
X 0 1 2
P
数学期望为E(X)=0×+1×+2×=.
[针对训练]
解:(1)依题意可得2×2列联表如下:
类别 树苗成活情况 合计
成活 不成活
含M元素 45 5 50
不含M元素 40 10 50
合计 85 15 100
提出假设
H0:该品种树苗成活与M元素含量无关联.
根据列联表中的数据,
χ2==≈1.961<2.706,
因为当H0成立时,χ2≥1.961的概率大于10%,这个概率比较大,不能否定假设H0,
即认为该品种树苗成活与M元素含量无关联.
(2)由题意知,不成活的树苗共有15株,甲地不成活的树苗有5株,X的可能取值为0,1,2,3,则P(X=0)==,
P(X=1)==,
P(X=2)==,
P(X=3)==,故X的概率分布为
X 0 1 2 3
P
期望E(X)=0×+1×+2×+3×=1,方差D(X)=×(0-1)2+×(1-1)2+×(2-1)2+×(3-1)2=.
1 / 6(共58张PPT)
独立性检验
(概念课——逐点理清式教学)
9.2
课时目标
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解2×2列联表独立性检验及其应用.
CONTENTS
目录
1
2
3
逐点清(一) 2×2列联表
逐点清(二) 独立性检验
逐点清(三) 独立性检验的综合应用
4
课时跟踪检测
逐点清(一) 2×2列联表
01
多维度理解
一般地,对于两个分类变量Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下列联表所示的抽样数据:
上述表格称为2×2列联表.
A Ⅱ
类1 类2 合计
Ⅰ 类A a b a+b
类B c d c+d
合计 a+c b+d a+b+c+d
微点助解
(1)作2×2列联表时,关键是对涉及的变量分清类别,要对Ω中的对象定义分类变量X和Y,计算时要准确无误;
(2)利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与 的值相比,直观地反映出两个分类变量间是否相互影响.
1.假设有两个分类变量x与y的2×2列联表如表:
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为 ( )
A.a=5,b=4,c=3,d=2 B.a=5,b=3,c=4,d=2
C.a=2,b=3,c=4,d=5 D.a=2,b=3,c=5,d=4
√
细微点练明
y1 y2
x1 a b
x2 c d
解析:对于两个分类变量x与y而言,|ad-bc|的值越大,说明x与y有关系的可能性越大.对于A选项,|ad-bc|=|5×2-4×3|=2,对于B选项,|ad-bc|=|5×2-3×4|=2,对于C选项,|ad-bc|=|2×5-3×4|=2,对于D选项,|ad-bc|=|2×4-3×5|=7,显然D中|ad-bc|最大.
2.下面是一个2×2列联表:
则表中a,b处的值分别为 , .
解析:根据已知条件,结合列联表之间的数据关系,由表中数据可知,a+21=73,所以a=73-21=52,b=a+8=52+8=60.
X Y 合计
Y=0 Y=1
X=0 a 21 73
X=1 8 25 33
合计 b 46
52
60
3.下表是A,B两所中学的学生对报考某类大学意愿的列联表:
根据表中的数据回答:A,B两所中学的学生对报考某类大学的态度是否有显著差异
愿意报考 某类大学 不愿意报考 某类大学 合计
A中学 18 37 55
B中学 38 57 95
合计 56 94 150
解:A中学愿意报考某类大学的比例为fA=≈0.327;
B中学愿意报考某类大学的比例为fB==0.4.
∵fB-fA≈0.4-0.327=0.073,即B中学愿意报考某类大学的比例比A中学高了7.3%,
∴A,B两所中学的学生对报考某类大学的态度有显著差异,且B中学更愿意报考.
逐点清(二) 独立性检验
02
多维度理解
(1)定义:用χ2统计量研究两个变量X和Y是否有关的方法称为独立性检验.
(2)χ2统计量:χ2= .
(3)独立性检验的步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
①提出假设H0:Ⅰ与Ⅱ没有关系;
②根据2×2列联表及χ2公式,计算χ2的值;
③根据临界值,做出判断.
其中临界值如表所示:
例如:
①若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
②若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
③若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
④若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能得出结论“H0成立”,即Ⅰ与Ⅱ没有关系.
P(χ2≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
1.如果有99%的把握认为“X与Y有关系”,那么具体算出的数据满足 ( )
A.χ2>6.635 B.χ2>5.024
C.χ2>7.879 D.χ2>3.841
√
细微点练明
2.通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明有关,则调查的总人数的最小整数为( )
A.150 B.170
C.240 D.180
√
解析:设男、女大学生各有m人,根据题意列出2×2列联表:
所以χ2==,因为有99%的把握认为性别与是否看营养说明有关,所以>6.635,解得2m>179.145,所以总人数的最小整数为180.故选D.
看 不看 合计
男 m m m
女 m m m
合计 m m 2m
3.为了调查患胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
患胃病 未患胃病 合计
生活不规律 60 260 320
生活有规律 20 200 220
合计 80 460 540
根据以上数据判断是否有99%的把握认为40岁以上的人患胃病与生活规律有关.
附:χ2=,n=a+b+c+D.
P(χ2≥x0) 0.025 0.010 0.005
x0 5.024 6.635 7.879
解:提出假设
H0:40岁以上的人患胃病与生活规律无关.
由公式得χ2=≈9.638.
∵9.638>6.635,
∴有99%的把握认为40岁以上的人患胃病与生活是否有规律有关.
逐点清(三) 独立性检验的
综合应用
03
多维度理解
[典例] 为促进全面阅读,建设书香校园,鼓励学生参加阅读活动,某校随机抽查了男、女生各200名,统计他们在暑假期间每天阅读时长,并把每天阅读时长超过1小时的记为“阅读达标”,时长不超过1小时的记为“阅读不达标”,阅读达标与阅读不达标的人数比为1∶1,阅读达标的女生与男生的人数比为3∶2.
(1)完成下面的2×2列联表:
参考公式:χ2=,n=a+b+c+D.
性别 阅读达标情况 合计
阅读达标 阅读不达标
男生
女生
合计
解:由题意可知阅读达标与阅读不达标的人数分别为200,200,
阅读达标的女生人数为×200=120,男生人数为×200=80,
据此可得2×2列联表:
性别 阅读达标情况 合计
阅读达标 阅读不达标
男生 80 120 200
女生 120 80 200
合计 200 200 400
(2)根据上述数据,能否有99.9%的把握认为“阅读达标情况”与“性别”有关系
解:提出假设
H0: “阅读达标情况”与“性别”没有关系.
由(1)可得χ2==16>10.828,
因为当H0成立时,P(χ2≥10.828)≈0.001,所以我们有99.9%的把握认为“阅读达标情况”与“性别”有关系.
(3)从阅读达标的学生中按男、女生人数比例用分层抽样的方法抽取5人进行座谈,再从这5人中任选2人,记这2人中男生人数为X,求X的分布列和数学期望.
解:因为抽取5人中男、女生人数分别为×5=3,×5=2,
由题意可知X的可能取值为0,1,2,则P(X=0)==,
P(X=1)==,P(X=2)==,
所以X的概率分布为
数学期望为E(X)=0×+1×+2×=.
X 0 1 2
P
绿化祖国要扩绿、兴绿、护绿并举.某校植树节分别在甲、乙两块不同的土地上栽种某品种树苗各500株.甲地土质含有M元素,乙地土质不含有M元素,其他土质情况均相同,一段时间后,为了弄清楚该品种树苗的成活情况与M元素含量是否有关联,分别在甲、乙两块土地上随机抽取树苗各50株作为样本进行统计分析.经统计,甲地成活45株,乙地成活40株.
针对训练
(1)根据所给数据,完成下面的2×2列联表(单位:株),并判断能否有90%的把握认为该品种树苗成活与M元素含量有关联.
类别 树苗成活情况 合计
成活 不成活
含M元素
不含M元素
合计
解:依题意可得2×2列联表如下:
类别 树苗成活情况 合计
成活 不成活
含M元素 45 5 50
不含M元素 40 10 50
合计 85 15 100
提出假设
H0:该品种树苗成活与M元素含量无关联.
根据列联表中的数据,
χ2==≈1.961<2.706,
因为当H0成立时,χ2≥1.961的概率大于10%,这个概率比较大,不能否定假设H0,
即认为该品种树苗成活与M元素含量无关联.
(2)若将频率视为概率,从样本中不成活的树苗中随机抽取3株,其中取自甲地的株数为X,求X的分布列及方差.
解:由题意知,不成活的树苗共有15株,甲地不成活的树苗有5株,X的可能取值为0,1,2,3,
则P(X=0)==,P(X=1)==,
P(χ2≥x0) 0.10 0.05 0.010 0.005
x0 2.706 3.841 6.635 7.879
P(X=2)==,P(X=3)==,
故X的概率分布为
期望E(X)=0×+1×+2×+3×=1,
方差D(X)=×(0-1)2+×(1-1)2+×(2-1)2+×(3-1)2=.
X 0 1 2 3
P
课时跟踪检测
04
1
3
4
5
6
7
8
9
2
1.根据下面的2×2列联表得到如下判断,则正确的选项是 ( )
嗜酒 不嗜酒 合计
患肝病 700 60 760
未患肝病 200 32 232
合计 900 92 992
1
3
4
5
6
7
8
9
2
A.至少有99.9%的把握认为“患肝病与嗜酒有关”
B.至少有99%的把握认为“患肝病与嗜酒无关”
C.至少有99%的把握认为“患肝病与嗜酒有关”
D.至少有99.9%的把握认为“患肝病与嗜酒无关”
解析:由2×2列联表中数据可求得
χ2=≈7.349>6.635,则至少有99%的把握认为
“患肝病与嗜酒有关”,所以C正确,A、B、D错误.
√
1
5
6
7
8
9
2
3
4
2.[多选]有两个分类变量x,y,其2×2列联表如下所示:
y1 y2 合计
x1 a 20-a 20
x2 15-a 30+a 45
合计 15 50 65
1
5
6
7
8
9
2
3
4
其中a,15-a均为大于5的整数,现有95%的把握认为x,y有关,则a的值为 ( )
A.6 B.7
C.8 D.9
解析:由题意可知χ2==>3.841,
又因为a>5且15-a>5,a∈Z,所以当a=8或a=9时满足题意.
√
√
1
5
6
7
8
9
3
4
2
3.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握约为 ( )
附表:
A.0.1% B.0.5%
C.99.5% D.99.9%
√
P(χ2≥x0) 0.10 0.05 0.010 0.005 0.001
x0 2.706 3.841 6.635 7.879 10.828
1
5
6
7
8
9
3
4
2
解析:根据临界值χ2=8.01>7.879,所以有99.5%的把握认为喜欢乡村音乐与性别有关.
1
5
6
7
8
9
3
4
2
4.在吸烟与患肺癌是否相关的研究中,下列说法正确的是 ( )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有99个人患肺癌
B.由独立性检验可知,当有99%的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有99%的可能患有肺癌
C.通过计算得到χ2>3.841,是指有95%的把握认为吸烟与患肺癌有关系
D.以上三种说法都不正确
√
1
5
6
7
8
9
3
4
2
解析:若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确;99%是指吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能患有肺癌,故B不正确,C正确,D不正确.
1
5
6
7
8
9
3
4
2
5.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*)人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.提出假设H0:喜欢短视频和性别相互独立.若有95%的把握认为喜欢短视频和性别不独立,则m的最小值为( )
附:χ2=,
1
5
6
7
8
9
3
4
2
A.7 B.8 C.9 D.10
解析:根据题意,不妨设a=4m,b=m,c=3m,d=2m,
于是χ2===,由于有95%的把握认为
喜欢短视频和性别不独立,根据表格可知≥3.841,解得m≥8.066 1,于是m最小值为9.
√
P(χ2≥x0) 0.05 0.01
x0 3.841 6.635
1
5
6
7
8
9
3
4
2
6.假设有两个变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
根据以下选项中的数据计算χ2的值,其中χ2最大的一组为 ( )
A.a=60,b=50,c=40,d=30 B.a=60,b=40,c=50,d=30
C.a=40,b=30,c=50,d=60 D.a=30,b=40,c=50,d=60
√
y1 y2
x1 a b
x2 c d
1
5
6
7
8
9
3
4
2
解析:对于A,==,对于B,==,对于C,==,
对于D,==,显然最大,故C正确.
1
5
6
7
8
9
3
4
2
7.某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如表所示:
60分 以下 61~ 70分 71~ 80分 81~ 90分 91~
100分
甲班(人数) 3 11 6 12 18
乙班(人数) 7 8 10 10 15
1
5
6
7
8
9
3
4
2
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
参考公式及数据:χ2=.
解:由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为=60%,乙班优秀人数为25人,优秀率为=50%,所以甲、乙两班的优秀率分别为60%和50%.
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.001
x0 2.706 3.841 5.024 6.635 10.828
1
5
6
7
8
9
3
4
2
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助
优秀人数 非优秀人数 合计
甲班
乙班
合计
1
5
6
7
8
9
3
4
2
解:填写2×2列联表如下:
提出假设H0:加强“语文阅读理解”训练对提高“数学应用题”得分率没有帮助.因为χ2=≈1.010<3.841,
因为当H0成立时,χ2≥1.010的概率大于5%,所以没有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
优秀人数 非优秀人数 合计
甲班 30 20 50
乙班 25 25 50
合计 55 45 100
1
5
6
7
8
9
3
4
2
8.“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源乘用车的年销售量与年份的统计表:
年份 2015 2016 2017 2018 2019
销量(万台) 8 10 13 25 24
1
5
6
7
8
9
3
4
2
某机构调查了该地区30位购车车主的性别与购车种类情况,得到的部分数据如表所示:
(1)求新能源乘用车的销量y关于年份x的相关系数r,并判断y与x是否线性相关;
附:≈25.
车主 购车种类 合计
传统燃油车 新能源乘用车
男性 6 24
女性 2
合计 30
1
5
6
7
8
9
3
4
2
解:依题意,==2 017==16,
(xi-)(yi-)=(-2)×(-8)+(-1)×(-6)+0×(-3)+1×9+2×8=47,
=4+1+1+4=10, =64+36+9+81+64=254,
则r= =≈0.94,
|r|≈0.94接近于1,故y与x线性相关.
1
5
6
7
8
9
3
4
2
(2)请将上述2×2列联表补充完整,并依据χ2的值判断,购车车主购置新能源乘用车与性别是否有关.
解:依题意,补充列联表如下:
则χ2==3.75>2.706,
故有90%的把握认为购车车主是否购置新能源乘用车与性别有关.
车主 购车种类 合计
传统燃油车 新能源乘用车
男性 18 6 24
女性 2 4 6
合计 20 10 30
1
5
6
7
8
9
3
4
2
9.卫生纸主要供人们生活日常卫生之用,是人民群众生活中不可缺少的纸种之一.某品牌卫生纸生产厂家为保证产品的质量,现从甲、乙两条生产线生产的产品中各随机抽取500件进行品质鉴定,并将统计结果整理如下:
合格品 优等品
甲生产线 250 250
乙生产线 300 200
1
5
6
7
8
9
3
4
2
(1)判断能否有99.9%的把握认为产品的品质与生产线有关;
解:补充列联表如下:
根据列联表中的数据,经计算得χ2=≈10.101<10.828,
所以没有99.9%的把握认为产品的品质与生产线有关.
合格品 优等品 合计
甲生产线 250 250 500
乙生产线 300 200 500
合计 550 450 1 000
1
5
6
7
8
9
3
4
2
(2)用频率近似为概率,从甲、乙两条生产线生产的产品中各随机抽取2件进行详细检测,记抽取的产品中优等品的件数为X,求随机变量X的分布列与数学期望.
解:由题意,甲生产线生产的产品中抽取优等品的频率为=,乙生产线生产的产品中抽取优等品的频率为=,所以估计从甲、乙生产线生产的产品中各随机抽取优等品的概率分别为,
由题意随机变量X的所有可能取值为0,1,2,3,4,
1
5
6
7
8
9
3
4
2
则P(X=0)=×=,P(X=1)=××+×××=,
P(X=2)=×+××××+×=,
P(X=3)=××+×××=,P(X=4)=×=,
故X的概率分布为
E(X)=0×+1×+2×+3×+4×=.
X 0 1 2 3 4
P课时跟踪检测(三十八) 独立性检验
1.根据下面的2×2列联表得到如下判断,则正确的选项是 ( )
嗜酒 不嗜酒 合计
患肝病 700 60 760
未患肝病 200 32 232
合计 900 92 992
A.至少有99.9%的把握认为“患肝病与嗜酒有关”
B.至少有99%的把握认为“患肝病与嗜酒无关”
C.至少有99%的把握认为“患肝病与嗜酒有关”
D.至少有99.9%的把握认为“患肝病与嗜酒无关”
2.[多选]有两个分类变量x,y,其2×2列联表如下所示:
y1 y2 合计
x1 a 20-a 20
x2 15-a 30+a 45
合计 15 50 65
其中a,15-a均为大于5的整数,现有95%的把握认为x,y有关,则a的值为 ( )
A.6 B.7
C.8 D.9
3.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则所得到的统计学结论是认为性别与喜欢乡村音乐有关系的把握约为 ( )
附表:
P(χ2≥x0) 0.10 0.05 0.010 0.005 0.001
x0 2.706 3.841 6.635 7.879 10.828
A.0.1% B.0.5%
C.99.5% D.99.9%
4.在吸烟与患肺癌是否相关的研究中,下列说法正确的是 ( )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,则在100个吸烟的人中必有99个人患肺癌
B.由独立性检验可知,当有99%的把握认为吸烟与患肺癌有关时,若某人吸烟,则他有99%的可能患有肺癌
C.通过计算得到χ2>3.841,是指有95%的把握认为吸烟与患肺癌有关系
D.以上三种说法都不正确
5.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*)人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.提出假设H0:喜欢短视频和性别相互独立.若有95%的把握认为喜欢短视频和性别不独立,则m的最小值为 ( )
附:χ2=,
P(χ2≥x0) 0.05 0.01
x0 3.841 6.635
A.7 B.8
C.9 D.10
6.假设有两个变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
y1 y2
x1 a b
x2 c d
根据以下选项中的数据计算χ2的值,其中χ2最大的一组为 ( )
A.a=60,b=50,c=40,d=30
B.a=60,b=40,c=50,d=30
C.a=40,b=30,c=50,d=60
D.a=30,b=40,c=50,d=60
7.某中学对高二甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率的作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如表所示:
60分 以下 61~ 70分 71~ 80分 81~ 90分 91~ 100分
甲班(人数) 3 11 6 12 18
乙班(人数) 7 8 10 10 15
现规定平均成绩在80分以上(不含80分)的为优秀.
(1)试分析估计两个班级的优秀率;
(2)由以上统计数据填写下面2×2列联表,根据以上数据,能否有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助
优秀人数 非优秀人数 合计
甲班
乙班
合计
参考公式及数据:χ2=.
P(χ2≥x0) 0.10 0.05 0.025 0.010 0.001
x0 2.706 3.841 5.024 6.635 10.828
8.“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展,下表是近几年我国某地区新能源乘用车的年销售量与年份的统计表:
年份 2015 2016 2017 2018 2019
销量(万台) 8 10 13 25 24
某机构调查了该地区30位购车车主的性别与购车种类情况,得到的部分数据如表所示:
车主 购车种类 合计
传统燃油车 新能源乘用车
男性 6 24
女性 2
合计 30
(1)求新能源乘用车的销量y关于年份x的相关系数r,并判断y与x是否线性相关;
(2)请将上述2×2列联表补充完整,并依据χ2的值判断,购车车主购置新能源乘用车与性别是否有关.
附:≈25.
9.卫生纸主要供人们生活日常卫生之用,是人民群众生活中不可缺少的纸种之一.某品牌卫生纸生产厂家为保证产品的质量,现从甲、乙两条生产线生产的产品中各随机抽取500件进行品质鉴定,并将统计结果整理如下:
合格品 优等品
甲生产线 250 250
乙生产线 300 200
(1)判断能否有99.9%的把握认为产品的品质与生产线有关;
(2)用频率近似为概率,从甲、乙两条生产线生产的产品中各随机抽取2件进行详细检测,记抽取的产品中优等品的件数为X,求随机变量X的分布列与数学期望.
课时跟踪检测(三十八)
1.选C 由2×2列联表中数据可求得χ2=≈7.349>6.635,则至少有99%的把握认为“患肝病与嗜酒有关”,所以C正确,A、B、D错误.
2.选CD 由题意可知χ2==>3.841,又因为a>5且15-a>5,a∈Z,所以当a=8或a=9时满足题意.
3.选C 根据临界值χ2=8.01>7.879,所以有99.5%的把握认为喜欢乡村音乐与性别有关.
4.选C 若χ2>6.635,我们有99%的把握认为吸烟与患肺癌有关,而不是在100个吸烟的人中必有99个人患肺癌,故A不正确;99%是指吸烟与患肺癌有关的概率,而不是吸烟的人有99%的可能患有肺癌,故B不正确,C正确,D不正确.
5.选C 根据题意,不妨设a=4m,b=m,c=3m,d=2m,于是χ2===,由于有95%的把握认为喜欢短视频和性别不独立,根据表格可知≥3.841,解得m≥8.066 1,于是m最小值为9.
6.选C 对于A,==,对于B,==,对于C,==,对于D,==,显然最大,故C正确.
7.解:(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为=60%,乙班优秀人数为25人,优秀率为=50%,所以甲、乙两班的优秀率分别为60%和50%.
(2)填写2×2列联表如下:
优秀人数 非优秀人数 合计
甲班 30 20 50
乙班 25 25 50
合计 55 45 100
提出假设H0:加强“语文阅读理解”训练对提高“数学应用题”得分率没有帮助.
因为χ2=≈1.010<3.841,
因为当H0成立时,χ2≥1.010的概率大于5%,所以没有95%的把握认为加强“语文阅读理解”训练对提高“数学应用题”得分率有帮助.
8.解: (1)依题意,==2 017,==16,
(xi-)(yi-)=(-2)×(-8)+(-1)×(-6)+0×(-3)+1×9+2×8=47,
=4+1+1+4=10,
=64+36+9+81+64=254,
则r==≈0.94,
|r|≈0.94接近于1,故y与x线性相关.
(2)依题意,补充列联表如下:
车主 购车种类 合计
传统燃油车 新能源乘用车
男性 18 6 24
女性 2 4 6
合计 20 10 30
则χ2==3.75>2.706,
故有90%的把握认为购车车主是否购置新能源乘用车与性别有关.
9.解:(1)补充列联表如下:
合格品 优等品 合计
甲生产线 250 250 500
乙生产线 300 200 500
合计 550 450 1 000
根据列联表中的数据,经计算得到χ2=≈10.101<10.828,
所以没有99.9%的把握认为产品的品质与生产线有关.
(2)由题意,甲生产线生产的产品中抽取优等品的频率为=,乙生产线生产的产品中抽取优等品的频率为=,
所以估计从甲、乙生产线生产的产品中各随机抽取优等品的概率分别为,,
由题意随机变量X的所有可能取值为0,1,2,3,4,
则P(X=0)=×=,P(X=1)=××+×××=,
P(X=2)=×+××××+×=,
P(X=3)=××+×××=,
P(X=4)=×=,
故X的概率分布为
X 0 1 2 3 4
P
E(X)=0×+1×+2×+3×+4×=.
4 / 4