8.3 列联表与独立性检验(强基课梯度进阶式教学)
课时目标
通过实例,理解2×2列联表的统计意义;通过实例,了解独立性检验及其应用.
1.分类变量与列联表
(1)分类变量
用以区别不同的 或 的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
(2)2×2列联表
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b
B(X=1) c d
合计
这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.
(3)等高堆积条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
2.独立性检验
(1)分类变量X和Y独立:如果下面这些性质成立,
{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.
我们就称分类变量X和Y独立.
(2)独立性检验
①小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大.
②χ2的计算公式:
χ2=.
③独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
④基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2⑤应用独立性检验解决实际问题大致应包括的主要环节:
(ⅰ)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(ⅱ)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(ⅲ)根据检验规则得出推断结论.
(ⅳ)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
⑥独立性检验中几个常用的小概率值和相应的临界值:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
微点助解
独立性检验的基本思想与反证法的思想的相似之处:
反证法 独立性检验
要证明结论A 要确认“两个分类变量有关系”
在A不成立的前提下进行推理 假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下计算χ2
[基点训练]
1.某飞机在一次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是 ( )
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
2.如表是一个2×2列联表,则表中a,b的值分别为 ( )
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
A.94,72 B.52,50
C.52,74 D.74,52
3.对于独立性检验,下列说法正确的是 ( )
A.χ2独立性检验的统计假设是各事件之间相互独立
B.χ2可以为负值
C.χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”
D.2×2列联表中的4个数据可以是任意正数
4.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效 有效 合计
男性患者 15 35 50
女性患者 6 44 50
合计 21 79 100
零假设为H0:服用此药的效果与患者的性别无关,则χ2≈ ,从而得出结论:有 %的把握认为“服用此药的效果与患者的性别有关”.
题型(一) 分类变量与列联表
[例1] 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗
听课记录:
[思维建模]
判断两个分类变量是否有关系的两种常用方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法.
(2)一般地,在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大.
[针对训练]
1.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高堆积条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
题型(二) 独立性检验
[例2] 近年来,短视频作为以视频为载体的聚合平台,社交属性愈发突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对1 000人进行了一次市场调研,以决策是否开发将短视频剪接成长视频的APP,得到如下数据:
青年人 中年人 老年人
对短视频剪接成长视频的APP有需求 2a+4b 200 a
对短视频剪接成长视频的APP无需求 a+b 150 4b
其中的数据为统计的人数,已知被调研的青年人数为400.
(1)求a,b的值;
(2)根据小概率值α=0.001的独立性检验,分析对短视频剪接成长视频的APP的需求,青年人与中老年人是否有差异
参考公式:χ2=,其中n=a+b+c+d.
临界值表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
听课记录:
[思维建模] 解决独立性检验问题的基本步骤
[针对训练]
2.为了解大家对养宠物的看法,某单位对本单位450名员工(其中女职工有150人)进行了调查,发现女职工中支持养宠物的人数占,从男职工与女职工中各随机选取一名,至少有一名职工支持养宠物的概率为.
(1)求该单位男职工支持养宠物的人数,并填写下列2×2列联表;
单位:人
支持养宠物 不支持养宠物 合计
男职工
女职工
合计 450
(2)依据α=0.05的独立性检验分析,该单位职工是否支持养宠物与性别是否有关.
附: χ2=,n=a+b+c+d.
α 0.10 0.05 0.010 0.001
xα 2.706 3.841 6.635 10.828
8.3 列联表与独立性检验
课前环节
1.(1)现象 性质 (2)a+b c+d a+c b+d a+b+c+d
[基点训练]
1.选C 根据题意,结合题目中的数据,列出2×2列联表,求出χ2,对照数表可得出概率结论,这种分析数据的方法是独立性检验.
2.选C a=73-21=52,b=a+22=52+22=74.
3.选A 由独立性检验的检验步骤可知,A正确;因为2×2列联表中的数据均为正整数,故χ2不可能为负值,排除B;因为χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的把握说他们相关,或者说有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D.
4.解析:由公式计算得χ2≈4.882.
因为χ2>3.841=x0.05,所以我们有95%的把握认为服用此药的效果与患者的性别有关.
答案:4.882 95
课堂环节
[题型(一)]
[例1] 解:根据题目所给的数据得到如下2×2列联表:
成绩 上网 合计
经常上网 不经常上网
不及格 80 120 200
及格 120 680 800
合计 200 800 1 000
得到等高堆积条形图如图所示:
比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关.
[针对训练]
1.解:根据题目所给数据得如下2×2列联表:
合格品数 次品数 合计
甲在生产现场 982 8 990
甲不在生产现场 493 17 510
合计 1 475 25 1 500
所以ad-bc=982×17-8×493=12 750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高堆积条形图如图所示:
图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
[题型(二)]
[例2] 解:(1)由题意得
解得a=b=50.
(2)零假设为H0:对短视频剪接成长视频APP的需求,青年人与中老年人没有差异.
由已知得,如下2×2列联表:
青年人 中老年人 合计
对短视频剪接成长视频的APP有需求 300 250 550
对短视频剪接成长视频的APP无需求 100 350 450
合计 400 600 1 000
可得χ2=≈107.744>10.828,根据小概率值α=0.001的独立性检验,我们推断H0不成立,
所以对短视频剪接成长视频的APP的需求,青年人与中老年人有差异.
[针对训练]
2.解:(1)设男职工支持养宠物的概率为p,
由题意得1-(1-p)=,解得p=,
又男职工有450-150=300(人),
所以男职工中支持养宠物的人数为300×=75.
女职工中支持养宠物的人数为150×=50.
2×2列联表如下:
单位:人
支持养宠物 不支持养宠物 合计
男职工 75 225 300
女职工 50 100 150
合计 125 325 450
(2)零假设H0:该单位职工是否支持养宠物与性别无关.
由(1)中的2×2列联表,得χ2=≈3.462<3.841=x0.05,
依据α=0.05的独立性检验分析,没有充分证据推断H0不成立,因此可以认为H0成立,即该单位职工是否支持养宠物与性别无关.
4 / 4(共66张PPT)
8.3
列联表与独立性检验
(强基课——梯度进阶式教学)
课时目标
通过实例,理解2×2列联表的统计意义;通过实例,了解独立性检验及其应用.
CONTENTS
目录
1
2
3
课前环节/预知教材·自主落实主干基础
课堂环节/题点研究·迁移应用融会贯通
课时跟踪检测
课前环节/预知教材·
自主落实主干基础
1.分类变量与列联表
(1)分类变量
用以区别不同的______或______的一种特殊的随机变量,称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.
现象
性质
(2)2×2列联表
组别 甲(Y=0) 乙(Y=1) 合计
A(X=0) a b
__________
B(X=1) c d
__________
合计 __________ ___________
____________________________
a+b
c+d
a+c
b+d
a+b+c+d
这种形式的数据统计表称为2×2列联表.2×2列联表给出了成对分类变量数据的交叉分类频数.
(3)等高堆积条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高堆积条形图.
等高堆积条形图可以展示列联表数据的频率特征,能够直观地反映出两个分类变量间是否相互影响.
2.独立性检验
(1)分类变量X和Y独立:如果下面这些性质成立,
{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;
{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.
我们就称分类变量X和Y独立.
(2)独立性检验
①小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα越大.
②χ2的计算公式:
χ2=.
③独立性检验:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
④基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2⑤应用独立性检验解决实际问题大致应包括的主要环节:
(ⅰ)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(ⅱ)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(ⅲ)根据检验规则得出推断结论.
(ⅳ)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
⑥独立性检验中几个常用的小概率值和相应的临界值:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
微点助解
独立性检验的基本思想与反证法的思想的相似之处:
反证法 独立性检验
要证明结论A 要确认“两个分类变量有关系”
在A不成立的前提下进行推理 假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下计算χ2
基点训练
1.某飞机在一次飞行航程中遭遇恶劣气候,55名男乘客中有24名晕机,34名女乘客中有8名晕机,在检验这些乘客晕机是否与性别有关时,采用的数据分析方法应是 ( )
A.频率分布直方图 B.回归分析
C.独立性检验 D.用样本估计总体
解析:根据题意,结合题目中的数据,列出2×2列联表,求出χ2,对照数表可得出概率结论,这种分析数据的方法是独立性检验.
√
2.如表是一个2×2列联表,则表中a,b的值分别为 ( )
y1 y2 合计
x1 a 21 73
x2 22 25 47
合计 b 46 120
A.94,72 B.52,50
C.52,74 D.74,52
解析:a=73-21=52,b=a+22=52+22=74.
√
3.对于独立性检验,下列说法正确的是 ( )
A.χ2独立性检验的统计假设是各事件之间相互独立
B.χ2可以为负值
C.χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,这就是指“有吸烟习惯的人必定会患慢性气管炎”
D.2×2列联表中的4个数据可以是任意正数
√
解析:由独立性检验的检验步骤可知,A正确;因为2×2列联表中的数据均为正整数,故χ2不可能为负值,排除B;因为χ2独立性检验显示“患慢性气管炎和吸烟习惯有关”,是指有一定的把握说他们相关,或者说有一定的出错率,故排除C;因为2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D.
4.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效 有效 合计
男性患者 15 35 50
女性患者 6 44 50
合计 21 79 100
零假设为H0:服用此药的效果与患者的性别无关,则χ2≈_______,从而得出结论:有_____%的把握认为“服用此药的效果与患者的性别有关”.
解析:由公式计算得χ2≈4.882.
因为χ2>3.841=x0.05,所以我们有95%的把握认为服用此药的效果与患者的性别有关.
4.882
95
课堂环节/题点研究·
迁移应用融会贯通
题型(一) 分类变量与列联表
[例1] 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗
解:根据题目所给的数据得到如下2×2列联表:
成绩 上网 合计
经常上网 不经常上网
不及格 80 120 200
及格 120 680 800
合计 200 800 1 000
得到等高堆积条形图如图所示:
比较图中阴影部分,可以发现经常上网期末考试不及格的频率明显高于经常上网期末考试及格的频率,因此可以认为经常上网与学习成绩有关.
[思维建模]
判断两个分类变量是否有关系的两种常用方法
(1)利用数形结合思想,借助等高堆积条形图来判断两个分类变量是否相关是判断变量是否相关的常见方法.
(2)一般地,在等高堆积条形图中,与相差越大,两个分类变量有关系的可能性就越大.
针对训练
1.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用列联表和等高堆积条形图判断监督员甲在不在生产现场对产品质量好坏有无影响.
解:根据题目所给数据得如下2×2列联表:
合格品数 次品数 合计
甲在生产现场 982 8 990
甲不在生产现场 493 17 510
合计 1 475 25 1 500
所以ad-bc=982×17-8×493=12 750,|ad-bc|比较大,说明甲在不在生产现场与产品质量好坏有关系.相应的等高堆积条形图如图所示:
图中两个阴影部分的高分别表示甲在生产现场和甲不在生产现场时样本中次品数的频率.从图中可以看出,甲不在生产现场时样本中次品数的频率明显高于甲在生产现场时样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
题型(二) 独立性检验
[例2] 近年来,短视频作为以视频为载体的聚合平台,社交属性愈发突出,在用户生活中覆盖面越来越广泛,针对短视频的碎片化缺陷,将短视频剪接成长视频势必成为一种新的技能.某机构在网上随机对1 000人进行了一次市场调研,以决策是否开发将短视频剪接成长视频的APP,得到如下数据:
青年人 中年人 老年人
对短视频剪接成长视频的APP有需求 2a+4b 200 a
对短视频剪接成长视频的APP无需求 a+b 150 4b
其中的数据为统计的人数,已知被调研的青年人数为400.
(1)求a,b的值;
解:由题意得解得a=b=50.
(2)根据小概率值α=0.001的独立性检验,分析对短视频剪接成长视频的APP的需求,青年人与中老年人是否有差异
参考公式:χ2=,其中n=a+b+c+d.
临界值表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
解:零假设为H0:对短视频剪接成长视频APP的需求,青年人与中老年人没有差异.
由已知得,如下2×2列联表:
青年人 中老年人 合计
对短视频剪接成长视频的APP有需求 300 250 550
对短视频剪接成长视频的APP无需求 100 350 450
合计 400 600 1 000
可得χ2=≈107.744>10.828,根据小概率值α=0.001的独立性检验,我们推断H0不成立,
所以对短视频剪接成长视频的APP的需求,青年人与中老年人有差异.
[思维建模] 解决独立性检验问题的基本步骤
针对训练
2.为了解大家对养宠物的看法,某单位对本单位450名员工(其中女职工有150人)进行了调查,发现女职工中支持养宠物的人数占,从男职工与女职工中各随机选取一名,至少有一名职工支持养宠物的概率为.
(1)求该单位男职工支持养宠物的人数,并填写下列2×2列联表;
支持养宠物 不支持养宠物 合计
男职工
女职工
合计 450
单位:人
解:设男职工支持养宠物的概率为p,
由题意得1-(1-p)=,解得p=,
又男职工有450-150=300(人),
所以男职工中支持养宠物的人数为300×=75.
女职工中支持养宠物的人数为150×=50.
2×2列联表如下:
单位:人
支持养宠物 不支持养宠物 合计
男职工 75 225 300
女职工 50 100 150
合计 125 325 450
(2)依据α=0.05的独立性检验分析,该单位职工是否支持养宠物与性别是否有关.
附: χ2=,n=a+b+c+d.
α 0.10 0.05 0.010 0.001
xα 2.706 3.841 6.635 10.828
解:零假设H0:该单位职工是否支持养宠物与性别无关.
由(1)中的2×2列联表,得χ2=≈3.462<3.841=x0.05,
依据α=0.05的独立性检验分析,没有充分证据推断H0不成立,因此可以认为H0成立,即该单位职工是否支持养宠物与性别无关.
课时跟踪检测
1
3
4
5
6
7
8
2
1.观察如图所示的等高堆积条形图,其中最有把握认为两个分类变量x,y之间有关系的是 ( )
√
1
3
4
5
6
7
8
2
解析:在等高堆积条形图中,x1,x2所占比例相差越大,分类变量x,y有关系的把握越大,故答案为D.
1
5
6
7
8
2
3
4
2.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
单位:名
每年体检 每年未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
1
5
6
7
8
2
3
4
已知抽取的老年人、年轻人各25名,则对列联表中数据的分析错误的是 ( )
A.a=18 B.b=19
C.c+d=50 D.e-f=2
解析:由题意得,a+7=c=25,6+b=d=25,c+d=50,a+6=e,7+b=f,e+f=50,所以a=18,b=19,e=24, f=26,所以e-f=-2.故选D.
√
1
5
6
7
8
3
4
2
3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法正确的是 ( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
√
1
5
6
7
8
3
4
2
解析:这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知,答案应选D.
1
5
6
7
8
3
4
2
4.[多选]某学校对“学生性别和喜欢短视频APP是否有关”进行了一次调查,其中被调查的男、女生人数相同,男生喜欢短视频APP的人数占男生人数的,女生喜欢短视频APP的人数占女生人数的,若有95%的把握认为是否喜欢短视频APP和性别有关,则被调查的男生人数可能为( )
附:χ2=,其中n=a+b+c+d.
1
5
6
7
8
3
4
2
A.50 B.45
C.40 D.35
√
α 0.100 0.050 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
√
1
5
6
7
8
3
4
2
解析:设男生有x人,则女生也有x人,2×2列联表如下:
喜欢短视频APP 不喜欢短视频APP 合计
男生 x x x
女生 x x x
合计 x x 2x
单位:人
1
5
6
7
8
3
4
2
由题意得χ2==x>3.841,解得x>40.330 5,
易知x>0且x是5的倍数,结合选项可知被调查的男生人数为45或50.故选AB.
1
5
6
7
8
3
4
2
5.独立性检验所采用的思路是:要研究X和Y两个分类变量彼此相关,首先假设这两个分类变量彼此_________,在此假设下构造随机变量χ2.如果χ2的观测值较大,那么在一定程度上说明假设_________.
解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量χ2的值来判断假设是否成立.
无关系
不成立
1
5
6
7
8
3
4
2
6.某大学餐饮中心对全校一年级新生的饮食习惯进行抽样调查,调查结果如下:南方学生喜欢甜品的有60人,不喜欢甜品的有20人;北方学生喜欢甜品的有10人,不喜欢甜品的有10人.那么至少有_____%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
附:χ2=,其中n=a+b+c+d.
95
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
1
5
6
7
8
3
4
2
解析:由题意得,2×2列联表如下:
喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
χ2=≈4.762>3.841,所以至少有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
单位:人
7.某调查机构为了解国庆节通过短视频APP、微信或微博表达对祖国祝福的人们是否存在年龄差异,通过不同途径调查了数千个表达了祝福的人,并从参与者中随机选出200人,经统计,这200人中通过微信或微博表达对祖国祝福的有160人.将这160人按年龄(单位:岁)分组:第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65],得到的频率分布直方图如图所示.
1
5
6
7
8
3
4
2
(1)求a的值并估计这160人的平均年龄(同一组中的数据用该组区间的中点值作代表);
解:由10×(0.01+0.015+a+0.03+0.01)=1,解得a=0.035,
这160人的平均年龄为20×10×0.01+30×10×0.015+40×10×0.035+
50×10×0.03+60×10×0.01=41.5(岁).
1
5
6
7
8
3
4
2
(2)若把年龄在第1,2,3组的人称为青年人,年龄在第4,5组的人称为中年人,已知选出的200人中通过短视频APP表达对祖国祝福的中年人有26人,依据α=0.010的独立性检验,能否认为是否通过微信或微博表达对祖国的祝福与年龄有关
附:χ2=,n=a+b+c+d.
1
5
6
7
8
3
4
2
α 0.050 0.025 0.010 0.005 0.001
xα 3.841 5.024 6.635 7.879 10.828
解:题图中,前3组的人数为10×(0.01+0.015+0.035)×160=96.
由题可得,2×2列联表如下:
单位:人
1
5
6
7
8
3
4
2
通过短视频APP表达祝福 通过微信或微博表达祝福 合计
青年人 14 96 110
中年人 26 64 90
合计 40 160 200
1
5
6
7
8
3
4
2
零假设H0:是否通过微信或微博表达对祖国的祝福与年龄无关.
χ2=≈8.081>6.635=x0.010,
所以根据小概率值α=0.010的独立性检验,有充分证据推断H0不成立,即认为是否通过微信或微博表达对祖国的祝福与年龄有关,此推断犯错误的概率不大于0.010.
1
5
6
7
8
3
4
2
8.某校组织学生观看“天宫课堂”,并对其中1 000名学生进行了一次“飞天宇航梦”的调查,得到如下两个等高堆积条形图,其中被调查的男、女生比例为3∶2.
1
5
6
7
8
3
4
2
(1)求m,n的值;
解:由题意得,被调查的学生中,男生有600人,女生有400人,
所以男生中有“飞天宇航梦”的人数为600×0.7=420,无“飞天宇航梦”的人数为600×0.3=180,
女生中有“飞天宇航梦”的人数为400×0.6=240,无“飞天宇航梦”的人数为400×0.4=160,
所以m==,n==.
1
5
6
7
8
3
4
2
(2)完成以下表格,根据小概率值α=0.001的独立性检验,能否认为“学生性别和是否有‘飞天宇航梦’有关”
有“飞天宇航梦” 无“飞天宇航梦” 合计
男生
女生
合计
单位:人
1
5
6
7
8
3
4
2
解:2×2列联表如下:
有“飞天宇航梦” 无“飞天宇航梦” 合计
男生 420 180 600
女生 240 160 400
合计 660 340 1 000
单位:人
1
5
6
7
8
3
4
2
零假设H0:学生性别和是否有“飞天宇航梦”无关.
χ2==≈10.695<10.828=x0.001,
所以根据小概率值α=0.001的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为“学生性别和是否有‘飞天宇航梦’无关”.
1
5
6
7
8
3
4
2
(3)在抽取的样本女生中,按有无“飞天宇航梦”用分层随机抽样的方法抽取5人,若从这5人中随机抽取3人进一步调查,求抽到有“飞天宇航梦”的女生人数X的分布列及数学期望.
附: χ2=,其中n=a+b+c+d.
α 0.15 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.072 2.706 3.841 5.024 6.635 7.879 10.828
1
5
6
7
8
3
4
2
解:由题意得,在抽取的5名女生中,有3名有“飞天宇航梦”,有2名无“飞天宇航梦”.
X的可能取值为1,2,3,
P(X=1)==,
P(X=2)==,
P(X=3)==,
1
5
6
7
8
3
4
2
所以X的分布列为
X 1 2 3
P
E(X)=1×+2×+3×=.课时跟踪检测(二十六) 列联表与独立性检验
1.观察如图所示的等高堆积条形图,其中最有把握认为两个分类变量x,y之间有关系的是 ( )
2.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
单位:名
每年体检 每年未体检 合计
老年人 a 7 c
年轻人 6 b d
合计 e f 50
已知抽取的老年人、年轻人各25名,则对列联表中数据的分析错误的是 ( )
A.a=18 B.b=19
C.c+d=50 D.e-f=2
3.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法正确的是 ( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
4.[多选]某学校对“学生性别和喜欢短视频APP是否有关”进行了一次调查,其中被调查的男、女生人数相同,男生喜欢短视频APP的人数占男生人数的,女生喜欢短视频APP的人数占女生人数的,若有95%的把握认为是否喜欢短视频APP和性别有关,则被调查的男生人数可能为 ( )
附:χ2=,其中n=a+b+c+d.
α 0.100 0.050 0.025 0.010 0.005 0.001
xα 2.706 3.841 5.024 6.635 7.879 10.828
A.50 B.45
C.40 D.35
5.独立性检验所采用的思路是:要研究X和Y两个分类变量彼此相关,首先假设这两个分类变量彼此 ,在此假设下构造随机变量χ2.如果χ2的观测值较大,那么在一定程度上说明假设 .
6.某大学餐饮中心对全校一年级新生的饮食习惯进行抽样调查,调查结果如下:南方学生喜欢甜品的有60人,不喜欢甜品的有20人;北方学生喜欢甜品的有10人,不喜欢甜品的有10人.那么至少有 %的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
7.某调查机构为了解国庆节通过短视频APP、微信或微博表达对祖国祝福的人们是否存在年龄差异,通过不同途径调查了数千个表达了祝福的人,并从参与者中随机选出200人,经统计,这200人中通过微信或微博表达对祖国祝福的有160人.将这160人按年龄(单位:岁)分组:第1组[15,25),第2组[25,35),第3组[35,45),第4组[45,55),第5组[55,65],得到的频率分布直方图如图所示.
(1)求a的值并估计这160人的平均年龄(同一组中的数据用该组区间的中点值作代表);
(2)若把年龄在第1,2,3组的人称为青年人,年龄在第4,5组的人称为中年人,已知选出的200人中通过短视频APP表达对祖国祝福的中年人有26人,依据α=0.010的独立性检验,能否认为是否通过微信或微博表达对祖国的祝福与年龄有关
附:χ2=,n=a+b+c+d.
α 0.050 0.025 0.010 0.005 0.001
xα 3.841 5.024 6.635 7.879 10.828
8.某校组织学生观看“天宫课堂”,并对其中1 000名学生进行了一次“飞天宇航梦”的调查,得到如下两个等高堆积条形图,其中被调查的男、女生比例为3∶2.
(1)求m,n的值;
(2)完成以下表格,根据小概率值α=0.001的独立性检验,能否认为“学生性别和是否有‘飞天宇航梦’有关”
单位:人
有“飞天宇航梦” 无“飞天宇航梦” 合计
男生
女生
合计
(3)在抽取的样本女生中,按有无“飞天宇航梦”用分层随机抽样的方法抽取5人,若从这5人中随机抽取3人进一步调查,求抽到有“飞天宇航梦”的女生人数X的分布列及数学期望.
附: χ2=,其中n=a+b+c+d.
α 0.15 0.10 0.05 0.025 0.010 0.005 0.001
xα 2.072 2.706 3.841 5.024 6.635 7.879 10.828
课时跟踪检测(二十六)
1.选D 在等高堆积条形图中,x1,x2所占比例相差越大,分类变量x,y有关系的把握越大,故答案为D.
2.选D 由题意得,a+7=c=25,6+b=d=25,c+d=50,a+6=e,7+b=f,e+f=50,所以a=18,b=19,e=24, f=26,所以e-f=-2.故选D.
3.选D 这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”.这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知,答案应选D.
4.选AB 设男生有x人,则女生也有x人,2×2列联表如下:
单位:人
喜欢短 视频APP 不喜欢短 视频APP 合计
男生 x x x
女生 x x x
合计 x x 2x
由题意得
χ2=
=x>3.841,解得x>40.330 5,
易知x>0且x是5的倍数,结合选项可知被调查的男生人数为45或50.故选AB.
5.解析:独立性检验的前提是假设两个分类变量无关系,然后通过随机变量χ2的值来判断假设是否成立.
答案:无关系 不成立
6.解析:由题意得,2×2列联表如下:
单位:人
喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
χ2=≈4.762>3.841,所以至少有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
答案:95
7.解:(1)由10×(0.01+0.015+a+0.03+0.01)=1,解得a=0.035,
这160人的平均年龄为20×10×0.01+30×10×0.015+40×10×0.035+50×10×0.03+60×10×0.01=41.5(岁).
(2)题图中,前3组的人数为10×(0.01+0.015+0.035)×160=96.
由题可得,2×2列联表如下:
单位:人
通过短视频APP表达祝福 通过微信或微博表达祝福 合计
青年人 14 96 110
中年人 26 64 90
合计 40 160 200
零假设H0:是否通过微信或微博表达对祖国的祝福与年龄无关.
χ2=≈8.081>6.635=x0.010,
所以根据小概率值α=0.010的独立性检验,有充分证据推断H0不成立,即认为是否通过微信或微博表达对祖国的祝福与年龄有关,此推断犯错误的概率不大于0.010.
8.解:(1)由题意得,被调查的学生中,男生有600人,女生有400人,
所以男生中有“飞天宇航梦”的人数为600×0.7=420,无“飞天宇航梦”的人数为600×0.3=180,
女生中有“飞天宇航梦”的人数为400×0.6=240,无“飞天宇航梦”的人数为400×0.4=160,
所以m==,n==.
(2)2×2列联表如下:
单位:人
有“飞天 宇航梦” 无“飞天 宇航梦” 合计
男生 420 180 600
女生 240 160 400
合计 660 340 1 000
零假设H0:学生性别和是否有“飞天宇航梦”无关.
χ2==≈10.695<10.828=x0.001,
所以根据小概率值α=0.001的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为“学生性别和是否有‘飞天宇航梦’无关”.
(3)由题意得,在抽取的5名女生中,有3名有“飞天宇航梦”,有2名无“飞天宇航梦”.
X的可能取值为1,2,3,
P(X=1)==,
P(X=2)==,
P(X=3)==,
所以X的分布列为
X 1 2 3
P
E(X)=1×+2×+3×=.
3 / 3