1了解分类变量与列表
2.理解独立性检验
3.掌握独立性检验的常用步骤
一、分类变量与列联表
1.分类变量
这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种
我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示
2.2X2列联表
在实践中,由于保存原始数据的成本较高,人们经常技研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2X2列联表,2X2
列联表给出了成对分类变量数心的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2X2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
3.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量问是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果
二、独立性检验
1.临界值
统计量也可以用来作相关性的度量,越小说明变量之间越独立,越大说明变量之间越相关
.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,这个临界值就可作为判断大小的标准.
2.独立性检验
基于小概丰值的检验规则是:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
这种利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验
下表给出了产独立性检验中几个常用的小概车值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2X2列联表,计算的值,并与临界值比较:
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的顿率,分析X和Y间影响规律
1.2021年春晚首次采用“云”传播,“云”互动形式,实现隔空连线心意相通,全球华人心连心“云团圆”,共享新春氛围,“云课堂”亦是一种真正完全突破时空限制的全方位互动性学习模式.某市随机抽取200人对“云课堂”倡议的了解情况进行了问卷调查,记
表示了解,
表示不了解,统计结果如下表所示:
(表一)
了解情况
人数
140
60
(表二)
男
女
合计
80
40
合计
附:临界值参考表的参考公式
,其中
)
(1)请根据所提供的数据,完成上面的
列联表(表二),并判断是否有99%的把握认为对“云课堂”倡议的了解情况与性别有关系;
(2)用样本估计总体,将频率视为概率,在男性市民和女性市民中各随机抽取4人,记“4名男性中恰有3人了解云课堂倡议”的概率为
,“4名女性中恰有3人了解云课堂倡议”的概率为
.试求出
与
,并比较
与
的大小.
【答案】
(1)解:
男
女
合计
80
60
140
20
40
60
合计
100
100
200
.
对照临界值表知,有99%的把握认为对“云课堂”倡议了解情况与性别有关系
(2)解:用样本估计总体,将频率视为概率,根据
列联表得出,
男性了解“云课堂”倡议的概率为
,
女性了解“云课堂”倡议的概率为:
,
故
,
,
显然
.
【考点】用样本的频率分布估计总体分布,独立性检验
【解析】
(1)根据题意填写列联表,计算K2
,
对照临界值表得出结论;
(2)用样本估计总体,将频率视为概率,分别计算所求的概率值即可.
2.十三届全国人大二次会议于2019年3月5日在京召开.为了了解某校大学生对两会的关注程度,学校媒体在开幕后的第二天,从学生中随机抽取了180人,对是否收看2019年两会开幕会情况进行了问卷调查,统计数据得到列联表如下:
?
收看
没收看
合计
男生
?
40
?
女生
30
?
60
合计
?
?
?
附:
,其中
.
0.10
0.05
0.025
0.01
0.005
2.706
3.841
5.024
6.635
7.879
(1)请完成列联表;
(2)根据上表说明,能否有99%的把握认为该校大学生收看开幕会与性别有关?(结果精确到0.001)
【答案】
(1)解:
收看
没收看
合计
男生
80
40
120
女生
30
30
60
合计
110
70
180
(2)解:
,
所以没有99%的把握认为该校大学生收看开幕会与性别有关.
【考点】独立性检验
【解析】(1)由已知表格的数据完成列表即可。
(2)由(1)种表格的数据代入计算出观测值,对比之后即可得出结论。
3.在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队为研究潜伏期与患者年龄的关系,从1000名患者中抽取200人,以潜伏期是否超过6天为标准进行统计得到如下列联表,其中50岁以上(含50岁)的患者中潜伏期大于6天的占
.
(参考公式:
,其中
)
附:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.076
3.841
5.024
6.635
7.879
10.828
(1)根据题意,补充完整列联表:
潜伏期
天
潜伏期
天
总计
50岁以上(含50岁)
100
50岁以下
55
总计
200
(2)根据列联表判断是否有95%的把握认为潜伏期与患者年龄有关?
【答案】
(1)解:根据题意,补充完整列联表如下;
潜伏期
天
潜伏期
天
总计
50岁以上(含50岁)
65
35
100
50岁以下
55
45
100
总计
120
80
200
(2)解:根据列联表计算卡方的观测值为
,
所以没有95%的把握认为潜伏期与年龄有关
【考点】独立性检验
【解析】
(1)根据题目所给的数据填写2×2列联表即可;
?(2)由公式代入数值计算K的观测值
,对照题目中的表格,得出统计结论.
4.在疫情这一特殊时期,教育行政部门部署了“停课不停学”的行动,全力帮助学生在线学习.复课后进行了摸底考试,某校数学教师为了调查高三学生这次摸底考试的数学成绩与在线学习数学时长之间的相关关系,对在校高三学生随机抽取45名进行调查.知道其中有25人每天在线学习数学的时长是不超过1小时的,得到了如下的等高条形图:
(Ⅰ)是否有
的把握认为“高三学生的这次摸底考试数学成绩与其在线学习时长有关”;
(Ⅱ)将频率视为概率,从全校高三学生这次数学成绩超过120分的学生中随机抽取10人,求抽取的10人中每天在线学习时长超过1小时的人数的数学期望和方差.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】
解:(Ⅰ)依题意,得
列联表
数学成绩
在线学习时长
分
分
合计
小时
15
10
25
小时
5
15
20
合计
20
25
45
∵
∴没有
的把握认为“高三学生的这次摸底成绩与其在线学习时长有关”;
(Ⅱ)从上述
列联表中可以看出:
这次数学成绩超过120分的学生中每天在线学习时长超过1小时的频率为
,
则
,
∴
,
.
【考点】独立性检验,离散型随机变量的期望与方差
【解析】(1)根据条形图提供的数据完成列联表,然后再将数据代入公式
,求得
,与临界表对比下结论.(2)由列联表得到数学成绩超过120分的学生每天在线学习时长超过1小时的概率,然后用二项分布的期望和方差公式求解.
1.下列说法中不正确的是(???
)
A.?独立性检验是检验两个分类变量是否有关的一种统计方法
B.?独立性检验得到的结论一定是正确的
C.?独立性检验的样本不同,其结论可能不同
D.?独立性检验的基本思想是带有概率性质的反证法
2.在研究某地区高中学生体重与身高间的相关关系的过程中,不会使用到的统计方法是(???
)
A.?随机抽样???????????????????????????B.?散点图???????????????????????????C.?回归分析???????????????????????????D.?独立性检验
3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(???
)
①从独立性检验可知有95%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,他一定患有肺病;②从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误;③若
的观测值得到有95%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有95人患有肺病.
A.?①????????????????????????????????????????B.?②????????????????????????????????????????C.?③????????????????????????????????????????D.?②③
4.某市政府调查市民收入与旅游愿望时,采用独立检验法抽取3000人,计算发现
,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是(???
)
…
0.15
0.10
0.05
0.025
0.010
0.005
0.001
…
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.?95%??????????????????????????????????B.?97.5%??????????????????????????????????C.?99.5%??????????????????????????????????D.?99.9%
参考答案
1.【答案】
B
【解析】
独立性检验独立性检验是检验两个分类变量是否相关的一种统计方法,
只是在一定的可信度下进行判断,不一定正确,
会因为样本不同导致结论可能不同,带有反证法思想.
故答案为:B
【分析】独立性检验是检验两个分类变量是否相关的一种统计方法,带有反证法思想,样本不同,结论可能不同,而且结果不一定正确.
2.【答案】
D
【解析】
因为已经确定了某地区高中学生体重与身高间具有相关关系,所以不会使用到的统计方法是独立性检验.
3.【答案】
B
【解析】
根据独立性检验的定义和性质知:
有95%的把握认为吸烟与患肺病有关系时,指的是有5%的可能性使得推断出现错误;
其它选项错误.
4.【答案】
C
【解析】
解:
做出
,
,
市民收入培养与旅游欲望有关系的可信程度是
,