1了解分类变量与列表
2.理解独立性检验
3.掌握独立性检验的常用步骤
一、分类变量与列联表
1.分类变量
这里所说的变量和值不一定是具体的数值,例如:性别变量,其取值为男和女两种
我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示
2.2X2列联表
在实践中,由于保存原始数据的成本较高,人们经常技研究问题的需要,将数据分类统计,并做成表格加以保存,我们将这类数据统计表称为2X2列联表,2X2
列联表给出了成对分类变量数心的交叉分类频数.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2X2列联表为
y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
3.等高堆积条形图
等高条形图和表格相比,更能直观地反映出两个分类变量问是否相互影响,常用等高条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果
二、独立性检验
1.临界值
统计量也可以用来作相关性的度量,越小说明变量之间越独立,越大说明变量之间越相关
.忽略的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相应的正实数,使得成立,我们称为的临界值,这个临界值就可作为判断大小的标准.
2.独立性检验
基于小概丰值的检验规则是:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
这种利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验
下表给出了产独立性检验中几个常用的小概车值和相应的临界值
0.1
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
3.应用独立性检验解决实际问题的大致步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2X2列联表,计算的值,并与临界值比较:
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的顿率,分析X和Y间影响规律
1.2020年5月28日,十三届全国人大三次会议表决通过了《中华人民共和国民法典》,自2021年1月1日起施行.《中华人民共和国民法典》被称为“社会生活的百科全书”,是新中国第-部以法典命名的法律,在法律体系中居于基础性地位,也是市场经济的基本法,为了增强学生的法律意识,了解法律知识,某校组织全校学生进行学习《中华人民共和国民法典》知识竞赛,从中随机抽取100名学生的成绩(单位:分)统计得到如下表格:
成绩
性别
男
5
14
16
13
4
女
3
11
13
15
6
规定成绩在
内的学生获优秀奖.
附:
0.1
0.01
0.001
2.706
6.635
10.828
(1)根据以上成绩统计,判断是否有
的把握认为该校学生在知识竞赛中获优秀奖与性别有关?
(2)在抽取的100名学生中,若从获优秀奖的学生中随机抽取3人进行座谈,记
为抽到获优秀奖的女生人数,求
的分布列和数学期望.
【答案】
(1)解:依题意得,列联表如下:
是否获奖
性别
获优秀奖
未获优秀奖
合计
男
4
48
52
女
6
42
48
10
90
100
假设
:“该校学生在知识竞赛中获优秀奖与性别无关”.
当
成立时,
.
将列联表中的数据代入公式,计算得
因为
.所以小概率事件未发生.从而接受假设
.
所以在犯错误的概率不超过0.1的前提下可以推断该校学生在知识竞赛中获优秀奖与性别无关,即有
的把握认为该校学生在知识竞赛中获优秀奖与性别无关
(2)解:依题意得,
的所有可能取值为
,
.
所以
的分布列为
0
1
2
3
的数学期望为
【考点】独立性检验,离散型随机变量及其分布列,离散型随机变量的期望与方差
【解析】(1)由已知条件的图表中的数据结合观测值的公式计算出结果,再与标准值进行比较即可得出结果。
(2)根据题意即可得出X的取值,再由概率的公式求出对应的X的概率由此得到X的分布列,结合数学期望公式计算出答案即可。
2心理学认为,人必须有个好心情,没有好心情,就没有好身体,没有好的生活.人的心情时好时坏,千变万化,我们应该调整好自己的心情,让自己心花绽放,要经常处在愉悦、快乐、豁达、大度的情境中.一个病人,如果心情调整好,病魔就会不知不觉被吓跑;如果心理压力大,只会使病情越恶化.某医院心理门诊为了研究下雨天对人心情的影响,招募了一批参与者来反馈自己每天的心情,经过一段时期的统计和科学分析,得到如下列联表:
心情愉悦
情绪低落
合计
晴天
40
20
60
下雨天
30
30
60
合计
70
50
120
(1)能否有95%的把握认为人的情绪低落与下雨天有关?
(2)用分层抽样的方法从下雨天“心情愉悦”和“情绪低落”的人中按心情抽取6人进行心理调查,再从这6人中随机抽取2人,记这2人中“情绪低落”的人数为X,求X的分布列和数学期望.
附:
.
0.050
0.010
0.001
3.841
6.635
10.828
【答案】
(1)解:由列联表可得
,
所以没有95%的把握认为人的情绪低落与下雨天有关.
(2)解:分层抽样的方式:下雨天“心情愉悦”的为
(人),
?“情绪低落”的为
(人),
从这6人中随机抽取2人,记这2人中“情绪低落”的人数为X,
,
,
,
,
的分布列:
0
1
2
【考点】独立性检验,离散型随机变量的期望与方差
【解析】(1)利用图标里的数据代入到公式计算出结果再与参考值进行比较进而得出结论。
(2)由分层抽样的定义首先求出下雨天“心情愉悦”
和“情绪低落”
的
人数值,结合题意即可得出
,
再由概率的公式求出每种情况下的概率值,从而得出分布列以及期望的值。
3.心理学家分析选择过马路的方式与性别有关,某中学课外兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取70名同学(男40女30),在不加任何说明和指导的情况下让各位同学自由选择走天桥还是走斑马线过马路,选择情况统计如下表:(单位:人)
走斑马线
走天桥
总计
男同学
25
15
40
女同学
8
22
30
总计
33
37
70
附表及公式如图:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
.
(1)能否据此判断有99%的把握认为选择过马路的方式与性别有关?
(2)现从选择走斑马线过马路的8名女生中任意抽取两人对她们过马路的情况进行全程研究,记甲、乙2名女生被抽到的人数为
,求
的分布列及数学期望
.
【答案】
(1)解:由表中数据可得
,
所以没有99%的把握认为选择过马路的方式与性别有关
(2)解:由题意可得
的所有可能取值为:0,1,2.
,
,
.
所以
的分布列为:
0
1
2
数学期望
【考点】独立性检验的应用,离散型随机变量及其分布列,离散型随机变量的期望与方差
【解析】(1)由表中数据求得卡方的值,结合附表可以判定;(2)先求出
的所有取值,分别求解每个取值所对应的概率,然后可得分布列,利用期望的公式可求期望.
4.某厂包装白糖的生产线,正常情况下生产出来的白糖质量服从正态分布
(单位:g).
(Ⅰ)求正常情况下,任意抽取一包白糖,质量小于
的概率约为多少?
(Ⅱ)该生产线上的检测员某天随机抽取了两包白糖,称得其质量均小于
,检测员根据抽检结果,判断出该生产线出现异常,要求立即停产检修,检测员的判断是否合理?请说明理巾.
附:
,则
,
,
.
【答案】
解:(Ⅰ)设正常情况下,该生产线上包装出来的白糖质量为
,由题意可知
.
由于
,所以根据正态分布的对称性与“
原则”可知
.
(Ⅱ)检测员的判断是合理的.
因为如果生产线不出现异常的话,由(Ⅰ)可知,随机抽取两包检查,质量都小于
的概率约为
,几乎为零,但这样的事件竟然发生了,所以有理由认为生产线出现异常,检测员的判断是合理的.
【考点】独立性检验的应用,正态分布曲线的特点及曲线所表示的意义
【解析】(Ⅰ)由正常情况下生产出来的白糖质量服从正态分布
(单位:
),要求得正常情况下,任意抽取一包白糖,质量小于
的概率,化为
的形式,然后求解即可;(Ⅱ)由(Ⅰ)可知正常情况下,任意抽取一包白糖,质量小于
的概率为0.0013,可求得随机抽取两包检查,质量都小于
的概率几乎为零,即可判定检测员的判断是合理的
1.为研究某地区中学生的性别与阅读量的关系,运用
列联表进行独立性检验,经计算
,则所得的结论是:有______把握认为“该地区中学生的性别与阅读量有关系”(
??)
附表:
0.10
0.025
0.01
0.001
2.706
5.024
6.635
10.828
A.?0.1%????????????????????????????????????B.?1%????????????????????????????????????C.?99%????????????????????????????????????D.?99.9%
2.为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
患病
未患病
总计
服用药
10
45
55
没服用药
20
30
50
总计
30
75
105
据此推断药物有效,则这种推断犯错误的概率不超过(???
)
附表及公式:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:
A.?0.025??????????????????????????????????B.?0.010??????????????????????????????????C.?0.005??????????????????????????????????D.?0.001
3.为检测某血清对预防感冒的做用调查了500名使用这样血清和500名未使用这样血清一年感冒记录,通过计算,查表得是
则下列说法正确的是(???
)
A.?有95%把握认为“这样血清对感冒有作用”
B.?有95%的把握认为“这样血清对感冒没作用”
C.?在犯错误不超过0.05前提下认为“这种血清对感冒无作用”
D.?这样血清预防感冒有效率为95%
4.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用列联表,由计算可得
,参照下表:
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
得到的正确结论是(???
)
A.?有99%以上的把握认为“爱好该项运动与性别无关”
B.?有99%以上的把握认为“爱好该项运动与性别有关”
C.?在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关”
D.?在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”
参考答案
1.【答案】
C
【解析】
解:因为
,
所以有99%的把握认为“该地区中学生的性别与阅读量有关系”,
2.【答案】
A
【解析】
所以这种推断犯错误的概率不超过0.025,
3.【答案】
A
【解析】
因为
,
所以有95%把握认为“这样血清对感冒有作用”.
4【答案】
B
【解析】
由
,
可得有
以上的把握认为“爱好该项运动与性别有关”.