(共21张PPT)
4.3.2 独立性检验
新授课
本题中要得P(A),P(B), P(AB)的准确值需耗费巨大的人力、物力等,比较难确定,甚至是不可能的.
P(AB)=P(A)P(B)
任意抽取某市的一名学生,记A:喜欢长跑,B:是女生.
如果事件A,B独立,P(A),P(B), P(AB)满足的充要条件是什么?
P(A),P(B),P(AB)的准确值易得吗
如何判断A、B是否独立?
1.通过实例理解2×2列联表的统计意义.
2.了解2×2列联表独立性检验及其应用.
因为这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
通过调查,我们获取了下述数据:抽查了110人,其中女生有50人;且这110人中,喜欢长跑的有60人,其中女生有20人.
将数据整理成如下表格形式.
喜欢长跑 不喜欢长跑 总计
女 20 30 50
男 40 20 60
总计 60 50 110
喜欢长跑 不喜欢长跑 总计
女 20 30 50
男 40 20 60
总计 60 50 110
喜欢长跑的概率P(A)可以估计为
是女生的概率P(B)可以估计
喜欢长跑且是女生的概率P(AB)可以估计为
由2×2列联表可知:
因为P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计是有误差的,因此直接用是否成立来判断A与B是否独立是不合理的.
思考:由上表可得P(A),P(B),P(AB)的估计值,此时可以用P(AB) =P(A)P(B)
是否成立来判断A与B是否独立吗?为什么?
如果A与B独立,那么P(A)P(B)应该可以作为P(AB)的近似值,这是从统
计意义上做出的合理推断,即尽管随机性会对数据的准确性带来影响,但
理论上,如果A与B是独立的,则这种影响也一定不会太大.
因此从理论上可知,如果A,B独立,喜欢长跑的女生数可以估计为
110P(A)P(B)
而实际上,喜欢长跑的女生数为 110P(AB),
不会太大.
①
因此
②
③
④
不会太大.
类似地,考虑与B,A与与,可知
若记①+②+③+④=χ2(读作“卡方”),代入数据算得χ2=7.8.
概率学上可以证明,如果A与B独立,则χ2≥6.635的概率只有1%,即P(χ2≥6.635)=1%.
因为χ2=7.8>6.635,所以若A与B独立(即“喜欢长跑”与“是女生”独立),则此事件的概率不超过1%.
即:在犯错误的概率不超过1%的前提下,可以认为“喜欢长跑”与“是女生”不独立(也称为是否喜欢长跑与性别有关);或说有99%的把握认为是否喜欢长跑与性别有关.
一般情况下,如果随机事件A与B的样本数据的2×2列联表如下
A 合计
B a b a+b
c d c+d
合计 a+c b+d a+b+c+d
记n=a+b+c+d,则由表可知:
(1) (2) (3)
独立性检验
概念生成
此时P(AB)与P(A)P(B)的估计值相差不大,因此
不会太大.
类似地,考虑与B,A与与,可知
都不会太大,
也不会太大.
因此这四个数的和
提出假设H0:A与B独立.
另外,任意给定一个α(称为显著性水平,通常取为0.05,0.01等),可以找到满足条件
的数k(称为显著性水平α对应的分位数).
若χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.即假设H0不成立.
若χ2这一过程通常称为独立性检验.
P(χ2≥k)=α
反证法 独立性检验
要证明结论A
在A不成立的前提下进行推理
推出矛盾,意味着结论A成立
没有找到矛盾,不能 对A下任何结论.
归纳总结
提出假设H0
在H0成立的条件下进行推理
与H0相矛盾的小概率事件发生,意味着H0不成立
H0相矛盾的小概率事件没有发生,接受原假设.
A与B独立时,也称为A与B无关.当χ2独立性检验得到的结果
或者是有1-α的把握认为A与B有关;
或者没有1-α的把握认为A与B有关.
常用显著性水平α以及对应的分位数k如下表.
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
幸福感强 幸福感弱 总计
阅读量多 54 18 72
阅读量少 36 42 78
总计 90 60 150
例1 为了了解阅读量多少与幸福感强弱之间的关系,一个调查机构得到了如下调查数据
根据调查数据回答,在犯错误的概率不超过1%的前提下,可以认为阅读量多少与幸福感强弱有关吗?
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
解:由题意可知
幸福感强 幸福感弱 总计
阅读量多 54 18 72
阅读量少 36 42 78
总计 90 60 150
又因为查表可得
P(χ2≥6.635)=0.01,
由于12.981>6.635,所以在犯错概率不超过1%的前提下,可以认为阅读量
多少与幸福感强弱有关.
例2 报刊对男女学生是否喜欢书法进行了一个随机调查,调查的数据如下表所示.
喜欢书法 不喜欢书法
男学生 24 32
女学生 16 24
根据调查数据回答:有95%的把握认为性别与是否喜欢书法有关吗?
α=P(χ2≥k) 0.1 0.05 0.01 0.005 0.001
k 2.706 3.841 6.635 7.879 10.828
解:由题意可知
又因为1-95%=5%,而且查表可得
P(χ2≥3.841)=0.05,
由于0.078<30841,所以没有95%的把握认为性别与是否喜欢书法有关.
喜欢书法 不喜欢书法
男学生 24 32
女学生 16 24
归纳总结
利用χ2进行独立性检验的步骤:
(1)列表:列出2×2列联表;
(2)求值:求出χ2;
(3)判断:与显著性水平对应的分位数比较,作出判断.
为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”
练一练
解:根据题目所给的数据得到如下列联表:
理科 文科 总计
有兴趣 138 73 211
无兴趣 98 52 150
总计 236 125 361
根据列联表中数据由公式计算得随机变量的观测值
理科 文科 总计
有兴趣 138 73 211
无兴趣 98 52 150
总计 236 125 361
因为1.871×10-4<2.706,所以在犯错误的概率不超过0.1的前提下,
不能认为“学生选报文、理科与对外语的兴趣有关”.
独立性检验
2×2列联表
统计量χ2
独立性检验
定义
步骤
思想
框图结构