4.3.2独立性检验课件(共34张PPT)-2022-2023学年高二下学期数学人教B版(2019)选择性必修第二册

文档属性

名称 4.3.2独立性检验课件(共34张PPT)-2022-2023学年高二下学期数学人教B版(2019)选择性必修第二册
格式 pptx
文件大小 1.5MB
资源类型 教案
版本资源 人教B版(2019)
科目 数学
更新时间 2023-07-30 21:09:15

图片预览

文档简介

(共34张PPT)
独立性检验
高二年级 数学
我们已经知道,事件A与事件B独立的充要条件是
利用这一点,我们可以通过概率的计算来判断两个事件是否独立.然而,如果要判断现实生活中两个随机事件是否独立,并不是一件容易的事.
情境与问题 任意抽取某市的一名学生,记A:喜欢长跑,B:是女生.
(1)你能得出P(A),P(B), P(AB)这三者的准确值吗?
问题中的P(A),P(B), P(AB)准确值的确定,是比较难的,甚至是不可能的.
然而,利用频率估计概率,通过抽样调查获得样本数据后,就可以得到上述三个值的近似值.
情境与问题 任意抽取某市的一名学生,记A:喜欢长跑,B:是女生.
(1)你能得出P(A),P(B), P(AB)这三者的准确值吗?
(2)如果要判断A与B是否独立,该怎么办?
从概率学的角度,受随机性的影响,我们很难直接利用概率公式P(AB)=P(A)P(B)进行估计.
情境与问题 任意抽取某市的一名学生,记A:喜欢长跑,B:是女生.
(1)你能得出P(A),P(B), P(AB)这三者的准确值吗?
(2)如果要判断A与B是否独立,该怎么办?
如何判断生活中两个分类变量之间是否独立,或如何对两个分类变量进行独立性检验,是我们生活中经常遇到的一大类问题。
假设:通过调查,我们获取了下述数据:抽查了110人,其中女生有50人;且这110人中,喜欢长跑的有60人,其中女生有20人.
为了方便起见,请同学们把数据整理成表格形式.
喜欢长跑 不喜欢长跑 总计
女 20 30 50
男 40 20 60
总计 60 50 110
喜欢长跑 不喜欢长跑 总计
女 20 30 50
男 40 20 60
总计 60 50 110
因为这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.
喜欢长跑 不喜欢长跑 总计
女 20 30 50
男 40 20 60
总计 60 50 110
由2×2列联表可知:
喜欢长跑的概率P(A)可以估计为
是女生的概率P(B)可以估计为
喜欢长跑且是女生的概率P(AB)可以估计为
尝试与发现 同学们,此时可以利用 是否成立来判断A与B是否独立吗?
答案是否定的.
追问:为什么?
因为P(A),P(B),P(AB)都是根据样本数据得到的估计值,而估计值是有误差的,因此直接用 是否成立来判断A与B是否独立是不合理的.
但是,如果A与B独立,那么P(A)P(B)应该可以作为P(AB)的近似值.
这是从统计意义上做出的合理推断.即尽管随机性会对数据的准确性带来影响,但理论上,如果A与B是独立的,则这种影响也一定不会太大.这是独立性检验的基本思想.
需要说明的是:
如果 ,
则 , , .
因此,如果 不会太大,
则 , ,
也都不会太大.
因此,从理论上可知,喜欢长跑的女生数可以怎样估计?
答:从理论上可知,喜欢长跑的女生数可以估计为:110P(A)P(B).
而实际上,喜欢长跑的女生数可以怎样表示?
答:实际上,喜欢长跑的女生数可以估计为:110P(AB).
因此, 应该不会太大.
类似地,考虑 与B,A与 , 与 ,可知:
都应该不会太大.
若记上述四项的和为 (读作“卡方”),则代入有关数据可以算得 .
概率学上可以证明,如果A与B独立,则 的概率只有
1%,即 .
因为算出的 值7.8大于6.635,所以若A与B独立,那么我们就观察到了概率不超过1%的事件.
问题:现在算出的 值7.8大于6.635,所以若A与B独立,则该事件发生的概率是多少?
若A与B独立(即“喜欢长跑”与“是女生”独立 ),则我们观察到了一件概率不超过1%的事件.
在犯错误的概率不超过1%的前提下,可以认为“喜欢长跑”与“是女生”不独立(也称为是否喜欢长跑与性别有关);或有99%的把握认为是否喜欢长跑与性别有关.
问题:现在算出的 值7.8大于6.635,所以若A与B独立,则该事件发生的概率是多少?
若A与B独立(即“喜欢长跑”与“是女生”独立 ),则我们观察到了一件概率不超过1%的事件.
上述1%通常称为显著性水平,而6.635称为显著性水平1%所对应的分位数.
一般情况下,可以用完全类似的方法来检验两个随机事件是否独立.
如果随机事件A与B的样本数据的2×2列联表如下.
总计
a b a+b
c d c+d
总计 a+c b+d a+b+c+d
如果随机事件A与B的样本数据的2×2列联表如下.
总计
a b a+b
c d c+d
总计 a+c b+d a+b+c+d
记 ,则由表可知:
(1)事件A发生的概率可估计为:
(2)事件B发生的概率可估计为:
(3)事件AB发生的概率可估计为:
问题:如果A与B独立,则P(A)P(B)与P(AB)的估计值相差如何?
如果A与B独立,则P(A)P(B)与P(AB)的估计值相差不大.
追问:理论上既是A又是B的数据有多少个?
追问:实际上既是A又是B的数据有多少个?
实际上既是A又是B的数据有 (即 )个.
理论上既是A又是B的数据有 个.
问题:基于上页结论,类比尝试与发现中, 的值不会太大,可以得到什么结论?
不会太大.
类似地,考虑 与B,A与 , 与 ,可知:
都不会太大.
因此,这四个数的和 也不
会太大.
此外,任意给定一个 (称为显著性水平,通常取为0.05,0.01等),可以找到满足条件
的数 (称为显著性水平对应的分位数).
是一个随机变量,其分布能够求出,上面的概率是可以计算的.
因此,如果根据样本数据算出 的值后,发现 成立,就称在犯错误的概率不超过 的前提下,可以认为A与B不独立(也称A与B有关);或说有 的把握认为A与B有关.
若 成立,就称不能得到前述结论.这一过程通常称为独立性检验.
A与B独立,也称A与B无关.当 成立时,一般不直接说A与B无关.也就是说,独立性检验通常得到的结果,或者说有 的把握认为A与B有关,或者没有 的把握认为A与B有关.
统计学中,常用的显著性水平 以及对应的分位数 如下表所示.
例 为了了解阅读量多少与幸福感强弱之间的关系,一个调查机构得到了如下调查数据.
根据调查数据回答,在犯错误的概率不超过1%的前提下,可以认为阅读量多少与幸福感强弱有关吗?
典型例题
幸福感强 幸福感弱 总计
阅读量多 54 18 72
阅读量少 36 42 78
总计 90 60 150
分析:(1)由 的计算公式 可得,
我们需要知道 的数值;
(2)与显著性水平对应的分位数比较.
典型例题
解:由题意可知
典型例题
又因为查表可得
由于 ,所以在犯错误的概率不超过1%的前提下,可以认为阅读量多少与幸福感强弱有关.
例 某报刊对男女学生是否喜欢书法进行了一个随机调查,调查的数据如下表所示.
根据调查数据回答:有95%的把握认为性别与是否喜欢书法有关吗?
典型例题
喜欢书法 不喜欢书法
男学生 24 32
女学生 16 24
解:由题意可知
典型例题
又因为 ,而且查表可得
由于 ,所以没有95%的把握认为性别与是否喜欢书法有关.
小结:回忆例题的解题过程,你能总结出独立性检验实际问题的基本方法和步骤吗?
(1)绘制 列联表;
(2)计算卡方数值;
(3)与显著性水平对应的分位数比较;
(4)若 ,就称在犯错误的概率不超过 的前提下,可以认为A与B不独立,或者说有 的把握认为A与B有关;若 ,则说没有 的把握认为A与B有关.
1.独立性检验
2.独立性检验解决实际问题的基本方法和步骤
课堂小结
教材第116页A组第2题
1.为了探究成年人晕车与性别是否有关,调查了320名成年人,其中男士与女士中,晕车的分别有28人与32人.用
列联表表示这些数据.
课后作业
教材第117页B组第2题
2.某企业有甲、乙两个分厂生产同一种零件,在检查产品的优质品率时,从甲、乙两厂分别抽取了500件产品,其中甲厂有优质品360件,乙厂有优质品320件.
(1)分别估计甲、乙两厂的优质品率;
(2)是否有99%的把握认为两个分厂生产的零件优质品有差异?
课后作业
谢谢