数学人教A版(2019)选择性必修第三册8.3.2独立性检验(共39张ppt)

文档属性

名称 数学人教A版(2019)选择性必修第三册8.3.2独立性检验(共39张ppt)
格式 pptx
文件大小 987.0KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2023-10-22 20:39:34

图片预览

文档简介

(共39张PPT)
8.3.2 独立性检验
新知导入
为了了解呼吸道疾病与吸烟是否有关,某医疗机构进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果显示:吸烟的220人中37人患病, 183人不患病;不吸烟的295人中21人患病, 274人不患病。
思考:能否根据这些数据断定患病与吸烟有关?
新知导入
患病 不患病 总计
吸烟 37 183 220
不吸烟 21 274 295
总计 58 457 515
为了研究这个问题,我们将上述问题表示成如下所示2x2列联表:
由此表可以粗略的估计:
在吸烟的人中有 16.82% 的人患呼吸道系统疾病;
在不吸烟的人中有 7.12% 的人患呼吸道系统疾病;
吸烟患病与不吸烟患病的可能性存在差异
新知导入
思考:上述结论能否说明吸烟与患病有关?
分析:吸烟者和不吸烟者患病的可能性存在差异,吸烟者患病的可能性大.
新知导入
思考:有多大把握认为吸烟与患病有关?
分析:假设H0:患病与吸烟没有关系。
用A表示吸烟,B表示患病,则“吸烟与患病是否有关”等价于“吸烟与患病是否独立”,即假设H0等价于P(AB)=P(A)P(B),为了研究的一般化,用字母表示上表中的数据如下:
患病 不患病 总计
吸烟 a b a+b
不吸烟 c d c+d
总计 a+c b+d a+b+c+d
新知导入
设n=a+b+c+d,则P(A)=(a+b)/n,P(B)=(a+c)/n,
P(AB)=[(a+b)/n][(a+c)/n],由此可知,在H0成立的条件下,
吸烟且患病的人数为:nP(AB)=n[(a+b)/n][(a+c)/n]
新知导入
如果实际观测值与由事件A,B相互独立的假设的预期值相差不大,则可以认为这些差异是由随机误差造成的,假设H0不能被所给数据否定(假设成立);否则,假设能接受。
思考:如何描述实际观测值与估计值的差异?
新知讲解
引入随机变量
随机变量2取值的大小作为判断H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立。
合作探究
思考:怎样判定2大小的标准呢?
分析:根据小概率事件在一次试验中不大可能发生,可以通过确定一个与H0相矛盾的小概率事件来实现。在假定H0的条件下,对有放回简单随机抽样,当样本容量n充分大时,得到2的近似分布,忽略2的实际分布与该近似分布的误差,对于任何小概率值α,可以找到相应的正实数xα,使得
P(2≥xα)=α成立,称xα为α的临界值,该临界值作为判断2大小的标准。概率值α越小,临界值xα越大。
新知讲解
基于小概率值α的检验规则:
当2≥xα时,推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当2这种利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,
简称独立性检验 .
新知讲解
下表为独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
例如:对于小概率值α=0.05,有如下检验规则:
(1)当2≥x0.05=3.841时,可以推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过0.05;
(2)当2例题讲解
例1 依据小概率值α=0.1的2独立性检验,分析8.3.1 例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
解:零假设为H0:分类变量X和Y相互独立,即两校学生的数学成绩优秀率无差异.根据8.3.1 例1表中数据可得:
根据小概率值α=0.1的2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
例题讲解
思考:8.3.1 例1和本例1都是基于同一组数据的分析,但却得出了不同的
结论,是什么原因造成的?
解:8.3.1 例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分。在本例中,使用独立性检验对零假设H0进行了检验,通过计算,发现≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0,推断出两校学生的数学优秀率没有显著差异。这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的。因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的。所以,相对于简单比较两个频率的判断,使用独立性检验得出的结果更理性、更全面,理论依据也更充分。
例题讲解
例2 某儿童医院用甲、乙两种疗法治疗小儿消化不良。采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好。
解:零假设为 H0:疗法与疗效独立,即两种疗法效果没有差异。
将所给数据进行整理,得到两种疗法治疗数据的列联表如下:
根据列联表中的数据,经计算得
2
根据小概率值α=0.005的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
例题讲解
例题讲解
例3.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示。依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险。
吸烟 肺癌 合计
非肺癌患者 肺癌患者 非吸烟者 7775 42 7817
吸烟者 2099 49 2148
合计 9874 91 9965
例题讲解
解:零假设为H0:吸烟与患肺癌之间无关联
根据列联表中的数据,经计算得
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
例题讲解
根据表中数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
7775/7817≈0.9946 和 42/7817≈0.0054
吸烟者中不患肺癌和患肺癌的频率分别为
2099/2148≈0.9772 和 49/2148≈0.0228
由0.0228/0.0054≈4.2 可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,于是根据频率稳定与概率的原理,可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
例题讲解
独立性检验的几个主要步骤:
1、提出零假设H0:X和Y相互独立,并给出在问题中的解释;
2、根据抽样数据整理出2 x 2列联表,计算2的值,并与临界值xα比较;
3、根据检验规则得出推断结论;
4、在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间
的影响规律。
课堂练习
1、为了判断两个分类变量X、Y是否有关系,应用独立性检验的方法算得K2的观测值为5,则下列说法中正确的是( )
A.有95%的把握认为“X和Y有关系”
B.有95%的把握认为“X和Y没有关系”
C.有99%的把握认为“X和Y有关系”
D.有99%的把握认为“X和Y没有关系”
A
课堂练习
2、为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )
A.0.1% B.1%
C.99% D.99.9%
C
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
课堂练习
3、为了解某次考试中语文成绩是否优秀与性别的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
下列说法正确的是( )
A.有99.5%的把握认为语文成绩是否优秀与性别有关系
B.有99.9%的把握认为语文成绩是否优秀与性别有关系
C.有99%的把握认为语文成绩是否优秀与性别有关系
D.没有理由认为语文成绩是否优秀与性别有关系
C
语文成绩优秀 语文成绩非优秀 总计
男生 10 20 30
女生 20 10 30
总计 30 30 60
课堂练习
4、某班主任对全班50名学生进行了作业量的评价调查,所得数据如表所示:
则认为作业量的大小与学生的性别有关的犯错误的概率不超过( )
A.0.01 B.0.05
C.0.10 D.无充分证据
B
认为作业量大 认为作业量不大 总计
男生 18 9 27
女生 8 15 23
总计 26 24 50
课堂练习
5、某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下2x2列联表:
如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是12/5.
(1)求a,b,c,d的值.
(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.
积极参加班级工作 不太主动参加班级工作 总计
学习积极性高 18 7 25
学习积极性一般 a b 25
总计 c d 50
课堂练习
解:(1)积极参加班级工作的学生有c人,总人数为50,
由抽到积极参加班级工作的学生的概率P1=c/50=12/25,
解得c=24,所以a=6.
所以b=25-a=19,d=50-c=26.
(2)由列联表知,,
可得有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系.
拓展提高
6、某疫苗进行安全性临床试验.该疫苗安全性的一个重要指标是:注射疫苗后人体血液中的高铁血红蛋白的含量(以下简称为“M含量”)不超过1%,则为阴性,认为受试者没有出现血症.若一批受试者的M含量平均数不超过0.65%,出现血症的被测试者的比例不超过5%,同时满足这两个条件则认为该疫苗在M含量指标上是“安全的”;否则为“不安全”.现有男、女志愿者各200名接受了该疫苗注射.经数据整理,制得频率分布直方图如图.(注:在频率分布直方图中,同一组数据用该区间的中点值作代表.)
拓展提高
(1)请说明该疫苗在M含量指标上的安全性;
(2)按照性别分层抽样,随机抽取50名志愿者进行M含量的检测,其中女性志愿者被检测出阳性的恰好1人.请利用样本估计总体的思想,完成这400名志愿者的2x2列联表,并判断是否有超过95%的把握认为,注射该疫苗后,高铁血红蛋白血症与性别有关?
解:(1)由频率分布直方图得:M含量数据落在区间(1.0,1.2]上的频率为0.15x2=0.3,故出现血症的比例为3%<5%
由直方图得平均数为
=0.3 x 0.2 + 0.5 x 0.3 + 0.7 x 0.3 + 0.9 x 0.17 + 1.1 x 0.03 = 0.606
即志愿者的M含量的平均数为0.606%<0.65%综上,该疫苗在含量指标上是“安全的”.
拓展提高
(2)依题意得,抽取的50名志愿者中女性志愿者应为25人,
由已知,25名女性志愿者被检测出阳性恰有1人,故女性中阳性的频率0.04,
所以全部女性志愿者阳性共有200 x 0.04 = 8人。
由(1)知400名志愿者中,阳性的频率为0.03,所以阳性的人数共有400 x 0.03=12人
因此男性志愿者被检测出阳性的人数是12-8=4人.
所得2x2列联表如下:
男 女 合计
阳性 4 8 12
阴性 196 192 388
合计 200 200 400
由列联表知,,
故没有超过95%的把握认为注射疫苗后,高铁血红蛋白血症与性别有关.
拓展提高
7、这一年来人类与新型冠状病毒的“战争”让人们逐渐明白一个道理,人类社会组织模式的差异只是小事情,病毒在地球上存在了三四十亿年,而人类的文明史不过只有几千年而已,人类无法消灭病毒,只能与之共存,或者病毒自然消亡,在病毒面前,个体自由要服从于集体或者群体生命的价值.在传染病学中,通常把从致病刺激物侵入机体内或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期,因此我们应该注意做好良好的防护措施和隔离措施.某研究团队统计了某地区10000名患者的相关信息,得到如下表格:
潜伏期 (0,2] (2,4] (4,6] (6,8] (8,10] (10,12] (12,14]
人数 600 1900 3000 2500 1600 250 150
拓展提高
(1)新冠肺炎的潜伏期受诸多因素的影响,为研究潜伏期与年龄的关系,通过分层抽样从10000名患者中抽取200人进行研究,完成下面的2×2列联表,并判断能否在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关?
(2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过8天相互独立.为了深入研究,该团队在这一地区抽取了20名患者,其中潜伏期不超过8天的人数最有可能是多少?
潜伏期≤8 潜伏期>8 总计
60岁以上(含60岁) 150
60岁以下 30
总计 200
拓展提高
解:(1)由表中数据可知,潜伏期大于8天的人数为(1600+250+150)/10000 x 200=40人,补充完整的2×2列联表如下,
潜伏期≤8 潜伏期>8 总计
60岁以上(含60岁) 130 20 150
60岁以下 30 20 50
总计 160 40 200
由列联表知,,
故能在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关.
拓展提高
解:(2)该地区10000名患者中潜伏期不超过8天的人数为
600+1900+3000+2500名,
将频率视为概率,潜伏期不超过8天的概率为8000/10000=0.8,
所以抽取的20名患者中潜伏期不超过8天的人数最有可能是20 x 0.8 = 16名.
链接高考
8、(2021 全国高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异
连接高考
解:(1)甲机床生产的产品中的一级品的频率为150/200=75%,
乙机床生产的产品中的一级品的频率为120/200=60%.
(2)由列联表知,,
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
链接高考
9、(2020 全国高考真题(文))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天).
[0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
链接高考
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
链接高考
解:(1)由频数分布表可知,该市一天的空气质量等级为1的概率为
(2+16+25)/100=0.43,等级为2的概率为(5+10+12)/100=0.27,
等级为3的概率为(6+7+8)/100=0.21,等级为4的概率为(7+2+0)/100=0.09;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(100x20+300x35+500x45)/100=350
(3)2x2列联表如下:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
由列联表知,,
因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
课堂总结
基于小概率值α的检验规则:
当2≥xα时,推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当2这种利用2的取值推断分类变量X和Y是否独立的方法称为2独立性检验,
简称独立性检验 .
板书设计
8.3.2 独立性检验
一、新知导入
二、新知讲解
1.独立性检验
三、例题讲解
四、课堂练习
五、拓展提高
六、课堂总结
七、作业布置