1.2 独立性检验的基本思想及其初步应用

文档属性

名称 1.2 独立性检验的基本思想及其初步应用
格式 zip
文件大小 3.5MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2019-11-04 22:38:23

图片预览

文档简介

课件44张PPT。§1.2 独立性检验的基本思想及其初步应用第一章 统计案例学习目标1.了解分类变量的意义.
2.了解2×2列联表的意义.
3.了解随机变量K2的意义.
4.通过对典型案例的分析,了解独立性检验的基本思想与方法.问题导学达标检测题型探究内容索引问题导学知识点一 分类变量及2×2列联表思考 某城市随机抽取一年(365天)内100天的空气质量指数API(Air Pollution Index)的监测数据,结果统计如下:若本次抽取的样本数据有30天是在供暖季,其中有7天为重度污染,完成下面表格.23730655708812梳理 (1)分类变量
变量的不同“值”表示个体所属的 ,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的 ,称为列联表.
②2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为 和 ,其样本频数列联表(也称为2×2列联表)为下表.不同类别频数表{x1,x2}{y1,y2}知识点二 等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否 ,常用等高条形图展示列联表数据的 特征.
2.如果通过计算或等高条形图发现 和 相差很大,就判断两个分类变量之间 .相互影响频率有关系知识点三 独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.其中n=a+b+c+d为样本容量.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定 .临界值k0(2)利用公式计算随机变量K2的 .
(3)如果 ,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在 不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中 支持结论“X与Y有关系”.观测值kk≥k0犯错误的概率没有发现足够证据1.利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(  )
2.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k=27.63,根据这一数据进行分析,我们有理由认为打鼾与患心脏病是无关的.(  )
3.在独立性检验中,当K2≥6.635时,我们有99%的把握认为两分类变量有关,是指“两分类变量有关”这一结论的可信度为99%,而不是两分类变量有关系的概率为99%.(  )[思考辨析 判断正误]√×√4.独立性检验的基本思想类似于反证法.(  )
5.利用K2进行独立性检验,可对推断犯错误的概率作出估计,其估计可靠性与样本容量n无关.(  )
6.列联表仅对两个分类变量汇总统计.(  )√×√题型探究例1 为调查某生产线上某质量监督员甲在不在场对产品质量的好坏有无影响,现统计数据如下:质量监督员甲在场时,990件产品中合格品有982件,次品有8件;甲不在场时,510件产品中合格品有493件,次品有17件.试分别用列联表和等高条形图对数据进行分析.类型一 直观分析两个分类变量的关联性解答解 根据题目所给数据得如下2×2列联表:由列联表看出|ad-bc|=|982×17-493×8|=12 750,数较大,所以可在某种程度上认为“质量监督员甲在不在场与产品质量有关”.
等高条形图如图所示.所以由等高条形图可知,在某种程度上,可认为“质量监督员甲在不在场与产品质量有关”.反思与感悟 (1)利用列联表直接计算ad-bc,如果差的绝对值很大,就判断两个分类变量之间有关系.
(2)在等高条形图中展示列联表数据的频率特征,比较图中两个深色条的高可以发现两者频率不一样而得出结论.这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1 某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,试作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.解答解 考前心情紧张与性格类型列联表如下:ad-bc=332×381-213×94=106 470,
∴|ad-bc|比较大,说明考前心情是否紧张与性格类型有关.图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向占的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情是否紧张与性格类型有关.例2 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示.类型二 由K2进行独立性检验试根据上述数据比较这两种手术对病人又发作过心脏病的影响有没有差别.解答解 假设病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术没有关系,由表中数据得a=39,b=157,c=29,d=167,a+b=196,c+d=196,a+c=68,b+d=324,n=392,
由公式得K2的观测值因为k≈1.779<2.706,所以不能得出病人又发作过心脏病与做过心脏搭桥手术还是血管清障手术有关系的结论,即这两种手术对病人又发作过心脏病的影响没有差别.反思与感悟 (1)独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
(2)独立性检验的具体做法
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.③如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.跟踪训练2 某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;解答解 由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3;
25周岁以下组工人有40×0.05=2(人),记为B1,B2.
从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?解答解 由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:又因为1.786<2.706,
所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.达标检测1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下列联表:12345附表:12345参照附表,得到的正确结论是
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”答案√解析 结合给定数据和附表,得选项C正确.解析2.(2018·山东临沂期末)下列关于等高条形图的叙述正确的是
A.从等高条形图中可以精确地判断两个分类变量是否有关系
B.从等高条形图中可以看出两个变量频数的相对大小
C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对解析 在等高条形图中仅能粗略判断两个分类变量的关系,故A错;
在等高条形图中仅能够找出频率,无法找出频数,故B错;
显然C正确,故选C.解析答案12345√3.为了调查患慢性气管炎是否与吸烟有关,调查了339名50岁以下的人,调查结果如下表:解析答案12345根据列表数据,求得K2的观测值k≈______.7.4694.两个分类变量X,Y,它们的取值分别为x1,x2和y1,y2,其列联表为:12345若两个分类变量X,Y独立,则下列结论:
①ad≈bc;12345答案①②⑤解析其中正确的序号是________.12345解析 因为分类变量X,Y独立,化简得ad≈bc,故①⑤正确;
②式化简得ad≈bc,故②正确.
故填①②⑤.123455.“全国文明城市”称号是最有价值的城市品牌,某市为创建第五届“全国文明城市”,开展了“创建文明城市人人有责”活动.为了了解哪些人更关注“创城”活动,随机抽取了年龄在10~70岁之间的100人进行调查,并按年龄绘制如下频数分布表.12345解答(1)求表中a,b的值,并补全频率分布直方图;解 由频率分布直方图知[20,30)的频率为0.3,12345(2)把年龄落在区间[10,30)和[30,70]内的人分别称为“青少年人”和“中老年人”,若“中老年人”中有35人关注“创城”活动,根据已知条件完成下面的2×2列联表,据此统计结果能否有99%的把握认为“中老年人”比“青少年人”更关注“创新”活动?12345解答附:参考公式和临界值表:12345解 依题意可知,“青少年人”共有15+30=45人,
“中老年人”共有100-45=55人,
完成2×2列联表如下:12345结合列联表的数据得∵P(K2≥6.635)=0.01,9.091>6.635,
∴有99%的把握认为“中老年人”比“青少年人”更关注“创城”活动.1.列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
2.对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.规律与方法本课结束