课件64张PPT。1.2 独立性检验的基本思想及其初步应用1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的_________,像这样的变量称为分类变量.不同类别(2)列联表
①定义:列出的两个分类变量的_______称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为频数表2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变
量间是否_________,常用等高条形图展示列联表数据的
_________.
(2)观察等高条形图发现_____和_____相差很大,就判断两个分类变量之间有关系. 相互影响频率特征3.独立性检验临界值k0观测值kk≥k0犯错误的概率没有发现足够证据1.判一判(正确的打“√”,错误的打“×”)
(1)事件A与B的检验无关,即两个事件互不影响. ( )
(2)事件A与B关系越密切,K2就越大. ( )
(3)K2的大小是判断事件A与B是否相关的唯一数据. ( )【解析】(1)错误.事件A与B的检验无关,只是说事件的相关性较小,并不一定两事件互不影响.
(2)正确.由K2的意义易知此说法正确.
(3)错误.判断A与B是否相关的方式很多,可以用列联表,也可以借助图形或概率运算.
答案:(1)× (2)√ (3)×2.做一做(请把正确的答案写在横线上)
(1)统计中有一个非常有用的统计量K2,在2×2列联表中它的表达式是 .
(2)在独立性检验中,选用K2作统计量,当K2满足条件 时,
在犯错误的概率不超过0.010的前提下认为事件A与B有关.
(3)式子|ad-bc|越大,K2的值就越 (填大或小).【解析】(1)在2×2列联表中K2=
答案:K2=
(2)当K2≥6.635时在犯错误的概率不超过0.010的前提下认为A与B有关系.
答案:K2≥6.635
(3)由K2的表达式知|ad-bc|越大,(ad-bc)2就越大,K2就越大.
答案:大【要点探究】
知识点1 分类变量
对“分类变量”的三点说明
(1)这里的“变量”和“值”都应作为“广义”的变量和值进行理解.例如,对于性别变量,其取值为男和女两种.那么这里的变量指的是性别,同样这里的“值”指的是“男”和“女”.因此,这里所说的“变量”和“值”不一定取的是具体的数值.(2)分类变量是大量存在的.例如,吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.
(3)注意区分分类变量与定量变量的不同.如身高、体重、考试成绩等就是定量变量,它们的取值一定是实数,并且取值大小有特定的含义.【微思考】
分类变量只有两个“取值”吗?
提示:不是.有些分类变量取值有很多,但本节只研究只有两个“取值”的分类变量.【即时练】
下列不是分类变量的是 ( )
A.近视 B.身高 C.血压 D.药物反应
【解析】选B.判断一个量是否是分类变量,只需看变量的不同值是否表示个体的不同类别,A,C,D选项的不同值都可以表示个体的不同类别,只有B选项的不同值不表示个体的不同类别.知识点2 等高条形图与独立性检验
1.等高条形图和独立性检验的特点
(1)通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.
(2)利用独立性检验来判断两个分类变量是否有关系,能够精确地给出这种判断的可靠程度,也常与图形分析法结合.2.独立性检验与反证法的异同点
(1)思想类似:独立性检验的思想来自于统计学的假设检验思想,它与反证法类似,假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.
(2)“矛盾”的含义不同:反证法中的“矛盾”是指不符合逻辑的事件的发生;而假设检验中的“矛盾”是指不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出利用结论成立的小概率事件的发生.【知识拓展】临界值表
当k≥10.828,即在犯错误的概率不超过0.001的前提下认为“X与Y有关系”.
当k≥7.879,即在犯错误的概率不超过0.005的前提下认为“X与Y有关系”.
当k≥6.635,即在犯错误的概率不超过0.010的前提下认为“X与Y有关系”.
当k≥5.024,即在犯错误的概率不超过0.025的前提下认为“X与Y有关系”.当k≥3.841,即在犯错误的概率不超过0.05的前提下认为“X与Y有关系”.
当k≥2.706,即在犯错误的概率不超过0.1的前提下认为“X与Y有关系”.
当k<2.706,即认为没有充分的证据显示“X与Y有关系”.
像这样利用随机变量K2的观测值k来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.【微思考】
(1)K2≥6.635是指两个分类变量有关系的概率为99%,这种理解正确吗?
提示:不正确.K2≥6.635是指两个分类变量有关系这一结论成立的可信度为99%而不是有关系的概率为99%.
(2)等高条形图与列联表相比有何优点?
提示:更直观,更明了.【即时练】
1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是 ( )
A.k越大,“X与Y有关系”的可信程度越小
B.k越小,“X与Y有关系”的可信程度越小
C.k越接近于0,“X与Y没有关系”的可信程度越小
D.k越大,“X与Y没有关系”的可信程度越大【解析】选B.k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,k越小,“X与Y有关系”的可信程度越小.2.为研究服用某种维生素对婴儿头发稀疏或稠密的影响,调查了120名婴儿,其中服用维生素的婴儿有60人,头发稀疏的有5人;不服用维生素的婴儿有60人,头发稀疏的有46人.由以上数据作出列联表.【解析】根据题中所给数据得到的列联表如下: 【题型示范】
类型一 等高条形图的应用
【典例1】
(1)观察下列各图,其中两个分类变量X,Y之间关系最强的
是 ( )(2)某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【解题探究】1.题(1)中的等高条形图中的什么特征能确立分类变量间的关系的强弱?
2.题(2)中等高条形图是用什么来说明问题的?利用该图形得到的结论可靠吗?
【探究提示】1.依靠数形结合,观察图中两个条形的阴影差距,差距越大,两个分类变量之间的关系越强.
2.等高条形图是用数据所占的百分比来说明问题的,所得结论可靠但无法精确给出所得结论的可靠程度.【自主解答】(1)选D.在四幅图中,选项D的图中两个深色条的高相差最明显,说明两个分类变量之间的关系最强.
(2)作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例大,可以认为考前紧张与性格类型有关.【方法技巧】利用等高条形图判断两个分类变量是否相关的步骤【变式训练】为了研究成绩与班级的关系,现对某中学同一个数学老师所教的高二年级的两个班级的期中数学考试成绩按照成绩优秀、不优秀进行了统计,得到如下列联表:画出列联表的等高条形图,并判断成绩与班级是否有关.【解析】如图所示,从等高条形图可以看出甲班的优秀生比例稍高于乙班,但相差不大.从图中可以看出甲班的优秀生的频率与乙班的优秀生的频率相差不大,因此可以认为班级与成绩关系不大.【补偿训练】打鼾不仅影响别人休息,而且还可能与患某种疾病有关,在某一次调查中,其中每一晚都打鼾的254人中,患心脏病的有30人,未患心脏病的有224人,在不打鼾的1379人中,患心脏病的有24人,未患心脏病的有1355人,利用图形判断打鼾与患心脏病是否有关?【解析】根据题意得到如下列联表:相应的等高条形图如图图中两个深色条的高分别表示每一晚都打鼾和不打鼾的人中患心脏病的频率,从图中可以看出,每一晚都打鼾样本中患心脏病的频率明显高于不打鼾样本中患心脏病的频率,因此可以认为打鼾与患心脏病有关系.类型二 独立性检验
【典例2】
(1)在独立性检验中,统计量K2有三个临界值:2.706,3.841和6.635;当K2>3.841时,在犯错误的概率不超过0.05的前提下说明两个事件有关,当K2>6.635时,在犯错误的概率不超过0.01的前提下说明两个事件有关,当K2<2.706时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算K2=20.87,根据这一数据分析,认为打鼾与患心脏病之间 ( )A.在犯错误的概率不超过0.05的前提下认为两者有关
B.约有95%的打鼾者患心脏病
C.在犯错误的概率不超过0.01的前提下认为两者有关
D.约有99%的打鼾者患心脏病(2)某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1 甲流水线样本频数分布表图1 乙流水线样本频率分布直方图①根据上表数据作出甲流水线样本频率分布直方图;
②若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;
③由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条自动包装流水线的选择有关”.【解题探究】1.题(1)中判断给出的两个分类变量有关的主要依据是什么?
2.题(2)中①作频率分布直方图的主要步骤是什么?
②中求合格品的概率关键是什么?
③计算K2的观测值的关键是什么?【探究提示】1.主要依据是把K2的值与临界值比较,明确K2的具体含义.
2.①确立好组距及频率然后作图.
②正确理解概率与频率的关系,求出合格品的频率.
③关键是作出2×2列联表,找出各量对应的值,然后代入公式计算.【自主解答】(1)选C.因为K2=20.87>6.635,
根据P(K2>6.635)=0.01可知,在犯错误的概率不超过0.01的前提下认为打鼾与患心脏病有关.
(2)①甲流水线样本频率分布直方图如下:②由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合
格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的
频率为 =0.75,乙样本合格品的频率为 =0.9,
据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75.
从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9.③2×2列联表如下:因为K2的观测值k=
所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.【延伸探究】在题(2)③条件不变的情况下,画出等高条形图.
【解析】【方法技巧】解决一般的独立性检验问题的步骤【变式训练】某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),
[60,70),[70,80),[80,90),[90,100)分别加以统计,得到如
图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”?【解析】(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名,
所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A1,A2,A3.25周岁以下组工人有40×0.05=2(人),记为B1,B2.从中随机抽取2名工人,所有可能的结果共有10种,即:(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),
(A2,B2),(A3,B1),(A3,B2),(B1,B2).
其中,至少抽到一名“25周岁以下组”工人的可能结果共有
7种,是:(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),
(B1,B2).故所求概率P= .(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以
上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中
的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以得:K2=
因为1.79<2.706,所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”.【补偿训练】现对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如表所示:试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.【解题指南】解答本题时应先利用公式K2=
求出K2的观测值,再利用临界值的大小关系来判断假设是否成立.
【解析】根据列联表中的数据,可以求得K2的观测值
所以不能得出这两种手术对病人又发作心脏病的影响有差别的结论.【规范解答】独立性检验的综合应用
【典例】(12分)为调查某生产线上某质量监督员甲对产品质量的好坏有无影响,现统计数据如下:质量监督员甲在场时,990件产品中合格品有982件,次品有8件;甲不在场时,510件产品中合格品有493件,次品有17件.试分别用列联表及独立性检验的方法对数据进行分析.【审题】抓信息,找思路【解题】明步骤,得高分【点题】警误区,促提升
失分点1:解题时若将①处的2×2列联表或列联表中的数据填错,则会导致结果错误.
失分点2:解题时若忽略②处的判断,只凭想当然下结论,则会导致理由不充分而失分.
失分点3:在解题过程中若将③处的公式记混,导致k的值求错从而导致本例最多得6分.【悟题】提措施,导方向
1.解题时关注已知条件
在解题时要明确已知条件,分清楚各种情况下的不同的数据,不要混淆.如本例中的2×2列联表中的数据极易混淆.
2.计算准确勿失误
在解题中,若用到公式计算,则要对公式记忆准确,同时计算不能失误,否则影响对两个分类变量的相关性判断,如本例中K2的观测值的计算.【类题试解】调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整.(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?【解析】(1)(2)由所给数据计算K2的观测值k= ≈3.689>2.706.
根据临界值表知P(K2≥2.706)≈0.10.
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.