课件36张PPT。统计案例第一章1.2 独立性检验的基本思想
及其初步应用第一章通过对案例的探究,了解独立性检验的基本思想、方法及初步应用.重点:理解独立性检验的基本思想及实施步骤.
难点:独立性检验基本思想的理解及应用.思维导航
日常生活及生产、科研中,经常需要考虑某个量的变化是否由某种因素引起,与这种因素的相关程度有多大?怎样判断呢?独立性检验的基本思想 新知导学
1.分类变量
分类变量也称为属性变量或定性变量,分类变量的取值是离散的,其不同的取值仅表示个体所属的__________,除了起分类作用外,无其他含义,有时也把分类变量的不同取值用数字表示,但这些数字只起_______作用,无数值意义.不同类别区分2.2×2列联表
①定义:两个分类变量的__________称为列联表.
②2×2列联表
一般地,假设两个分类变量X和Y,它们的取值分别为__________ 和__________ ,其样本频数列联表(也称为2×2列联表)为下表.频数表{x1,x2}{y1,y2}互相影响 频率特征有关系4.独立性检验
(1)定义:利用随机变量K2来判断______________________的方法称为独立性检验.
(2)K2=______________________,其中n=a+b+c+d.“两个分类变量有关系” (3)独立性检验的基本思想
要判断两个分类变量是否相关及关系的强弱,需要确定一个评判规则和标准.随机变量K2和其临界值k.就是评判的标准.
首先假设两个分类变量没有关系,在该假设成立的条件下随机变量K2的值应该很______,如果由观测数据计算得到的K2的观测值k很_____,则在一定程度上说明假设不合理,即认为“两个分类变量有关系”;如果观测值k很____,则说明在样本数据中没有发现足够证据拒绝“两个分类变量没有关系”.小大小判断方法是:如果k≥ k0,就认为“两个分类变量有关系”;否则就认为“两个分类变量没有关系”.按照上述规则,把“两个分类变量没有关系”错误地判断为“两个分类变量有关系”的概率为__________.
一般地,在独立性检验中,当K2>__________时,有95%的把握说事件A与B有关;当K2>__________时;有99%的把握说事件A与B有关;当K2≤__________时,认为事件A与B是无关的.P(K2≥k0)3.8416.6353.841牛刀小试
1.下表是一个2×2列联表:
则表中a、b处的值分别为( )
A.94,96 B.52,50
C.52,54 D.54,52
[答案] C
2.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( )
A.k越大,推断“X与Y有关系”,犯错误的概率越大
B.k越小,推断“X与Y有关系”,犯错误的概率越大
C.k越接近于0,推断“X与Y无关”,犯错误的概率越大
D.k越大,推断“X与Y无关”,犯错误的概率越小
[答案] B
3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( )
A.0.25 B.0.75
C.0.025 D.0.975
[答案] C
[解析] 通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.4.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如下表所示:
进行统计分析时的统计假设是________.
[答案] 假设电离辐射的剂量与人体受损程度无关.两个分类变量关系的 [方法规律总结] 日常生活中,两个分类变量之间的关系常用百分比来说明.甲、乙两校体育达标抽样测试,其数据见下表:
两校体育达标情况抽检
若要考察体育达标情况与学校是否有关系最适宜的统计方法是( )
A.回归分析 B.独立性检验
C.相关系数 D.平均值
[答案] B等高条形图的应用 [解析] 作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解析] 作列联表如下:相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.独立性检验的应用
第四步,作出判断.
如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.“十一”黄金周前某地的一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:
能否在犯错误的概率不超过0.01的前提下认为票价上浮后游客人数与所处地区有关系?[辨析] 由于对2×2列联表中a,b,c,d的位置不清楚,在代入公式时代错了数值导致计算结果的错误.