8.3.1分类变量与列联表8.3.2 独立性检验(共19张PPT)

文档属性

名称 8.3.1分类变量与列联表8.3.2 独立性检验(共19张PPT)
格式 pptx
文件大小 975.3KB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2022-04-25 21:32:20

图片预览

文档简介

(共19张PPT)
8.3 列联表与独立性检验
8.3.1 分类变量与列联表
8.3.2 独立性检验
1.通过实例,理解2×2列联表的统计意义.
2.通过实例,了解独立性检验及其应用.

第八章 成对数据的统计分析
1 |分类变量与列联表
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这
类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.列联表
假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
X Y 合计
y1 y2
x1 a b a+b
x2 c d c+d
合计 a+c b+d a+b+c+d
第八章 成对数据的统计分析
2×2列联表给出了成对分类变量数据的交叉分类频数.
3.两个分类变量之间关联关系的定性分析方法
(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行
比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的
频数表来进行分析.
(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常
用等高堆积条形图展示列联表数据的频率特征.
第八章 成对数据的统计分析
2 |独立性检验
1.假定通过简单随机抽样得到了X和Y的抽样数据列联表,如表所示.
X Y 合计
Y=0 Y=1
X=0 a b a+b
X=1 c d c+d
合计 a+c b+d n=a+b+c+d
  则χ2=① .
2.利用χ2的取值推断分类变量X和Y是否② 独立 的方法称为χ2独立性检验,读作
“卡方独立性检验”,简称独立性检验.
第八章 成对数据的统计分析
3. χ2独立性检验中几个常用的小概率值和相应的临界值.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
第八章 成对数据的统计分析

1.分类变量中的变量与函数中的变量是同一概念. (  )
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,有时可
以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义,
而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.
2.2×2列联表中的数据是两个分类变量的频数. ( √ )
3.事件A和B的独立性检验无关,即两个事件互不影响. (  )
4. χ2的大小是判断事件A和B是否相关的统计量. ( √ )
5.若计算得χ2=7.197,则认为两个变量间有关系的出错概率不超过0.01. ( √ )
6.在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强. (  )
判断正误,正确的画“ √” ,错误的画“ ” .
第八章 成对数据的统计分析
1 |由χ2进行独立性检验
“人机大战,柯洁哭了,机器赢了”,2017年5月27日,19岁的世界围棋第一人柯洁0∶
3不敌人工智能系统AlphaGo,落泪离席.许多人认为这场比赛是人类的胜利,也有许
多人持反对意见,有网友为此进行了调查.在参与调查的2 600名男性中,有1 560人
持反对意见,2 400名女性中,有1 118人持反对意见.
第八章 成对数据的统计分析
1.在运用这些数据判断“性别”与“人机大战是不是人类的胜利”的关系时,应采
用哪种统计方法
提示:判断“性别”与“人机大战是不是人类的胜利”这两个变量的关系,符合独
立性检验的基本思想.
2.如何根据问题中的数据对分类变量作出分析
提示:列出2×2列联表,计算χ2,将求得的χ2与临界值比较,即可得相应结论.
第八章 成对数据的统计分析

应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;
(3)根据检验规则得出推断结论;
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规
律.
注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量
的抽样数据列联表是问题中给定的.

第八章 成对数据的统计分析
手机给人们的生活带来便捷,但同时也对中学生的生活和学习造成了严重的影响,
某校高一几个学生成立研究性学习小组,就使用手机对学习成绩的影响随机抽取
了该校100名学生的期末考试成绩并制成如下的表格,则下列说法正确的是(  )
单位:人
成绩优秀 成绩不优秀 合计
不使用手机 40 10 50
使用手机 5 45 50
合计 45 55 100
第八章 成对数据的统计分析
A.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关
B.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩无关
C.有99.5%的把握认为使用手机对学习成绩没有影响
D.没有99%的把握认为使用手机对学习成绩有影响
解析 由题中表格得,χ2= ≈49.495>10.828=x0.001,所以在犯错误的
概率不超过0.001的前提下认为使用手机与学习成绩有关.故选A.
答案 A
第八章 成对数据的统计分析
2 |独立性检验与统计、概率的综合应用

  通过频率分布直方图中的统计功能完善2×2列联表,从而对事件进行独立性检
验,准确读取频率分布直方图中的数据,进行分组统计是解题的关键.解决独立性检
验的问题要注意明确两类主体,明确研究的两类问题,再就是准确列出2×2列联表,
准确计算χ2.在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序.

第八章 成对数据的统计分析

随着智能手机的普及,手机计步软件迅速流行开来,这类软件能自动记载每个人每
日健步走的步数,从而为科学健身提供一定的帮助.某市工会为了解该市市民每日
健步走的情况,从本市市民中随机抽取了2 000名(其中不超过40岁的市民恰好有1 0
00名),利用手机计步软件统计了他们某天健步走的步数(单位:千步),并将样本数据
分为[3,5),[5,7),[7,9),[9,11),[11,13),[13,15),[15,17),[17,19),[19,21]九组,将抽取的不超
过40岁的市民的样本数据绘制成频率分布直方图,将40岁以上的市民的样本数据
绘制成频数分布表,并利用该样本的频率分布估计总体的概率分布.
第八章 成对数据的统计分析
分组(单
位:千
步) [3, 5) [5, 7) [7, 9) [9, 11) [11, 13) [13, 15) [15, 17) [17, 19) [19,
21]
频数 10 20 20 30 400 200 200 100 20
第八章 成对数据的统计分析
  (1)现规定,日健步走步数不低于13 000步的为“健步达人”,填写下面列联表,
依据α=0.001的独立性检验,分析是不是“健步达人”是否与年龄有关;
单位:人
健步达人 非健步达人 合计
40岁以上 的市民
不超过 40岁的市民
合计
第八章 成对数据的统计分析
(2)(i)利用样本平均数和中位数估计该市不超过40岁的市民日健步走步数(单
位:千步)的平均数和中位数;
(ii)由频率分布直方图可以认为,不超过40岁的市民日健步走步数Z(单位:千步)近似
地服从正态分布N(μ,σ2),其中μ近似为样本平均数 (每组数据取区间的中点值),σ的
值已求出约为3.64.现从该市不超过40岁的市民中随机抽取5人,记其中日健步走步
数Z位于[4.88,15.8]的人数为X,求X的数学期望.
参考公式:χ2= ,其中n=a+b+c+d.
参考数据:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
若Z~N(μ,σ2),则P(μ-σ≤Z≤μ+σ)≈0.682 7,P(μ-2σ≤Z≤μ+2σ)≈0.954 5.
第八章 成对数据的统计分析
解析 (1)列联表为
单位:人
健步达人 非健步达人 合计
40岁以上 的市民 520 480 1 000
不超过40岁 的市民 400 600 1 000
合计 920 1 080 2 000
第八章 成对数据的统计分析
  零假设为H0:是不是“健步达人”与年龄无关.
计算可得χ2= ≈28.986>10.828=x0.001,
依据α=0.001的独立性检验,推断H0不成立,即认为是不是“健步达人”与年龄有关.
(2)(i)样本平均数为 =4×0.04+6×0.06+8×0.10+10×0.10+12×0.30+14×0.20+16×0.10+
18×0.08+20×0.02=12.16.
由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0.
6,知样本中位数落在第5组,设样本中位数为t,则(t-11)×0.15=0.5-0.3,所以t= .
故可以估计该市不超过40岁的市民日健步走步数的平均数为12.16,中位数为 .
(ii)[μ-2σ,μ+σ]=[4.88,15.8],
而P(μ-2σ≤Z≤μ+σ)= P(μ-2σ≤Z≤μ+2σ)+ P(μ-σ≤Z≤μ+σ)≈0.818 6,
第八章 成对数据的统计分析
所以X~B(5,0.818 6),
所以E(X)=5×0.818 6=4.093.
规律总结 独立性检验与统计、概率的综合主要表现为以统计图表为载体,考查
统计分析、概率的计算,以及构建两个分类变量列2×2列联表等.解答关键是认真审
题,确定分类变量的取值,得到2×2列联表,计算χ2,从而解决问题.
第八章 成对数据的统计分析