人教A版(2019)高中数学选择性必修第三册8.3 列联表与独立性检验 课件(共26张PPT)

文档属性

名称 人教A版(2019)高中数学选择性必修第三册8.3 列联表与独立性检验 课件(共26张PPT)
格式 pptx
文件大小 1.5MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2025-08-26 23:10:26

图片预览

文档简介

选修三《第八章 成对数据的统计分析》
8.3 列联表与独立性检验
数值变量的取值为实数,
其大小和运算都有实际含义.
分类变量的取值可用实数表示,
但数值只作为编号使用,没有
大小和运算意义.
本节只讨论取值{0,1}的分类变量的关联性
研究一定范围内的两种现象或性质之间是否存在关联性或存在差异
研究一定范围内的两个变量的相关关系
选修三《第八章 成对数据的统计分析》
8.3.1 分类变量与列联表
思考1:如何利用统计数据判断一对分类变量之间是否具有关联性呢?
问题背景:为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.
你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
∴该校的女生和男生在体育锻炼的经常性方面有差异,且男生更经常锻炼.
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成2×2列联表加以保存.
问题背景:全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼. 你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
{5940675A-B579-460E-94D1-54222C63F5DA}性别
锻炼
合计
不经常(Y=0)
经常(Y=1)
女生(X=0)
331
523
男生(X=1)
473
601
合计
2×2列联表
192
128
1124
320
804
列联表给出了成对分类变量数据的交叉分类频数.
性别对体育锻炼的经常性有影响:
性别对体育锻炼的经常性无影响:
频率稳定于概率
对于大多数实际问题,我们无法获得所关心的全部对象的数据,但可利用随机抽样获得一定数量的样本数据,再利用随机事件发生的频率稳定于概率的原理作出推断.
例1.为比较甲、乙两所学校学生的数学水平,采用简单随机抽样的方法抽取88名学生.通过测试得到了如下数据:甲校43名学生中有10名数学成绩优秀;乙校45名学生中有7名数学成绩优秀.试分析两校学生中数学成绩优秀率之间是否存在差异.
{5940675A-B579-460E-94D1-54222C63F5DA}性别
锻炼
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
甲校学生中数学成绩优秀的频率为:
乙校学生中数学成绩优秀的频率为:
依据频率稳定于概率的原理,可推断
P(Y=1|X=0)>P(Y=1|X=1).
故可认为两校学生的数学成绩优秀率存在差异,
甲校学生的数学成绩优秀率比乙校学生的高.
等高堆积条形图
不优秀的频率为0.7674
不优秀的频率为0.8444
新知1:列联表
2×2列联表:一般地,在样本空间Ω中,定义两个分类变量X和Y如下:
X=0,……1,……和Y=0,……1,……,列出两个分类变量的频数表为:
?
{5940675A-B579-460E-94D1-54222C63F5DA}X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
a+b+c+d
(样本容量n)
若不相等,则推断两个分类变量有关联或存在明显差异.
若相等,则推断两个分类变量无关联或没有明显差异.
巩固:列联表
练习1. 假设有两个分类变量X与Y,它们的可能取值分别为{0,1}和{0,1},
其2×2列联表为:
{5940675A-B579-460E-94D1-54222C63F5DA}X
Y
合计
Y=0
Y=1
X=0
10
18
28
X=1
m
26
m+26
合计
10+m
44
m+54
则当m取(  )时,X与Y的关系最弱.
A.8 B.9
C.14 D.19
X与Y的关系几乎无关联
C
新知2:等高堆积条形图
等高条形图展示可列联表数据的频率特征,依据频率稳定与概率的原理,
我们可以推断结果.
①和表格相比,等高条形图更能直观地反映出两个分类变量间是否相互影响.
②比较同色的条形图高度差,若高度差明显,则判断两个分类变量有关系或存在明显差异.
两个分类变量x,y之间关系最强的是(  )
吸烟与患肺病有关联
D
巩固:等高堆积条形图
练习2. 某学校对高三学生做了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高堆积条形图,利用图形判断考前心情紧张与性格类别是否有关系.
从图中可以看出性格内向的样本中考前心情紧张的频率比性格外向的样本中考前心情紧张的频率高,可以认为考前心情紧张与性格类型有关联.
内向
外向
紧张
0.6092
0.1979
不紧张
0.3908
0.8021
思考2:你认为“两校学生的数学成绩优秀率存在差异”这一结论是否有可能是错误的?
甲校学生中数学成绩优秀的频率为:
乙校学生中数学成绩优秀的频率为:
依据频率稳定于概率的原理,
可推断P(Y=1|X=0)>P(Y=1|X=1).
即甲校学生的数学成绩优秀率比乙校学生的高,故可认为两校学生的数学成绩优秀率存在差异.
“两校学生的数学成绩优秀率存在差异”这个结论是根据两个频率间存在差异推断出来的.但有可能在随机抽取的样本中,两个频率间确实存在差异,但两校学生的数学成绩优秀率实际上是没有差别的.
导致推断放错误的原因:
①样本容量较小,导致频率与概率的误差较大;
②样本具有随机性,因而频率有随机性,频率和概率之间存在误差;
思考3:有多大的把握推断“学校与优秀率有关”?这个推断犯错误的可能性多大?
希望能对出现错误推断的概率有一定的控制或估算.
选修三《第八章 成对数据的统计分析》
8.3.2 独立性检验
判断两个分类变量是否独立(无关联)的检验方法
课前需知
在合理的假设前提下,小概率事件几乎不会发生.
若小概率事件发生了,则认为原假设不成立.
设X和Y为定义在样本空间Ω上,取值于{0, 1}的成对分类变量.
课本P128-129证明
{X=0,Y=0}发生频数的期望值Ea
{X=0,Y=0}发生频数的观测值
同理
由图知χ2≥xα是小概率事件
找某个值xα来界定χ2的大小
理解:犯错误的概率不超过α
新知:(卡方)独立性检验的步骤
(1)认清分类变量,提出零假设H0:X和Y独立,即…与…无关联(无差异);
(2)列表:列出2×2列联表.
(3)求值:由表中数据计算χ2的值.
(4)推断:将χ2值与临界值xα比较,根据小概率值α的独立性检验规则,得出结论
若χ2≥xα,则推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
若χ2P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
利用χ2的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验
新知:(卡方)独立性检验
①作用:由χ2≥xα是否发生推断分类变量X和Y是否独立.
②独立性检验中常用的小概率值和相应的临界值
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
利用χ2的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验
如:若假设H0成立,对于小概率值α=0.05的χ2独立性检验规则如下:
(1)当χ2≥3.841=x0.05时,∵P(χ2≥3.841)=0.05,可推断H0不成立,
即认为X和Y不独立,该推断犯错误的概率不超过0.05;
(2)当χ2<3.841=x0.05时,我们没有充分证据推断H0不成立,可认为X和Y独立.
应用:(卡方)独立性检验
例1.根据以下列联表的数据,试分析两校学生中数学成绩优秀率之间是否存在差异.
{5940675A-B579-460E-94D1-54222C63F5DA}性别
锻炼
合计
不优秀(Y=0)
优秀(Y=1)
甲校(X=0)
33
10
43
乙校(X=1)
38
7
45
合计
71
17
88
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
提出原(零)假设
计算χ2
找临界值比较
下结论
没有考虑由样本随机性可能导致的错误,
所以这个推断依据不太充分
独立性检验更理性、更全面,理论依据更充分
应用:(卡方)独立性检验
例3.儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种治疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
{5940675A-B579-460E-94D1-54222C63F5DA}疗法
疗效
合计
未治愈
治愈

15
52
67

6
63
69
合计
21
115
136
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
应用:(卡方)独立性检验
[变式]儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名;抽到接受乙种治疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.05的独立性检验,分析甲、乙两种疗法的效果是否有差异.
{5940675A-B579-460E-94D1-54222C63F5DA}疗法
疗效
合计
未治愈
治愈

15
52
67

6
63
69
合计
21
115
136
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
应用:(卡方)独立性检验
例4.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌得风险.
{5940675A-B579-460E-94D1-54222C63F5DA}吸烟
肺癌
合计
不患肺癌
患肺癌
非吸烟者
7775
42
7817
吸烟者
2099
49
2148
合计
9874
9115
9965
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
思辨:(卡方)独立性检验
例4.为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如表所示.依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌得风险.
{5940675A-B579-460E-94D1-54222C63F5DA}吸烟
肺癌
合计
不患肺癌
患肺癌
非吸烟者
7775
42
7817
吸烟者
2099
49
2148
合计
9874
9115
9965
根据表中的数据计算,
不吸烟者中患肺癌的频率为427817≈0.0054;
吸烟者中患肺癌的频率分别为492148≈0.0228.
?
由0.02280.0054≈4.2可见,在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上.于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
?
应用:(卡方)独立性检验
练习1.同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表,
则可以说其亲属的饮食习惯与年龄有关,该推断犯错误的概率不超过 (  )
A.0.005 B.0.004 C.0.002 D.0.001
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
年龄
饮食习惯
合计
偏爱蔬菜
偏爱肉类
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
应用:(卡方)独立性检验
练习2.为研究患肺癌与吸烟是否有关,有人做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相等,吸烟患癌人数占吸烟总人数的45,不吸烟的人数中,患肺癌与不患肺癌的人数之比为1∶4.若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则受调查的人中吸烟人数至少有多少?
?
P(χ2≥xα)=α
0.1
0.05
0.01
0.005
0.001

2.706
3.841
6.635
7.879
10.828
吸烟情况
患病情况
合计
患肺癌
不患肺癌
吸烟
4x
x
5x
不吸烟
x
4x
5x
合计
5x
5x
10x