(共74张PPT)
独立性检验(1)
高二年级
数学
吸烟与老年人患慢性气管炎有关系,
吸烟与老年人患慢性气管炎有关系,
是否喜欢数学课程与性别之间有关系,
吸烟与老年人患慢性气管炎有关系,
数学好的人物理一般也很好,
是否喜欢数学课程与性别之间有关系,
吸烟与老年人患慢性气管炎有关系,
数学好的人物理一般也很好,
是否喜欢数学课程与性别之间有关系,
这些说法有道理吗?
如果把是否吸烟看做变量,其取值为“吸”和“不吸”两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
分类变量在现实生活中大量存在,如是否吸烟,是否患慢性气管炎,是否喜欢数学课程,性别等.
如果把是否吸烟看做变量,其取值为“吸”和“不吸”两种.这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
分类变量在现实生活中大量存在,如是否吸烟,是否患慢性气管炎,是否喜欢数学课程,性别等.
本节课研究的两个分类变量的独立性检验问题.
例1
把一颗质地均匀的骰子任意地掷一次,
设事件A=“掷出偶数点”,
事件B=“掷出3的倍数点”,
试分析事件A与B及
与B的关系.
例1
把一颗质地均匀的骰子任意地掷一次,
设事件A=“掷出偶数点”,
事件B=“掷出3的倍数点”,
试分析事件A与B及
与B的关系.
解:事件A=“掷出偶数点”=“掷出2点、4点或6点”
例1
把一颗质地均匀的骰子任意地掷一次,
设事件A=“掷出偶数点”,
事件B=“掷出3的倍数点”,
试分析事件A与B及
与B的关系.
解:事件A=“掷出偶数点”=“掷出2点、4点或6点”
P(A)=
事件B=“掷出3的倍数点”=“掷出3点或6点”
P(B)=
事件B=“掷出3的倍数点”=“掷出3点或6点”
P(B)=
事件AB为事件A与B同时发生,即为掷出6点.
事件B=“掷出3的倍数点”=“掷出3点或6点”
P(B)=
事件AB为事件A与B同时发生,即为掷出6点.
此时称事件A与B相互独立.
事件
=“掷出奇数点”=“掷出1点、3点或5点”
事件
=“掷出奇数点”=“掷出1点、3点或5点”
事件
=“掷出3点”
事件
=“掷出奇数点”=“掷出1点、3点或5点”
事件
=“掷出3点”
此时事件
与B相互独立.
在一般情况下,下面的结论成立.
当事件A与B相互独立时,事件
与B,A与
,
与
也独立.
例2
为了探究慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
例2
为了探究慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
列联表
例2
为了探究慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患慢性气管炎
未患慢性气管炎
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
列联表
列联表的独立性检验
解决方案1:数据分析
在吸烟者中患慢性气管炎的比例:
.
解决方案1:数据分析
在吸烟者中患慢性气管炎的比例:
.
在不吸烟者中患慢性气管炎的比例:
.
解决方案1:数据分析
在吸烟者中患慢性气管炎的比例:
.
在不吸烟者中患慢性气管炎的比例:
.
结论:患慢性气管炎与吸烟习惯有关.
解决方案2:图表分析(等高条形图)
结论:患慢性气管炎与吸烟习惯有关.
通过数据和图表分析得出结论是吸烟与患慢性气管炎有关.
通过数据和图表分析得出结论是吸烟与患慢性气管炎有关.
结论可靠程度如何?
通过数据和图表分析得出结论是吸烟与患慢性气管炎有关.
结论可靠程度如何?
为了把问题讨论清楚,并便于向一般情况推广,我们用字母来代替
列联表中的事件和数据,得到一张用字母来表示的
列联表,如下表所示:
患慢性气管炎(B)
未患慢性气管炎(
)
合计
吸烟(A)
a
b
a+b
未吸烟(
)
c
d
c+d
合计
a+c
b+d
n
表中:n=a+b+c+d
.
首先假设吸烟(A)与患慢性气管炎(B)无关,即事件A与B独立,这时应该有
成立.
首先假设吸烟(A)与患慢性气管炎(B)无关,即事件A与B独立,这时应该有
成立.
首先假设吸烟(A)与患慢性气管炎(B)无关,即事件A与B独立,这时应该有
成立.
统计假设
首先假设吸烟(A)与患慢性气管炎(B)无关,即事件A与B独立,这时应该有
成立.
统计假设
当
成立时,下面的三个式子也成立.
首先假设吸烟(A)与患慢性气管炎(B)无关,即事件A与B独立,这时应该有
成立.
统计假设
当
成立时,下面的三个式子也成立.
根据概率的统计定义,上面提到的众多事件的概率都可用相应的频率来估计.
根据概率的统计定义,上面提到的众多事件的概率都可用相应的频率来估计.
用
来估计
,用
来估计
,用
来估计
根据概率的统计定义,上面提到的众多事件的概率都可用相应的频率来估计.
用
来估计
,用
来估计
,用
来估计
若有式子
成立,则可以认为A与B独立.
同理若
成立,则可以认为A与
独立.
同理若
成立,则可以认为A与
独立.
若
成立,则可以认为
与
独立.
同理若
成立,则可以认为A与
独立.
若
成立,则可以认为
与
独立.
若
成立,则可以认为
与
独立.
在
中,由于
、
、
表示的是频率,不
同于概率,即使A与B独立,式子两边也不一定恰好相等,但是当两边相差很大时,A与B之间就不独立.
在
中,由于
、
、
表示的是频率,不
同于概率,即使A与B独立,式子两边也不一定恰好相等,但是当两边相差很大时,A与B之间就不独立.
也就是当
过大时,变量之间不独立.
同理当
,
,
过大时,变量之间也不独立.
统计学家选取以下统计量,用它的大小来检验变量之间是否独立
同理当
,
,
过大时,变量之间也不独立.
统计学家选取以下统计量,用它的大小来检验变量之间是否独立
同理当
,
,
过大时,变量之间也不独立.
在统计中,用以下结果对变量的独立性进行判断:
(1)当
≤
时,没有充分的证据判断变量A,B有关
联,可以认为变量A与B没有关联;
(2)当
时,有90%的把握判断变量A与B关联;
(3)当
时,有95%的把握判断变量A与B关联;
(4)当
时,有99%的把握判断变量A与B关联.
解:由
列联表知,a=43,b=162,c=13,d=121,n=339,
a+b=205,c+d=134,a+c=56,b+d=283.
计算统计量
解:由
列联表知,a=43,b=162,c=13,d=121,n=339,
a+b=205,c+d=134,a+c=56,b+d=283.
计算统计量
因为
,所以我们有99%的把握说,50岁以上的人患慢性气管炎与吸烟习惯有关.
解:由
列联表知,a=43,b=162,c=13,d=121,n=339,
a+b=205,c+d=134,a+c=56,b+d=283.
计算统计量
(1)根据样本数据制成
列联表;
列联表独立性检验的步骤:
(1)根据样本数据制成
列联表;
(2)根据公式计算χ2的值;
列联表独立性检验的步骤:
(1)根据样本数据制成
列联表;
(2)根据公式计算χ2的值;
(3)比较χ2的值与临界值的大小关系作统计推断.
列联表独立性检验的步骤:
例3
对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病
未发作过心脏病
合计
心脏搭桥手术
39
157
196
血管清障手术
29
167
196
合计
68
324
392
试根据上述数据比较这两种手术对病人又发作心
脏病的影响有没有差别.
解:由
列联表知,a=39,b=157,c=29,d=167,n=392,
a+b=196,c+d=196,a+c=68,b+d=324.
计算统计量
解:由
列联表知,a=39,b=157,c=29,d=167,n=392,
a+b=196,c+d=196,a+c=68,b+d=324.
计算统计量
解:由
列联表知,a=39,b=157,c=29,d=167,n=392,
a+b=196,c+d=196,a+c=68,b+d=324.
计算统计量
因为
,所以我们没有理由说:“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其作过何种手术无关.
例4.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)判断性别与休闲方式是否有关系.
看电视
运动
合计
女
43
27
70
男
21
33
54
合计
64
60
124
解:(1)根据题意得
列联表如下
(2)由
列联表知,a=43,b=27,c=21,d=33,n=124,
a+b=70,c+d=54,a+c=64,b+d=60.
计算统计量
(2)由
列联表知,a=43,b=27,c=21,d=33,n=124,
a+b=70,c+d=54,a+c=64,b+d=60.
计算统计量
(2)由
列联表知,a=43,b=27,c=21,d=33,n=124,
a+b=70,c+d=54,a+c=64,b+d=60.
计算统计量
因为
,所以我们有95%的把握说,性别与休闲方式有关.
课堂练习
1.提出统计假设H0,计算出χ2的值,则拒绝H0的是( )
A.χ2=6.635
B.χ2=2.03C.χ2=0.725
D.χ2=1.832
课堂练习
1.提出统计假设H0,计算出χ2的值,则拒绝H0的是( )
A.χ2=6.635
B.χ2=2.03C.χ2=0.725
D.χ2=1.832
若χ2的值较大,就拒绝H0,即拒绝两个分类变量无关,故选A.
课堂练习
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
2.某班主任对全班50名学生进行了作业量的评价调查,所得数据如下表所示:
则有
的把握认为作业量的大小与学生的
性别有关
课堂练习
解:由
列联表知,a=18,b=9,c=8,d=15,n=50,
a+b=27,c+d=23,a+c=26,b+d=24.
计算统计量
课堂练习
解:由
列联表知,a=18,b=9,c=8,d=15,n=50,
a+b=27,c+d=23,a+c=26,b+d=24.
计算统计量
课堂练习
解:由
列联表知,a=18,b=9,c=8,d=15,n=50,
a+b=27,c+d=23,a+c=26,b+d=24.
计算统计量
因为
,所以我们有95%的把握说,作业量的大小与性别有关.答案为95%.
课堂练习
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
3.考察棉花种子经过处理与得病之间的关系得到如下表数据
判断种子经过处理与得病是否有关?
课堂练习
解:由
列联表知,a=32,b=101,c=61,d=213,n=407,
a+b=133,c+d=274,a+c=93,b+d=314.
计算统计量
课堂练习
解:由
列联表知,a=32,b=101,c=61,d=213,n=407,
a+b=133,c+d=274,a+c=93,b+d=314.
计算统计量
课堂练习
解:由
列联表知,a=32,b=101,c=61,d=213,n=407,
a+b=133,c+d=274,a+c=93,b+d=314.
计算统计量
因为
,所以种子是否经过处理与得病无关.
课堂小结
一、学习脉络
独立性检验
相互独立事件
概率关系
列联表
独立性检验的基本思想、步骤
课堂小结
一、学习脉络
二、独立性检验的步骤
独立性检验
相互独立事件
概率关系
列联表
独立性检验的基本思想、步骤
课后作业
1.调查者通过询问72名男女大学生在购买食品时是否看营养说明,得到的数据如下表所示:
问大学生的性别与是否看营养说明之间有没有
关系?
看营养说明
不看营养说明
合计
男大学生
28
8
36
女大学生
16
20
36
合计
44
28
72
课后作业
2.在研究某种新措施対猪白痢的防治效果问题时,得到以下数据:
试问新措施对防治猪白痢是否有效?
存活数
死亡数
合计
对照
114
36
150
新措施
132
18
150
合计
246
54
300教
案
教学基本信息
课题
独立性检验(一)
学科
数学
学段:
年级
高二
教材
书名:普通高中课程标准实验教科书数学
出版社:人民教育出版社B版
出版日期:2019
年9
月
教学目标及教学重点、难点
通过对典型案例的探究,了解独立性检验(只要求列联表)的基本思想、方法及初步应用;
2.利用统计量来分析两分类变量是否有关系.
教学过程(表格描述)
教学环节
主要教学活动
设置意图
引入
在生活中我们经常听见这些说法。“吸烟与老年人患慢性气管炎有关系”,“是否喜欢数学课程与性别之间有关系”,“数学好的人物理一般也很好”等等,我们不禁会产生这样的疑问,这些说法有道理吗?
为了解答上述疑问,首先来学习一下分类变量的概念。在上面的第一个说法中,如果把是否吸烟看做变量,其取值为“吸”和“不吸”两种。这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量。分类变量在现实生活中大量存在,如是否吸烟,是否患慢性气管炎,是否喜欢数学课程,性别等。上面的说法描述的是两个分类变量之间的关系,本节课我们就来研究一下两个分类变量是否有关系,也就是是否独立,即两个分类变量的独立性检验问题。
根据常见问题引入学习主题
新课
下面通过一道例题复习一下事件之间的独立性概念以及一些常见的结论。
例1把一颗质地均匀的骰子任意地掷一次,
设事件A=“掷出偶数点”,
事件B=“掷出3的倍数点”,试分析事件A与B及
与B的关系,在下面把A的对立事件读作A拔。解:事件A=“掷出偶数点”=“掷出2点、4点或6点”
事件B=“掷出3的倍数点”=“掷出3点或6点”
事件AB为事件A与B同时发生,即为掷出6点,
因为此时称事件A与B相互独立
事件
=“掷出奇数点”=“掷出1点、3点或5点”
事件
=“掷出3点”,
此时事件与B相互独立。
在一般情况下,下面的结论成立
当事件A与B相互独立时,事件与B,A与
,
与
也独立。为了探究慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示
患慢性气管炎未患慢性气管炎合计吸烟43162205不吸烟13121134合计56283339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
上面这样列出的两个分类变量的频数表,在统计中称为列联表。上表中的数据是根据调查得到的结果,我们的问题是如何根据表格中的数据来判断吸烟与患慢性气管炎是否有关系,即它们是否独立?这一问题称为列联表的独立性检验。
上述问题我们很容易想到如下两个解决方案:解决方案1:数据分析。在吸烟者中患慢性气管炎的比例:,在不吸烟者中患慢性气管炎的比例:。显然吸烟人群中患慢性气管炎的人所占的百分比与不吸烟人群中患慢性气管炎的人所占的百分比不相等,且相差较大,于是会下如下结论:患慢性气管炎与吸烟习惯有关
与表格相比图形更能直观的反映出两个分类变量间是否有关系,常用等高条形图展示列联表数据的频率特征。上图就是一个等高条形图,其中两个黄色条的高分别为吸烟与未吸烟中未患慢性气管炎的频率,两个蓝色条的高分别为吸烟与未吸烟中患慢性气管炎的频率,比较图中两个蓝色条的高可以发现在吸烟中患慢性气管炎的频率更高些,直观上可以认为患慢性气管炎与吸烟习惯有关
通过数据和图表分析得出结论是吸烟与患慢性气管炎有关。结论可靠程度如何?为了把这个问题讨论清楚,并便于向一般情况推广,我们用字母来代替
列联表中的事件和数据,得到一张用字母来表示的
列联表,如下表所示:
患慢性气管炎未患慢性气管炎合计吸烟aba+b不吸烟cdc+d合计a+cb+dn
先假设吸烟(A)与患慢性气管炎(B)无关,即变量A与B独立,这时应该有
成立。我们用字母来表示上式,即。并称之为统计假设。当成立时,也就是A,B独立时,由例1知与B,A与
,
与
也独立,于是下面的三个式子也成立
,,。
根据概率的统计定义,上面提到的众多事件的概率都可用相应的频率来估计。
用
来估计
,用
来估计
,用
来估计
若有式子,则可以认为变量A与B独立。
同理若
成立,则可以认为A与
独立;
若
成立,则可以认为
与
B独立;
若
成立,则可以认为
与独立。
在中,由于
、
、
表示的是频率,不同于概率,即使A与B独立,式子两边也不一定恰好相等,但是当两边相差很大时,A与B之间就不独立。也就是当
过大时,变量之间不独立。
同理当,,过大时,变量之间也不独立。但这些量究竟要多大才能说明变量之间不独立呢?我们能不能选择一个量,用它的大小来检验变量之间是否独立呢?
统计学家经过研究选取以下统计量,用它的大小来检验变量之间是否独立。
在统计中,用以下结果对变量的独立性进行判断
当
时,没有充分的证据判断变量A,B有关联,可以认为变量A与B没有关联;
当
时,有90%的把握判断变量A与B关联;
当
时,有95%的把握判断变量A与B关联;
当
时,有99%的把握判断变量A与B关联。
对于例2中的吸烟与患慢性气管炎的问题中,a=43,b=162,c=13,d=121,n=339,
a+b=205,c+d=134,a+c=56,b+d=283.
计算统计量
因为
,所以我们有99%的把握说,50岁以上的人患慢性气管炎与吸烟习惯有关。
通过上面的分析和例2问题的解决,我们总结一下列联表独立性检验的一般步骤:
第一步:根据样本数据制成列联表;第二步:根据公式计算χ2的值;
第三步:比较χ2的值与临界值的大小关系作统计推断
也可以简单用三个动词加以概括:一制,二算,三断。
复习事件的独立性的表示,独立性检验的基本思想,步骤
例题
例3
对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:
又发作过心脏病未发作过心脏病合计心脏搭桥手术39157196血管清障手术29167196合计68324392
试根据上述数据比较这两种手术对病人又发作心
脏病的影响有没有差别.
解:由列联表知,a=39,b=157,c=29,d=167,n=392,
a+b=196,c+d=196,a+c=68,b+d=324.
计算统计量
因为
,所以我们没有理由说:“心脏搭桥手术”与“又发作过心脏病”有关,可以认为病人又发作心脏病与否与其作过何种手术无关.
例4.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
解:(1)根据题意得列联表如下
看电视运动合计女432770男213354合计6460124
由列联表知,a=43,b=27,c=21,d=33,n=124,
a+b=70,c+d=54,a+c=64,b+d=60.
计算统计量
因为
,所以我们有95%的把握说,性别与休闲方式有关.
练习1.提出统计假设H0,计算出χ2的值,则拒绝H0的是( )
A.χ2=6.635
B.χ2=2.03
C.χ2=0.725
D.χ2=1.832
若χ2的值较大,就拒绝H0,即拒绝两个分类变量无关,故选A.
练习2.某班主任对全班50名学生进行了作业量的评价调查,所得数据如下表所示:
认为作业量大认为作业量不大合计男生18927女生81523合计262450
则有
的把握认为作业量的大小与学生的
性别有关
答案:95%
练习3.考察棉花种子经过处理与得病之间的关系得到如下表数据:
种子处理种子未处理合计得病32101133不得病61213274合计93314407
判断种子经过处理与得病是否有关?
答案:种子是否经过处理与得病无关。
独立性检验的应用
总结
学习脉络
独立性检验的步骤
作业
1.调查者通过询问72名男女大学生在购买食品时是否看营养说明,得到的数据如下表所示:
看营养说明不看营养说明合计男大学生28836女大学生162036合计442872
问大学生的性别与是否看营养说明之间有没有关系?2.在研究某种新措施対猪白痢的防治效果问题时,得到以下数据:
存活数死亡数合计对照11436150新措施13218150合计24654300
试问新措施对防治猪白痢是否有效?
巩固独立性检验的步骤