课件42张PPT。第一章 统计案例1.2 独立性检验的基本思想及其初步应用点击右图进入…Thank you for watching !1.2 独立性检验的基本思想及其初步应用
学 习 目 标
核 心 素 养
1.理解独立性检验的基本思想及其实施步骤.(重点)
2.能利用条形图、列联表探讨两个分类变量的关系.(易混点)
3.了解K2的含义及其应用.(重点)
4.通过对数据的处理,来提高解决实际问题的能力.(难点)
1.通过学习独立性检验的基本思想,提升逻辑推理的素养.
2.借助K2公式培养数学运算的素养.
3.借助条形图培养直观想象的素养.
1.分类变量及2×2列联表
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表
①定义:列出的两个分类变量的频数表,称为列联表.
②2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
2.等高条形图
(1)等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.
3.独立性检验
(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)K2=,其中n=a+b+c+d.
(3)独立性检验的具体做法
①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
②利用公式计算随机变量K2的观测值k.
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
思考:有人说:“我们有99%的把握认为吸烟和患肺癌有关,是指每100个吸烟者中就会有99个患肺癌的.”你认为这种观点正确吗?为什么?
[提示] 观点不正确.99%的把握说明的是吸烟与患肺癌有关的程度,不是患肺癌的百分数.
1.下列变量中不属于分类变量的是( )
A.性别 B.吸烟
C.宗教信仰 D.国籍
B [“吸烟”不是分类变量,“是否吸烟”才是分类变量.故选B.]
2.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a,b处的值分别为________.
52,60 [∵a+21=73,∴a=52.
b=a+8=52+8=60.]
3.根据下表计算:
不看电视
看电视
男
37
85
女
35
143
K2的观测值k≈________(保留3位小数).
4.514 [k=≈4.514.]
用2×2列联表分析两变量间的关系
【例1】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
[解] 2×2列联表如下:
年龄在六十岁以上
年龄在六十岁以下
总计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
总计
70
54
124
将表中数据代入公式得
==0.671 875.
==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×2列联表时,关键是对涉及的变量分清类别.注意应该是4行4列,计算时要准确无误.
2.利用2×2列联表分析两变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将与的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.
1.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:
y1
y2
x1
10
18
x2
m
26
则当m取下面何值时,X与Y的关系最弱( )
A.8 B.9
C.14 D.19
C [由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.]
用等高条形图分析两变量间的关系
【例2】 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别
阳性数
阴性数
总计
铅中毒病人
29
7
36
对照组
9
28
37
总计
38
35
73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
利用等高条形图判断两个分类变量是否相关的步骤
2.如图所示的是调查某地区男、女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出( )
A.性别与喜欢理科无关
B.女生中喜欢理科的比例约为80%
C.男生比女生喜欢理科的可能性大些
D.男生中不喜欢理科的比例约为60%
C [由题图可知女生中喜欢理科的比例约为20%,男生中喜欢理科的比例约为60%,因此男生比女生喜欢理科的可能性大些.故选C.]
用K2进行独立性检验
[探究问题]
1.在K2运算后,得到K2的值为29.78,在判断变量相关时,P(K2≥6.635)≈0.01和P(K2≥7.879)≈0.005,哪种说法是正确的?
提示:两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(K2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
2.你能说一下用K2进行独立性检验的依据吗?
提示:独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
【例3】 随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n个人,其中男性占调查人数的.已知男性中有一半的人的休闲方式是运动,而女性中只有的人的休闲方式是运动.
(1)完成下列2×2列联表:
运动
非运动
总计
男生
女生
总计
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?
思路探究:(1)依据2×2列联表的定义填表;
(2)计算K2,利用临界值建立不等关系,求n的值.
[解] (1)补全2×2列联表如下:
运动
非运动
总计
男性
n
n
n
女性
n
n
n
总计
n
n
n
(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,则P(K2≥k0)=3.841.
由于K2的观测值k==,
故≥3.841,即n≥138.276.
又由n∈Z,故n≥140.
故若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的至少有140人.
1.(变结论)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动?
[解] 根据(2)的结论,本次被调查的人中,至少有×140=56(人)的休闲方式是运动.
2.(变条件)若增加条件n=100,问能否在犯错误不超过0.1的前提下,可认为“性别与休闲方式有关”?
[解] 由(2)可知,当n=100时,K2的观测值k=≈2.78>2.706.故在犯错误不超过0.1的前提下,我们可以认为性别与休闲方式有关.
解决一般的独立性检验问题的步骤
独立性检验问题的求解策略
(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.
(2)K2统计量法:通过公式
k=
先计算观测值k,再与临界值表作比较,最后得出结论.
1.判断正误
(1)在独立性检验中,若K2越大,则两个分类变量有关系的可能性越大.( )
(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联关系.( )
(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.( )
[答案] (1)√ (2)√ (3)×
2.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到“打鼾与患心脏病有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的.下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,则这个人有99%的概率打鼾
C.100个心脏病患者中一定有打鼾的人
D.100个心脏病患者中可能一个打鼾的人都没有
D [这是独立性检验,在犯错误的概率不超过0.01的前提下认为“打鼾与患心脏病有关”,这只是一个概率,即打鼾与患心脏病有关的可能性为99%.根据概率的意义可知答案应选D.]
3.观察下列各图,其中两个分类变量x,y之间关系最强的是________.
④ [在四幅图中图④中两个深色条的高相差最明显,说明两个分类变量之间关系最强,故选④.]
4.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:
K2=
[解] (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
课时分层作业(二) 独立性检验的基本思想及其初步应用
(建议用时:60分钟)
[基础达标练]
一、选择题
1.以下关于独立性检验的说法中,错误的是( )
A.独立性检验依赖于小概率原理
B.独立性检验得到的结论一定准确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判断两事物是否相关的唯一方法
B [根据独立性检验的原理可知得到的结论是错误的情况是小概率事件,但并不一定是准确的.]
2.某科研机构为了研究中年人秃发与心脏病是否有关,随机调查了一些中年人的情况,具体数据如表:
心脏病
无心脏病
秃发
20
300
不秃发
5
450
根据表中数据得到k=≈15.968,因为k>6.635,则断定秃发与心脏病有关系,那么这种判断出错的可能性为( )
A.0.1 B.0.05
C.0.025 D.0.01
D [∵P(k>6.635)=0.01,故选D.]
3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
C [判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.]
4.在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大( )
A.与 B.与
C.与 D.与
C [由等高条形图可知与的值相差越大,|ad-bc|就越大,相关性就越强.]
5.为考察某种药物对预防禽流感的效果,在四个不同的实验室取相同的个体进行动物试验,根据四个实验室得到的列联表画出如下四个等高条形图,最能体现该药物对预防禽流感有显著效果的图形是( )
D [分析四个等高条形图得选项D中,不服用药物患病的概率最大,服用药物患病的概率最小,所以最能体现该药物对预防禽流感有显著效果,故选D.]
二、填空题
6.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k≈27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的.(填“有关”或“无关)
有关 [由K2观测值k≈27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关.]
7.下表是关于男婴与女婴出生时间调查的列联表:
晚上
白天
总计
男婴
45
A
B
女婴
E
35
C
总计
98
D
180
那么,A=________,B=________,C=________,
D=________,E=________.
47 92 88 82 53 [由列联表知识得解得]
8.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是________.(填序号)
①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;
②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;
③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.
③ [K2的观测值是支持确定有多大把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填③.]
三、解答题
9.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解] 作列联表如下:
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类别有关.
10.对某校小学生进行心理障碍测试得到如下列联表:
有心理障碍
没有心理障碍
总计
女生
10
30
男生
70
80
总计
20
110
将表格填写完整,试说明心理障碍与性别是否有关?
附:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
[解] 将列联表补充完整如下:
有心理障碍
没有心理障碍
总计
女生
10
20
30
男生
10
70
80
总计
20
90
110
k=≈6.366>5.024,
所以有97.5%的把握认为心理障碍与性别有关.
[能力提升练]
1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:
作文成绩优秀
作文成绩一般
总计
课外阅读量较大
22
10
32
课外阅读量一般
8
20
28
总计
30
30
60
由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是( )
A.没有充足的理由认为课外阅读量大与作文成绩优秀有关
B.有0.5%的把握认为课外阅读量大与作文成绩优秀有关
C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关
D.有99.5%的把握认为课外阅读量大与作文成绩优秀有关
D [根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.]
2.分类变量X和Y的列联表如下,则( )
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
A.ad-bc越小,说明X与Y的关系越弱
B.ad-bc越大,说明X与Y的关系越强
C.(ad-bc)2越大,说明X与Y的关系越强
D.(ad-bc)2越接近于0,说明X与Y的关系越强
C [结合独立性检验的思想可知|ad-bc|越大,X与Y的相关性越强,从而(ad-bc)2越大,说明X与Y的相关性越强.]
3.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如表所示:
死亡
存活
总计
第一种剂量
14
11
25
第二种剂量
6
19
25
总计
20
30
50
进行统计分析时的统计假设是__________.
假设电离辐射的剂量与小白鼠的死亡无关 [由独立性检验的步骤知第一步先假设两分类变量无关,即假设电离辐射的剂量与小白鼠的死亡无关.]
4.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
总计
男性患者
15
35
50
女性患者
6
44
50
总计
21
79
100
设H0:服用此药的效果与患者性别无关,则K2的观测值k≈________,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
4.882 5% [由公式计算得K2的观测值k≈4.882,
∵k>3.841,∴有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.]
5.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14)
频数
12
63
86
182
92
61
4
乙厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
[30.02,30.06)
[30.06,30.10)
[30.10,30.14)
频数
29
71
85
159
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据填写下面的2×2列联表,并问能否在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”?
甲厂
乙厂
总计
优质品
非优质品
总计
[解] (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;
乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%.
(2)2×2列联表如下:
甲厂
乙厂
总计
优质品
360
320
680
非优质品
140
180
320
总计
500
500
1 000
k=≈7.353>6.635,
所以在犯错误的概率不超过0.01的前提下认为“两个分厂生产的零件的质量有差异”.