(新课标)苏教版数学选修2-3(课件45+教案+练习)3.1 独立性检验

文档属性

名称 (新课标)苏教版数学选修2-3(课件45+教案+练习)3.1 独立性检验
格式 zip
文件大小 3.0MB
资源类型 教案
版本资源 苏教版
科目 数学
更新时间 2019-09-29 17:24:36

文档简介


3.1 独立性检验
学 习 目 标
核 心 素 养
1.了解独立性检验的概念,会判断独立性检验事件.
2.能列出2×2列联表,会求χ2(卡方统计量的值).
3.能够利用临界值,作出正确的判断.(重点)
4.应用独立性检验分析实际问题.(难点)
1.通过对2×2列联表的学习,培养数据处理素养.
2.通过对独立性检验的学习,提升数学抽象、逻辑推理素养.
1.2×2列联表的意义
一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值,即类A和类B(如吸烟与不吸烟);Ⅱ也有两类取值,即类1和类2(如患呼吸道疾病和未患呼吸道疾病).我们得到如下表所示的抽样数据:

类1
类2
合计

类A
a
b
a+b
类B
c
d
c+d
合计
a+c
b+d
a+b+c+d
形如上表的表格称为2×2列联表,2×2列联表经常用来判断Ⅰ和Ⅱ之间是否有关系.
2.独立性检验
(1)独立性检验
2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,结果并不唯一.因此,由某个样本得到的推断有可能正确,也有可能错误.为了使不同样本量的数据有统一的评判标准,统计学中引入下面的量(称为卡方统计量):
χ2=(*),
其中n=a+b+c+d为样本容量.
用统计量研究这类问题的方法称为独立性检验(test of independence).
(2)独立性检验的基本步骤
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
①提出假设H0:Ⅰ与Ⅱ没有关系;
②根据2×2列联表与公式(*)计算χ2的值;
③查对临界值(如下表),作出判断.
P(χ2≥x0)
0.50
0.40
0.25
0.15
0.10
x0
0.455
0.708
1.323
2.072
2.706
P(χ2≥x0)
0.05
0.025
0.010
0.005
0.001
x0
3.841
5.024
6.635
7.879
10.828
思考1:若有99%以上的把握认为吸烟与患肺癌有关,则对一个吸烟的人,他患肺癌的概率就是99%,对吗?
[提示] 错误.有多大的把握只是说两个变量有关联,并不是事件发生的概率.
思考2:独立性检验的必要性为什么不能只凭列联表的数据和图形下结论?
[提示] 列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用列联表检验的方法确认所得结论在多大程度上适用于总体.
1.以下关于独立性检验的说法错误的是(  )
A.独立性检验依赖小概率原理
B.独立性检验得到的结论一定正确
C.样本不同,独立性检验的结论可能有差异
D.独立性检验不是判定两事物是否相关的唯一方法
B [受样本选取的影响,独立性检验得到的结论不一定正确.]
2.下面是一个2×2列联表:
y1
y2
合计
x1
a
21
73
x2
8
25
33
合计
b
46
则表中a,b处的值分别为________.
52,60 [∵a+21=73,∴a=52.
又b=a+8=52+8=60.]
3.式子|ad-bc|越大,χ2的值就越________.(填“大”或“小”)
大 [由χ2的表达式知|ad-bc|越大,(ad-bc)2就越大,χ2就越大.]
4.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
   专业
性别   
非统计专业
统计专业

13
10

7
20
为了判断主修统计专业是否与性别有关系,根据表中数据得到,χ2=≈4.844,因为χ2>3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为________.
5% [因为χ2>3.841时有95%的把握认为确定主修专业与性别有关,出错的可能为5%.而已知χ2≈4.844>3.841.所以上述结论成立.]
绘制2×2列联表
【例1】 在一项有关医疗保健的社会调查中,调查的男性为530人,女性为670人,发现其中男性中喜欢吃甜食的为117人,女性中喜欢吃甜食的为492人,请作出性别与喜欢吃甜食的列联表.
[解] 作2×2列联表如下:
喜欢甜食
不喜欢甜食
合计

117
413
530

492
178
670
合计
609
591
1 200
1.分清类别是作列联表的关键.
2.表中排成两行两列的数据是调查得来的结果.
3.选取数据时,要求表中的四个数据a,b,c,d都要不小于5,以保证检验结果的可信度.
1.某电视公司为了研究体育迷是否与性别有关,在调查的100人中,体育迷75人,其中女生30人,非体育迷25人,其中男生15人,请作出性别与体育迷的列联表.
[解] 
体育迷
非体育迷
合计

45
15
60

30
10
40
合计
75
25
100
利用χ2值进行独立性检验
【例2】 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:
阳性例数
阴性例数
合计
新防护服
5
70
75
旧防护服
10
18
28
合计
15
88
103
问这种新防护服对预防工人患职业性皮肤炎是否有效?并说明你的理由.
[思路探究] 通过有关数据的计算,作出相应的判断.
[解] 提出假设H0:新防护服对预防皮肤炎没有明显效果.
根据列联表中的数据可求得
χ2=≈13.826.
因为H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈13.826>10.828,所以我们有99.9%的把握说新防护服比旧防护服对预防工人患职业性皮肤炎有效.
根据2×2列联表,利用公式计算χ2的值,再与临界值比较,作出判断.
2.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中,有175人秃顶.根据以上数据判断男性病人的秃顶与患心脏病是否有关系?
[解] 提出假设H0:男性病人的秃顶与患心脏病没有关系.
根据题中所给数据得到如下2×2列联表:
患心脏病
未患心脏病
合计
秃顶
214
175
389
不秃顶
451
597
1 048
合计
665
772
1 437
根据列联表中的数据可以求得
χ2=≈16.373.
因为当H0成立时,χ2≥10.828的概率约为0.001,而这里χ2≈16.373>10.828,所以有99.9%的把握认为,男性病人的秃顶与患心脏病有关系.
独立性检验的综合应用
[探究问题]
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
[提示] 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?
[提示] 两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
【例3】 为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,990件产品中有合格品982件,次品8件;甲不在生产现场时,510件产品中有合格品493件,次品17件.试分别用列联表、独立性检验的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关?
[思路探究] 解答本题可先列出2×2列联表,然后具体分析.
[解] (1)2×2列联表如下:
合格品数
次品数
合计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
合计
1 475
25
1 500
由列联表可得|ad-bc|=|982×17-493×8|=12 750,相差较大,可在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”.
(2)由2×2列联表中数据,计算得到χ2的观测值为
χ2=≈13.097>10.828,
因此在犯错误的概率不超过0.001的前提下,认为质量监督员甲是否在生产现场与产品质量有关.
判断两个变量是否有关的三种方法
3.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
晚上
白天
合计
男婴
女婴
合计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
[解] (1)
晚上
白天
合计
男婴
24
31
55
女婴
8
26
34
合计
32
57
89
(2)由所给数据计算χ2的观测值
χ2=
≈3.689>2.706.
根据临界值表知P(χ2≥2.706)≈0.10.
因此在犯错误的概率不超过0.10的前提下认为婴儿的性别与出生时间有关系.
1.本节课的重点是用2×2列联表、两个分类变量间的关系以及独立性检验.
2.解决一般的独立性检验问题的步骤:
(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;
(2)利用χ2=求出χ2的观测值;
(3)如果χ2≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.
其中第(2)步易算错χ2的值,是本节课的易错点.
1.判断(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.(  )
(2)独立性检验的方法就是反证法.(  )
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小.(  )
[答案] (1)× (2)× (3)√
2.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据可得出(  )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
B [χ2=≈0.164<0.455,
即没有充足的理由认为种子是否经过处理跟生病有关.]
3.下列说法正确的是________.(填序号)
①对事件A与B的检验无关,即两个事件互不影响;②事件A与B关系越密切,χ2就越大;③χ2的大小是判断事件A与B是否相关的唯一数据;④若判定两事件A与B有关,则A发生B一定发生.
② [对于①,事件A与B的检验无关,只是说两事件的相关性较小,并不一定两事件互不影响,故①错.②是正确的.对于③,判断A与B是否相关的方式很多,可以用列联表,也可以借助于概率运算,故③错.对于④,两事件A与B有关,说明两者同时发生的可能性相对来说较大,但并不是A发生B一定发生,故④错.]
4.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
[解] 将2×2列联表中的数据代入公式计算,得
χ2=
==≈4.762.
因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
课件45张PPT。第3章 统计案例3.1 独立性检验2×2列联表 a+b+c+d 绘制2×2列联表 独立性检验的综合应用 点击右图进入…Thank you for watching !课时分层作业(十四) 独立性检验
(建议用时:60分钟)
[基础达标练]
一、选择题
1.在吸烟与患肺病这两个事件的计算中,下列说法中
①若统计量χ2>6.64,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病;
②若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99个人患有肺病;
③若从统计中求出有95%的把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误.
正确的个数为(  )
A.0  B.1
C.2 D.3
B [统计量χ2仅仅说明一个统计推断,并不能说明个案或某些情况,从而③正确.故选B.]
2.下面是2×2列联表
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
则表中a,b的值分别为(  )
A.94,96 B.52,50
C.52,54 D.54,52
C [a=73-21=52,b=a+2=54.]
3.如果有95%的把握说事件A和B有关,那么具体算出的数据满足(  )
A.χ2>3.841 B.χ2>6.635
C.χ2<3.841 D.χ2<6.635
A [根据独立性检验的两个临界值及其与χ2大小关系的意义可知,如果有95%的把握说事件A与B有关时,统计量χ2>3.841,故选A.]
4.下表是甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的2×2列联表,则χ2的值为(  )
不及格
及格
合计
甲班
12
33
45
乙班
9
36
45
合计
21
69
90
A.0.559 B.0.456
C.0.443 D.0.4
A [χ2=≈0.559,故选A.]
5.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为(  )
认为作业量大
认为作业量不大
合计
男生
18
9
27
女生
8
15
23
合计
26
24
50
A.99% B.97.5%
C.90% D.无充分证据
B [由2×2列联表得χ2的观测值χ2=≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.]
二、填空题
6.为了检验两个事件A与B是否相关,经计算得χ2=3.850,我们有________的把握认为事件A与B相关.
[答案] 95%
7.为了考查高中生的性别与是否喜欢数学课程之间的关系,某市在该辖区内的高中学生中随机地抽取300名学生进行调查,得到表中数据:
喜欢数学课程
不喜欢数学课程
合计

47
95
142

35
123
158
合计
82
218
300
则通过计算,可得统计量χ2的值约是________.
4.512 [由χ2=≈4.512.]
8.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:
文艺节目
新闻节目
合计
20至40岁
40
18
58
大于40岁
15
27
42
合计
55
45
100
由表中数据直观分析,收看新闻节目的观众是否与年龄有关.________(填“是”或“否”)
是 [因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即=,=,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.]
三、解答题
9.某中学高二班主任对本班50名学生学习积极性和对待班级工作的态度进行长期的调查,得到的统计数据如下表所示:
积极参加
班级工作
不太主动参
加班级工作
合计
学习积极性高
18
7
25
学习积极性一般
6
19
25
合计
24
26
50
用独立性检验的方法判断,学习的积极性与对待班级工作的态度是否有关.
[解] 根据列联表中的数据得到χ2=≈11.538>10.828,
即有99.9%的把握认为学习的积极性与对待班级工作的态度有关.
10.为研究学生对国家大事的关心与否与性别是否有关,在学生中随机抽样调查,结果如下:
关心
不关心
合计
男生
182
18
200
女生
176
24
200
合计
358
42
400
(1)根据统计数据作出合适的判断分析;
(2)扩大样本容量,将表中每个数据扩大为原来的10倍,然后作出判断分析;
(3)从某中学随机抽取450名学生,其中男,女生数量之比为5∶4,通过问卷调查发现男生关心国家大事的百分率为94%,而女生关心国家大事的百分率为85%,请根据这些数据,判断该中学的学生是否关心国家大事与性别的关系.
[解] (1)提出假设H0:学生对国家大事的关心与否与性别无关.
由公式可得χ2=≈0.958.
因为χ2≈0.958<2.706,
所以我们没有理由认为学生是否关心国家大事与性别有关(当然也不能肯定无关).
(2)χ2=≈9.577>6.635,所以我们有99%的把握认为是否关心国家大事与性别有关.
(3)依题意得,男、女生人数分别是250人和200人,男生中关心国家大事的人数为235人,女生中关心国家大事的人数为170人.
列出2×2列联表如下:
关心国家大事
不关心国家大事
合计
男生
235
15
250
女生
170
30
200
合计
405
45
450
由表中数据,得χ2==10>6.635,
所以我们有99%的把握认为该中学的学生是否关心国家大事与性别有关.
[能力提升练]
1.想要检验是否喜欢参加体育活动是不是与性别有关,应该假设(  )
A.H0:男性喜欢参加体育活动
B.H0:女性不喜欢参加体育活动
C.H0:喜欢参加体育活动与性别有关
D.H0:喜欢参加体育活动与性别无关
D [独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设.]
2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
偏爱蔬菜
偏爱肉类
合计
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
则可以说其亲属的饮食习惯与年龄有关的把握为(  )
附:参考公式和临界值表:χ2=
k
2.706
3.841
6.635
10.828
P(χ2≥k)
0.10
0.05
0.010
0.001
A.90% B.95%
C.99% D.99.9%
C [设H0:饮食习惯与年龄无关.
因为χ2==10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.]
3.2018年10月8日为我国第二十一个高血压日,主题是“知晓您的血压”.某社区医疗服务部门为了考察该社区患高血压病是否与食盐摄入量有关,对该社区的1 633人进行了跟踪调查,得出以下数据:
患高血压
未患高血压
合计
喜欢较咸食物
34
220
254
喜欢清淡食物
26
1 353
1 379
合计
60
1 573
1 633
计算χ2,得χ2≈________,我们有________把握认为该社区患高血压病与食盐的摄入量有关系.
80.155 99.9% [χ2=≈80.155>10.828.
故有99.9%的把握认为患高血压病与食盐的摄入量有关系.]
4.在吸烟与患肺病是否相关的判断中,有下面的说法:
①若χ2>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
②从独立性检验可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,若某人吸烟,则他有99%的可能患有肺病;
③从独立性检验可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.
其中说法正确的是________.
③ [χ2是检验吸烟与患肺病相关程度的量,而不是确定关系,是反映有关和无关的概率,故①不正确,②中对“确定容许推断犯错误概率的上界”理解错误;③正确.]
5.有两个分类变量X与Y,其一组观测值如下2×2列联表所示:
Y
X  
y1
y2
合计
x1
a
20-a
20
x2
15-a
30+a
45
合计
15
50
65
其中a,15-a均为大于5的整数,求a取何值时,有90%的把握认为X与Y之间有关系.
[解] 查表可知:要使有90%的把握认为X与Y之间有关系,则χ2≥2.706,
而χ2=
=
=
=.
∵χ2≥2.706,
∴≥2.706,
即(13a-60)2≥1 124,
∴13a-60≥33.5或13a-60≤-33.5,
∴a≥7.2或a≤2.
又∵
∴5∴a=8或9.
∴当a=8或9时,有90%的把握认为X与Y之间有关系.