人教B版数学选修2-3(课件44+教案+练习)3.1 独立性检验

文档属性

名称 人教B版数学选修2-3(课件44+教案+练习)3.1 独立性检验
格式 zip
文件大小 4.0MB
资源类型 教案
版本资源 人教新课标B版
科目 数学
更新时间 2019-09-28 22:21:32

文档简介


3.1 独立性检验
学习目标:1.了解分类变量、2×2列联表、随机变量χ2的意义.2.通过对典型案例的分析,了解独立性检验的基本思想方法.(重点)3.通过对典型案例的分析,了解两个分类变量的独立性检验的应用.(难点)
教材整理 独立性检验
阅读教材P77~P78例2以上部分,完成下列问题.
1.卡方统计量
χ2=,用χ2的大小可以决定是否拒绝原来的统计假设H0.如果算出的χ2值较大,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的了.
2.两个临界值
(1)当根据具体的数据算出的χ2>3.841时,有95%的把握说事件A与B有关;
(2)当χ2>6.635时,有99%的把握说事件A与B有关,当χ2≤3.841时,认为事件A与B是无关的.
1.判断(正确的打“√”,错误的打“×”)
(1)分类变量中的变量与函数中的变量是同一概念.( )
(2)独立性检验的方法就是反证法.( )
(3)独立性检验中可通过统计表从数据上说明两分类变量的相关性的大小.( )
【答案】 (1)× (2)× (3)√
2.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:
种子处理
种子未处理
合计
得病
32
101
133
不得病
61
213
274
合计
93
314
407
根据以上数据可得出(  )
A.种子是否经过处理与是否生病有关
B.种子是否经过处理与是否生病无关
C.种子是否经过处理决定是否生病
D.有90%的把握认为种子经过处理与生病有关
【解析】 χ2=≈0.164<3.841,
即没有充足的理由认为种子是否经过处理跟生病有关.
【答案】 B
3.若由一个2×2列联表中的数据计算得χ2=4.013,那么有__________的把握认为两个变量之间有关系.
【解析】 查阅χ2表知有95%的把握认为两个变量之间有关系.
【答案】 95%
用2×2列联表分析两变量间的关系
【例1】 在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人的饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.
【精彩点拨】 →→→
【解】 饮食习惯与年龄2×2列联表如下:
年龄在六十岁以上
年龄在六十岁以下
合计
饮食以蔬菜为主
43
21
64
饮食以肉类为主
27
33
60
合计
70
54
124
将表中数据代入公式得
=≈0.67,
==0.45.
显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.
1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.
2.作2×2列联表时,关键是对涉及的变量分清类别.
1.上例中条件不变,尝试用|n11n22-n12n21|的大小判断饮食习惯与年龄是否有关.
【解】 将本例2×2列联表中的数据代入可得
|n11n22-n12n21|=|43×33-21×27|=852.
相差较大,可在某种程度上认为饮食习惯与年龄有关系.
由χ2进行独立性检验
【例2】 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用.
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1 000
【精彩点拨】 独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.
【解】 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得
χ2=≈7.075.
χ2=7.075>6.635,
P(χ2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
1.独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足n11n22-n12n21≈0,因此|n11n22-n12n21|越小,关系越弱;|n11n22-n12n21|越大,关系越强.
2.独立性检验的具体做法
(1)根据实际问题的需要确定允许推断“事件A与B有关系”犯错误的概率的上界α,然后查表确定临界值k0.
(2)利用公式χ2=计算随机变量χ2.
(3)如果χ2≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
2.为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人的调查结果如下:
患胃病
未患胃病
合计
生活不规律
60
260
320
生活有规律
20
200
220
合计
80
460
540
根据以上数据判断40岁以上的人患胃病与生活规律有关吗?
【解】 由公式得χ2=≈9.638.
∵9.638>6.635,
∴有99%的把握说40岁以上的人患胃病与生活是否有规律有关,即生活不规律的人易患胃病.
独立性检验的综合应用
[探究问题]
1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?
【提示】 利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.
2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?
【提示】 两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.
【例3】 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:


需要
40
30
不需要
160
270
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.
【精彩点拨】 根据题中表格提供的数据,可通过求χ2的值进行判定.对于(1)(3)可依据古典概率及抽样方法分析求解.
【解】 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为=14%.
(2)χ2=≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法进行抽样,这比采用简单随机抽样方法更好.
1.检验两个变量是否相互独立,主要依据是利用χ2=公式计算χ2的值,再利用该值与3.841,6.635两个值进行比较作出判断.
2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.
3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.
3.若两个分类变量x和y的列联表为:
y
x
y1
y2
x1
5
15
x2
40
10
则x与y之间有关系的概率约为________.
【解析】 χ2=
≈18.822.
∵18.822>6.635,
∴x与y之间有关系的概率约为1-0.01=0.99.
【答案】 0.99
1.下列选项中,哪一个χ2的值可以有95%以上的把握认为“A与B有关系”(  )
A.χ2=2.700 B.χ2=2.710
C.χ2=3.765 D.χ2=5.014
【解析】 ∵5.014>3.841,故D正确.
【答案】 D
2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:


合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
经计算得
χ2=≈7.8.
则正确结论是(  )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
【解析】 根据独立性检验的思想方法,正确选项为C.
【答案】 C
3.在一个2×2列联表中,由其数据计算得χ2=13.097,认为“两个变量有关系”犯错误的概率不超过________.
【解析】 如果χ2>6.635时,认为“两变量有关系”犯错误的概率不超过0.01.
【答案】 0.01
4.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集的数据是________.
【解析】 由研究的问题可知,需收集的数据应为男正教授人数,女正教授人数,男副教授人数,女副教授人数.
【答案】 男正教授人数,女正教授人数,男副教授人数,女副教授人数
5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31人,女婴为26人.
(1)将下面的2×2列联表补充完整;
晚上
白天
合计
男婴
女婴
合计
(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时间有关系?
【解】 (1)
晚上
白天
合计
男婴
24
31
55
女婴
8
26
34
合计
32
57
89
(2)由所给数据计算得:
χ2=≈3.689>2.706.
根据临界值表知P(χ2≥2.706)≈0.10.
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出生的时间有关系.
课件44张PPT。第三章 统计案例3.1 独立性检验点击右图进入…Thank you for watching !课时分层作业(十八) 独立性检验
(建议用时:45分钟)
[基础达标练]
一、选择题
1.给出下列实际问题:
①一种药物对某种病的治愈率;②两种药物治疗同一种病是否有区别;③吸烟者得肺病的概率;④吸烟是否与性别有关系;⑤网吧与青少年的犯罪是否有关系.
其中用独立性检验可以解决的问题有(  )
A.①②③  B.②④⑤
C.②③④⑤ D.①②③④⑤
【解析】 独立性检验是判断两个分类变量是否有关系的方法,而①③都是概率问题,不能用独立性检验.
【答案】 B
2.下面是2×2列联表
y1
y2
合计
x1
a
21
73
x2
2
25
27
合计
b
46
100
则表中a,b的值分别为(  )
A.94,96 B.52,50
C.52,54 D.54,52
【解析】 a=73-21=52,b=a+2=54.
【答案】 C
3.如果有95%的把握说事件A和B有关,那么具体算出的数据满足(  )
A.χ2>3.841 B.χ2>6.635
C.χ2<3.841 D.χ2<6.635
【解析】 根据独立性检验的两个临界值及其与χ2大小关系的意义可知,如果有95%的把握说事件A与B有关时,统计量χ2>3.841,故选A.
【答案】 A
4.下表是甲、乙两个班级进行数学考试,按学生考试及格与不及格统计成绩后的2×2列联表,则χ2的值为(  )
不及格
及格
合计
甲班
12
33
45
乙班
9
36
45
合计
21
69
90
A.0.559 B.0.456
C.0.443 D.0.4
【解析】 χ2=≈0.559,故选A.
【答案】 A
5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是(  )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
【解析】 A,B是对χ2的误解,99%的把握认为吸烟和患肺病有关,是指通过大量的观察实验得出的一个数值,并不是100个人中必有99个人患肺病,也可能这100个人全健康.
【答案】 C
二、填空题
6.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=7.63,根据这一数据分析,有________的把握说,打鼾与患心脏病是________的.(“有关”或“无关”)
【解析】 ∵χ2=7.63,∴χ2>6.635,
因此,有99%的把握说,打鼾与患心脏病是有关的.
【答案】 99% 有关
7.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射14天内的结果如表所示:
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
进行统计分析时的统计假设是________.
【解析】 根据独立性检验的基本思想,可知类似于反证法,即要确认“两个分量有关系”这一结论成立的可信程度,首先假设该结论不成立.对于本题,进行统计分析时的统计假设应为“小白鼠的死亡与电离辐射的剂量无关”.
【答案】 小白鼠的死亡与电离辐射的剂量无关
8.某高校“统计初步”课程的教师随机调查了选该课程的一些学生情况,具体数据如下表:
非统计专业
统计专业

13
10

7
20
为了判断主修统计专业是否与性别有关系,根据表中数据,得到χ2=≈4.844>3.841,所以断定主修统计专业与性别有关系,那么这种判断出错的可能性约是________.
【解析】 ∵P(χ2≥3.841)≈0.05,故判断出错的可能性为5%.
【答案】 5%
三、解答题
9.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(1)根据表中数据,问是否有95%的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有差异;
(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.
附:χ2=,
P(χ2≥k)
0.100
0.050
0.010
k
2.706
3.841
6.635
【解】 (1)将2×2列表中的数据代入公式计算,得
χ2==≈4.762.
由于4.762>3.841,所以有95%的把握认为南方学生和北方学生在选用甜品的饮食习惯方面有差异.
(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},
其中ai表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3.
基本事件空间Ω由10个基本事件组成,且这些基本事件的出现是等可能的.
用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.
事件A由7个基本事件组成,因而P(A)=.
10.有人发现一个有趣的现象,中国人的邮箱里含有数字比较多,而外国人邮箱名称里含有数字比较少,为了研究国籍和邮箱名称里含有数字的关系,他收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.
(1)根据以上数据建立2×2列联表;
(2)他发现在这组数据中,外国人邮箱里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
【解】 (1)2×2的列联表:
中国人
外国人
合计
有数字
43
27
70
无数字
21
33
54
合计
64
60
124
(2)假设“国籍和邮箱名称里与是否含有数字无关”.
由表中数据得χ2=≈6.201.
因为χ2>5.024,所以有理由认为假设“国籍和邮箱名称里与是否含有数字无关”是不合理的,即在犯错误的概率不超过0.025的前提下认为“国籍和邮箱名称里与是否含有数字有关”.
[能力提升练]
1.想要检验是否喜欢参加体育活动是不是与性别有关,应该假设(  )
A.H0:男性喜欢参加体育活动
B.H0:女性不喜欢参加体育活动
C.H0:喜欢参加体育活动与性别有关
D.H0:喜欢参加体育活动与性别无关
【解析】 独立性检验假设有反证法的意味,应假设两类变量(而非变量的属性)无关,这时的χ2应该很小,如果χ2很大,则可以否定假设,如果χ2很小,则不能够肯定或者否定假设.
【答案】 D
2.某研究所为了检验某血清预防感冒的作用,把500名使用了该血清的志愿者与另外500名未使用该血清的志愿者一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列叙述中正确的是(  )
A.有95%的把握认为“这种血清能起到预防感冒的作用”
B.若有人未使用该血清,那么他一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
【解析】 χ2≈3.918>3.841,因此有95%的把握认为“这种血清能起到预防感冒的作用”,故选A.
【答案】 A
3.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
合计
男性患者
15
35
50
女性患者
6
44
50
合计
21
79
100
设H:服用此药的效果与患者的性别无关,则χ2≈________(小数点后保留一位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.
【解析】 由公式计算得χ2≈4.9.∵χ2>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.
【答案】 4.9 5%
4.为了研究玉米品种对产量的影响,某农科院对一块试验田种植的一批玉米共10 000株的生长情况进行研究,现采用分层抽样方法抽取50株作为样本,统计结果如下:
高茎
矮茎
合计
圆粒
11
19
30
皱粒
13
7
20
合计
24
26
50
(1)现采用分层抽样的方法,从该样本所含的圆粒玉米中取出6株玉米,再从这6株玉米中随机选出2株,求这2株之中既有高茎玉米又有矮茎玉米的概率;
(2)根据对玉米生长情况作出的统计,是否有95%的把握认为玉米的圆粒与玉米的高茎有关?
【解】 (1)依题意,取出的6株圆粒玉米中含高茎2株,记为a,b;矮茎4株,记为A,B,C,D,从中随机选取2株的情况有如下15种:aA,aB,aC,aD,bA,bB,bC,bD,ab,AB,AC,AD,BC,BD,CD.
其中满足题意的共有aA,aB,aC,aD,bA,bB,bC,bD,共8种,则所求概率为P=.
(2)根据已知列联表,
得χ2=≈3.860>3.841,即有95%的把握认为玉米的圆粒与玉米的高茎有关.