3.2 独立性检验的基本思想及其初步应用 学案2020-2021学年高二下学期数学人教A版选修2-3第三章

文档属性

名称 3.2 独立性检验的基本思想及其初步应用 学案2020-2021学年高二下学期数学人教A版选修2-3第三章
格式 doc
文件大小 381.5KB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2021-03-25 22:10:28

图片预览

文档简介

3.2 独立性检验的基本思想及其初步应用
内 容 标 准 学 科 素 养
1.能用等高条形图反映两个分类变量之间是否有关系. 2.能够根据条件列出列联表并会由公式求k.
3.能知道独立性检验的基本思想和方法. 利用数据分析
提升数学建模
及数学运算
授课提示:对应学生用书第54页
[基础认识]
知识点一 分类变量及2×2列联表
在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别是否对喜欢数学课程有影响?等等.
为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,得到如下结果:
不患肺癌 患肺癌 总计
不吸烟 7 775 42 7 817
吸烟 2 099 49 2 148
总计 9 874 91 9 965
那么吸烟是否对患肺癌有影响?
提示:在不吸烟样本中,有0.54%患肺癌;在吸烟样本中,有2.28%患肺癌.因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.   
知识梳理 1.分类变量
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表
(1)定义:列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表.
y1 y2 总计
x1 a b a+b
x2 c d c+d
总计 a+c b+d a+b+c+d
知识点二 等高条形图
知识梳理 与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.
比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟更容易引发肺癌.
如果通过直接计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.
知识点三 独立性检验
 知识梳理 1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
2.K2=,其中n=a+b+c+d.
3.独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
(2)利用公式计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
[自我检测]
1.在一个2×2列联表中,由其数据计算得K2=13.097,认为两个变量有关系犯错误的概率不超过(  )
A.0.001         B.0.05
C.0.1 D.0.2
答案:A
2.由如图所示的等高条形图,可知吸烟与患肺病________关系.(填“有”或“没有”)
答案:有
授课提示:对应学生用书第55页
探究一 等高条形图的应用
[阅读教材P95例1]在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.
(1)利用图形判断秃顶与患心脏病是否有关系;
(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?
题型:利用等高条形图判断两分类变量是否有关
方法步骤:(1)列出2×2列联表.
(2)计算出秃顶样本中患心脏病的频率,和不秃顶样本中患心脏病的频率.
(3)作出两样本中的等高条形图作出判断:秃顶与患心脏病有关.
[例1] 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
组别 阳性数 阴性数 总计
铅中毒病人 29 7 36
对照组 9 28 37
总计 38 35 73
试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
[解析] 等高条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比, 尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
方法技巧 1.判断两个分类变量是否有关系的方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.
(2)在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.
2.利用等高条形图判断两个分类变量是否相关的步骤
跟踪探究 1.为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:
患病 未患病 总计
服用药 10 45 55
未服用药 20 30 50
总计 30 75 105
试用等高条形图分析服用药和患病之间是否有关系.
解析:根据列联表所给的数据可得出服用药患病的频率为≈0.18,未服用药患病的频率为=0.4,两者的差距是|0.18-0.4|=0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病有关系.
探究二 独立性检验
[阅读教材P97习题3.2第2题]通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:
性别与读营养说明列联表
女 男 总计
读营养说明 16 28 44
不读营养说明 20 8 28
总计 36 36 72
能否在犯错误的概率不超过0.005的前提下认为性别和是否看营养说明有关系呢?
解析:由题意得K2==8.416>7.879
因此能在犯错误的概率不超过0.005的前提下认为性别与读营养说明之间有关系.
[例2] 某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:
喜欢甜品 不喜欢甜品 合计
南方学生 60 20 80
北方学生 10 10 20
合计 70 30 100
根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
[解析] 将2×2列联表中的数据代入公式计算,得
K2的观测值k=

=≈4.762.
因为4.762>3.841,所以在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.
方法技巧 1.独立性检验的关注点
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
2.独立性检验的具体做法
(1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.
(2)利用公式K2=计算随机变量K2的观测值k.
(3)如果k≥k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.
跟踪探究 2.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.
解析:(1)2×2列联表如下所示:
赞同 不赞同 总计
老教师 10 10 20
青年教师 24 6 30
总计 34 16 50
(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.
由公式得K2=≈4.963<6.635,
所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.
探究三 独立性检验的综合应用
[例3] 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.
[解析] (1)由分层抽样可得300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得学生每周平均体育运动超过4小时的频率为1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.样本数据中有210份是关于男生的,90份是关于女生的,可得每周平均体育运动时间与性别列联表如下:
男生 女生 总计
每周平均体育运动时间不超过4小时 45 30 75
每周平均体育运动时间超过4小时 165 60 225
总计 210 90 300
结合列联表可算得K2的观测值
k=≈4.762>3.841.
所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
方法技巧 1.解答此类题目的关键在于正确利用K2=计算k的值,再用它与临界值k0的大小作比较来判断假设检验是否成立,从而使问题得到解决.
2.此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.
跟踪探究 3.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
喜爱打篮球 不喜爱打篮球 合计
男生
6
女生 10

合计

48
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
解析:(1)列联表补充如下:
喜爱打篮球 不喜爱打篮球 合计
男生 22 6 28
女生 10 10 20
合计 32 16 48
(2)由K2=≈4.286.
因为4.286>3.841,所以,能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为:
X 0 1 2
P


X的均值为E(X)=0++=1.
授课提示:对应学生用书第57页
[课后小结]
(1)列联表与等高条形图
列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有相关关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有相关关系.
(2)对独立性检验思想的理解
独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2的值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
[素养培优]
因对独立性检验的基本思想不理解而致错
已知两个分类变量X和Y的取值分别为{x1,x2},{y1,y2},若其列联表为
y1 y2
x1 5 15
x2 40 10
则(  )
A.X与Y之间有关系的概率为0.001
B.X与Y之间有关系的概率为0.999
C.认为X与Y有关系,犯错误的概率为0.999
D.认为X与Y有关系,犯错误的概率不超过0.001
易错分析:独立性检验的基本思想是指某件事发生在犯错概率不超过某个非常小的数据的前提下,我们有把握认为有关.理解有误会致误.
自我纠正:K2的观测值为
k=
≈18.822.查表知P(K2≥10.828)=0.001,
所以在犯错误的概率不超过0.001的前提下,我们认为X与Y有关.
答案:D