§1.2独立性检验的基本思想及其应用(一)
【学情分析】:
在实际的问题中,经常会面临需要推断的问题,比如研制一种新药,需要推断此药是否有效?有人怀疑吸烟的人更容易患肺癌,那么吸烟是否与患肺癌有关呢?等等。在对类似的问题作出推断时,我们不能仅凭主观意愿作出结论,需要通过试验来收集数据,并依据独立性检验的原理作出合理的分析推断.在本节的学习中,通过案例分析,使学生学会用假设检验的思想方法解决对于两个分类变量是否有关系的判断问题,并理解统计思维与确定性思维的差异。
【教学目标】:
(1)知识与技能:
理解分类变量的含义;会根据收集的数据列出2×2列联表,并会阅读三维柱形图和二维条形图,并粗略判断两个分类变量是否有关系;理解假设检验思想,会利用独立性检验精确判断两个分类变量是否有关系;
(2)过程与方法:
利用学生身边熟悉的问题引入分类变量是否相关的问题;运用统计学解决问题的一般思路引导学生;让学生经历假设检验思想的形成及运用过程,领会分析、总结的方法;
(3)情感态度与价值观:
通过提供适当的情境资料,吸引学生的注意力,激发学生的学习兴趣;在合作讨论中学会交流与合作,启迪思维,提高创新能力;通过实际问题的解决和从不同角度对问题的解决,可提高学生应用数学能力。
【教学重点】:
理解独立性检验的基本思想及实施步骤。
【教学难点】:.
(1)了解独立性检验的基本思想;
(2)了解随机变量的含义,太大认为两个分类变量是有关系的。
【课前准备】:
课件
【教学过程设计】:
教学环节
教学活动
设计意图
一、问题引入
介绍分类变量的概念:变量的不同”值”表示个体所属的不同类别,如性别变量男女,是否吸烟,宗教信仰,国籍等.
2. 在日常生活中,我们关心两个分类变量之间是否有关系,如:吸烟是否与患肺癌有关?
引例.为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
为探索新知识做准备.
二、探究新知
教师引导:统计学中一般采取什么方式手段研究分析解决问题? 如何运用统计学的方法进行分析判断?
学生探究:
1.利用频率分布表判断;
不患肺癌
患肺癌
总计
不吸烟
99.46%
0.54%
1
吸烟
97.72%
2.28%
1
由患肺癌在吸烟者与不吸烟者中的频率差异可粗略估计吸烟对患肺癌有影响;
利用统计图直观判断
(1) 通过三维柱形图判断两个分类变量是否有关系:
由图中能清晰看出各个频数的相对大小, 由患肺癌在吸烟者与不吸烟者中的相对频数差异可粗略估计吸烟对患肺癌有影响;
(2) 通过二维条形图判断两个分类变量是否有关系:
作出患肺癌在吸烟者与不吸烟者中的的频率条形图
由图中可看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例, 可估计吸烟对患肺癌有影响.
教师引导:上面通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否如此呢?并且能够以多大的把握认为”吸烟与患肺癌有关”?能否用统计学观点进一步考察这个问题.
师生共同探究:
为研究的一般性,在列联表中用字母代替数字
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
师:若假设吸烟与患肺癌两个变量没有关系,则应得到什么结论?
生:在吸烟者中患肺癌的比例约等于不吸烟者中患肺癌的比例,即
a/a+b≈c/c+d a(c+d) ≈ c(a+b) ad -bc ≈ 0
师:若计算ad –bc的结果,由此可以初步得出什么结论?
生:︱ad –bc︱越小,说明吸烟与患肺癌之间关系越弱;
︱ad –bc︱越大,说明吸烟与患肺癌之间关系越强.
师:为使不同的样本容量的数据有统一的评判标准,可构造一个随机变量
其中 为样本容量
若假设成立,应该很小;若很大,说明假设不成立,即两变量有关系. 利用上述公式,可计算出问题中的的观测值为
同学们肯定会提出同一问题:那么这个值是不是很大?怎样才算很大?
在假设成立的情况下,统计学家估算出如下的概率:
现在的观测值56.632远大于6.635,即假设成立的概率为0.01,是小概率事件,也就是假设不合理的程度约为99%,,因此可以下结论:有99%的把握认为“吸烟与患肺癌有关系”。这就是两个分类变量独立性检验的基本思想,可以表述为:当 很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系。
师:类比反证法的原理,你能否总结出独立性检验的基本步骤?
生:(1)假设两个分类变量与无关系;
(2)计算出的观测值;
(3)把k的值与临界值比较确定与有关的程度或无关。
鼓励学生自己寻找研究问题的一般统计学的方法
通过图表的方法,使学生巩固统计学中一般研究问题的基本思路。
利用独立事件同时发生的概率公式启发学生做出假设
采用类比的方法,便于学生理解假设检验的思想
三、形成方法
方法总结:
要推断“X与Y有关系”成立的可能性的方法:
1、通过三维柱形图和二维条形图粗略判断两个分类变量是否有关系, (1) ︱ad -bc︱ (2) a/a+b≈c/c+d
2、利用独立性检验精确判断两个分类变量是否有关系
(1)假设无关 (2)求k值 (3)下结论
培养学生归纳的能力
四、练习巩固
1、在三维柱形图中,主对角线上两个柱形高度的乘积与副对角线上两个柱形高度的乘积相差越大,两个变量有关系的可能性就( A )
A.越大 B.越小 C.无关系 D.无法确定
2、对于2×2列联表,在二维条形图中,两个比例的值相差越大,则
“与有关系”的可能性 越大 。
3、为了调查高中生的数学成绩和物理成绩的关系,在某校随机抽取部分学生做调查,得到下列两份图表
根据以上图表,列出相应的列联表,根据图形回答,数学成绩好坏与物理成绩好坏 关系。
解:列联表如下:
物理好
物理差
合计
数学好
80
120
200
数学差
70
30
100
合计
150
150
300
根据图形,可知数学成绩好坏与物理成绩好坏 有 关系。
巩固知识,培养技能.
五、小结
判断两个分类变量是否有关的方法
1、通过三维柱形图和二维条形图粗略判断两个分类变量是否有关系, (1) ︱ad -bc︱ (2) a/a+b≈c/c+d
2、利用独立性检验精确判断两个分类变量是否有关系
(1)假设无关 (2)求k值 (3)下结论
反思归纳
六、作业
P21 习题1.2 1 , 2
1为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联表:
患病
未患病
总计
服用药
10
45
55
未服用药
20
30
50
总计
30
75
105
请问有多大把握认为药物有效?
2、通过随机询问72名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:
女
男
总计
读营养说明
16
28
44
不读营养说明
20
8
28
总计
36
36
72
请问性别和读营养说明之间在多大程度上有关系?
同步练习与测试:
(基础题)
1、根据下表计算:
不看电视
看电视
男
37
85
女
35
143
计算随机变量的观测值k= 。
解:把表格补充完整
不看电视
看电视
总计
男
37
85
122
女
35
143
178
总计
72
228
300
4.51
2、独立性检验常作的图形是 和 。
答案 :三维柱形图 ,二维条形图
3、两个临界值为3.841与6.635。当时,认为事件A与B是 (填“有关的”或“无关的”);当时,有99%的把握说事件A与B是 (填“有关的”或“无关的”)。
答案:无关的 ,有关的
4、用统计量进行独立性检验时使用的表称为 ,要求表中的四个数据大于 。
答案:列联表 ,5
(中等题)
5、设A为一随机事件,则下列式子中不正确的是()
A. B.
C. D.
答案:选C
6、统计假设成立时,有以下判断:
其中真命题个数是( )
A.1 B.2 C.3 D.4
答案:选C
7、设事件A与B相互独立,则(1)和B相互独立;(2)和A相互独立;(3)和相互独立,其中真命题是( )
A.(1)(2) B.(1)(3) C.(2)(3) D.(1)(2)(3)
答案:选D
§1.2独立性检验的基本思想及其应用(二)
【学情分析】:
在实际的问题中,经常会面临需要推断的问题,比如研制一种新药,需要推断此药是否有效?有人怀疑吸烟的人更容易患肺癌,那么吸烟是否与患肺癌有关呢?等等。在对类似的问题作出推断时,我们不能仅凭主观意愿作出结论,需要通过试验来收集数据,并依据独立性检验的原理作出合理的分析推断.在本节的学习中,通过案例分析,使学生学会用假设检验的思想方法解决对于两个分类变量是否有关系的判断问题,并理解统计思维与确定性思维的差异。
【教学目标】:
(1)知识与技能:
进一步加强阅读三维柱形图和二维条形图的能力;加强理解独立性检验思想,会利用独立性检验方法解决实际问题。
(2)过程与方法:
提供多个案例,让学生能自觉运用独立性检验的思维解决问题。
(3)情感态度与价值观:
通过提供适当的情境资料,吸引学生的注意力,激发学生的学习兴趣;在合作讨论中学会交流与合作,启迪思维,提高创新能力;通过实际问题的解决和从不同角度对问题的解决,可提高学生应用数学能力。
【教学重点】:
理解独立性检验的基本思想及实施步骤,初步应用。
【教学难点】:
(1)了解独立性检验的基本思想;
(2)了解随机变量的含义,太大认为两个分类变量是有关系的。
【课前准备】:
课件
【教学过程设计】:
教学环节
教学活动
设计意图
一、复习巩固
要推断“X与Y有关系”成立的可能性的方法:
1、通过三维柱形图和二维条形图粗略判断两个分类变量是否有关系,
(1) ︱ad -bc︱ (2) a/a+b≈c/c+d
2、利用独立性检验精确判断两个分类变量是否有关系
(1)假设无关 (2)求k值 (3)下结论
二、例题讲解
例1、在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关?你所得的结论在什么
范围内有效?
解:秃顶 与患心脏病列联表
二、例题讲解
患心脏病
患其他病
总计
秃顶
214
175
389
不秃顶
451
597
1048
总计
665
772
1437
相应的三维柱形图入图所示,比较来说,底面副对角线上两个柱体高度的乘积要大一些,因此可以在某种程度上认为“秃顶与患心脏病有关”。
在假设的前提下,
所以有99%的把握认为“秃顶与患心脏病有关”.所得结论只适合住院的病人群体
思考:因为k≈16.373>10.828,所以有99.9%以上的把握认为“秃顶与患心脏病有关”,这和上述结论矛盾吗?
解答:这种说法的推理过程也是正确的,两种说法不矛盾。
例2、为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校
高中生中随机抽取300名学生,得到如下列联表:
喜欢数学课程
不喜欢数学课程
总计
男
37
85
122
女
35
143
178
总计
72
228
300
(1)计算K2的观察值k;(2)在多大程度上可以认为高中生的性别与是否喜
欢数学课程之间有关系?为什么?
解 (1)在假设“性别与是否喜欢数学课程之间没有关系”的前提下,
k≈4.513
(2)在假设的前提下, K2 应该很小,k≈4.513>3.841,
P(K2>3.841) ≈0.05, “性别与是否喜欢数学课程之间有关系”错误的可能性为0.05,即有95%的把握认为“性别与是否喜欢数学课程之间没有关系”.
由所给数据得到2X2列联表,由此复习列联表的制作方法
第二问主要复习样本的代表性。
在熟悉解列联表检验的基本原理后,可以通过直接计算K2的值(不画图)来解决独立性问题
解题中突出强调K2的含义。
三、练习巩固
1、为了研究患支气管炎与吸烟的关系,共调查了228人的日吸烟量调查结果如下:
日吸烟10~19支
日吸烟20~40
合计
患者
98
25
123
非患者
89
16
105
合计
187
41
228
试问患支气管炎是否与吸烟有关?
三、练习巩固
解:由公式知
由于,我们没有理由认为患支气管炎与吸烟有关。
2、在500人身上实验某种血清预防感冒的作用,把记录与500个未用血清的人作比较,结果如下表所示:
未感冒
感冒
合计
试验过
252
248
500
未用过
224
276
500
合计
476
524
1000
作出二维条形图,通过图形判断这种血清是否能够起到预防感冒的作用,并进行独立性检验。
解:(二维条形图略)由公式得
从条形图看,这种血清对预防感冒有作用,由于,我们有90%的把握认为起作用。
3、甲乙两个班进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得出班级与成绩列联表:
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
画出列联表的条形图,并通过图形判断成绩与班级是否有关,利用列联表的独立性检验估计,认为“成绩是否优秀与班级有关系”犯错误的概率是多少?
解:(图略)由图及表直观判断好象“成绩与班级有关系”
因为,
从而有50%的把握认为“成绩是否优秀与班级有关系”,即断言“成绩是否优秀
与班级有关系”犯错误的概率为0.5。
五、小结
独立性检验是一种假设检验,在对总体的估计中,通过抽取样本构造合适的统
计量,对假设的正确性进行判断。
六、作业
1、收集班上所有学生的身高的数据,构造一个关于每一个学生的性别与其身高是否高于(或低于)中位数的列联表,推断性别与身高在多大程度上有关系?
2、在报纸、杂志、互联网找一个抽样调查报告,构造一个2×2列联表,并讨
论调查中的两个分类变量之间在多大程度上相关。
同步练习:
(基础题)
1、在研究某种新措施对猪白痢的防治效果问题时,得到了以下数据:
存活数
死亡数
合计
新措施
132
18
150
对照
114
36
150
合计
246
54
300
试问新措施对猪白痢的防治效果如何?
解:由公式得:,由于7.3176.635,所以我们有99%的把握认为新措施对猪白痢的防治是有效的。
2、调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表,试问能以多大的把握认为婴儿的性别与出生时间有关系。
晚上
白天
合计
男婴
24
31
55
女婴
8
26
34
合计
32
57
89
解:由公式得:,所以没有充分的证据显示婴儿的性别与出生时间有关。
3、为了解决初二平面几何入门难的问题,某校在初中一年级代数教学中加强概念和推理教学,并设有对照班,下列是初中二年级平面几何期中测验成绩统计表的一部分,试分析研究实验结果。
70及70分以下
70分以上
合计
实验班
32
18
50
对照班
12
38
50
合计
44
56
100
解:由公式得:,所以有99.9 %的把握认为在初中一年级代数教学中加强概念和推理教学,与初中二年级平面几何期中测验成绩有关。
4、下列表格是两种教法实验的成绩对比统计,试分析两种教法的效果。
及格
不及格
合计
掌握教学法
36
8
44
常规教学法
40
16
56
合计
76
24
100
解:由公式得:,所以这两种教学方法对学生成绩的效果是相互独立的。
5、为了确定居民的头发颜色与居地的依赖关系,分别在两个地区A、B调查了两组人群,其结果如下表:
棕黄色、黑色
浅色
合计
A
24
6
30
B
32
38
70
合计
56
44
100
由调查得到的结果,能否证实居民的发色与他们的居地有关?
解:由公式得:,所以有99 %的把握认为居民的发色与他们的居地有关。
6、研究某特殊药物有无副作用(比如恶心),给50个患者服用此药,给另外50个患者服用安慰剂,记录每类样本中出现恶心的数目如下表,试问此药有无恶心副作用?
有恶心
无恶心
合计
给此药
15
35
50
给安慰剂
4
46
50
合计
19
81
100
解:由公式得:,所以有99 %的把握认为此药有恶心副作用。
7、调查发现,在300名吸烟者和1200名不吸烟者中,都有6个人患了肺癌,则根据这项调查,可以有多大的把握认为“吸烟与患肺癌有关”? ( )
A、99% B、95% C、90% D、没有充分证据显示吸烟与患肺癌有关
答案:选A
课件22张PPT。1.2 独立性检验的基本思想及其初步应用教学目标 1理解独立性检验的基本思想
2、会从列联表、柱形图、条形图直观判断吸烟与患肺癌有关。
3、了解随机变量K2的含义。
理解独立性检验的基本思想及实施步骤。
教学重点:理解独立性检验的基本思想。独立性检验的步骤。
教学难点;1、理解独立性检验的基本思想;2、了解随机变量K2的含义;独立性检验的步骤。 看到这个课题,你能想到什么?案 例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人。调查结果:吸烟的220人中有37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中有21人患病,274人未患病。根据这些数据,能否断定:患呼吸道疾病与吸烟有关?数据整理372158183274457220295515问题:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?频率估计概率通过图形直观判断不患病
比例患病
比例解决问题:直观方法你能有多大把握认为“患病与吸烟有关”呢? 有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的。笛卡儿能否用数量来刻画“有关”程度不吸烟但患病的人数约为n ? ?不吸烟也不患病的人数约为n ? ?怎样估计实际观测值与理论估计值的误差?采用如下的量(称为K2 统计量)来刻画这个差异:+++化简得K 2统计量K2 =11.8634解决问题的思路思路:反证法思想
(1)假设:H0:患病与吸烟无关
即 P(A)P(B)= P(AB)
(2)在 H0成立的条件下进行推理
(3)如果实际观测值与由(2)推出的值相差不大,则可以认为这些差异是由随机误差造成的,假设H0不能被否定;否则,假设H0不能被接受反证法原理与假设检验原理反证法原理: 在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。假设检验原理:在一个已知假设下,如果推出一个小概率事件发生,则推断这个假设不成立的可能性很大。一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类
取值,即类A和B(如吸烟与不吸烟);Ⅱ也有两类
取值,即类1和2(如患病与不患病)。于是得到
下列联表所示的抽样数据:要推断“Ⅰ和Ⅱ有关系”,可按下面的步骤进行:(1)提出假设H0 :Ⅰ和Ⅱ没有关系;(3)查对临界值,作出判断。(2)根据2× 2列联表与公式计算 的值; 由于抽样的随机性,由样本得到的推断
有可能正确,也有可能错误。利用 进行独
立性检验,可以对推断的正确性的概率作出
估计,样本量n越大,估计越准确。卡方临界值表:则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(1)若观测值K2>10.828.(3)若观测值K2>2.706,(4)若观测值K2<2.706,(2)若观测值K2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;则有90%的把握认为“Ⅰ与Ⅱ有关系”;则没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即Ⅰ与Ⅱ没有关系。题型一 有关“相关的检验”
【例1】 某校对学生课外活动进行调查,结果整理成下表:
试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?例2:为研究不同的给药方式(口服与注射)和药的效果(有效和无效)是否有关,进行了相应的抽样调查,调查的结果列在下表中,根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?解:提出假设
H0:药的效果与给药方式无关系。
根据列联表中的数据可以求出:当H0成立时, 的概率大于10%,这个概率比较大,所以根据目前的调查数据,不能否定假设H0,即不能作出药的效果与给药方式有关的结论。课件54张PPT。1.2
独立性检验的基本思想及其初步应用【自主预习】
1.分类变量和列联表
(1)分类变量
变量的不同“值”表示个体所属的_________,像这样
的变量称为分类变量.不同类别(2)列联表
①定义:列出的两个分类变量的_______称为列联表.
②2×2列联表:
一般地,假设有两个分类变量X和Y,它们的取值分别
为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2
列联表)为频数表2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分
类变量间是否_________,常用等高条形图展示列联表
数据的_________.
(2)如果直接观察等高条形图发现______和______相
差很大,就判断两个分类变量之间有关系.相互影响频率特征3.独立性检验a+b+c+d临界值k0观测值kk≥k0犯错误的概率没有发现足够证据【即时小测】
1.下列变量中不属于分类变量的是( )
A.性别 B.吸烟
C.宗教信仰 D.职业
【解析】选B.“吸烟”不是分类变量.“是否吸烟”才是分类变量.2.下面是2×2列联表.则表中a,b处的值应为( )
A.33,66 B.25,50
C.32,67 D.43,56
【解析】选A.由2×2列联表知a+13=46,所以a=33,
又b=a+33,所以b=33+33=66.3.如果在犯错误的概率不超过0.05的前提下认为事件A和B有关,那么具体算出的数据满足( )
A.K2>3.841 B.K2<3.841
C.K2>6.635 D.K2<6.635【解析】选A.根据独立性检验的临界值及其与K2大小关系的意义可知,在犯错误的概率不超过0.05的前提下认为事件A和B有关时,统计量K2>3.841.【知识探究】
探究点1 2×2列联表
1.2×2列联表中研究的变量是什么变量?
提示:分类变量.
2.2×2列联表中{x1,x2},{y1,y2}的意义是什么?
提示:{x1,x2},{y1,y2}表示分类变量x,y的取值.【归纳总结】
1.对“分类变量”的三点说明
(1)这里的“变量”和“值”都应作为“广义”的变量和值进行理解.例如,对于性别变量,其取值为男和女两种.这里的变量指的是性别,同样这里的“值”指的是“男”和“女”.因此,这里所说的“变量”和“值”不一定取的是具体的数值.(2)分类变量是大量存在的.例如,是否吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.
(3)注意区分分类变量与定量变量的不同.如身高、体重、考试成绩等就是定量变量,它们的取值一定是实数,并且取值大小有特定的含义.2.2×2列联表
(1)2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.
(2)表中|ad-bc|越小,两个变量之间的关系越弱;|ad-bc|越大,两个变量之间的关系越强.特别提醒:判断两个分类变量相关关系强弱也可通过
比较 与 之间的差的大小来判断,差越大,
相关关系越强.探究点2 K2统计量
1.K2≥6.635是指在犯错误的概率不超过多少的前提下认为两个分类变量有关系?
提示:0.010.2.当K2≥3.841时,认为“X与Y有关系”而犯错误的概率有多大?
提示:不超过0.05.【归纳总结】
独立性检验的关注点
(1)使用K2统计量作独立性检验时,2×2列联表中的数据a,b,c,d都要大于5.(2)独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量K2应该很小.如果由观测数据计算得到的K2值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的关系作出判断.类型一 等高条形图与2×2列联表
【典例】1.下列关于等高条形图的叙述正确的是( )
A.从等高条形图中可以精确地判断两个分类变量是否
有关系
B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图中可以粗略地看出两个分类变量是否有关系
D.以上说法都不对2.在2×2列联表中,两个比值________相差越大,两个分类变量之间的关系越强.( )3.为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?【解题探究】
1.典例1中利用等高条形图可以比较两个变量的什么大小关系?
提示:利用等高条形图可以比较两个变量频率的大小关系.2.典例2中,研究两个分类变量的关系,应着重研究
哪些量?
提示:应着重研究 与 或者 与 .
3.典例3中要画出等高条形图应先计算哪些量?
提示:铅中毒病人和对照组样本中尿棕色素为阳性
的频率.【解析】1.选C.在等高条形图中仅能粗略判断两个分
类变量的关系,故A错.在等高条形图中仅能找出频
率,无法找出频数,故B错.
2.选A. 与 相差越大,说明ad与bc相差越
大,两个分类变量之间的关系越强.3.等高条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.【方法技巧】
1.判断两个分类变量是否有关系的方法
(1)利用数形结合思想,借助等高条形图来判断两个分
类变量是否相关是判断变量相关的常见方法.
(2)在等高条形图中, 与 相差越大,两个分类
变量有关系的可能性就越大.2.利用等高条形图判断两个分类变量是否相关的步骤【变式训练】从发生交通事故的司机中抽取2000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:试分析血液中含有酒精与对事故负有责任是否有关系.【解析】作等高条形图如下,
图中阴影部分表示有酒精负责
任与无酒精负责任的比例,从
图中可以看出,两者差距较大,
由此我们可以在某种程度上认
为“血液中含有酒精与对事故负有责任”有关系.类型二 K2独立性检验
【典例】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?【解题探究】本例中“犯错误的概率不超过0.1”对应的K2值应满足什么?
提示:“犯错误的概率不超过0.1”对应的K2值应满足K2≥2.706.【解析】根据题目所给的数据得到如下列联表:根据列联表中数据由公式计算得
k= ≈1.871×10-4.
因为1.871×10-4<2.706,
所以,在犯错误的概率不超过0.1的前提下,不能认
为“学生选报文、理科与对外语的兴趣有关”.【延伸探究】1.把本例条件“理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.”换成“理科对外语有兴趣的有100人,无兴趣的有136人,文科对外语有兴趣的有93人,无兴趣的有32人.”其他条件不变,再求解该问题.【解析】根据题目所给的数据得到如下列联表:根据列联表中数据由公式计算得
k= ≈33.690.
因为33.690>2.706,
所以,在犯错误的概率不超过0.1的前提下,可以认
为“学生选报文、理科与对外语的兴趣有关”.2.在上述探究中能否在犯错误的概率不超过0.001的前提下,认为“学生选报文、理科与对外语的兴趣有关”?
【解析】由上述探究可知k=33.690>10.828,故在犯错误的概率不超过0.001的前提下,可以认为“学生选报文、理科与对外语的兴趣有关”.【方法技巧】反证法与独立性检验的关系易错警示:当K2的观测值k≥k0时,是指“在犯错误的概率不超过α的前提下推出“X与Y有关系”,而不是“X与Y有关系的概率为α”.【补偿训练】某学校对学生的课外活动进行调查,结果如表:试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为学生喜欢课外活动的类型与性别有关?【解析】由表中数据可知K2的观测值
因为P(K2≥7.879)≈0.005且8.106>7.879.
所以在犯错误的概率不超过0.005的前提下,可以认为
学生喜欢课外活动的类型与性别有关系.自我纠错 判断两个分类变量的相关程度
【典例】在某项研究吸烟与患肺癌的关系的调查中,
共调查了10000人,经计算得K2的观测值k=62.98,根
据这一数据分析,在犯错误的概率超过_______的前
提下认为“吸烟与患肺癌没有关系”.(P(K2≥10.828)
≈0.001).【失误案例】分析解题过程,找出错误之处,并写出正确答案.
提示:错误的根本原因是审题错误,由题意可知,我们认为“吸烟与患肺癌有关系”,这种判断出错的可能性是0.001.因此,我们认为“吸烟与患肺癌没有关系”,这种判断出错的可能性是0.999.正确解答过程如下:【解析】由P(K2≥10.828)≈0.001知在犯错误的概率不超过0.001的前提下认为“吸烟与患肺癌有关系”.因此在犯错误的概率超过0.999的前提下认为“吸烟与患肺癌没有关系”.
答案:0.999§1.2 回归分析
第一课时
一、基础过关
1.下列变量之间的关系是函数关系的是 ( )
A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac
B.光照时间和果树亩产量
C.降雪量和交通事故发生率
D.每亩施用肥料量和粮食产量
2.在以下四个散点图中,
其中适用于作线性回归的散点图为 ( )
A.①② B.①③ C.②③ D.③④
3.已知对一组观察值(xi,yi)作出散点图后确定具有线性相关关系,若对于 = x+ ,求得 =0.51,=61.75,=38.14,则回归直线方程为 ( )
A. =0.51x+6.65 B. =6.65x+0.51
C. =0.51x+42.30 D. =42.30x+0.51
4.对于回归分析,下列说法错误的是 ( )
A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果r2=1,说明x与y之间完全相关
D.样本相关系数r∈(-1,1)
5.下表是x和y之间的一组数据,则y关于x的回归方程必过 ( )
x
1
2
3
4
y
1
3
5
7
A.点(2,3) B.点(1.5,4)
C.点(2.5,4) D.点(2.5,5)
6.如图是x和y的一组样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关系数最大.
二、能力提升
7.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是 ,纵轴上的截距是 ,那么必有 ( )
A. 与r的符号相同 B. 与r的符号相同
C. 与r的符号相反 D. 与r的符号相反
8.某医院用光电比色计检验尿汞时,得尿汞含量(mg/L)与消光系数计数的结果如下:
尿汞含量x
2
4
6
8
10
消光系数y
64
138
205
285
360
若y与x具有线性相关关系,则回归直线方程是__________________.
9.若施化肥量x(kg)与小麦产量y(kg)之间的回归直线方程为 =250+4x,当施化肥量为50 kg时,预计小麦产量为________ kg.
10.某车间为了规定工时定额,需确定加工零件所花费的时间,为此做了4次试验,得到的数据如下:
零件的个数x/个
2
3
4
5
加工的时间y/小时
2.5
3
4
4.5
若加工时间y与零件个数x之间有较好的相关关系.
(1)求加工时间与零件个数的回归直线方程;
(2)试预报加工10个零件需要的时间.
11.假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:
x
2
3
4
5
6
y
2.2
3.8
5.5
6.5
7.0
已知=90,=140.8,iyi=112.3,≈8.9,≈1.4,n-2=3时,r0.05=0.878.
(1)求,;
(2)对x,y进行线性相关性检验;
(3)如果x与y具有线性相关关系,求出回归直线方程;
(4)估计使用年限为10年时,维修费用约是多少?
三、探究与拓展
12.某运动员训练次数与运动成绩之间的数据关系如下:
次数(x)
30
33
35
37
39
44
46
50
成绩(y)
30
34
37
39
42
46
48
51
(1)作出散点图;
(2)求出回归直线方程;
(3)计算相关系数r,并进行相关性检验;
(4)试预测该运动员训练47次及55次的成绩.
答案
1.A 2.B 3.A 4.D 5.C 6.D(3,10) 7.A
8. =-11.3+36.95x
解析 由已知表格中的数据,利用科学计算器进行计算得
=6,=210.4,x=220,
xiyi=7 790,
所以 ==36.95,
=- =-11.3.
所以回归直线方程为 =-11.3+36.95x.
9.450
10.解 (1)由表中数据及科学计算器得=3.5,=3.5,xiyi=52.5,x=54,
故 ==0.7,
=- =1.05,
因此,所求的回归直线方程为 =0.7x+1.05.
(2)将x=10代入回归直线方程,得 =0.7×10+1.05=8.05(小时),即加工10个零件的预报时间为8.05小时.
11.解 (1)==4,
==5.
(2)步骤如下:
①作统计假设:x与y不具有线性相关关系;
②iyi-5 =112.3-5×4×5=12.3,
-52=90-5×42=10,
-52=140.8-125=15.8,
所以r===
≈≈0.987;
③|r|=0.987>0.878,即|r|>r0.05,
所以有95%的把握认为x与y之间具有线性相关关系,去求回归直线方程是有意义的.
(3) =
==1.23.
=- =5-1.23×4=0.08.
所以回归直线方程为 =1.23x+0.08.
(4)当x=10时, =1.23×10+0.08=12.38(万元),
即估计使用年限为10年时,维修费用为12.38万元.
12.解 (1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如下图所示,由散点图可知,它们之间具有线性相关关系.
(2)列表计算:
次数xi
成绩yi
x2i
y2i
xiyi
30
30
900
900
900
33
34
1 089
1 156
1 122
35
37
1 225
1 369
1 295
37
39
1 369
1 521
1 443
39
42
1 521
1 764
1 638
44
46
1 936
2 116
2 024
46
48
2 116
2 304
2 208
50
51
2 500
2 601
2 550
由上表可求得=39.25,=40.875,
x2i=12 656,
y2i=13 731,xiyi=13 180,
∴ =≈1.041 5,
=- =-0.003 88,
∴回归直线方程为 =1.041 5x-0.003 88.
(3)计算相关系数r=0.992 7>r0.05=0.707,因此有95%的把握认为运动员的成绩和训练次数有关.
(4)由上述分析可知,我们可用回归直线方程 =1.041 5x-0.003 88作为该运动员成绩的预报值.
将x=47和x=55分别代入该方程可得y=49和y=57.故预测该运动员训练47次和55次的成绩分别为49和57.
§1.2 回归分析
第二课时
一、基础过关
1.某商品销售量y(件)与销售价格x(元/件)成线性相关关系,且r<0,则其回归方程可能是
( )
A. =-10x+200 B. =10x+200
C. =-10x-200 D. =10x-200
2.在回归直线方程 = + x中,回归系数 表示 ( )
A.当x=0时,y的平均值
B.x变动一个单位时,y的实际变动量
C.y变动一个单位时,x的平均变动量
D.x变动一个单位时,y的平均变动量
3.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1,或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上. ( )
A.①② B.②③
C.①③ D.①②③
4.每一吨铸铁成本yc(元)与铸件废品率x%建立的回归直线方程yc=56+8x,下列说法正确的是 ( )
A.废品率每增加1%,成本每吨增加64元
B.废品率每增加1%,成本每吨增加8%
C.废品率每增加1%,成本每吨增加8元
D.如果废品率增加1%,则每吨成本为56元
5.为了考察两个变量x和y之间的线性相关性,甲、乙两个同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知在两个人的试验中发现对变量x的观测数据的平均值恰好相等,都为s,对变量y的观测数据的平均值也恰好相等,都为t.那么下列说法正确的是 ( )
A.直线l1和l2有交点(s,t)
B.直线l1和l2相交,但是交点未必是点(s,t)
C.直线l1和l2由于斜率相等,所以必定平行
D.直线l1和l2必定重合
二、能力提升
6.研究人员对10个家庭的儿童问题行为程度(x)及其母亲的不耐心程度(Y)进行了评价结果如下,家庭1,2,3,4,5,6,7,8,9,10,儿童得分:72,40,52,87,39,95,12,64,49,46,母亲得分:79,62,53,89,81,90,10,82,78,70.
下列哪个方程可以较恰当的拟合 ( )
A. =0.771 1x+26.528
B. =36.958ln x-74.604
C. =1.177 8x1.014 5
D. =20.924e0.019 3x
7.已知x,y之间的一组数据如下表:
x
1.08
1.12
1.19
1.25
y
2.25
2.37
2.43
2.55
则y与x之间的回归直线方程 = x+ 必过点___________________________.
8.已知回归直线方程为 =0.50x-0.81,则x=25时,y的估计值为________.
9.关于回归分析,下列说法错误的是__________.(填序号)
①在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一
确定;
②散点图反映变量间的线性相关关系,误差较大;
③散点图能明确反映变量间的关系.
10.在彩色显影中,由经验知:形成染料光学密度y与析出银的光学密度x由公式y=Ae (b<0)表示.现测得试验数据如下:
xi
0.05
0.06
0.25
0.31
0.07
0.10
yi
0.10
0.14
1.00
1.12
0.23
0.37
xi
0.38
0.43
0.14
0.20
0.47
yi
1.19
1.25
0.59
0.79
1.29
试求y对x的回归方程.
11.为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下:
天数x/天
1
2
3
4
5
6
繁殖个数y/个
6
12
25
49
95
190
(1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;
(2)描述解释变量x与预报变量y之间的关系.
三、探究与拓展
12.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数,并作出相关性检验.
年份
1949
1954
1959
1964
1969
1974
1979
1984
1989
1994
1999
人口数/百万
542
603
672
705
807
909
975
1 035
1 107
1 177
1 246
答案
1.A 2.D 3.C 4.C 5.A 6.B
7.(1.16,2.4) 8.11.69 9.③
10.解 由题给的经验公式y=Ae,两边取自然对数,便得ln y=ln A+,与回归直线方程相对照,只要取u=,v=ln y,a=ln A.就有v=a+bu.
题给数据经变量置换u=,v=ln y变成如下表所示的数据:
ui
20.000
16.667
4.000
3.226
14.286
10.000
vi
-2.303
-1.966
0
0.113
-1.470
-0.994
ui
2.632
2.326
7.143
5.000
2.128
vi
0.174
0.223
-0.528
-0.236
0.255
可得ln =0.548-,即 =e0.548-=e0.548·e-≈1.73e-,
这就是y对x的回归方程.
11.解 (1)所作散点图如图所示.
(2)由散点图看出样本点分布在一条指数型函数y=c1ec2x的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算器得: =0.69x+1.115,
则有 =e0.69x+1.115.
12.解 为了简化数据,先将年份减去1949,得到下表:
x
0
5
10
15
20
25
30
35
40
45
50
y
542
603
672
705
807
909
975
1 035
1 107
1 177
1 246
作出散点图如图,根据公式可得回归直线方程为 =527.591+14.453x.
由于2004对应的x=55,代入回归直线方程可得 =1 322.506(百万),即2004年的人口总数估计为13.23亿.
下面对其进行线性相关性检验:
(1)作统计假设H0∶x与y不具有线性相关;
(2)由0.01与n-2=9的附表中查得r0.01=0.735;
(3)根据公式得相关系数r=0.998;
(4)因为|r|=0.998>0.735,即|r|>r0.01,
所以有99%的把握认为x与y之间具有线性相关关系,回归直线方程为 =527.591+14.453x,用这个方程去估计我国2004年的人口数是有意义的.
第一章 统计案例
§1.1 独立性检验
一、基础过关
1.下面是一个2×2列联表:
y1
y2
总计
x1
a
21
73
x2
8
25
33
总计
b
46
则表中a、b处的值分别为 ( )
A.94、96 B.52、50 C.52、60 D.54、52
2.在2×2列联表中,四个变量的取值n11,n12,n21,n22应是 ( )
A.任意实数 B.正整数
C.不小于5的整数 D.非负整数
3.如果有99%的把握认为“x与y有关系”,那么χ2满足 ( )
A.χ2>6.635 B.χ2≥5.024
C.χ2≥7.879 D.χ2>3.841
4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是 ( )
A.若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病
B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病
C.若从χ2统计量中得出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
5.某高校“统计初步”课程的教师随机调查了一些学生,具体数据如下表所示,为了判断选修统计专业是否与性别有关系,根据表中数据,得到χ2=≈4.844,因为4.844>3.841.所以选修统计专业与性别有关系,那么这种判断出错的可能性为________.
没选统计专业
选统计专业
男
13
10
女
7
20
二、能力提升
6.在2×2列联表中,两个分类变量有关系的可能性越大,相差越大的两个比值为( )
A.与 B.与
C.与 D.与
7.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算得χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关、无关).
8.在使用独立性检验时,下列说法正确的个数为______.
①对事件A与B的检验无关时,两个事件互不影响;②事件A与B关系越密切,则χ2就越大;③χ2的大小是判定事件A与B是否相关的唯一根据;④若判定两事件A与B有关,则A发生B一定发生.
9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:
无效
有效
合计
男性患者
15
35
50
女性患者
6
44
50
合计
21
79
100
计算χ2≈______,从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为______.
10.某县对在职的71名高中数学教师就支持新的数学教材还是支持旧的数学教材做了调查,结果如下表所示:
支持新教材
支持旧教材
合计
教龄在15年以上的教师
12
25
37
教龄在15年以下的教师
10
24
34
合计
22
49
71
根据此资料,你是否认为教龄的长短与支持新的数学教材有关?
11.在一次天气恶劣的飞行航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判定:在天气恶劣的飞行航程中,男乘客是否比女乘客更容易晕机?
12.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.
(1)根据以上数据建立一个2×2列联表;
(2)判断性别与休闲方式是否有关系.
三、探究与拓展
13.某教育机构为了研究人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取了392名成年人进行调查,所得数据如下表所示:
积极支持教育改革
不太赞成教育改革
合计
大学专科以上学历
39
157
196
大学专科以下学历
29
167
196
合计
68
324
392
对于教育机构的研究项目,根据上述数据能得出什么结论?
答案
1.C 2.C 3.A 4.C 5.5% 6.A 7.有关 8.1 9.4.882 5%
10.解 由公式得
χ2=
=
≈0.08.
∵χ2<3.841.
∴我们没有理由说教龄的长短与支持新的数学教材有关.
11.解 根据题意,列出2×2列联表如下:
晕机
不晕机
合计
男乘客
24
31
55
女乘客
8
26
34
合计
32
57
89
由公式可得
χ2=≈3.689<3.841,
故我们没有理由认为“在天气恶劣的飞行航程中,男乘客比女乘客更容易晕机”.
12.解 (1)列联表如下:
休闲方式
性别
看电视
运动
合计
女
43
27
70
男
21
33
54
合计
64
60
124
(2)χ2=≈6.201,
∵χ2>3.841且χ2<6.635.
∴有95%的把握认为性别与休闲方式有关.
13.解 χ2=≈1.78.
因为1.78<3.841,所以我们没有理由说人具有大学专科以上学历(包括大学专科)和对待教育改革态度有关.