2.3.3实习作业
教学目标:会用随机抽样的基本方法和样本估 ( http: / / www.21cnjy.com )计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。
教学重点:会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。
教学过程:
1.课本86页案例设计一个题目
2.尝试解决下面的问题。
(1)下面是关于吸烟情况的20个国家的统计数字,其中第一行是国名,第二行是男性吸烟成员的百分数,第三行是女性吸烟成员的百分数。
韩国 拉脱维亚 俄罗斯 多米尼加 汤加 土耳其 中国 泰国 斐济 日本
68.2 67.0 67.0 66.3 65.0 63.0 61.0 60.0 59.3 59.0
6.3 12.0 30.0 13.6 14.0 24.0 7.0 15.0 30.6 14.8
美国 巴基斯坦 芬兰 土库曼 尼日利亚 巴拉圭 巴林 新西兰 瑞典 巴哈马
28.1 27.4 27.0 26.6 24.4 24.1 24.0 24.0 20.0 19.3
23.5 4.4 19.0 1.5 6.7 5.5 6.0 22.0 24.0 3.8
根据以上数据,试研究这些国家吸烟状况的类似程度。
问题(1)的分析:
要根据数据研究这些国家吸烟状况的类似程度, ( http: / / www.21cnjy.com )我们可以仅讨论男性的吸烟情况,首先确定一个划分类似的标准,不妨取1%,即当两个国家男性吸烟人数百分比之差小于1%时,将这两个国家称为类似的.则可分成下面九组:
(1)韩国;( 2)拉脱维亚,俄罗斯和多米尼加;(3)汤加;(4)土耳其;(5)中国,泰国,斐济和日本;(6)美国;(7)巴基斯坦,芬兰和土库曼;(8)尼日利亚,巴拉圭,巴林和新西兰;(9)瑞典和巴哈马。对于女性吸烟的情况也可做类似的分析。
如果我们要整体地讨论吸烟情况,我们应当怎样做呢?一个直接的想法就是考虑下面的平面图:以女性吸烟者的百分数为横轴,男性吸烟者的百分数为纵轴。(如下图所示)
从图中可以看出,基本上分成下面四组:(1)巴哈马,巴基斯坦,巴拉圭,巴林,尼日利亚和土库曼斯坦;(2)芬兰,新西兰,瑞典和美国;(3)中国,日本,泰国,韩国,拉脱维亚,多米尼加和汤加;(4)土耳其,斐济和俄罗斯。
这个过程叫做聚类分析,它的基本思想是:
在一批样本数据中,定义能度量样本数据或类别间相近程度的统计量,在此基础上计算出个样本数据或类别之间的相近程度度量值;再按相近程度的大小,把样本逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚集到一个大的分类单位,直到所有的样本数据都聚集完毕;最后把不同的类别一一划分出来,形成一个关系密疏图,并用以直观地显示分类对象的差异和联系。
上例向我们展示了对数据进行的聚类分析的过程, 一般来说,进行聚类分析需要解决两个问题:一是如何确定度量两个数据的接近程度的方法;二是究竟分成多少类合适。这两个问题都需要根据实际问题的背景和数据本身的意义来确定。统计上对此提出了一套程序化的方法:
(1)选择一种确定接近程度的方法,最直接的就是点之间的距离,我们上面的分析即是基于此;(不同的方法将得到不同的分类结果)
(2)设要分类的对象有n个;我们以这n个对 ( http: / / www.21cnjy.com )象分成n类开始,按所选择的方法确定这n个对象两两的接近程度度量值,将最接近的两个对象合并为一类,如此我们得到了至多n-1类;
(3)确定类与类之间接近程度的方法;
(4)对n-1类重复步骤(2),如此下去到完全归为一类止。至于究竟分成多少类合适,需要分析者根据所讨论的问题来决定。在实际问题中,往往需要对几种分类方案进行比较后,再加以选择。
(2)为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50位患者服用安慰剂,得到下列实验数据:
副作用药物 有 无 合计
新药 15 35 50
安慰剂 4 46 50
合计 19 81 100
请问服用新药是否可产生副作用?
问题 (2)的分析:
假定服用新药与产生副作用没 ( http: / / www.21cnjy.com )有关联.那么,首先要给“没有关联”下一个“能够操作”的定义。根据直观的经验,在服用新药与产生副作用的情形下,这个定义可以是这样的:如果服用新药与产生副作用没有关联,就意味着,无论服用新药与否,产生副作用的概率都是一样的。就此例题而言:
二者相差较大。由此可以推断,开始的假设是不成立的。也就是说,服用新药与产生副作用是有关联的。
由统计的常识知道,要求等号成立是非常苛刻的条件,实际上一般也是办不到的,我们所能追求的是在概率意义下的可靠性。对于上面的独立性问题,类比在聚类分析讨论中的想法,我们应当寻找一个适当的统计量,用它的大小来说明独立性是否成立。在统计中,我们引入下面的量
副作用B 药物A 有副作用B1 无副作用B2 合计
新药A1
安慰剂A2
合计
在前面的例子中
a=15,b=35,c=4,d=46。注意到独立性要求:
P(全体生实验者产生副作用)=P(服用新药产生副作用)
即
这等价于
因此,可以用的大小来衡量独立性的好坏。
问题:
(1)用+++
是不是更好些?
(2)用比用合理,你认为有道理吗?
(3)为了得到统计量的近似的分布,统计学家最终选用了:
Q2=
用它的大小来衡量独立性的大小,你能把它化简得到下式吗?
从上面的表达式可以直观地看出:的值越小,事件A与B之间的独立性将会越大(当的值为0时,事件A与B完全独立)。通过有关统计量分布的计算可知:当时,事件A与B在概率为95%的意义下是相关的;当时,事件A与B在概率为99%的意义下是相关的。
我们来算一算本题中的值:
于是得出结论:在概率为99%的意义下,服用新药与产生副作用是相关联的。从数据可以进一步看出,服用新药更容易产生副作用。
上述过程在统计推断叫做独立性检验,它的基本思想是:
如何选用一个标准,用它来衡量事件之间的独立性是否成立。
在独立性检验中,我们要特别关注方法的直观及合理性。