9.1.2分层随机抽样(23张PPT)

文档属性

名称 9.1.2分层随机抽样(23张PPT)
格式 ppt
文件大小 3.0MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2021-05-07 08:43:21

图片预览

文档简介

(共23张PPT)
09人教A版 必修二
7.1复数的概念
9. 1 随机抽样
9.1.2 分层随机抽样
抽样调查最核心的问题是样本的代表性.简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本.例如,在对树人中学高一年级学生身高的调查中,可能出现样本中50个个体大部分来自高个子或矮个子的情形.这种“极端”样本的平均数会大幅度地偏离总体平均数,从而使得估计出现较大的误差.
能否利用总体中的一些额外信息对抽样方法进行改进呢
问题3 在树人中学高一年级的712名学生中,男生有326名、女生有386名.能否利用这个辅助信息改进简单随机抽样方法,减少“极端”样本的出现,从而提高对整个年级平均身高的估计效果呢?
我们知道,影响身高的因素有很多,性别是其中的一个主要因素.高中男生的身高普遍高于女生的身高,而相同性别的身高差异相对较小.我们可以利用性别和身高的这种关系,把高一年级学生分成男生和女生两个身高有明显差异的群体,对两个群体分别进行简单随机抽样,然后汇总作为总体的一个样本.由于在男生和女生两个群体中都抽取了相应的个体,这样就能有效地避免“极端”样本.
思考
对男生、女生分别进行简单随机抽样,样本量在男生、女生中应如何分配
自然地,为了使样本的结构与总体的分布相近,人数多的群体应多抽一些,人数少的群体应少抽一些.因此,按男生、女生在全体学生中所占的比例进行分配是一种比较合理的方式,即
这样无论是男生还是女生,每个学生抽到的概率都相等.当总样本量为50时,可以计算出从男生、女生中分别应抽取的人数为
我们按上述方法抽取了一个容量为50的样本,其观测数据(单位:cm)如下:
男生
173.0 174.0 166.0 172.0 170.0 165.0 165.0 168.0 164.0 173.0
172.0 173.0 175.0 168.0 170.0 172.0 176.0 175.0 168.0 173.0
167.0 170.0 175.0
女生
163.0 164.0 161.0 157.0 162.0 165.0 158.0 155.0 164.0 162.5
154.0 154.0 164.0 149.0 159.0 151.0 170.0 171.0 155.0 148.0
172.0 162.5 158.0 155.5 157.0 163.0 172.0
通过计算,得出男生和女生身高的样本平均数分别为170.6,160.6.根据男生、女生身高的样本平均数以及他们各自的人数,可以估计总体平均数为
即估计树人中学高一年级学生的平均身高在165.2cm左右.
上面我们按性别变量,把高一学生划分为男生、女生两个身高差异较小的子总体分别进行抽样,进而得到总体的估计.一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样(stratified random sampling),每一个子总体称为层.在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
探究
与考察简单随机抽样估计效果类似,小明也想通过多次抽样考察一下分层随机抽样的估计效果.他用比例分配的分层随机抽样方法,从高一年级的学生中抽取了10个样本量为50的样本,计算出样本平均数如表9.1-2所示.与上一小节“探究”中相同样本量的简单随机抽样的结果比较,小明有了一个重要的发现.你是否也有所发现
抽样序号
1 2 3 4 5 6 7 8 9 10
男生样本的平均数 170.0 170.7 169.8 171.7 172.7 171.9 171.6 170.6 172.6 170.9
女生样本的平均数 162.2 160.3 159.7 158.1 161.1 158.4 159.7 160.0 160.6 160.2
总样本的平均数 165.8 165.1 164.3 166.3 166.4 164.6 165.2 164.9 166.1 165.1
表9.1-2
我们把分层随机抽样的平均数与上一小节样本量为50的简单随机抽样的平均数用图形进行表示(图9.1-4),其中红线表示整个年级学生身高的平均数.
从试验结果看,分层随机抽样的样本平均数围绕总体平均数波动,与简单随机抽样的结果比较,分层随机抽样并没有明显优于简单随机抽样.但相对而言,分层随机抽样的样本平均数波动幅度更均匀,简单随机抽样中出现了一个(第2个)偏离总体平均数的幅度比较大的样本平均数,即出现了比较“极端”的样本,而分层随机抽样没有出现.
实际上,在个体之间差异较大的情形下,只要选取的分层变量合适,使得各层间差异明显、层内差异不大,分层随机抽样的效果一般会好于简单随机抽样,也好于很多其他抽样方法.分层随机抽样的组织实施也比简单随机抽样方便,而且除了能得到总体的估计外,还能得到每层的估计.
在实际抽样调查中,由于实际问题的复杂性,除了要考虑获得的样本的代表性,还要考虑调查实施中人力、物力、时间等因素,因此通常会把多种抽样方法组合起来使用.例如,在分层抽样中,不同的层内除了用简单随机抽样外,还可以用其他的抽样方法,有时层内还需要再进行分层,等等.
探究
如果要了解某电视节目在你所在地区(城市、乡镇或村庄)的收视率,你能帮忙设计一个抽样方案吗 结合你所在地区的实际情况,和同学展开讨论.
练习(第184页)
2.有人说:“如果抽样方法设计得好,用样本进行视力调查与对24 300名学生进行视力普查的结果差不多.而且对于想要掌握学生视力状况的教育部门来说,节省了人力、物力和财力,抽样调查更可取.”你认为这种说法有道理吗 为什么
解:这种说法有道理.因为一个好的抽样方法应该能够保证随着样本量的增加,抽样调查结果会接近于普查的结果.因此只要根据误差的要求取相应容量的样本进行调查,就可以节省人力、物力和财力.
3.高二年级有男生490人,女生510人,张华按男生、女生进行分层,通过分层随机抽样的方法,得到男生、女生的平均身高分别为170.2cm和160.8cm.
(1)如果张华在各层中按比例分配样本,总样本量为100,那么在男生、女生中分别抽取了多少名 在这种情况下,请估计高二年级全体学生的平均身高.
(2)如果张华从男生、女生中抽取的样本量分别为30和70,那么在这种情况下,如何估计高二年级全体学生的平均身高更合理
4.要调查全市普通高中高一年级学生中患色盲的比例,小明根据性别对总体进行分层,用分层随机抽样的方法进行调查.请你查阅有关资料,说说这样的分层是否合理.你觉得在选择分层变量时应注意什么
解:小明的抽样不合理,因为患色盲的比例与性别无关,选择分层变量时应注意在不同层中变量变化明显.
如何得到敏感性问题的诚实反应
通过调查获取数据的基本方式是询问,调查问卷是询问的依据,也是信息的载体.无论是面对面的调查,如入户调查,还是非面对面的调查,如电话调查、网络调查等,调查问卷都是必需的.问卷设计十分重要,好的问卷是收集高质量数据的基础.
在统计调查中,问卷的设计是一门很大的学问.例如,调查问题的措辞会对被调查者产生影响,举例来说,在“你在多大程度上喜欢吸烟”和“你在多大程度上不喜欢吸烟”这两种问法中,前者会比后者给出更为肯定的答案.再如,问题在问卷中的位置也会对调查者产生影响.一般地,比较容易的、不涉及个人的问题应当排在比较靠前的位置,较难的、涉及个人的问题应排得比较靠后,等等.对一些敏感性问题,例如学生在考试中有无作弊、某人是否偷税漏税等,更要精心设计问卷及调查方法,设法消除被调查者的顾虑,使他们能够如实回答问题.否则,被调查者往往会拒绝回答,或不提供真实情况.下面我们用一个例子来说明对敏感性问题的调查方法.
某地区的公共卫生部门为了调查本地区中学生的吸烟情况,对随机抽出的200名学生进行了调查.调查中使用了两个问题.
问题1:你父亲的公历生日日期是不是奇数?
问题2:你是否经常吸烟?
调查者设计了一个随机化装置,这是一个装有大小、形状和质量完全一样的50个白球和50个红球的袋子.每个被调查者随机从袋中摸取1个球(摸出的球再放回袋中),摸到白球的学生如实回答第一个问题,摸到红球的学生如实回答第二个问题,回答“是”的人往一个盒子中放一个小石子,回答“否”的人什么都不要做.由于问题的答案只有“是”和“否”,而且回答的是哪个问题也是别人不知道的,因此被调查者可以毫无顾虑地给出符合实际情况的答案.
如果在200人中,共有58人回答“是”,你能估计出这个地区吸烟的中学生所占的百分比吗 由题意可知,每个学生从口袋中摸出1个白球或红球的概率都是0.5,即我们期望大约有100人回答了第一个问题,另100人回答了第二个问题.在摸出白球的情况下,回答父亲公历生日日期是奇数的概率是186/365≈0.51.因而在回答第一个问题的100人中,大约有51人回答了“是”,所以我们能推出,在回答第二个问题的100人中,大约有7人回答了“是”,即估计这个地区大约有7%的中学生吸烟.
这种方法是不是很巧妙