第九章 统计
9.1 随机抽样
9.1.1 简单随机抽样
教学设计
教学目标
了解普查与抽样调查的概念,知道两种调查方法的优缺点,能结合实际问题选择恰当的数据调查方法;
了解总体、样本、样本量的概念,了解抽样调查的随机性;
结合具体的实际问题情境,了解随机抽样的必要性和重要性;
在参与解决统计问题的过程中,学会用简单随机抽样方法从总体中抽取样本;
能从样本数据中提出基本的数字特征—平均数,并给出合理的解释.
教学重难点
教学重点
普查与抽样调查的意义,总体与样本的意义,简单随机抽样及其应用,数据的平均数的概念及意义.
教学难点
简单随机抽样的应用及平均数的意义.
教学过程
新课导入
基本概念:
全面调查(普查):对每一个调查对象都进行调查的方法.
总体:在一个调查中,把调查对象的全体称为总体.
个体:组成总体的每一个调查对象.
抽样调查:根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
样本:从总体中抽取的那部分个体称为样本.
样本量:样本中包含的个体数.
问题1 相对全面调查而言,抽样调查具有哪些优势?
花费少、效率高.
抽样调查主要有两种基本的抽样方法——简单随机抽样和分层随机抽样.
本节课学习简单随机抽样.
探索新知
问题2 假设口袋中有红色和白色共1000个小球,除颜色外,小球的大小、质地完全相同.总体、个体各是什么?你能通过抽样调查的方法估计袋中红球所占的比例吗?
袋中所有小球是调查的总体,每一个小球是个体,小球的颜色是所关心的变量.
从袋中随机地摸出一个球,记录颜色后放回,摇匀后再摸出一个球,如此重复n次.根据初中的概率知识可知,随着摸球次数的增加,摸到红球的频率会逐渐稳定于摸到红球的概率,即口袋中红球所占的比例.因此,可以通过放回摸球,用频率估计出红球的比例.
在有放回地摸球中,同一个小球有可能被摸中多次,极端情况是每次摸到同一个小球,而被重复摸中的小球只能提供同一个小球的颜色信息.如果我们采用不放回摸球,即从袋中摸出一个球后不再放回袋中,每次摸球都在余下的球中随机摸取,这样就可以避免同一个小球被重复摸中.特别地,当样本量n=1000时,不放回摸球已经把袋中的所有球取出,这就完全了解了袋中红球的比例,而有放回摸球一般还不能对袋中红球的比例作出准确的判断.
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n()个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
与放回简单随机抽样比较,不放回简单随机抽样的效率更高,因此实践中人们更多采用不放回简单随机抽样.除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样.
问题3 一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级学生的平均身高,以便设定可调节课桌椅的标准高度.已知树人中学高一年级有712名学生,如果要通过简单随机抽样的方法调查高一年级学生的平均身高,应该怎么抽取样本?
树人中学全部高一年级的学生构成调查的总体,每一位学生是个体,学生的身高是调查的变量.可以对高一年级进行简单随机抽样,用抽出的样本的平均身高估计高一年级学生的平均身高.实现简单随机抽样的比较常用的方法有抽签法和随机数法.
抽签法
先给712名学生编号,例如按1~712进行编号.然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的学生进入样本,直到抽足样本所需要的人数.
抽签法简单易行,但当总体较大时,操作起来比较麻烦.因此,抽签法一般适用于总体中个体数不多的情形.
随机数法
先给712名学生编号,例如按1~712进行编号.用随机数工具产生1~712范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本.重复上述过程,直到抽足样本所需要的人数.
如果生成的随机数有重复,即同一编号被多次抽到,可 以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的人数.
(1)用随机试验生成随机数
准备 10 个大小、质地一样的小球,小球上分别写上数字 0,1,2,…,9,把它们放入一个不透明的袋中.从袋中有放回摸取3次,每次摸取前充分搅拌,并把第一、二、三次摸到的数字分别作为百、十、个位数,这样就生成了一个三位随机数.如果这个三位数在 1~712范围内,就代表对应编号的学生被抽中,否则舍弃编号.这样产生的随机数可能会有重复.
(2)用信息技术生成随机数
①用计算器生成随机数
进入计算器的计算模式(不同的计算器型号可能会有不同),调出生成随机数的函数并设置参数,例如RandInt#(1,712),按“=”键即可生成1~712范围内的整数随机数.重复按“=”键,可以生成多个随机数,这样产生的随机数可能会有重复.
②用电子表格软件生成随机数
在电子表格软件的任一单元格中,输入“= RANDBETWEEN(1,712)”,即可生成一个1~712范围内的整数随机数.再利用电子表格软件的自动填充功能,可以快速生成大量的随机数(如图).这样产生的随机数可能会有重复.
③用R统计软件生成随机数
在R软件的控制台中,输入“sample(1:712,50,replace=F)”,按回车键,就可以得到50个1~712范围内的不重复的整数随机数(如图).
问题4 用简单随机抽样方法抽取样本,样本量是否越大越好?
在重复试验中,试验次数越多,频率接近概率的可能性越大.与此类似,用简单随机抽样的方法抽取学生,样本量越大,样本中不同身高的比例接近总体中相应身高的比例的可能性也越大,样本的平均身高接近总体的平均身高的可能性也越大.即对于样本的代表性,一般说来,样本量大的会好于样本量小的.尤其是样本量不大时,增加样本量可以较好地提高估计的效果.但是,在实际抽样中,样本量的增大会导致调查的人力、费用、时间等成本的增加.因此,抽样调查中样本量的选择要根据实际问题的需要,并不一定是越大越好.
下面是用随机数法从树人中学高一年级学生中抽取的一个容量为50的简单随机样本,他们的身高变量值(单位:cm)如下:
由这些样本观测数据,可以计算出样本的平均数为164.3. 据此,可以估计树人中学高一年级学生的平均身高为164.3cm左右.
上面通过简单随机抽样得到部分学生的平均身高,并把样本平均身高作为树人中学高一年级所有学生平均身高的估计值.
定义:一般地,总体中有N个个体,它们的变量值分别为则称为总体均值,又称总体平均数.如果总体的N个变量值中,不同的值共有k (k≤N)个,不妨记为其中出现的频数(i =1,2,…,k),则总体均值还可以写成加权平均数的形式.如果从总体中抽取一个容量为n的样本,它们的变量值分别为则称为样本均值,又称样本平均数.在简单随机抽样中,我们常用样本平均数去估计总体平均数.
问题5 小明想考察一下简单随机抽样的估计效果.他从树人中学医务室得到了高一年级学生身高的所有数据,计算出整个年级学生的平均身高为165.0cm.然后,小明用简单随机抽样的方法,从这些数据中抽取了样本量为50和100的样本各10个,分别计算出样本平均数,如表所示,从小明多次抽样所得的结果中,你有什么发现?
为了更方便地观察数据,我们把这20次试验的平均数用图形表示出来,如图所示,图中的红线表示树人中学高一年级全体学生身高的平均数.
从试验结果看,不管样本量为50,还是为100,不同样本的平均数往往是不同的.由于样本的选取是随机的,因此样本平均数也具有随机性,这与总体平均数是一个确定的数不同.虽然在所有20个样本平均数中,与总体平均数完全一致的很少,但除了样本量为50的第2个样本外,样本平均数偏离总体平均数都不超过1cm,即大部分样本平均数离总体平均数不远,在总体平均数附近波动.比较样本量为50和样本量为100的样本平均数,还可以发现样本量为100的波动幅度明显小于样本量为50的,这与我们对增加样本量可以提高估计效果的认识是一致的.
问题6 眼睛是心灵的窗口,保护好视力非常重要.树人中学在“全国爱眼日”前,想通过简单随机抽样的方法,了解一下全校2174名学生中视力不低于5.0的学生所占的比例,你觉得该怎么做?
全校学生构成调查的总体,每一位学生是个体,学生的视力是考察的变量.记“视力不低于5.0”为1,“视力低于5.0”为0,则第i个(i =1,2,…,2174)学生的视力变量值为
于是,在全校学生中,“视力不低于5.0”的人数就是.可以发现,在总体中,“视力不低于5.0”的人数所占的比例P就是学生视力变量的总体平均数.
类似地,若抽取容量为n的样本,把它们的视力变量值分别记为则在样本中,“视力不低于5.0”的人数所占的比例p就是学生视力变量的样本平均数.
可以用样本平均数估计总体平均数,用样本中的比例p估计总体中的比例P.
从树人中学所有学生中抽取一个容量为50的简单随机样本,其视力变量取值如下:
样本平均数为.
据此,估计在树人中学全体学生中,“视力不低于5.0”的比例约为0.54.
问题7 总结简单随机抽样的优缺点.
简单随机抽样方法简单、直观,用样本平均数估计总体平均数也比较方便.简单随机抽样是一种基本抽样方法,是其他抽样方法的基础.但在实际应用中,简单随机抽样有一定的局限性.例如,当总体很大时,简单随机抽样给所有个体编号等准备工作非常费事,甚至难以做到;抽中的个体往往很分散,要找到样本中的个体并实施调查会遇到很多困难;简单随机抽样没有利用其他辅助信息,估计效率不是很高;等等.因此,在规模较大的调查中,直接采用简单随机抽样的并不多,一般是把简单随机抽样和其他抽样方法组合使用
(三)课堂练习
下列抽样方法是简单随机抽样的是( )
A.从50个零件中一次性抽取5个做质量检验
B.从50个零件中有放回地抽取5个做质量检验
C.从实数集中逐个抽取10个实数做奇偶性分析
D.运动员从8个跑道中随机选取一个跑道
答案:D
解析:选项A错在“一次性”抽取;选项B错在“有放回”抽取;选项C错在总体容量无限.故选D.
现从100件产品中随机抽取20件进行质量检验,下面说法正确的是( ).
A.100件产品是总体 B.20件产品是样本
C.样本容量是100 D.样本容量是20
答案:D
解析:根据统计的有关概念知,总体应为100件产品的质量,样本为抽取20件产品的质量.故选D.
下列抽样试验中,用抽签法方便的是( )
A.从某工厂生产的3 000件产品中抽取600件进行质量检验
B.从某工厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
D.从某厂生产的3 000件产品中抽取10件进行质量检验
答案:B
解析:A总体容量较大,样本容量也较大,不适宜用抽签法;C中甲、乙两厂生产的产品有差别,不能用抽签法;D总体容量较大,不适宜用抽签法.故选B.
用简单随机抽样方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性,“第二次被抽到”的可能性分别是( )
A.
B.
C.
D.
答案:A
解析:简单随机抽样中每个个体被抽取的机会均等,都为.故选A.
某总体容量为M,其中带有标记的有N个,现用简单随机抽样的方法从中抽取一个容量为m的样本,则抽取的m个个体中带有标记的个数估计为( )
A. B. C. D.N
答案:A
解析:总体中带有标记的比例是,则抽取的m个个体中带有标记的个数估计为.故选A.
小结作业
小结:
普查与抽样调查的概念,能结合实际问题选择恰当的数据调查方法;
总体、样本、样本量的概念;
简单随机抽样的概念;
抽签法和随机数法的应用;
总体均值和样本均值的概念及理解.
作业:
板书设计
9.1.1 简单随机抽样
全面调查(普查);
总体、个体;
抽样调查;
样本、样本量;
简单随机抽样;
抽签法;
随机数法;
总体均值(总体平均数);
样本均值(样本平均数).
2