(共32张PPT)
第九章 统计
9.1.1 简单随机抽样
2023/3/12
1
引入
统计的研究对象是数据,核心是通过数据分析研究和解决问题。因此,首先要设法获取与问题有关的数据,从而为解决问题奠定基础.
例如,准确掌握全国的人口数据,可以为科学制定国民
经济和社会发展规划及其他方针政策提供依据。2020年我
国进行了第七次人口普查,对全国人口普遍地、逐户逐人地进行一次性调查登记。调查内容包括每位居民的姓名、性别、年龄、民族、受教育程度等,
2023/3/12
2
统计
引入
这里,居民为调查对象,而居民的性别、年龄、民族、受教育程度等是要调查的指标。由于不同调查对象的指标值往往不同,它是一个变化的量,所以常把指标称为变量,像人口普在这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查,在一个调查中,我们把调查对象的全体称为总体(population)。组成总体的每一个调查对象称为个体(individual),为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体。
2023/3/12
3
引入
由于人口普查需要花费巨大的财力、物力,因而不宜经常进行。为了及时掌握全国人口变动状况,我国每年还会进行一次人口变动情况的调查。这种调查是抽取一部分居民进行调查,根据抽取的居民情况来推断总体的人口变动情况,像这样,根据一定目的,从总休中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查(sampling survey)。
2023/3/12
4
引入
我们把从总体中抽取的那部分个休称为样本(sample),样本中包含的个体数称为样本容量,简称样本量,调查样本获得的变量值称为样本的观测数据,简称样本数据,相对全面调查而言,抽样调查由于只抽取一部分个体进行调查,因此具有花费少、效率高的特点。在总体规模比较大的调查中,如果经费,时间上受限,那么抽样调查是比较合适的调查方法。在有些调查中,抽样调查则具有不可替代的作用.例如,检测一批灯泡的寿命,或一批种子的发芽率,或一批待售袋装牛奶的细菌数是否超标,这些检测具有毁损性,此时只能用抽样调查,随着社会的发展,抽样调查的应用范围越来越广泛.下面我们研究两种基本的抽样方法--简单随机抽样和分层随机抽样.
2023/3/12
5
9.1.1 简单随机抽样
抽样调查的目的是了解总体的情况,例如,抽样调查一批待售袋装牛奶的细菌数是否超标,其目的是要了解整批牛奶的细闲含量超标情况,而不只是局限在抽查到的那儿袋牛奶的情况。因此,通过抽样调查了解总体的情况,自然希望抽取的样本数据能很好地反映总体的情况,即样本含有和总体基本相同的信息。
2023/3/12
6
9.1.1 简单随机抽样
在有放回地摸球中,同一个小球有可能被摸中多次,极端情况是每次摸到同一个小球,而被重复摸中的小球只能提供同一个小球的颜色信息,如果我们采用不放同摸球,即从袋中摸出一个球后不再放回袋中,每次摸球都在余下的球中随机摸取,这样就可以避免同一个小球被重复摸中。特别地。当样本量--1000时,不放回摸球已经把袋中的所有球取出,这就完全了解了袋中红球的比例,而有放回换球一般还不能对袋中红球的比例作出准确的判断.
2023/3/12
7
9.1.1 简单随机抽样
一般地,设一个总体含有 N(N 为正整数)个个体。从
中逐个抽取"(1:n回的,且每次抽取时总体内的各个个体被抽到的概率都相
等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的。且每次抽取时总体内未进人样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简 单随机抽样,
2023/3/12
8
9.1.1 简单随机抽样
放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(simple random sampling).通过简单随机抽样获得的样本称为简单随机样本.
与放回简单随机抽样比较,不放回简单随机抽样的效率更高,因此实践中人们更多采用不放回简单随机抽样,除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样。
2023/3/12
9
9.1.1 简单随机抽样
问题1一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级学生的平均身高。以便设定可调节课桌椅的标准高度,已知树人中学高一年级有 712 名学生,如果要通过简单随机抽样的方法调查高一年级学生的平均身高,应该怎样抽取样本
2023/3/12
10
9.1.1 简单随机抽样
在这个问题中,树人中学全部高一年级的学生构成调查的总体,每一位学生是个体。学生的身高是调查的变量,,我们可以对高一年级进行简单随机抽样,用抽出的样本的平均身高估计高一年级学生的平均身高,实现简单随机抽样的方法有很多,抽签法和随机数法是比较常用的两种方法.
2023/3/12
11
9.1.1 简单随机抽样
1.抽签法
先给 712名学生编号。例如按 1~712 进行编号。然后
把所有编号写在外观,质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这此小纸片放在一个不透明的盒里,充分搅拌。最后从盒中不放回地逐个抽取号签,使与号答上的编号对应的学生进人样本,直到抽足样本所需要的人数.抽答法简单易行,但当总体较大时,操作起来比较麻烦。因此,抽签法一般适用于总体中个体数不多的情形。
2023/3/12
12
9.1.1 简单随机抽样
2. 随机数法
先给 712 名学生编号,例如按 1~712 进行编号。用防
机数工具产生 1~712 范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进人样本。重复上述过程,直到抽足样本所需要的人数.如果生成的随机数有重复,即同一编号被多次抽到,可以别除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的人数.
2023/3/12
13
9.1.1 简单随机抽样
2. 随机数法
(1)用随机试验生成随机数
准备 10个大小,质地一样的小球,小球上分别写上数
字 0。1,2,…,9,把它们放人一个不透明的袋中。从袋中有放回摸取3次,每次摸取前充分搅拌,并把第一、二、三次摸到的数字分别作为百、十、个位数,这样就生成了一个三位随机数,如果这个三位要在1~712 范围内,就代表对应编号的学生被抽中,否则舍弃编号,这样产生的随机数司
能会有重复.
2023/3/12
14
9.1.1 简单随机抽样
(2)用信息技术生成随机数
①用计算器生成随机数
进人计算器的计算模式(不同的计算器型号可能会有不同),调出生成随机数的函数并设置参数。例如Randint#(1.712),按“一”健即可生成1~712 范围内的整数随机数,重复按“一”键,可以生成多个随机数,这样产生的随机数可能会有重复,
2023/3/12
15
9.1.1 简单随机抽样
2用电子表格软件生成随机数
在电子表格软件的任一单元格中,输“=RANDBETWEEN(1,712)",即可生
成一个 1~712范围内的整数随机数,再利用电子表格软件的自动填充功能。可以快速生成大量的随机数(图 9.1-1),这样产生的随机数可能会有重复。
2023/3/12
16
9.1.1 简单随机抽样
2用电子表格软件生成随机数
在电子表格软件的任一单元格中,输“=RANDBETWEEN(1,712)",即可生成一个 1~712范围内的整数随机数,再利用电子表格软件的自动填充功能。可以快速生成大量的随机数(图 9.1-1),这样产生的随机数可能会有重复。
2023/3/12
17
9.1.1 简单随机抽样
③用R统计软件生成随机数
在R软件的控制台中,输人“sample(1:712,50,replace=F)”,按回车键,就
可以得到 50 个 1~712 范围内的不重复的整数随机数(图 9.1-2).
2023/3/12
18
9.1.1 简单随机抽样
随着信息技术的发展,人们越来越多地利用计算器、数学软件、统计软件等工具来生成随机数.尤其是一些统计软件,可以非常方便地按要求生成各种随机数,用信息技术工具产生随机数最大的优点是方便、快捷.
2023/3/12
19
9.1.1 简单随机抽样
我们知道,在重复试验中,试验次数越多,频率接近概
率的可能性越大。与此类似,用简单随机抽样的方法抽取学
生,样本量越大,样本中不同身高的比例接近总体中相应身
高的比例的可能性也越大,样本的平均身高接近总体的平均
身高的可能性也越大,即对于样本的代表性,一般说来,样
本量大的会好于样本量小的,尤其是样本量不大时,增加样
本量可以较好地提高估计的效果,但是,在实际抽样中,样
本量的增大会导致调查的人力、费用、时间等成本的增加,
因此,抽样调查中样本量的选择要根据实际问题的需要,并
不一定是越大越好.
2023/3/12
20
9.1.1 简单随机抽样
上面我们通过简单随机抽样得到部分学生的平均身高,
并把样本平均身高作为树人中学高一年级所有学生平均身高
的估计值.
一般地,总体中有 N个个体,它们的变量值分别为
Y1,Y2,…,Yn,
2023/3/12
21
9.1.1 简单随机抽样
为总体均值(population mean),又称总体平均数。如果总
体的 N个变量值中,不同的值共有k(kN)个,不妨记
为Y1,Y2。…。Yn,其中Yi,出现的频数f(i=1.2.….
k),则总体均值还可以写成加权平均数的形式
2023/3/12
22
9.1.1 简单随机抽样
如果从总体中抽取一个容量为n的样本,它们的变量值分别
为yi,y2,…,yu,则称
为样本均值(sample mcan),又称样本平均数。在简单随机
抽样中,我们常用样本平均数v去估计总体平均数Y.
2023/3/12
23
9.1.1 简单随机抽样
为了更方便地观察数据,以便我们分析样本平均数的特点以及与总体平均数的关系,我们把这 20 次试验的平均数用图形表示出来,如图 9.1-3 所示。图中的红线表示树人中
学高一年级全体学生身高的平均数.
2023/3/12
24
9.1.1 简单随机抽样
从试验结果看,不管样本量为 50,还是为100,不同样本的平均数往往是不同的.由于样本的选取是随机的,因此样本平均数也具有随机性,这与总体平均数是一个确定的数
不同。虽然在所有 20个样本平均数中,与总体平均数完全一致的很少,但除了样本量义50 的第2个样本外,样本平均数偏离总体平均数都不超过1cm,即大部分样本平均数离
总体平均数不远,在总体平均数附近波动,比较样本量为50和样本量为100的样本平均数,还可以发现样本量为100的波动幅度明显小于样本量为50 的,这与我们对增加样本
量可以提高估计效果的认识是一致的.
2023/3/12
25
9.1.1 简单随机抽样
总体平均数是总体的一项重要特征,另外,某类个体在总体中所占的比例也是人们关心的一项总体特征,例如全部产品中合格品所占的比例,赞成某项政策的人在整个人群中
所占的比例等.
2023/3/12
26
9.1.1 简单随机抽样
问题2
眼睛是心灵的窗口,保护好视力非常重要。树人中学在“全国爱眼日”前,想通过简单随机抽样的方法,了解一下全校2174名学生中视力不低于5.0的学生所占的比例,你觉得该怎么做 在这个问题中,全校学生构成调查的总体,每一位学生是个休,学生的视力是考察的变量。为了便于问题的描述,我们记“视力不低于5.0”为1,“视力低于5.0”为0,则第i(i=1,2,…,2 174)个学生的视力变量值为
2023/3/12
27
9.1.1 简单随机抽样
问题2
现在,我们从树人中学所有学生中抽取一个容量为50的简单随机样本,其视力变量
取值如下:
1101001011 10001101000111011011
11011010100010011100
由样本观测数据,我们可以计算出样本平均数为
y=0.54.
据此,我们估计在树人中学全体学生中,“视力不低于5.0”的比例约为0.54.
2023/3/12
28
9.1.1 简单随机抽样
问题2
简单随机抽样方法简单、直观,用样本平均数估计总体平均数也比较方便,简单随机抽样是一种基本抽样方法,是其他抽样方法的基础,但在实际应用中,简单随机抽样有一定的
局限性。例如,当总体很大时,简单随机抽样给所有个体编号等准备工作非常费事。甚至难以做到;抽中的个体往往很分散,要找到样本中的个体并实施调查会遇到很多困难;简单随机抽样没有利用其他辅助信息,估计效率不是很高;等等。因此,在规模较大的调查中。直接采用简单随机抽样的并不多,一般是把简单随机抽样和其他抽样方法组合使用。
2023/3/12
29
9.1.1 简单随机抽样
2023/3/12
30
课堂小结
1.简单随机抽样
2.实际问题应用
2023/3/12
31
谢谢
2023/3/12
32