(共20张PPT)
第九章 统计
在现实生活中,我们经常会接触到各种统计数据,例如,人口总量、经济增长率、产品的合格率、商品的销售额、农作物的产量、人均水之源、居民人均收入、电视台节目的收视率、学生的平均身高等 . 要正确阅读并理解这些数据,需要具备一些统计学的知识.
统计学是通过收集数据和分析数据来认识未知现象的一门学科 . 面对一个统计问题,首先要根据实际需求,通过适当的方法获取数据,并选择适当的统计图表对数据进行整理和描述,在此基础上用各种统计方法对数据进行分析,从样本数据中提取需要的信息,推断总体的情况,进而解决相应的实际问题.
那么,对于具体的统计问题,应该如何收集数据?如何从所收集的数据中提取信息来认识未知现象?这种认识一定正确吗?应该如何正确解释统计的结果?
本章我们将在初中学过统计与概率知识的基础上,通过进一步学习,加深对这些问题的认识,并通过解决问题的实践,进一步学习数据的分析方法.
9.1随机抽样
统计的研究对象是数据,核心是通过数据分析研究和解决问题 . 因此,首先要设法获取与问题有关的数据,从而为解决问题奠定基础.
例如,准确掌握全国人口的数据,可以为科学制定国民经济和社会发展规划及其其他方针政策提供依据 .
2010年我国进行了第六次人口普查,对全国人口普片地、逐户逐人地进行一次性调查登记 . 调查内容包括每位居民的姓名、性别、年龄、民族、受教育程度等 .
这里,居民为调查对象,而居民的性别、年龄、民族、受教育程度等是要调查的指标 .
由于不同调查对象的指标值往往不同,它是一个变化的量. 像人口普查这样 , 对每一个调查对象都进行调查的方法, 称为全面调查(又称普查) .
在一个调查中,我们把调查对象的全体称为总体,组成总体的每一个调查对象称为个体。
为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体。
由于人口普查需要花费巨大的财力、物力,因而不宜经常进行 . 为了及时掌握全国人口变动状况,我国每年还会进行一次人口变动情况的调查,这种调查是抽取一部分居民进行调查.
根据抽取的居民情况来推断总体的人口变动情况.
像这样,根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查(或称抽查)。
我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本容量,简称样本量 . 调查样本获得的变量值称为样本的观测数据,简称样本数据。
相对于全面调查而言,抽样调查由于只抽取一部分个体进行调查,因此具有花费少、效率高的特点 .
在总体规模较大的调查中,如果经费、时间上受限,那么抽样调查是比较合适的调查方法 . 在有些调查中,抽样调查则具有不可替代的作用.
例如,检测一批灯泡的寿命,或一批种子的发芽率,或一批待售袋装牛奶的细菌数是否超标,这些检测具有毁损性,此时只能用抽样调查.
9.1.1简单随机抽样
随着社会的发展,抽样调查的应用越来越广泛 . 下面我们研究两种基本的抽样方法——简单随机抽样和分层抽样.
例如,抽样调查一批待售袋装牛奶的细菌数量是否超标,其目的是要了解整批牛奶的细菌含量超标情况,而不只是局限在抽查到的那几袋牛奶的情况。
抽查的目的是为了了解总体的情况。
因此,通过抽样调查了解总体的情况,自然希望抽取的样本数据能很好的反映总体的情况,即样本含有和总体基本相同的信息。
探究! 假设口袋中有红色和白色共1000个小球 , 除颜色以外, 小球的大小、质地完全相同. 你能通过抽样调查的方法估计袋中红球所占的比例吗?
这里袋中所有小球是调查的总体,每一个小球是个体,小球的颜色是所关心的变量。
我们可以从袋中随机摸出一个球,记录颜色后放回,摇匀后再摸出一个球,如此重复n次.
因此,我们可以通过放回摸球,用频率估计出红球的比例 .
根据初中的概率知识可知,随着摸球次数的增加,摸到红球的频率会逐渐稳定于摸到红球的概率,即口袋中红球所占的比例.
在有放回地摸球中,同一个小球有可能被摸中多次,极端情况是每次摸到同一个小球,而被重复的小球只能提供同一个小球颜色信息。这样的抽样结果误差较大。
除了放回摸球,你还有其他的方法吗?
如果我们采用不放回摸球,即从袋中随机摸出一个球后不再放回袋中,每次摸球都在余下的球中随机摸取,这样就可以避免同一个小球被重复摸中。
特别地,当样本量n=1000时,不放回摸球已经把袋中的所有球取出,这就完全了解了袋中红球的比例,而有放回摸球一般还不能对袋中红球的比例做出准确的判断。
一般地, 设一个总体含有N(N为正整数) 个个体,从中逐个抽取n(1≤n如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率是相等的,把这样的抽样方法叫做不放回简单随机抽样。
一、简单随机抽样
我们把放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样。通过简单随机抽样获得的样本称为简单随机样本。
从总体中,逐个不放回地随机抽取n个个体作为样本,一次性批量随机抽取n个个体作为样本,两种方法是等价的。
与放回简单随机抽样比较,不放回简单随机抽样的效率更高。
因此实践中人们更多采用不放回简单随机抽样。除非特殊说明,本章所称的简单随机抽样指不放回简单随机抽样。
简单随机抽样有哪些特点?
4、每个个体被抽到的机会都相等,抽样具有公
平性.
3、样本的抽取是逐个进行的,每次只抽取一个
个体;
1、总体的个体数有限;样本数n小于等于样本总
体的个数N ;
2、是不放回抽样;
问题1 一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级学生的平均身高,以便设定可调节课桌椅的标准高度。已知树人中学高一年级有712名学生,如果要通过简单随机抽样的方法调查高一年级学生的平均身高,应该怎么抽取样本?
在这个问题中,树人中学全部高一年级的学生构成调查的总体,每一个学生是个体,学生的身高是调查的变量.
与前面估计红球的比例类似,可以对高一年级进行简单随机抽样,用抽出的样本的平均身高估计高一年级学生的平均身高。
实现简单随机抽样的方法有很多,抽签法和随机数法是比较常用的两种方法。
二、简单随机抽样——抽签法
最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的学生进入样本,直到抽足样本所需要的人数。
1、编号
先给712名学生编号,例如1~712进行编号;
2、制作号签
然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等) 上作为号签;
3、充分搅拌
并将这些小纸片放在一个不透明的盒里,充分搅拌;
4、逐个抽取
抽签法简单易行 , 但当总体较大时,操作起来比较麻烦 . 因此,抽签法一般适用于总体中个体数不多的情形.
抽签法的步骤是什么?
第1步:将总体中的所有个体编号;(编号)
第4步:每次从中不放回抽取一个号签,直到抽
取到足够的样本量。(逐个抽取)
第2步:并把号码写在形状、大小相同的号签上
(制签);
第3步:将号签放在一个不透明容器中,并搅拌
均匀.(搅拌)
三、简单随机抽样——随机数法
3、按所得的号码抽取样本.
1、将总体中的个体编号;
2、获取样本号码;
重复上述过程, 直到抽足样本所需要的人数.
先给712名学生编号,例如1~712进行编号;
用随机数工具产生1~712范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本;
如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新新产生随机数,直到产生的不同编号个数等于样本所需要的人数.
怎样产生随机数?
1、用随机试验产生随机数;
准备10个大小、质地一样的小球,小球上分别写上数字0 , 1 , 2 ,…,9,把它们放入一个不透明的袋中. 从袋中有放回摸取3次 , 每次摸前充分搅拌 , 并把第一、二、三次摸到的数字分别作为百、十、个位数,这样就生成了一个三位随机数 .
如果这个三位数在1~712范围内,就代表对应编号的学生被抽中,否则舍弃编号. 这样产生的随机数可能会有重复.
2、用信息技术生成随机数
(3)用R统计软件生成随机数。
2、用信息技术生成随机数
(1)用计算器生成随机数;
(2)用电子表格软件生成随机数;
在电子表格软件的任一单元格中,输入“=RANDBETWEEN(1,712)”,即可生成一个1~712范围内的整数随机数 . 再利用电子表格软件的自动填充功能, 可以快速生成大量的随机数. 这样产生的随机数可能会有重复.
随着信息技术的发展,人们越来越多的利用计算器、数学软件、统计软件等工具来生成随机数 . 用信息技术工具产生随机数最大的优点是方便、快捷.
思考?用简单随机抽样方法抽取样本,样本量是否越大越好?
尤其样本量不大时,增加样本量可以较好地提高估计的效果 . 但是,在实际抽样中,样本量的增大会导致调查的人力、费用、时间等成本的增加。
因此,抽样调查中样本量的选择要根据实际问题的需要,并不一定是越大越好。
我们知道,在重复试验中,试验次数越多,频率接近概率的可能性越大 . 与此相似,用简单随机抽样的方法抽取样本,样本量越大,样本接近总体的可能性越大,样本的平均值接近总体的平均值的可能性越大 .
即对于样本的代表性,一般来说,样本量大的会好于样本量小的.
抽签法
2. 最常用的简单随机抽样
随机数表法
一般地, 设一个总体含有N个个体 ,从中逐个不放回地抽取n个个体作为样本 (n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,这种抽样方法叫做简单随机抽样。
四、归纳小结
1. 简单随机抽样的概念
两种方法的优点都是简单易行.抽签法的缺点是适用于个体数较少的总体.随机数表法的缺点是当总体中的个体数很多时,用随机数表法抽取样本不方便.