(共27张PPT)
第二章 统计
2.1 随机抽样
2.2 用样本估计总体
2.3 变量间的相关关系
1.随机抽样的三种方法
1)简单随机抽样 适用样本比较简单的情况。
2)系统抽样 适用样本很大情况。
3)分层抽样 适用样本有几种不同的群情况。
2.用样本估计总体,理解频率和数字特征的意义,样本与总体之间可以看做是一种映射关系,通过样本可以对总体进行估计。
3.变量间的相关关系,首先通过散点图在感观上了解变量间的相关关系,然后再通过线性回归方程建立变量间的数学程式关系。
一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样,这样抽取的样本,叫做简单随机样本。
简单随机抽样的概念
一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。
抓阄
抽签法的定义
随机数法的定义,利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法,这里仅介绍随机数表法。
随机数法的定义
一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
系统抽样的定义
(1)采用随机的方法将总体中个体编号;
(2)将整体编号进行分段,确定分段间隔k(k∈N);
(3)在第一段内采用简单随机抽样的方法确定起始个体编号L;
(4)按照事先预定的规则抽取样本。
系统抽样的步骤
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。
分层抽样的定义
分层抽样的步骤:
(1)分层:按某种特征将总体分成若干部分。
(2)按比例确定每层抽取个体的个数。
(3)各层分别按简单随机抽样的方法抽取。
(4)综合每层抽样,组成样本。
简单随机抽样、系统抽样、分层抽样的比较
类 别 共同点 各自特点 联 系 适 用
范 围
简 单
随 机
抽 样
(1)抽样过程中每个个体被抽到的可能性相等
(2)每次抽出个体后不再将它放回,即不放回抽样 从总体中逐个抽取 总体个数较少
将总体均分成几部 分,按预先制定的规则在各部分抽取 在起始部分
样时采用简
随机抽样 总体个数较多
系 统
抽 样
分 层
抽 样 将总体分成几层,
分层进行抽取 分层抽样时采用简单随机抽样或系统抽样 总体由差异明显的几部分组成
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。
频率分布直方图
频率分布直方图的一般步骤为:
(1)计算一组数据中最大值与最小值的差,即求极差;
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图。
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。
频率分布折线图
说明:
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。
茎叶图的概念
考察样本数据的分散程度的大小,最常用的统计量是标准差。标准差是样本数据到平均数的一种平均距离,一般用s表示。
标准差的定义
样本数据 的标准差的算法:
(1)算出样本数据的平均数
(2)算出每个样本数据与样本数据平均数的差:
(3)算出(2)中的 平方。
(4)算出(3)中n个平方数的平均数,即为样本方差。
(5)算出(4)中平均数的算术平方根,,即为样本标准差。
显然,标准差较大,数据的离散程度较大;标准差较小,数据的离散程度较小。
标准差的计算公式
两个变量之间的关系,可能是确定关系或非确定关系。当自变量却只一定,因变量的取值带有一定随机性时,两个变量之间的关系成为相关关系。相关关系是一种不确定性关系。
两变量的相关关系
表示具有相关关系的两个变量的一组数据的图形,叫做散点图。
散点图
(1)进入Excel,在A1,B1分别输入“数学成绩”、“物理成绩”,在A、B列输入相应的数据。
(2)点击图表向导图标,进入对话框,选择“标准类型”中的“XY散点图”,单击“完成”。
(3)选中“数值X轴”,单击右键选中“坐标轴格式”中的“刻度”,把“最小值”、“最大值”、“刻度主要单位”作相应调整,最后按“确定”。y轴方法相同。
散点图的画法
从散点图可以看出:所有的点大致在一条直线附近波动,我们称这两个变量间存在线性相关关系,这条直线叫做回归直线(regression line)。
回归直线的定义
即各点到该直线的距离的平方和最小,这一方法叫最小二乘法。
最小二乘法的定义及公式
分层抽样和系统抽样的概念,易出现在选择题或填空题中;用样本估计总体和第三章的概率相结合易出现在第二道大题中。
用样本估计总体中,频率分布图分组的组距;数字特征中,标准差的计算。
1、下列抽取样本的方式是属于简单随机抽样的是( )
①从无限多个个体中抽取100个个体作样本;
②盒子里有80个零件,从中选出5个零件进行质量检验,在抽样操作时,从中任意拿出一个零件进行质量检验后,再把它放回盒子里;
③从8台电脑中不放回的随机抽取2台进行质量检验(假设8台电脑已编好号,对编号随机抽取)
A.① B.② C.③ D.以上都不对
C
2、某中学高一年级有学生600人,高二年级有学生450人,高三年级有学生750人,每个学生被抽到的可能性均为0.2,若该校取一个容量为n的样本,则n=________
3、某校有500名学生,其中O型血的有200人,A型血的人有125人,B型血的有125人,AB型血的有50人,为了研究血型与色弱的关系,要从中抽取一个20人的样本,按分层抽样,O型血应抽取的人数为____人
360
8