小 课 堂
数理统计与概率
第一部分 统计学
单一数据的统计分析
1、抽样方法
(1)简单随机抽样:一个总体含有N 个个体,如果通过逐个抽取的方法从中抽取一个样本,
且每次抽取时各个个体被抽到的概率相等,这样的抽样方法叫做简单随机抽样.
(2)系统抽样法(等距抽样法、机械抽样法):依据一定的抽样距离,从总体中抽取样本.从容
量为N 的总体中抽取容量为 n的样本,可将总体分成均衡的若干部分,然后按照预先规定
的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.步骤如下:
①编号:先将总体的N 个个体编号,有时可直接利用自身个体所带的号码,如学号等.
②分段:确定分段间隔 k,对编号进行分段,当N /n(n是样本容量)是整数时,取 k=N /n.
③确定第一个个体编号:在第一段用简单随机抽样确定第一个个体编号 l(l≤ k).
④成样:按照一定的规则抽取样本,通常是将 l加上间隔 k得到第二个个体编号(l+ k),再
加上 k得到第三个个体编号(l+ 2k),依次进行下去,直到获取整个样本.
(3)分层抽样:分层抽样法也叫类型抽样法.是从一个可以分成不同子总体(或称为层)的总
体中,按规定的比例从不同层中随机抽取样品(个体)的方法.
★ 2、用样本估计总体
众数: 出现次数最多的数据
中位数:按从小到大,处在中间的一个数据 (或中间两个数的平均数 )
n= 1 x1 + x 2+ x平均数:x x 3 + + x nn i= n 平均数反映数据总体水平i=1
n 2 2
2= 1 ( ) = 2= (x 1 x) + (x 2 x) + + (x n x
)2
方差S n xi x 样本标准差:s s
i=1 n
极差 = 最大数-最小数
★ 3、频率分布直方图 频 率
组距
(1)概念:在直角坐标系中,横轴表示样本数据,纵轴表示频率与
频率分布直方图中,各小长方
组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的
形面积之和为 1
大小来表示,由此画成的统计图叫做频率分布直方图。
( ) O 1 5 9 13 17 21 25 292 频率分布直方图的特征
1 图中各个长方形的面积等于相应各组的频率的数值,所有小矩形面积和为 1.
2 从频率分布直方图可以清楚地看出数据分布的总体趋势.
3 从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数
据信息被抹掉.
·78·
(3)频率分布直方图求数据
1 众数:频率分布直方图中最高矩形的底边中点的横坐标. 小 课 堂
2 平均数:频率分布直方图各个小矩形的面积乘底边中点的横坐标之和.
3 中位数:把频率分布直方图分成两个面积相等部分的平行于 y轴的直线横坐标.
★ 4、茎叶图: 叶 茎 叶
将数组中的数按位数进行比较,将数的大小基本不变或变 4 8 5 6 9
7 6 9 2 6 9
化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶)
5 5 4 2 10 7 7
列在主干的后面,这样可以清楚地看到每个主干后面的几个数. 2 11 2 9
成对数据的统计分析
(一 )线性回归分析
★ 1、回归直线方程
①变量之间的两类关系:函数关系与相关关系;
②制作散点图,判断线性相关关系;
③线性回归方程:y= a+ bx(最小二乘法 ),
n
n
xi- x yi- y xiyi-nx
y
b= i= 1 = i= 1 n n
其中 x 2 2 2i- x xi -nx .
i=1 i=1
a= y - bx
注意:线性回归直线经过定点 (x,y).
※ 2、相关系数:(判定两个变量线性相关性 )
n n xi- x y i- y xiyi-nx
y
r= i= 1 = i =1 n
x - x
n n2 y - y 2 x2
n
i 2 2 2i i -nx yi -ny
i=1 i=1 i=1 i=1
注: (1) r> 0时,变量 x,y正相关;r < 0时,变量 x,y负相关;r∈ [ 1,1]
(2) |r| 越接近于 1,两个变量的线性相关性越强;
|r| 接近于 0时,两个变量之间几乎不存在线性相关关系.
※ 3、回归分析中回归效果的判定:
∧ ∧
(1)残差:ei= yi yi;
n n
(2)总偏差平方和:SST = ( yi- y
)2 残差平方和:SSE= (yi- y 2i) ;
i=1 i=1
n n n ∧
(3)回归平方和:SSR= ( yi- y
)2= (yi y
)2- (yi yi)2;即SST =SSR+SSE
i=1 i=1 i=1
·79·
n ∧
小 课 堂 (yi yi)
2
(4)相关指数R2= 1 i= 1 n . (y y )2i i
i=1
注:①R2得知越大,说明残差平方和越小,则模型拟合效果越好;
②R2越接近于 1,,则回归效果越好.
★ (二 )独立性检验
假设有两个分类变量X和Y,它们的值域分别为 (x1,x2)和 (y1,y2),其样本频数 2× 2列
联表为:
y1 y2 总计
x1 a b a+ b
x2 c d c+ d
总计 a+ c b+ d a+ b+ c+ d
若要推断的论述H:“X和Y有关系”,可以利用独立性检验来考察两个变量是否有关
系,并且能较精确地给出这种判断的可靠程度.
: 2 2= n ( ad - bc )
2
具体的做法 由表中的数据算出随机变量K 的值.K (a+ b) (c+ d) ( + ,a c) (b+ d)
其中n= a+ b+ c+ d为样本容量,K 2值越大,说明“X和Y有关系”成立可能性越大
临界值表:
P(K 2≥ k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
ko 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
随机变量K 2越大,说明两个分类变量,关系越强;反之,越弱.
步骤归纳:
第一步:提出假设检验问题 H0:吸烟与患肺癌没有关系 H1:吸烟与患肺癌有关系
2
第二步:选择检验的指标K 2= n ( ad - bc ) ( + ) ( + ) ( + ) ( + ) (它越小,原假设“H0:吸烟a b c d a c b d
与患肺癌没有关系”成立的可能性越大;它越大,备择假设“H1:吸烟与患肺癌有关系”
成立的可能性越大.
·80·