7.5 正态分布
1.通过误差模型,了解服从正态分布的随机变量;
2.通过具体实例,借助频率分布直方图的几何直观,了解正态分布的特点;
3.了解正态分布的均值、方差及其含义。
现实中,除了前面已经研究过的离散型随机变量外,还有大量问题中的随机亦量不是离散型的,它们的取值往往充满某个区间甚至整个实轴,但取一点的概率为0,我们称这类随机变量为连续型随机变量(continuous randomvariable).
下面我们看一个具体问题.
问题1:自动流水线包装的食盐,每袋标准质量为400 g.由于各种不可控制的因素,任意抽取一袋食盐,它的质量与标准质量之间或多或少会存在一定的误差(实际质量减去标准质量).用X表示这种误差,则X是一个连续型随机变量.检测人员在一次产品检验中,随机抽取了100袋食盐,获得误差X(单位:g)的观测值如右:
-0.6 -1.4 -0.7 3.3 -2.9 -5.2 1.4 0.1 4.4 0.9
-2.6 -3.4 -0.7 -3.2 -1.7 2.9 0.6 1.7 2.9 1.2
0.5 -3.7 2.7 1.1 -3.0 -2.6 -1.9 1.7 2.6 0.4
2.6 -2.0 -0.2 1.8 -0.7 -1.3 -0.5 -1.3 0.2 -2.1
2.4 -1.5 -0.4 3.8 -0.1 1.5 0.3 -1.8 0.0 2.5
3.5 -4.2 -1.0 -0.2 0.1 0.9 1.1 2.2 0.9 -0.6
-4.4 -1.1 3.9 -1.0 -0.6 1.7 0.3 -2.4 -0.1 -1.7
-0.5 -0.8 1.7 1.4 4.4 1.2 -1.8 -3.1 -2.1 -1.6
2.2 0.3 4.8 -0.8 -3.5 -2.7 3.8 1.4 -3.5 -0.9
-2.2 -0.7 1.3 1.5 -1.5 -2.2 1.0 1.3 1.7 - 0.9
(1) 如何描述这100个样本误差数据的分布?
(2) 如何构建适当的概率模型刻画误差X的分布?
x
y
频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率,所有小矩形的面积之和为1.
观察图形可知:误差观测值有正有负,并大致对称地分布在X=0的两侧,而目小误差比大误差出现得更频繁.
随着样本数据量越来越大,让分组越来越多,组距越来越小,由频率的稳定性可知,频率分布直方图的轮廓就越来越稳定,接近一条光滑的钟形曲线.
在数学家的不懈努力下,找到了以下刻画随机误差分布的解析式:
其中μ∈R,????>0为参数.
?
由函数知识可知,图7.5-3中的钟形曲线是一个函数.那么,这个函数是否存在解析式呢?
问题2:
x
y
我们称 (其中μ∈R,????>0为参数)为正态密度函数,称它的图象是正态密度曲线.简称正态曲线.
若随机变量X的概率分布密度函数为f(x),则称随机变量X 服从正态分布,记为X~N(μ,????2). 特别地,当μ=0,????=1时,称随机变量X服从标准正态分布,即X~N(0,1).
?
正态密度函数、正态曲线的概念
μ
x
f(x)
在生产中,在正常生产条件下各种产品的质量指标(如零件的尺寸、维的纤度等);
在测量中,长度测量误差,某一地区同年龄人群的身高、体重等;
在生物学中,一定条件下生长的小麦的株高、穗长、单位面积产量等;
在气象中,某地每年七月份的平均气温、平均湿度以及降雨量等;
正态分布广泛存在于自然现象、生产及生活实际之中
在现实生活中,许多随机变量都服从或近似服从正态分布:
正态分布在概率和统计中占有重要地位
μ
x
(1)曲线在x轴的上方,与x轴不相交.
(2)曲线是单峰的,它关于直线x=μ对称.
(4)当|X|无限增大时,曲线无限接近x轴.
(3)曲线在x=μ处达到峰值(最高点)
其中μ∈R,????>0为参数.
?
问题3:观察正态曲线、相应的密度函数及概率的性质,你能发现正态曲线的 哪些特点?
(5)X轴与正态曲线所夹面积恒等于1 .
σ=1
(6) 当σ一定时,曲线随着μ的变化而沿x轴平移;
问题3:观察正态曲线、相应的密度函数及概率的性质,你能发现正态曲线的 哪些特点?
μ=-1
μ=0
μ=1
μ=0
(7)当μ一定时,曲线的形状由σ确定 .
σ越大,曲线越“矮胖”,表示总体的分布越分散;
σ越小,曲线越“瘦高”,表示总体的分布越集中.
问题3:观察正态曲线、相应的密度函数及概率的性质,你能发现正态曲线的 哪些特点?
????=0.5
?
????=1
?
????=2
?
正态分布的期望和方差
μ=-1
μ=0
μ=1
σ=1
μ=0
????=0.5
?
????=1
?
????=2
?
参数μ反映了正态分布的集中位置,σ反映了随机变量的分布相对于均值μ的离散程度。
练习1:
X的密度曲线
Y的密度曲线
y
x
30
34
38
例2 :李明上学有时坐公交车,有时骑自行车.他各记录了50次坐公交车和骑自行车所花的时间,经数据分析得到,坐公交车平均用时30 min,样本方差为36;骑自行车平均用时34 min,样本方差为4;假设坐公交车用时X和骑自行车用时Y都服从正态分布.
(1)估计X,Y的分布中的参数;
(2)根据(1)中的估计结果,利用信息技术工具画出X和Y的分布密度曲线;
(3)如果某天有38 min可用,李明应选择哪种交通工具?如果某天只有34 min可用,又应该选择哪种交通工具?请说明理由.
解:(1)随机变量X的样本均值为30,样本标准差为6;随机变量Y的样本均值为34,样本标准差为2.样本均值估计参数为μ,用样本标准差估计参数????。所以
?
例2 :李明上学有时坐公交车,有时骑自行车.他各记录了50次坐公交车和骑自行车所花的时间,经数据分析得到,坐公交车平均用时30 min,样本方差为36;骑自行车平均用时34 min,样本方差为4;假设坐公交车用时X和骑自行车用时Y都服从正态分布.
(1)估计X,Y的分布中的参数;
(2)根据(1)中的估计结果,利用信息技术工具画出X和Y的分布密度曲线;
(3)如果某天有38 min可用,李明应选择哪种交通工具?如果某天只有34 min可用,又应该选择哪种交通工具?请说明理由.
X的密度曲线
Y的密度曲线
y
x
30
34
38
(3)应选择在给定时间内不迟到的概率大的交通工具。由图可知????(????≤????????)???(????≤????????),????(????≤????????)>????(????≤????????).
?
所以,如果有38min可用,那么骑自行车不迟到的概率大,应选择骑自行车;如果只有34min可用,那么做公交车不迟到的概率大,应选择做公交车。
正态总体在 以外取值的概率只有0.27 %,通常认为这种情况在一次试验中几乎不可能发生,称为小概率事件.
在实际应用中,通常认为服从于正态分布x~N(μ,????2)的随机变量X只取 中的值,这在统计学中称为3????原则.
?
问题4:正态分布的3σ原则
①P(μ- σ ≤ X≤ μ+σ)≈0.682 7;
②P(μ-2σ ≤ X≤μ+2σ)≈0.954 5;
③P(μ-3σ ≤ X≤μ+3σ)≈0.997 3.
?
课堂小结
1.正态曲线及其特点;
2.正态分布及概率计算;
3.3s原则。