(共32张PPT)
7.5 正态分布
现实中,除了前面已经研究过的离散型随机变量外,还有大量问题中的随机变量不是离散型的,它们的取值往往充满某个区间甚至整个实轴,但取一点的 概率为0,我们称这类随机变量为连续型随机变量. 下面我们看一个具体问题.
问题 自动流水线包装的食盐,每袋标准质量为400g. 由于各种不可控制的因素,任意抽取一袋食盐,它的质量与标准质量之间或多或少会存在一定的误差(实际质量减去标准质量). 用X表示这种误差,则X是一个连续型随机变量. 检测人员在一次产品检验中,随机抽取了100袋食盐,获得误差X(单位: g) 的观测值如下: -0.6 -1.4 -0.7 3.3 -2.9 -5.2 1.4 0.1 4.4 0.9 -2.6 -3.4 -0.7 -3.2 -1.7 2.9 0.6 1.7 2.9 1.2 0.5 -3.7 2.7 1.1 -3.0 -2.6 -1.9 1.7 2.6 0.4 2.6 -2.0 -0.2 1.8 -0.7 -1.3 -0.5 -1.3 0.2 -2.1 2.4 -1.5 -0.4 3.8 -0.1 1.5 0.3 -1.8 0.0 2.5 3.5 -4.2
-1.0 -0.2 0.1 0.9 1.1 2.2 0.9 -0.6-4.4 -1.1 3.9 -1.0 -0.6 1.7 0.3 -2.4 -0.1-1.7 -0.5
-0.8 1.7 1.4 4.4 1.2 -1.8 -3.1 -2.1 -1.6 2.2 0.3 4.8 -0.8 -3.5 -2.7 3.8 1.4 -3.5 -0.9
-2.2 -0.7 -1.3 1.5 -1.5 -2.2 1.0 1.3 1.7 -0.9
(1) 如何描述这100个样本误差数据的分布
(2) 如何构建适当的概率模型刻画误差X的分布
根据已学的统计知识,可用频率分布直方图描述这组误差数据的分布,如图(1)所示. 频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率,所有小矩形的面积之和为1.
观察图形可知: 误差观测值有正有负,并大致对称地分布在X=0的两侧,而且小误差比大误差出现得更频繁.
随着样本数据量越来越大,让分组越来越多,组距越来越小,由频率的稳定性可知,频率分布直方图的轮廓就越来越稳定,接近一条光滑的钟形曲线,如图(2)所示.
0
-6
-4
2
0
-2
频率/组距
0.05
0.10
0.15
0.20
X
4
6
(1)
0
-6
-4
2
0
-2
频率/组距
0.05
0.10
0.15
0.20
X
4
6
(2)
根据频率与概率的关系,可用图(3)中的钟形曲线(曲线与水平轴之间的区域的面积为1)来描述袋装食盐质量误差的概率分布. 例如,任意抽取一袋食盐,误差落在[-2, -1]内的概率,可用图中黄色阴影部分的面积表示.
由函数知识可知,图(3)中的钟形曲线是一个函数. 那么,这个函数是否存在解析式呢
答案是肯定的. 在数学家的不懈努力下,找到了以下刻画随机误差分布的解析式:
0
-6
-4
2
0
-2
f(x)
0.05
0.10
0.15
0.20
X
4
6
(3)
思考1 由函数知识可知,图(3)中的钟形曲线是一个函数. 那么,这个函数是否存在解析式呢
0
-6
-4
2
0
-2
f(x)
0.05
0.10
0.15
0.20
X
4
6
(3)
答案是肯定的. 在数学家的不懈努力下,找到了以下刻画随机误差分布的解析式:
其中μ∈R,σ>0为参数.
显然,对任意的x∈R,f(x)>0,它的图象在x轴的上方,可以证明x轴和曲线之间的区域的面积为1. 我们称f(x)为正态密度函数,称它的图象为正态密度曲线,简称正态曲线,若随机变量X的概率分布密度函数为f(x),则称随机变量X服从正态分布,记为X~N(μ, σ2). 特别地,当μ=0, σ=1时,称随机变量X服从标准正态分布.
1. 正态分布:
若X~N(μ,σ2),则如图(4)所示,X取值不超过x的概率P(X≤x)为图中区域A的面积,而P(a≤X≤b)为区域B的面积.
(4)
思考2 观察正态曲线及相应的密度函数,你能发现正态曲线的哪些特点
由X的密度函数及图象可以发现,正态曲线还有以下特点:
(1) 曲线是单峰的,它关于直线x=μ对称;
(2) 曲线在x=μ处达到峰值
(3) 当|x| 无限增大时,曲线无限接近x轴.
思考3 一个正态分布由参数μ和σ完全确定,这两个参数对正态曲线的形状有何影响 它们反映正态分布的哪些特征
由于正态曲线关于x=μ对称,因此,当参数σ固定时,正态曲线的位置由μ确定,且随着μ的变化而沿x轴平移,所以参数μ反映了正态分布的集中位置,可以用均值来估计,故有
当μ固定时,因为正态曲线的峰值与σ成反比,而且对任意的σ>0,正态曲线与x轴之间的区域的面积总为1. 因此,当σ较小时,峰值高,曲线“瘦高”,表示随机变量X的分布比较集中;当σ较大时,峰值低,曲线“矮胖”,表示随机变量X的分布比较分散,所以σ反映了随机变量的分布相对于均值μ的离散程度,可以用标准差来估计,故有
σ=0.5
0
1
2
-1
-2
x
-3
3
x=μ
σ=1
σ=2
(1) 曲线在x轴的上方,与x轴不相交;
(3) 曲线与x轴之间的面积为1;
(4) 当μ一定时,σ越大,曲线越“矮胖”,表示总体的分布越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中.
2. 正态曲线的性质:
(2) 曲线是单峰的,它关于直线x=μ对称,且曲线在x=μ处取得最大值;
(5) 参数μ反映了正态分布的集中位置,σ反映了随机变量的分布相对于均值μ的离散程度. 在实际问题中,参数μ,σ可以分别用样本均值和样本标准差来估计,故有
练习:1. 若X~N(2, 3),则E(X)=______,D(X)=_______.
2. X~N(μ, σ2),若E(X)=3, σ(X)=2,则μ=______, σ=______.
0
9
3
2
3.正态曲线下的面积规律:
-x1 -x2 x2 x1
a
-a
正态曲线下对称区域的面积相等
对应的概率也相等
利用“对称法”求正态分布下随机变量在某个区间的概率.
练习 若X~N(1, σ2),且P(X<0)=a,则
(1) P(X>1)=_________;
(2) P(X>0)=_________;
(3) P(0
(4) P(X<2)=_________;
(5) P(00
1
2
-1
-2
x
y
-3
3
4
μ=1
0.5
1-a
0.5-a
1-a
1-2a
√
√
√
√
√
解:由函数解析式知这次考试的数学平均成绩为80分,标准差为10,故A,D正确.因为函数图象关于直线x=80对称,所以分数在120分以上的人数与分数在40分以下的人数相同,分数在110分以上的人数与分数在50分以下的人数相同,故B错误,C正确.
变式:
2. 已知η~N(1,4),若P(η>2a)=P(ηA. -1 B. 0 C. 1 D. 2
√
例 李明上学有时坐公交车,有时骑自行车,他各记录了50次坐公交车和骑自行车所花的时间,经数据分析得到: 坐公交车平均用时30 min,样本方差为36;骑自行车平均用时34 min,样本方差为4. 假设坐公交车用时X和骑自行车用时Y都服从正态分布.
(1) 估计X,Y的分布中的参数;
(2) 根据(1)中的估计结果,利用信息技术工具画出X和Y的分布密度曲线;
(3) 如果某天有38 min可用,李明应选择哪种交通工具 如果某天只有34 min可用,又应该选择哪种交通工具 请说明理由.
解:
(1) 随机变量X的样本均值为30,样本标准差为6;随机变量Y的样本均值为34,样本标准差为2. 用样本均值估计参数μ,用样本标准差估计参数σ,可以得到X~N(30, 62),Y~N(34, 22).
(2) 根据(1)中的估计结果,利用信息技术工具画出X和Y的分布密度曲线;
解:
由(1)得X~N(30, 62),Y~N(34, 22),作出X和Y的分布密度曲线如图示.
(3) 如果某天有38 min可用,李明应选择哪种交通工具 如果某天只有34 min可用,又应该选择哪种交通工具 请说明理由.
解:
(3) 应选择在给定时间内不迟到的概率大的交通工具.
由图可知,P(X≤38) P(Y≤34).
所以,如果有38 min可用,那么骑自行车不迟到的概率大,应选择骑自行车;如果只有34 min可用,那么坐公交车不迟到的概率大,应选择坐公交车.
假设X~N(μ, σ2),可以证明: 对给定的k∈N*,P(μ-kσ≤X≤μ+kσ)是一个只与k有关的定值. 特别地,
4.特殊区间的概率:
上述结果可用右图表示.
由此看到,尽管正态变量的取值范围是(-∞, +∞),但在一次试验中,X的取值几乎总是落在区间[μ-3σ, μ+3σ]内,而在此区间以外取值的概率大约只有0.0027,通常认为这种情况几乎不可能发生.
在实际应用中,通常认为服从于正态分布N(μ, σ2)的随机变量X只取[μ-3σ, μ+3σ]中的值,这在统计学中称为3σ原则.
课本87页
1. 设随机变量X~N(0, 1),则X的密度函数为_____________________,P(X≤0)=_____ ,P( |X|≤1)=_______, P(X≤1)=________, P(X>1)=________ (精确到0.0001.)
0.5
0.6827
0.84135
0.15865
O
1
-1
x
y
μ=0
课本87页
2. 设随机变量X~N(0, 22),随机变量Y~N(0, 32),画出分布密度曲线草图,并指出P(X≤-2)与P(X≤2)的关系,以及P( |X|≤1)与P( |Y|≤1)之间的大小关系.
O
1
-1
x
y
σ=3
σ=2
2
-2
解:
作出分布密度曲线如图示,由图可知,
例2 (1)已知随机变量ξ服从正态分布N(2, σ2), 且P(ξ<4)=0.8, 则P(0<ξ<2)=( )
A. 0.6 B. 0.4 C. 0.3 D. 0.2
√
(2) 据统计,某脐橙的果实横径(单位:mm)服从正态分布N(80,52),则果实横径在[75,90]内的概率为( )
附:若X~N(μ,σ2), 则P(μ-σ≤X≤μ+σ)≈0.6827, P(μ-2σ≤X≤μ+2σ)≈0.9545.
A. 0.6827 B. 0.8413 C. 0.8186 D. 0.9545
例2 (1)已知随机变量ξ服从正态分布N(2, σ2), 且P(ξ<4)=0.8, 则P(0<ξ<2)=( )
A. 0.6 B. 0.4 C. 0.3 D. 0.2
√
(2) 据统计,某脐橙的果实横径(单位:mm)服从正态分布N(80,52),则果实横径在[75,90]内的概率为( )
附:若X~N(μ,σ2), 则P(μ-σ≤X≤μ+σ)≈0.6827, P(μ-2σ≤X≤μ+2σ)≈0.9545.
A. 0.6827 B. 0.8413 C. 0.8186 D. 0.9545
√
正态分布下两类常见的概率计算
(1)利用正态密度曲线的对称性研究相关概率问题,涉及的知识主要是正态曲线关于直线x=μ对称,曲线与x轴之间的区域的面积为1.
(2)利用3σ原则求概率问题时,要注意把给出的区间或范围与μ,σ进行对比联系,确定它们属于[μ-σ,μ+σ],[μ-2σ,μ+2σ],[μ-3σ,μ+3σ]中的哪一个.
1. 已知随机变量X~N(2, σ2), 若P(X≤1-a)+P(X≤1+2a)=1, 则实数a=( )
A. 0 B. 1 C. 2 D. 4
变式:
1. 已知随机变量X~N(2, σ2), 若P(X≤1-a)+P(X≤1+2a)=1, 则实数a=( )
A. 0 B. 1 C. 2 D. 4
解:∵P(X≤1-a)+P(X≤1+2a)=1,
∴P(X≤1+2a)=1-P(X≤1-a)=P(X>1-a).
∵X~N(2,σ2),∴1+2a+1-a=2×2,∴a=2.
√
√
解:正态变量几乎总是落在区间[μ-3σ,μ+3σ]内,所以可通过判断取出的产品的外直径是否落在这一区间内来分析生产状况是否正常.
∵ξ~N(10,0.22),∴μ+3σ=10.6,μ-3σ=9.4,
∵9.52∈[9.4, 10.6],9.98∈[9.4,10.6],
∴该厂这一天的生产状况是正常的.
正态分布的实际应用
解题时,应当注意零件尺寸应落在[μ-3σ,μ+3σ]之内,否则可以认为该批产品不合格.判断的根据是概率较小的事件在一次试验中几乎是不可能发生的,而一旦发生了,就可以认为这批产生不合格.
变式 据调查统计,某校男生的身高X(单位:cm)服从正态分布N(174,9).若该校有男生3 000人,则估计该校男生身高在[174,180]范围内的人数为______.
解:因为身高X~N(174,9),所以μ=174,σ=3.
所以μ-2σ=174-2×3=168,μ+2σ=174+2×3=180,
所以身高在[168,180]范围内的概率约为0.954 5.
因为μ=174,
所以身高在[168,174]和[174,180]范围内的概率相等,均约为0.477 25.
故该校男生身高在[174,180]范围内的人数约为3 000×0.477 25≈1 432.
课堂检测
A
A
D
0.9544
3
6. 已知正态总体的数据落在(-3, -1)里的概率和落在(3, 5)里的概率相等,那么这个正态总体的数学期望是______.
1
8. 如图,为某地成年男性体重的正态曲线图,则P(|X-72|<20)=_________.
0.9544
7. 若 X~N(5, 1),则P(60.1359
x
y
72(kg)
小结:
若随机变量X的概率分布密度函数为f(x),则称随机变量X服从正态分布,记为X~N(μ, σ2). 特别地,当μ=0, σ=1时,称随机变量X服从标准正态分布.
1. 正态分布:
正态密度函数:
2.特殊区间的概率: