第七章
7.5
正态分布
学习目标
1.通过误差模型,了解服从正态分布的随机变量.
2.通过具体实例,借助频率分布直方图的几何直观,了解正态分布的特征.
3.了解变量落在区间[μ-σ,μ+σ],[μ-2σ,μ+2σ],[μ-3σ,μ+3σ]的概率大小,会根据正态曲线的特点求随机变量在某一区间内的概率.
4.了解正态分布的均值、方差及其含义,会用正态分布解决实际问题.
?
核心素养:数学建模、数据分析、逻辑推理、数学运算
新知学习
现实中,除了前面已经研究过的离散型随机变量外,还有大量问题中的随机变量不是离散型的,它们的取值往往充满某个区间甚至整个实轴,但取一点的概率为0,我们称这类随机变量为连续型随机变量.
问题:自动流水线包装的食盐,每袋标准质量为400 g.由于各种不可控制的因素,任意抽取一袋食盐,它的质量与标准质量之间或多或少会存在一定的误差(实际质量减去标准质量).用X表示这种误差,则X是一个连续型随机变量.检测人员在一次产品检验中,随机抽取了100袋食盐,获得误差????(单位:g)的观测值如下:
(1)如何描述这100个样本误差数据的分布? (2)如何构建适当的概率模型刻画误差X的分布?
?
-0.6
-1.4
-0.7
3.3
-2.9
-5.2
1.4
0.1
4.4
0.9
-2.6
-3.4
-0.7
-3.2
-1.7
2.9
0.6
1.7
2.9
1.2
0.5
-3.7
2.7
1.1
-3.0
-2.6
-1.9
1.7
2.6
0.4
2.6
-2.0
-0.2
1.8
-0.7
-1.3
-0.5
-1.3
0.2
-2.1
2.4
-1.5
-0.4
3.8
-0.1
1.5
0.3
-1.8
0.0
2.5
3.5
-4.2
-1.0
-0.2
0.1
0.9
1.1
2.2
0.9
-0.6
-4.4
-1.1
3.9
-1.0
-0.6
1.7
0.3
-2.4
-0.1
-1.7
-0.5
-0.8
1.7
1.4
4.4
1.2
-1.8
-3.1
-2.1
-1.6
2.2
0.3
4.8
-0.8
-3.5
-2.7
3.8
1.4
-3.5
-0.9
-2.2
-0.7
-1.3
1.5
-1.5
-2.2
1.0
1.3
1.7
-0.9
根据已学的统计知识,可用频率分布直方图描述这组误差数据的分布,如图所示.频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率,所有小矩形的面积之和为1.
观察图形可知:误差观测值有正有负,并大致对称地分布在????=0的两侧,而且小误差比大误差出现得更频繁.
?
随着样本数据量越来越大,让分组越来越多,组距越来越小,由频率的稳定性可知,频率分布直方图的轮廓就越来越稳定,接近一条光滑的钟形曲线,如图所示.
根据频率与概率的关系,可用下图中的钟形曲线(曲线与水平轴之间的面积为1)来描述袋装食盐质量误差的概率分布.例如,任意抽取一袋食盐,误差落在[-2,-1]内的概率,可用图中黄色阴影部分的面积表示.
刻画随机误差分布的解析式:????(????)=1????2πe??????????22????2,????∈????.
其中????∈????,????>0为参数.
?
显然,对任意的????∈????,????(????)>0,它的图象在????轴的上方.可以证明????轴和曲线之间的区域的面积为1.我们称????(????)为正态密度函数,称它的图象为正态密度曲线,简称正态曲线,如图所示.若随机变量X的概率分布密度函数为????(????),则称随机变量????服从正态分布,记为????~????(????,????2).特别地,当????=0,????=1时,称随机变量????服从标准正态分布.
?
若????~????(????,????2),则如上图所示,????取值不超过????的概率????(????≤????)为图中区域????的面积,而????(????≤????≤????)为区域????的面积.
?
观察:观察正态曲线及相应的密度函数,你能发现正态曲线的哪些特点?
由????的密度函数及图象可以发现,正态曲线还有以下特点:
(1)曲线是单峰的,它关于直线????=????对称;
(2)曲线在????=????处达到峰值1????2π;
(3)当|????|无限增大时,曲线无限接近????轴.
?
思考:一个正态分布由参数????和????完全确定,这两个参数对正态曲线的形状有何影响?
它们反映正态分布的哪些特征?
?
我们知道,函数????=????(?????????)的图象可由????=????(????)的图象平移得到.因此,在参数????取固定值时,正态曲线的位置由????确定,且随着????的变化而沿????轴平移,如图(1)所示.
?
当????取定值时,因为曲线的峰值1????2????与????成反比,而且对任意的????>0,曲线与????轴围成的面积总为1.因此,当????较小时,峰值高,曲线“瘦高”,表示随机变量????的分布比较集中;当????较大时,峰值低,曲线“矮胖”,表示随机变量????的分布比较分散,如图(2)所示.
?
图(1)
图(2)
思考:一个正态分布由参数????和????完全确定,这两个参数对正态曲线的形状有何影响?
它们反映正态分布的哪些特征?
?
我们知道,函数????=????(?????????)的图象可由????=????(????)的图象平移得到.因此,在参数????取固定值时,正态曲线的位置由????确定,且随着????的变化而沿????轴平移,如图(1)所示.
?
图(1)
图(2)
观察图(1)和图(2)可以发现,参数????反映了正态分布的集中位置,????反映了随机变量的分布相对于均值μ的离散程度.实际上,我们有
若????~????(????,????2),则????(????)=????,????(????)=????2.
?
典例剖析
例 李明上学有时坐公交车,有时骑自行车.他各记录了50次坐公交车和骑自行车所花的时间,经数据分析得到:坐公交车平均用时30 min,样本方差为36;骑自行车平均用时34 min,样本方差为4.假设坐公交车用时????和骑自行车用时????都服从正态分布.
(1)估计????,????的分布中的参数;
(2)根据(1)中的估计结果,利用信息技术工具画出????和????的分布密度曲线;
(3)如果某天有38 min可用,李明应选择哪种交通工具?如果某天只有34 min可用,又应该选择哪种交通工具?请说明理由.
解:(1)随机变量????的样本均值为30,样本标准差为6;随机变量????的样本均值为34,样本标准差为2.用样本均值估计参数????,用样本标准差估计参数????,可以得到
????~????(30,62),????~????(34,22).
?
(2)????和????的分布密度曲线如图所示.
(3)应选择在给定时间内不迟到的概率大的交通工具.由图可知,
????(????≤38)???(????≤38),????(????≤34)>????(????≤34).
所以,如果有38 min可用,那么骑自行车不迟到的概率大,应选择骑自行车;如果只有34 min可用,那么坐公交车不迟到的概率大,应选择坐公交车.
?
假设????~????(????,????2),可以证明:对给定的????∈?????,????(?????????????≤????≤????+????????)是一个只与????有关的定值.特别地,
????(?????????≤????≤????+????)≈0.682?7,
????(?????2????≤????≤????+2????)≈0.954?5,
????(?????3????≤????≤????+3????)≈0.997?3.
上述结果可用右图表示.
?
由此看到,尽管正态变量的取值范围是(?∞,+∞),但在一次试验中,????的取值几乎总是落在区间[?????3????,????+3????]内,而在此区间以外取值的概率大约只有0.002 7,通常认为这种情况几乎不可能发生.
在实际应用中,通常认为服从于正态分布????(????,????2)的随机变量????只取[?????3????,????+3????]中的值,这在统计学中称为3????原则.
?
随堂小测
D
2.随机变量????服从正态分布N(μ,σ2),若????(????<2)=0.2,????(2≤????≤6)=0.6,则????= ( )
A.3 B.4 C.5 D.6
?
B
3.据统计,某脐橙的果实横径(单位:mm)服从正态分布????(80,52),则果实横径在[75,90]内的概率为 ( )
附:若????~????(????,????2),则????(?????????≤????≤????+????)≈0.682?7,????(?????2????≤????≤????+2????)≈0.954?5.
A.0.682?7 ???????????????????????B.0.841?3 ???????????????????????????C.0.818?6 ??????????????????D.0.954?5
?
C
4.已知随机变量????~????(2,????2),若????(????≤1?????)+????(????≤1+2????)=1,则实数????= ( )
A.0 B.1 C.2 D.4
?
C
5.在某次模拟考试中,某校有3 000人参加,其数学考试成绩?????~?????(100,????2)?(????>0,试卷满分150分),统计结果显示数学考试成绩高于130分的人数为100,则该校此次数学考试成绩高于100分且低于130分的学生人数约为 ( )
A.1 300 B.1 350 C.1 400 D.1 450
?
C
课堂小结
连续型随机变量
正态密度函数,正态密度曲线
????(????)=1????2πe??????????22????2,????∈????.
?
正态分布
正态曲线的特点:
(1)曲线是单峰的,它关于直线????=????对称;
(2)曲线在????=????处达到峰值1????2π;
(3)当|????|无限增大时,曲线无限接近????轴.
?
参数????和????对正态曲线的形状的影响
?
3????原则
?
????(?????????≤????≤????+????)≈0.682?7,
????(?????2????≤????≤????+2????)≈0.954?5,
????(?????3????≤????≤????+3????)≈0.997?3.
?
谢 谢!