(共24张PPT)
第七章随机变量及其分布
7.5正态分布
课程标准
1.通过误差模型,了解服从正态分布的随机变量。通过具体实例,借助频率直方图的几何直观,了解正态分布的特征;
2.了解正态分布的均值、方差及其含义。
复习回顾
回顾1 什么是二项分布?它的均值与方差分别是多少?
1.二项分布的定义:一般地,在重伯努利试验中, 设每次试验中事件发生的概率为,用表示事件发生的次数,则的分布列为
如果随机变量的分布列具有上式的形式,则称随机变量服从二项分布,记作.
2.二项分布的期望与方差
如果, 那么; .
复习回顾
回顾2 什么是超几何分布?它的均值分别是多少?
1.超几何分布:一般地,假设一批产品共有件,其中有件次品. 从件产品中随机抽取件(不放回),用表示抽取的件产品中的次品数,则的分布列为:
其中n,M,N∈N*,m=max{0,n-N+M},r=min{n , M}.
2. 超几何分布的期望. 即
新课导入
现实中, 除了前面已经研究过的离散型随机变量外, 还有大量问题中的随机变量不是离散的,它们的取值往往充满某个区间甚至整个实轴 , 但取一点的概率为0 , 我们称这类随机变量为连续性随机变量 , 这就是我们所要学习的正态分布。
一
二
三
教学目标
通过误差模型,了解服从正态分布的随机变量,借助频率分布直方图的几何直观,了解与归纳正态分布的特点
了解正态分布的均值、方差及其含义
了解3σ原则,会求随机变量在特殊区间内的概率,并能解决相关问腿
教学目标
难点
重点
新知探究
探究一:正态分布的概念
新知讲解
问题1 由于各种不可控的因素 , 任意抽取一袋食盐,它的质量与标准质量之间或多或少会存在一定的误差 (实际质量减去标准质量) . 用表示这种误差 , 则是一个连续型随机变量 . 检测人员在一次产品检验中 , 随机抽取了100袋食盐 , 获得误差 (单位:g)的观测值如下:
(1)如何描述这100个样本误差数据的分布
(2)如何构建适当的概率模型刻画误差的分布
新知讲解
根据已学的统计知识,可用频率分布直方图描述这组误差数据的分布,如图(1)所示. 频率分布直方图中每个小矩形的面积表示误差落在相应区间内的频率,所有小矩形的面积之和为1.
0
-6
-4
2
0
-2
频率/组距
0.05
0.10
0.15
0.20
X
4
6
(1)
观察图形可知: 误差观测值有正有负,并大致对称地分布在的两侧,而且小误差比大误差出现得更频繁.
新知讲解
随着样本数据量越来越大, 让分组越来越多, 组距越来越小,
频率/组距
X
-6
0
-4
-2
0
0.15
0.05
0.10
0.20
4
2
6
0
-6
-4
2
0
-2
频率/组距
0.05
0.10
0.15
0.20
X
4
6
由频率的稳定性可知, 频率分布直方图的轮廓就越来越稳定, 接近一条光滑的钟形曲线
新知讲解
根据频率与概率的关系,可用右图中的钟形曲线(曲线与水平轴之间的面积为1)来描述袋装食盐质量误差的概率分布.
例如,任意抽取一袋食盐,误差落在内的概率,可用图中黄色阴影部分的面积表示.
问题3 它是函数吗?
如果是,那么,这个函数是否存在解析式呢?
新知讲解
问题3 它是函数吗?
如果是,那么,这个函数是否存在解析式呢?
答案是肯定的.并且在数学家的不懈努力下,找到了以下刻画随机误差分布的解析式:
其中 μ∈R,σ>0 为参数.
概念生成
解析式:
显然, 对任意的, 它的图象在 轴的上方.
可以证明轴和曲线之间的区域的面积为 1.
我们称为正态密度函数,称它的图象为正态密度曲线,简称正态曲线,如右图所示.
若随机变量 X 的概率分布密度函数为 f (x),则称随机变量X 服从正态分布,记为 X~N(μ,σ2).
特别地,当 μ=0,σ=1 时,称随机变量 X 服从标准正态分布.
新知讲解
若, 则如上图所示, X取值不超过x的概率为图中区域的面积, 而为区域的面积.
面积即为概率!
正态分布在概率和统计中占有重要地位,它广泛存在于自然现象、生产和生活实践之中.在现实生活中,很多随机变量都服从或近似服从正态分布.
例如,某些物理量的测量误差,某一地区同年龄人群的身高、体重、肺活量等,一定条件下生长的小麦的株高、穗长、单位面积产量,自动流水线生产的各种产品的质量指标(如零件的尺寸、纤维的纤度、电容器的电容),某地每年 7月的平均气温、平均湿度、降水量等,一般都近似服从正态分布.
新知探究
探究二:正态分布图像特征
新知讲解
问题4 观察正态曲线及相应的密度函数,你能发现正态曲线的哪些特点?
由的密度函数及图象可以发现,
正态曲线还有以下特点:
(1)曲线是单峰的,它关于直线 对称;
(2)曲线在处达到峰值 ;
(3)当无限增大时, 曲线无限接近轴
(4)曲线与x轴围成的面积总为1
新知讲解
问题5 一个正态分布由参数和完全确定,这两个参数对正态曲线的形状有何影响?它们反映正态分布的哪些特征?
解析式:
我们知道,函数的图象可由的图象平移得到.
因此,在参数取固定值时,正态曲线的位置由确定, 且随着的变化而沿轴平移,如图所示.
当取定值时, 因为正态曲线的峰值与成反比, 而且对任意的, 曲线与轴围成的面积总为1.
新知讲解
因此 , 当较小时, 峰值高, 曲线“瘦高”, 表示随机变量的分布比较集中;
当较大时,峰值低, 曲线“矮胖”, 表示随机变量的分布比较分散, 如右图所示.
正态曲线的位置由确定
确定峰值
概念生成
参数反映了正态分布的集中位置,反映了随机变量的分布相对于均值的离散程度.
实际上,我们有:
若 .
在实际问题中,参数可以分别用样本均值与样本标准差来估计
例题讲解
例 李明上学有时坐公交车, 有时骑自行车. 他各记录了50次坐公交车和骑自行车所花的时间, 经数据分析得到:坐公交车平均用时, 样本方差为36; 骑自行车平均用时, 样本方差为4.假设坐公交车用时和骑自行车用时Y都服从正态分布.
(1)估计的分布中的参数;
(2)根据(1)中的估计结果,利用信息技术工具画出与的分布密度曲线;
(3)如果某天有可用, 李明应选择哪种交通工具 如果某天只有可用,又应该选择哪种交通工具?请说明理由.
分析:对于第(1)问,正态分布由参数μ和σ完全确定,根据正态分布参数的意义,可以分别用样本均值和样本标准差来估计. 对于第(3)问, 这是一个概率决策问题, 首先要明确决策的准则, 在给定的时间内选择不迟到概率大的交通工具;然后结合图形,根据概率的表示,比较概率的大小,作出判断.
例题讲解
解: (1)随机变量X的样本均值为30 , 样本标准差为6;
随机变量Y的样本均值为34, 样本标准差为2. 用样本均值估计参数μ. 用样本标准差估计参数σ, 可以得到
X~N(30 , 62) , Y~N(34 , 22).
(3)应选择在给定时间内不迟到的概率大的交通工具.由图可知
P(X≤38)
P(Y ≤ 34)
所以 , 如果有38min可用 , 那么骑自行车不迟到的概率大, 应选择骑自行车; 如果只有34min可用, 那么坐公交车不迟到的概率大, 应选择坐公交车.
新知讲解
假设,可以证明:对给定的,
是一个只与有关的定值 .
特别地,
① P(μ-σ ≤ X≤ μ+σ)0.6827;
② P(μ-2σ ≤ X≤ μ+2σ)0.9545;
③ P(μ-3σ ≤ X≤ μ+3σ)0.9973.
3σ原则
新知讲解
由此看到, 尽管正态变量的取值范围是( ∞, +∞) , 但在一次试验中, X的取值几乎总落在区间内 , 而在此区间以外取值的概率大约只有0.0027 , 通常认为这种情况几乎不可能发生.
在实际应用中, 通常认为服从于正态分布的随机变量X只取中的值 , 这在统计学中称为3原则.
小结
1. 正态密度解析式:
2.正态曲线还有以下特点:
(1)曲线是单峰的,它关于直线 对称;
(2)曲线在处达到峰值 ;
(3)当无限增大时, 曲线无限接近轴
(4)曲线与x轴围成的面积总为1
① P(μ-σ ≤ X≤ μ+σ)0.6827;
② P(μ-2σ ≤ X≤ μ+2σ)0.9545;
③ P(μ-3σ ≤ X≤ μ+3σ)0.9973.
3. 3σ原则