第七章 随机变量及其分布
第七章 随机变量及其分布
7.5正态分布
7.5正态分布
知识梳理
知识梳理
知识点1.正态分布
定义:对于任何实数随机变量满足:,则随机变量服从正态分布。记为
正态分布的期望与方差
若,,则的期望与方差分别为:,。
知识点2.正态曲线:
正态曲线:
沿着横轴方向水平移动能改变对称轴的位置,曲线的形状没有改变,所得的曲线依然是正态曲线false函数,其中false,false为参数.
显然对于任意x∈R,false,它的图象在x轴的上方,可以证明x轴和曲线之间的区域的面积为1,称false为正态密度函数,称它的图象为正态曲线.若随机变量X的概率密度函数为false,称随机变量X服从正态分布,记为X~false,当=0,=1时,称随机变量X服从标准正态分布.
正态曲线的性质:
①曲线位于轴上方,与轴不相交;
②曲线是单峰的,它关于直线对称;
③曲线在时达到峰值;
④当时,曲线上升;当时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近.
⑤曲线与轴之间的面积为1;
⑥决定曲线的位置和对称性;
当一定时,曲线的对称轴位置由确定;如下图所示,曲线随着的变化而沿轴平移。
⑦确定曲线的形状;
当一定时,曲线的形状由确定。越小,曲线越“高瘦”,表示总体的分布越集中;越大,曲线越“矮胖”,表示总体的分布越分散。
正态曲线的特点
1.对?x∈R,f(x)>0,它的图象在x轴的上方.
2.曲线与x轴之间的面积为1.
3.曲线是单峰的,它关于直线x=μ对称.
4.曲线在x=μ处达到峰值.
5.当|x|无限增大时,曲线无限接近x轴.
6.当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x轴平移,如图①.
7.当μ一定时,曲线的形状由σ确定,σ较小时曲线“瘦高”,表示随机变量X的分布比较集中;σ较大时,曲线“矮胖”,表示随机变量X的分布比较分散
正态总体在三个特殊区间内取值的概率值及3σ原则
P(μ-σ≤X≤μ+σ)≈0.682 7;
P(μ-2σ≤X≤μ+2σ)≈0.954 5;
P(μ-3σ≤X≤μ+3σ)≈0.997 3.
尽管正态变量的取值范围是(-∞,+∞),但在一次试验中,X的取值几乎总是落在区间[μ-3σ,μ+3σ]内,而在此区间以外取值的概率大约只有0.002 7,通常认为这种情况在一次试验中几乎不可能发生.
在实际应用中,通常认为服从于正态分布N(μ,σ2)的随机变量X只取[μ-3σ,μ+3σ]中的值,这在统计学中称为3σ原则.
题型探究
题型探究
例1.随着时代发展和社会进步,教师职业越来越受青睐,考取教师资格证成为不少人的就业规划之一.当前,中小学教师资格考试分笔试和面试两部分.已知某市2020年共有10000名考生参加了中小学教师资格考试的笔试,现从中随机抽取100人的笔试成绩(满分视为100分)作为样本,整理得到如下频数分布表:
笔试成绩false
false
false
false
false
false
false
人数
5
10
25
30
20
10
(1)假定笔试成绩不低于90分为优秀,若从上述样本中笔试成绩不低于80分的考生里随机抽取2人,求至少有1人笔试成绩为优秀的概率;
(2)由频数分布表可认为该市全体考生的笔试成绩false近似服从正态分布false,其中false近似为100名样本考生笔试成绩的平均值(同一组中的数据用该组区间的中点值代替),false,据此估计该市全体考生中笔试成绩不低于85.9的人数(结果四舍五入精确到个位)
(3)考生甲为提升综合素养报名参加了某拓展知识竞赛,该竞赛要回答3道题,前两题是哲学知识,每道题答对得3分,答错得0分;最后一题是心理学知识,答对得4分,答错得0分.已知考生甲答对前两题的概率都是false,答对最后一题的概率为false,且每道题答对与否相互独立,求考生甲的总得分false的分布列及数学期望.
(参考数据:false;若false,则false,false,false.)
【答案】(1)false;(2)false人;(3)分布列见解析;期望为false.
【详解】
(1)由已知,样本中笔试成绩不低于80分的考生共30人,其中成绩优秀10人.
∴false.
(2)有表格数据知,false,又false,即false,
∴false,
由此可估计该市全体考生笔试成绩不低于85.9分的人数为false人.
(3)考生甲的总得分false的所有可能取值为0,3,4,6,7,10.
false,false,
false,false,
false,false,
false的分布列为:
false
0
3
4
6
7
10
false
false
false
false
false
false
false
false.
例2.某县一高级中学是一所省级规范化学校,为适应时代发展?百姓需要,该校在县委县政府的大力支持下,启动建设了一所高标准?现代化?智能化的新校,并由县政府公开招聘事业编制教师,招聘时首先要对应聘者的简历进行评分,评分达标者进入面试环节,面试时应聘者需要回答三道题,第一题考查教育心理学知识,答对得10分,答错得0分;第二题考查学科专业知识,答对得10分,答错得0分;第三题考查课题说课,说课优秀者得15分,非优秀者得5分.
(1)若共有2000人应聘,他们的简历评分false服从正态分布false,80分及以上为达标,估计进入面试环节的人数(结果四舍五人保留整数);
(2)面试环节一应聘者前两题答对的概率均为false,第三题被评为优秀的概率为false,每道题正确与否?优秀与否互不影响,求该应聘者的面试成绩Y的分布列及其数学期望.
附:若随机变量false,则falsefalse.
【答案】(1)317人;(2)分布列答案见解析,数学期望:false.
【详解】
解:(1)因为false服从正态分布false,
所以false
因为false,
所以进入面试环节的人数约为317人;
(2)记该应聘者第false题答对为事件false,第3题优秀为事件false
false的可能取值为false
则false
false
false
false
false
false
false
false
所以false的分布列为
false
5
15
25
35
false
false
false
false
false
所以false的数学期望为false.
例3.2021年是“十四五”规划开局之年,也是建党100周年.为了传承红色基因,某学校开展了“学党史,担使命”的知识竞赛.现从参赛的所有学生中,随机抽取100人的成绩作为样本,得到成绩的频率分布直方图,如图.
(1)求频率分布直方图中false的值,并估计该校此次竞赛成绩的平均分false(同一组中的数据用该组区间中点值代表);
(2)在该样本中,若采用分层抽样的方法,从成绩高于75分的学生中随机抽取7人查看他们的答题情况,再从这7人中随机抽取3人进行调查分析,求这3人中至少有1人成绩在false内的概率;
(3)假设竞赛成绩服从正态分布false,已知样本数据的方差为121,用平均分false作为false的近似值,用样本标准差false作为false的估计值,求该校本次竞赛的及格率(60分及以上为及格).
参考数据:false,false,false.
【答案】(1)false;平均分为71分;(2)false;(3)false.
【详解】
解:(1)由频率分布直方图可得,false,
解得false.
这组样本数据的平均数为
false.
所以估计该校此次竞赛成绩的平均分为71分;
(2)自频率分布直方图可知,成绩在false,false内的频率分别为0.25,0.1.
所以采用分层抽样的方法从样本中抽取的7人,成绩在false内的有5人,成绩在false内的有2人.
记事件false这3人至少有1人成绩在false内
则false;
(3)由题意知,样本方差false,故false,
所以竞赛成绩false
该校竞赛的及格率false.
例4.2020年10月,中共中央办公厅、国务院办公厅印发了《关于全面加强和改进新时代学校体育工作的意见》,某地积极开展中小学健康促进行动,决定在2021年体育中考中再增加定的分数,规定:考生须参加游泳、长跑、一分钟跳绳三项测试,其中一分钟跳绳满分20分,某校在初三上学期开始要掌握全年级学生一分钟跳绳情况,随机抽取了100名学生进行测试,得到如图所示频率分布直方图,且规定计分规则如下表:
每分钟跳绳个数
false
false
false
false
得分
17
18
19
20
(1)现从样本的100名学生中任意选取2人,求两人得分之和不大于35分的概率;
(2)根据往年经验,该校初三年级学生经过一年的训练,正式测试时每人每分钟跳绳个数都有明显进步,整体成绩差异略有变化.假设今年正式测试时每人每分钟跳绳个数比初三上学期开始时个数增加10个,方差为169,且该校初三年级所有学生正式测试时每分钟的跳绳个数false服从正态分布false,用样本数据的期望和方差估计总体的期望和方差(各组数据用区间的中点值代替).
①若在全年级所有学生中任意选取3人,记正式测试时每分钟跳195个以上的人数为false,求随机变量false的分布列和期望;
②判断该校初三年级所有学生正式测试时的满分率是否能达到85%,说明理由.
附:若随机变量false服从正态分布false,则false,false.
【答案】(1)false;(2)①分布列见解析;期望为false;②不能;答案见解析.
【详解】
【解】(1)设“选取得2人得分之和不大于35”为事件A,则A的基本事件总数为false.
由题意,得17分的学生人数为false人,
得18分的人数为false人.
事件A发生包含两种可能:一种是两人得分均为17分,另一种是两人中1人得17分,1人得18分,所以事件A的基本事件个数false.
所以事件A的概率false.
(2)①false.
由题意,正式测试时,false,则false.
所以:false.
即在全年级所有学生中任取1人,每分钟跳绳个数在195个以上的概率为0.5.
由题意false,则false.
则false的分布列:
false
0
1
2
3
false
false
false
false
false
所以false.
②由false,
所以false,
所以预测正式测试时每分钟跳绳个数在182个以上的人数比例为false,由题意,每分钟跳绳个数不少于185个才能得到满分,因此可以预测该校初三年级所有学生正式测试时的满分率false.
例5.某市为创建全国文明城市,市文明办举办了一次文明知识网络竞赛,全市市民均有且只有一次参赛机会,满分为100分,得分大于等于80分的为优秀.竞赛结束后,随机抽取了参赛中100人的得分为样本,统计得到样本平均数为71,方差为81.假设该市有10万人参加了该竞赛活动,得分Z服从正态分布false.
(1)估计该市这次竞赛活动得分优秀者的人数是多少万人?
(2)该市文明办为调动市民参加竞赛的积极性,制定了如下奖励方案:所有参加竞赛活动者,均可参加“抽奖赢电话费”活动,竞赛得分优秀者可抽奖两次,其余参加者抽奖一次.抽奖者点击抽奖按钮,即随机产生一个两位数(10,11,false,99),若产生的两位数的数字相同,则可奖励40元电话费,否则奖励10元电话费.假设参加竞赛活动的所有人均参加了抽奖活动,估计这次活动奖励的电话费总额为多少万元?
参考数据:若false,则false.
【答案】(1)1.6(万人);(2)150.8万元.
【详解】
(1)因得分false,所以标准差false,所以优秀者得分false,
由false得,false,
因此,估计这次参加竞赛活动得分优秀者的人数为false(万人).
(2)设抽奖一次获得的话费为X元,
则false,
所以抽奖一次获得电话费的期望值为false,
又由于10万人均参加抽奖,且优秀者参加两次,
所以抽奖总次数为false万次,
因此,估计这次活动所需电话费为false万元.
课后小练
课后小练
1.扶贫期间,扶贫工作组从 A 地到 B 地修建了公路,脱贫后,为了了解 A 地到 B 地公路的交通通行状况,工作组调查了从 A 地到 B 地行经该公路的各种类别的机动车共4000辆,汇总行车速度后作出如图所示的频率分布直方图.
(1)试根据频率分布直方图,求样本中的这4000辆机动车的平均车速(同一组中的数据用该组区间的中点值代替).
(2)由频率分布直方图可大致认为,该公路上机动车的行车速度 Z 服从正态分布 N(μ,σ2) ,其中 μ , σ2 分别取调查样本中4000辆机动车的平均车速和车速的方差 s2 ( s2=204.75 ).
(ⅰ)请估计该公路上10000辆机动车中车速不低于84.8千米/时的车辆数(精确到个位);
(ⅱ)现从经过该公路的机动车中随机抽取10辆,设车速低于84.8千米/时的车辆数为 X ,求 X 的数学期望.
附:若 ξ~N(μ,σ2) ,则 P(μ?σ<ξ≤μ+σ)=0.6827 , P(μ?2σ<ξ≤μ+2σ)=0.9545 , P(μ?3σ<ξ≤μ+3σ)=0.9973 ,取 204.75=14.3 .
2.某年某省有40万考生参加高考.已知考试总分为750分,一本院校在该省计划招生6万人.经考试后统计,考试成绩X服从正态分布 N(300,1502) ,若以省计划招生数确定一本最低录取分数.
(1)已知 P(144(2)某公司为考生制定了如下奖励方案:所有高考成绩不低于一本最低录取分数的考生均可参加“线上抽奖送话费”活动,每个考生只能抽奖一次.抽奖者点击抽奖按钮,即随机产生一个两位数(10,11,…,99),若产生的两位数字相同,则可奖励20元话费,否则奖励5元,假如所有符合条件的考生均参加抽奖活动,估计这次活动奖励的话费总额是多少?
3.2020年某地在全国志愿服务信息系统注册登记志愿者8万多人.2019年7月份以来,共完成1931个志愿服务项目,8900多名志愿者开展志愿服务活动累计超过150万小时.为了了解此地志愿者对志愿服务的认知和参与度,随机调查了500名志愿者每月的志愿服务时长(单位:小时),并绘制如图所示的频率分布直方图.
(1)求这500名志愿者每月志愿服务时长的样本平均数 x 和样本方差 s2 (同一组中的数据用该组区间的中间值代表);
(2)由直方图可以认为,目前该地志愿者每月服务时长 X 服从正态分布 N(μ,σ2) ,其中 μ 近似为样本平均数 x , σ2 近似为样本方差 s2 .一般正态分布的概率都可以转化为标准正态分布的概率进行计算:若 X~N(μ,σ2) ,令 Y=X?μσ ,则 Y~N(0,1) ,且 P(X≤a)=P(Y≤a?μσ) .
(ⅰ)利用直方图得到的正态分布,求 P(X≤10) ;
(ⅱ)从该地随机抽取20名志愿者,记 Z 表示这20名志愿者中每月志愿服务时长超过10小时的人数,求 P(Z≥1) (结果精确到0.001)以及 Z 的数学期望.
参考数据: 1.64≈1.28 , 0.773420≈0.0059 .若 Y~N(0,1) ,则 P(Y≤0.78)=0.7734 .
4.随着如今人们生活水平的不断提高,旅游成了一种生活时尚,尤其是老年人的旅游市场在不断扩大.为了了解老年人每年旅游消费支出(单位:元)的情况,相关部门抽取了某地区 1000 名老年人进行问卷调查,并把所得数据列成如下所示的频数分布表:
组别
[0,1000)
[1000,2000)
[2000,3000)
[3000,4000)
[4000,5000)
[5000,6000)
频数
120
260
340
250
20
10
(1)求所得样本平均数(精确到元);
(2)根据样本数据,可近似地认为老年人的旅游费用支出X服从正态分布 N(3000,10002) ,若该地区共有老年人95000人,试估计有多少位老年人旅游费用支出在5000元以上;
(3)已知样本数据中旅游费用支出在 [5000,6000) 范围内的10名老人中有7名女性,3名男性.现想选其中3名老人回访,记选出的男生人数为 ξ ,求 ξ 的分布列.
附:若 X~N(μ,σ2) , P(μ?σ5.某村为了脱贫致富,引进了两种麻鸭品种,一种是旱养培育的品种,另一种是水养培育的品种.为了了解养殖两种麻鸭的经济效果情况,从中随机抽取500只麻鸭统计了它们一个季度的产蛋量(单位:个),制成了如图的频率分布直方图,且已知麻鸭的产蛋量在 [85,105] 的频率为0.66.
附: X?N(μ,σ2) ,则 P(μ?σK2=n(ad?bc)2(a+b)(c+d)(a+c)(b+d) ,其中 n=a+b+c+d .
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(1)求a,b的值;
(2)已知本次产蛋量近似服从 X~N(μ,σ2) (其中 μ 近似为样本平均数, σ2 似为样本方差).若本村约有10000只麻鸭,试估计产蛋量在110~120的麻鸭数量(以各组区间的中点值代表该组的取值).
(3)若以正常产蛋90个为标准,大于90个认为是良种,小于90个认为是次种.根据统计得出两种培育方法的 2×2 列联表如下,请完成表格中的统计数据,并判断是否有99.5%的把握认为产蛋量与培育方法有关.
良种
次种
总计
旱养培育
160
260
水养培育
60
总计
340
500
答案解析
【答案】
(1)由题意知
中点值
45
55
65
75
85
95
频率
0.1
0.15
0.2
0.3
0.15
0.1
所以 x=(45+95)×0.1+(55+85)×0.15+65×0.2+75×0.3=70.5 ,
所以这4000辆机动车的平均车速为70.5千米/时.
(2)依题意, Z 服从正态分布 N(μ,σ2) ,其中 μ=x=70.5 , σ2=s2=204.75 ,所以 σ=14.3 .
(ⅰ)因为 P(μ?σ所以 P(Z≥84.8)=1?0.68272=0.15865 ,
所以车速不低于84.8千米/时的车辆数的估计值为 0.15865×10000=1586.5≈1587 .
(ⅱ)行车速度低于84.8千米/时的概率为 1?0.15865=0.84135 ,
而 X~B(10,0.84135) ,
所以 E(X)=10×0.84135=8.4135 .
【解析】
(1)根据频率分布直方图,利用平均数公式求解;
(2)(ⅰ) 根据 Z?服从正态分布?N(μ,σ2) ,利用 3σ原则求解出 P(Z≥84.8)=1?0.68272=0.15865?即可求出;(ⅱ) 根据 行车速度低于84.8千米/时的概率为?1?0.15865=0.84135?, 再根据 X~B(10,0.84135)? 即可求出 X?的数学期望 。
2.【答案】
(1)解:X服从正态分布: X∽N(300,1502) ,
因为 P(144所以 P(X≤144)=0.5?0.35=0.15 ,根据正态曲线的对称性,
P(300≤X<456)=0.35 , P(X≥300)=0.5
所以 P(X≥456)=0.15 ,
若40万考生中一本院校招收6万考生,则一本院校考生占比为 640=0.15 ,
所以这一年一本最低录取分数为456分.
(2)解:X的分布列如下:
X
20
5
P
0.1
0.9
所以 E(X)=20×0.1+5×0.9=6.5 ,
因为一本院校招生一共6万人,每人的话费期望值为6.5元,故总额为 6.5×6=39 万元
【解析】
由正态分布的性质,以及对称性代入数值计算出结果由此即可得出结论。
(2)根据题意求出X的取值,再由概率公式计算出对应每个X的概率值,并把数值代入到期望值公式计算出结果即可。
【答案】
(1)解: x=6×0.02+7×0.1+8×0.2+9×0.38+10×0.18+11×0.08+12×0.04=9 .
s2=(6?9)2×0.02+(7?9)2×0.1+(8?9)2×0.2+(9?9)2×0.38+(10?9)2×0.18+(11?9)2×0.08+(12?9)2×0.04=1.64 .
(2)解:(ⅰ)由题知 μ=9 , σ2=1.64 ,所以 X~N(9,1.64) , σ=1.64≈1.28 .
所以 P(X≤10)=P(Y≤10?91.28)=P(Y≤0.78)=0.7734 .
(ⅱ)由(ⅰ)知 P(X>10)=1?P(X≤10)=0.2266 ,可得 Z~B(20,0.2266) .
P(Z≥1)=1?P(Z=0)=1?0.773420≈1?0.0059=0.9941≈0.994 .
故 Z 的数学期望 E(Z)=20×0.2266=4.532 .
【解析】
(1)先根据已知求出平均值,然后根据方差公式即可求解;
(2)①分析出X服从正态分布,然后根据正态分布的性质即可求解;②分析出Z服从二项分布,然后根据二项分布的性质以及期望公式即可求解.
4.【答案】
(1)解:设样本平均数为 x ,则有: x=500×120+1500×260+2500×340+3500×250+4500×20+5500×101000=2320 (元);
(2)解: ∵μ=3000 , σ=1000 , ∴μ+2σ=5000 ,
所以旅游费用在 5000 元以上的概率为 P(X≥μ+2σ)=1?P(μ?2σ∵95000×0.0228=2166 ,所以估计有2166位老人旅游费用支出在5000元以上;
(3)解:由题意可知, ξ 的取值为0、1、2、3,
P(ξ=0)=C73C103=724 , P(ξ=1)=C72C31C103=2140 , P(ξ=2)=C71C32C103=740 , P(ξ=3)=C33C103=1120 .
所以,随机变量 ξ 的分布列为
ξ
0
1
2
3
P
724
2140
740
1120
【解析】
(1)直接利用求平均数公式计算即可;
(2) μ=3000?,?σ=1000?, μ+2σ=5000?, 旅游费用在?5000?元以上的概率为?P(X≥μ+2σ)=1?P(μ?2σ (3) 由题意可知,?ξ?的取值为0、1、2、3, 求出对应的概率,得到随机变量?ξ?的分布列即可。 ?
5.【答案】
(1)解:由频率分布直方图,可得产蛋量在 [85,105] 的频率为0.66,可得产蛋量在 [85,105] 的麻鸭数量为 500×0.66=330 (只).
所以产蛋量在 [75,85) 的麻鸭数量为 0.006×10×500=30 (只)
产蛋量在 [85,95) 的麻鸭数量为 0.024×10×500=120 (只)
产蛋量在 [115,125) 的麻鸭数量为 0.008×10×500=40 (只)
所以 a=(330?120)÷500÷10=0.042 , b=(500?330?30?40)÷500÷10=0.02 .
(2)解:由平均数的计算公式,可得:
μ=1500×(80×30+90×120+100×210+110×100+120×40)=100
σ2=1500×[30×(100?80)2+120×(100?90)2+210×(100?100)2+100×(100?110)2
+40×(100?120)2]=100 ,即 σ=10 ,
又由 P(110?P(100?10所以10000只麻鸭中估计产蛋量在110~120的麻鸭数量为 0.1359×10000=1359 (只)
(3)解:根据题意,得到 2×2 列联表:
良种
次种
总计
旱养培育
100
160
260
水养培育
60
180
240
总计
160
340
500
所以 K2=500×(100×180?60×160)2260×240×160×340≈10.393>7.879 ,
所以有99.5%的把握认为产蛋量与培育方法有关.
【解析】(1)利用频率分布直方图求出对应的频率值,进而求得 a,b 的值;(2)根据题意计算 μ,σ2 的值,利用正态分布的性质,即可求解 P(110