10.8 概率统计的综合问题
会综合利用概率统计知识,解决频率分布直方图、回归模型、独立性检验与分布列的综合问题.
考点1 频率分布直方图与分布列的综合
【例1】 为提高学生的环保意识,某大学举办了一次环保知识竞赛,并从所有参赛大学生中随机抽取了100人,统计发现他们的竞赛分数均分布在[450,950]内,根据调查的结果绘制了竞赛分数的频率分布直方图,如图所示.分数不低于850分的学生被称为“特优选手”.
(1)求a的值,并估计该校学生竞赛分数的第70百分位数和平均数(同一组中的数据用该组区间的中点值作代表);
(2)现采用比例分配的分层随机抽样的方式从分数在[750,850),[850,950]内的两组学生中共抽取10人,再从这10人中随机抽取4人,记被抽取的4名学生中“特优选手”的人数为随机变量X,求X的分布列及数学期望.
【解】 (1)由频率分布直方图知(0.001 5×2+a+0.002 5+0.001 0)×100=1 a=0.003 5.
设第70百分位数为m,前两组所占频率为(0.001 5+0.003 5)×100=0.5,
前三组所占频率为(0.001 5+0.003 5+0.002 5)×100=0.75,则m位于第三组数据中,
所以= m=730,即第70百分位数的估计值为730.
平均数=(500×0.001 5+600×0.003 5+700×0.002 5+800×0.001 5+900×0.001 0)
×100=670,
即该校学生竞赛成绩的平均数的估计值为670.
(2)由(1)知分数在[750,850),[850,950]内的两组学生分别有100×0.001 5×100=15(人),100×0.001 0×100=10(人),
所以各自抽取的人数分别为10×=6,10×=4,
显然“特优选手”有4人,
故X可取0,1,2,3,4,则P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,P(X=4)==,
所以X的分布列为
X 0 1 2 3 4
P
E(X)=0×+1×+2×+3×+4×=.
高考中常将频率分布直方图与分布列等交汇在一起进行考查,解题时要正确理解频率分布直方图,能利用频率分布直方图正确计算出各组数据.概率问题以计算为主,往往和实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来.
【对点训练1】 某甜品店为了解某款甜品的销售情况,进而改变制作工艺,根据以往的销售记录,绘制了日销售量的频率分布直方图,如图所示. 假设每天的销售量相互独立,用频率估计概率.
(1)估计某一天此款甜品销售量不超过60个的概率.
(2)用X表示在未来3天里,此款甜品日销售量超过60个的天数,求随机变量X的分布列和数学期望.
(3)该店改变了制作工艺以后,抽取了连续30天的销售记录,发现这其中有20天的销售量都超过70个,根据抽查结果,能否认为改变工艺后,此款甜品的销售情况发生了变化?请说明理由.
解:(1)设事件A为“某一天此款甜品销售量不超过60个”,
所以P(A)=(0.01+0.03)×10=0.4.
(2)根据题意得X~B(3,0.6),则
P(X=0)=0.43=0.064,
P(X=1)=C×0.6×0.42=0.288,
P(X=2)=C×0.62×0.4=0.432,
P(X=3)=0.63=0.216,
所以X的分布列为
X 0 1 2 3
P 0.064 0.288 0.432 0.216
所以E(X)=0×0.064+1×0.288+2×0.432+3×0.216=1.8.
(3)可以认为改变制作工艺后,此款甜品的销售情况发生了变化.理由如下:
改变制作工艺前,设事件C表示“日销售量超过70个”,用Y表示30天内日销售量超过70个的天数,
由频率分布直方图可得P(C)=0.2,则Y~B(30,0.2),
所以E(Y)=30×0.2=6<20,
所以可以认为改变制作工艺后,此款甜品的销售情况发生了变化.
考点2 回归模型与分布列的综合
【例2】 (2025·山东淄博二模)汽车尾气排放超标是导致全球变暖、海平面上升的重要因素.我国近几年着重强调可持续发展,加大新能源项目的支持力度,积极推动新能源汽车产业迅速发展.某汽车制造企业对某地区新能源汽车的销售情况进行调查,得到下面的统计表:
年份t 2020 2021 2022 2023 2024
年份代码x 1 2 3 4 5
销量y/万辆 10 12 17 20 26
(1)计算销量y关于年份代码x的样本相关系数r,并判断是否可以认为y与x有较强的线性相关关系(若|r|≥0.75,则认为有较强的线性相关关系).若是,求出y关于x的经验回归方程;若不是,请说明理由.
(2)为了解购车车主的购车种类(分为新能源汽车与传统燃油汽车)的情况,该企业调查了该地区4位购买新能源汽车车主和4位购买传统燃油汽车车主,现从这8位购车车主中随机抽取3位,用X表示抽取的3位购车车主中购买新能源汽车的人数,求随机变量X的分布列与均值.
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),变量x,y的样本相关系数r=
=;经验回归方程=x+中,==,=-.
【解】 (1)由题意得=×(1+2+3+4+5)=3,
=×(10+12+17+20+26)=17,iyi=295,=55,=1 609,
r===>≈0.976>0.75,
因此,销量y与年份代码x有较强的线性相关关系.
===4,
=-=17-4×3=5,
故y关于x的经验回归方程为=4x+5.
(2)由题意可得,X的可能取值为0,1,2,3,
则P(X=0)==,
P(X=1)==,
P(X=2)==,
P(X=3)==,
所以X的分布列为
X 0 1 2 3
P
所以E(X)=0×+1×+2×+3×=.
高考中常将回归模型与分布列等交汇在一起进行考查,求经验回归方程时要充分利用已知数据,合理利用公式减少运算.求解概率问题时要注意概率模型的应用,明确所求问题所属的事件类型是关键.
【对点训练2】 (2024·山东日照二模)某公司为考核员工,采用某方案对员工进行业务技能测试,并统计分析测试成绩以确定员工绩效等级.
(1)已知该公司甲部门有3名负责人,乙部门有4名负责人,该公司从甲、乙两部门中随机选取3名负责人做测试分析,记负责人来自甲部门的人数为随机变量X,求X的最有可能的取值.
(2)该公司统计了七个部门测试的平均成绩x(满分100分,成绩为整数)与绩效等级优秀率y,如下表所示:
x 32 41 54 68 74 80 92
y 0.28 0.34 0.44 0.58 0.66 0.74 0.94
根据数据绘制散点图,初步判断,选用y=λecx作为回归方程.令z=ln y,经计算得≈-0.642,≈0.02.
(ⅰ)已知某部门测试的平均成绩为60分,估计其绩效等级优秀率;
(ⅱ)根据统计分析,大致认为各部门测试平均成绩x~N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2,经计算s≈20,求某个部门绩效等级优秀率不低于0.78的概率.
参考公式与数据:①ln 0.15≈-1.9,e1.2≈3.32,ln 5.2≈1.65.
②经验回归方程=x+中,=,=-.
③若随机变量X~N(μ,σ2),则P(μ-σ解:(1)依题意,随机变量X服从超几何分布,且X的可能取值为0,1,2,3,则P(X=0)==,P(X=1)==,
P(X=2)==,
P(X=3)==.
由此可得P(X=1)=最大,即X=1的可能性最大,故X最有可能的取值为1.
(2)(ⅰ)依题意,y=λecx两边取对数,得ln y=cx+ln λ,即z=cx+ln λ,其中==63,
由提供的参考数据,可知c≈0.02,
又-0.642=0.02×63+ln λ,故ln λ≈-1.9,所以λ≈e-1.9,
由提供的参考数据,可得λ≈0.15,故y^=0.15×e0.02x.
当x=60时,y^=0.15×e0.02×60≈0.498,即估计其绩效等级优秀率为0.498.
(ⅱ)由(ⅰ)及提供的参考数据可知,μ≈=63,σ≈s≈20,
又y^≥0.78,即0.15×e0.02x≥0.78,可得0.02x≥ln 5.2,即x≥≈83.
又μ+σ=83,且P(μ-σ由正态分布的性质,得P(x≥83)=[1-P(μ-σ记“绩效等级优秀率不低于0.78”为事件A,则P(A)=P(x≥83)=0.158 7,
所以绩效等级优秀率不低于0.78的概率等于0.158 7.
考点3 独立性检验与分布列的综合
【例3】 (2024·山东青岛三模)为了研究高三年级学生的性别和身高是否低于170 cm的关联性,随机调查了某中学部分高三年级的学生,整理得到如下列联表:
性别 身高 合计
低于170 cm 不低于170 cm
女生 14 5 19
男生 8 10 18
合计 22 15 37
(1)依据小概率值α=0.1的独立性检验,能否认为该中学高三年级学生的性别与身高有关联?
(2)从身高不低于170 cm的15名学生中随机抽取三名学生,设抽取的三名学生中女生人数为X,求X的分布列及期望E(X).
(3)若低于170 cm的8名男生身高数据的平均数为=166.5 cm,方差为s=9,不低于170 cm的10名男生身高数据的平均数为=180 cm,方差为s=18.请估计该中学男生身高数据的平均数和方差.
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
【解】 (1)零假设:该中学高三年级学生的性别与身高无关联.
根据列联表中的数据,经计算得
χ2=≈3.278>2.706=x0.1,
由此可知根据小概率值α=0.1的独立性检验,零假设不成立,可以认为性别与身高有关联.
(2)由题意,可得随机变量X的可能取值为0,1,2,3,则P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,
所以随机变量X的分布列为
X 0 1 2 3
P
所以期望为E(X)=0×+1×+2×+3×=1.
(3)由题意知,18名男生身高数据的平均数
=×166.5+×180=174(cm),
18名男生身高数据的方差
s2= =[ (xi-+-)2+(yi-+-)2]=[(xi-)2+8(-)2+(yi-)2+10(-)2]=×[s+(-)2]+×[s+(-)2]=59,
所以估计该中学男生身高数据的平均数为174 cm,方差为59.
高考中常将独立性检验与分布列等交汇在一起进行考查,解决独立性检验问题,要注意过好“三关”:假设关、公式关、对比关.解决概率问题要准确地把握题中所涉及的事件,明确所求问题所属的事件类型.
【对点训练3】 (2024·山东临沂二模)“赶大集”出圈彰显了传统民俗的独特魅力.为了解年轻人对“赶大集”的态度(态度分为非常喜欢和感觉一般),随机调查了200位年轻人,得到的统计数据如下面的不完整的2×2列联表所示.
性别 对“赶大集”的态度 合计
非常喜欢 感觉一般
男性 3t 100
女性 t
合计 60
(1)求t的值,试根据小概率值α=0.01的独立性检验,判断能否认为年轻人对“赶大集”的态度与性别有关.
(2)从样本中筛选出5名男性和3名女性共8人作为代表,这8名代表中有2名男性和2名女性非常喜欢“赶大集”.现从这8名代表中任选3名男性和2名女性进一步交流,记X为这5人中非常喜欢“赶大集”的人数,求X的分布列及数学期望E(X).
参考公式:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解:(1)由题意可知3t+(60-t)=100,解得t=20,
零假设:年轻人对“赶大集”的态度与性别无关,2×2列联表如下:
性别 对“赶大集”的态度 合计
非常喜欢 感觉一般
男性 60 40 100
女性 80 20 100
合计 140 60 200
χ2==≈9.524>6.635.
根据小概率值α=0.01的独立性检验,零假设不成立,可以认为年轻人对“赶大集”的态度与性别有关,此推断犯错误的概率不大于0.01.
(2)设进一步交流的男性中非常喜欢“赶大集”的人数为m,女性中非常喜欢“赶大集”的人数为n,则X=m+n,且X的所有可能取值为1,2,3,4.
P(X=1)=P(m=0,n=1)===,P(X=2)=P(m=1,n=1)+P(m=0,n=2)=+=,P(X=3)=P(m=2,n=1)+P(m=1,n=2)=+==,P(X=4)=P(m=2,n=2)===.
所以X的分布列为
X 1 2 3 4
P
所以E(X)=1×+2×+3×+4×=.
课时作业75
1.(13分)(2025·北京东城区一模)某中学为了解高二年级学生阅读水平现状,从该年级学生中随机抽取100人进行一般现代文阅读速度的测试,以每位学生平均每分钟阅读的字数作为该学生的阅读速度,将测试结果整理得到频率分布直方图:
(1)若该校高二年级有1 500人,试估计阅读速度达到620字/分及以上的人数;
(2)用频率估计概率,从该校高二学生中随机抽取3人,设这3人中阅读速度达到540字/分及以上的人数为X,求X的分布列与数学期望E(X);
(3)若某班有10名学生参加测试,他们的阅读速度的数据如下:506,516,553,592,617,632,667,693,723,776,从这10名学生中随机抽取3人,设这3人中阅读速度达到540字/分及以上的人数为Y,试判断数学期望E(Y)与(2)中的E(X)的大小,并说明理由.
解:(1)1 500×(0.003 75+0.001 00+0.000 25)×80=600,
故可估计阅读速度达到620字/分及以上的人数为600.
(2)从中随机抽取一人,其阅读速度达到540字/分及以上的概率为(0.005 00+0.003 75+0.001 00+0.000 25)×80=0.8,
X的可能取值为0,1,2,3,
P(X=0)=C×0.23=0.008,
P(X=1)=C×0.8×0.22=0.096,
P(X=2)=C×0.82×0.2=0.384,
P(X=3)=C×0.83=0.512,
则X的分布列为
X 0 1 2 3
P 0.008 0.096 0.384 0.512
期望为E(X)=3×0.8=2.4.
(3)E(X)=E(Y),理由如下:这10名学生中,阅读速度达到540字/分及以上的人数为8,则Y的可能取值为1,2,3,
P(Y=1)===,
P(Y=2)===,
P(Y=3)===,
则E(Y)=1×+2×+3×=2.4,故E(X)=E(Y).
2.(13分)(2024·江西鹰潭三模)某校体育锻炼时间准备提供三项体育活动供学生选择.为了解该校学生对“三项体育活动中要有篮球”这种观点的态度,随机调查了200名学生,数据如下:
态度 性别 合计
男生 女生
同意 70 50 120
不同意 30 50 80
合计 100 100 200
(1)能否有99%的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关?
(2)现有足球、篮球、跳绳供学生选择.
①若甲、乙两名学生从这三项运动中随机选一种,且他们的选择互不影响.记事件A为“甲学生选择足球”,事件B为“甲、乙两名学生的选择不同”,判断事件A,B是否独立,并说明理由.
②若该校所有学生每分钟跳绳个数X~N(185,169).根据往年经验,该校学生经过训练后,跳绳个数都有明显增加.假设经过训练后每人每分钟跳绳个数比开始时个数增加10,该校有1 000名学生,预估经过训练后该校学生每分钟跳182个以上的人数(结果四舍五入到整数).
附:χ2=,其中n=a+b+c+d.
α 0.025 0.010 0.005
xα 5.024 6.635 7.879
若X~N(μ,σ2),则P(|X-μ|<σ)≈0.682 7,P(|X-μ|<2σ)≈0.954 5,P(|X-μ|<3σ)≈0.997 3.
解:(1)由题设列联表,有
χ2==≈8.33>6.635,
故有99%的把握认为学生对“三项体育活动中要有篮球”这种观点的态度与性别有关.
(2)①事件A,B独立,理由如下:
P(A)=,P(B)==,P(AB)==,则P(AB)=P(A)·P(B),故事件A,B独立.
②训练后X~N(195,132),P(X>182)=P(X>μ-σ)=+
≈=0.841 35,
故预估经过训练后该校学生每分钟跳182个以上的人数为0.841 35×1 000≈841.
3.(17分)(2024·江苏南通模拟)某高校统计的连续5天入校参观的人数(单位:千人)如下:
第x天 1 2 3 4 5
参观人数y/千人 2.4 2.7 4.1 6.4 7.9
并计算得iyi=85.2,=55,=3,=4.7.
(1)求y关于x的经验回归方程,并预测第10天入校参观的人数.
(2)已知该校开放1号、2号门供参观者进出,参观者从两门进校的概率相同,且从进校处的门离校的概率为,从另一处门离校的概率为.假设甲、乙两名参观者进出该校互不影响,已知甲、乙两名参观者从1号门离校,求他们从不同门进校的概率.
附:经验回归方程为=x+,其中b^=,=-.
解:(1)依题意,====1.47,
=-=0.29,所以=1.47x+0.29.当x=10时,=14.99,
故第10天入校参观的人数约为14.99千人.
(2)记“两名参观者从不同门进校”为事件A,“两名参观者都从1号门离校”为事件B,即求P(A∣B).
P(B)=×××+×××+×2=,
P(AB)=××××2=,
所以P(A∣B)==.
故他们从不同门进校的概率为.
4.(17分)(2024·河北沧州模拟)“南澳牡蛎”是我国地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.2024年某基地考虑增加人工投入,现有以往的人工投入增量x(单位:人)与年收益增量y(单位:万元)的数据如下:
人工投入增量x/人 2 3 4 6 8 10 13
年收益增量y/万元 13 22 31 42 50 56 58
该基地为了预测人工投入增量为16人时的年收益增量,建立了y关于x的两个回归模型.
模型①:由最小二乘公式可求得y关于x的经验回归方程:=4.1x+11.8;
模型②:由散点图的样本点分布(如图),可以认为样本点集中在曲线:y=+的附近,对人工投入增量x做变换,令t=,则y=·t+,且有≈2.5,≈38.9,(ti-)(yi-)≈81.0,(ti-)2≈3.8.
(1)(ⅰ)根据所给的统计量,求模型②中y关于x的经验回归方程(精确到0.1);
(ⅱ)根据下列表格中的数据,比较两种模型的决定系数R2,并选择拟合精度更高、更可靠的模型,预测人工投入增量为16人时的年收益增量.
回归模型 模型① 模型②
经验回归方程 y^=4.1x+11.8 y= +
182.4 79.2
(2)根据养殖规模与以往的养殖经验,产自某“南澳牡蛎”养殖基地的单个“南澳牡蛎”的质量(单位:克)在正常环境下服从正态分布N(32,16).购买10只该基地的“南澳牡蛎”,会买到质量小于20 g的牡蛎的可能性有多大?
附:若随机变量Z~N(μ,σ2),则P(μ-3σ解:(1)(ⅰ)由≈2.5,≈38.9,(ti-)(yi-)≈81.0,(ti-)2≈3.8,
有=≈≈21.3,且=-≈38.9-21.3×2.5≈-14.4,
所以模型②中y关于x的经验回归方程为=21.3-14.4.
(ⅱ)由表格中的数据,有182.4>79.2,即>,
模型①的R2小于模型②,说明回归模型②刻画的拟合效果更好.
当x=16时,模型②的年收益增量的预测值为=21.3×-14.4=21.3×4-14.4=70.8(万元),
这个结果比模型①的预测精度更高、更可靠.
(2)由已知单个“南澳牡蛎”的质量ξ~N(32,16),则μ=32,σ=4,
由正态分布的对称性可知,
P(ξ<20)=[1-P(20<ξ<44)]=[1-P(μ-3σ<ξ<μ+3σ)]≈×(1-0.997 4)=0.001 3.
设购买10只该基地的“南澳牡蛎”,其中质量小于20 g的牡蛎为X只,
故X~B(10,0.001 3),所以P(X≥1)=1-P(X=0)=1-(1-0.001 3)10≈1-0.987 1=0.012 9,
所以这10只“南澳牡蛎”中,会买到质量小于20 g的牡蛎的可能性仅为1.29%.