第七节 统计与概率的综合问题
1.(2025·常德模拟)某市组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:
时间x(天) 1 2 3 4 5 6 7 8 9
每天普及的人数y 80 98 129 150 203 190 258 292 310
(1)从这9天的数据中任选4天的数据,以X表示4天中每天普及人数不少于240人的天数,求X的分布列和数学期望;
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的经验回归方程.
(参考数据:=yi=190,(xi-)2=60,(yi-)2=55 482,(xi-)(yi-)=1 800,
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:==,=-)
2.(2024·扬州第二次调研)甲公司推出一种新产品,为了解某地区消费者对新产品的满意度,从中随机调查了1 000名消费者,得到下表:
满意 不满意
男 440 60
女 460 40
(1)能否有95%的把握认为消费者对新产品的满意度与性别有关;
(2)若用频率估计概率,从该地区消费者中随机选取3人,用X表示不满意的人数,求X的分布列与数学期望.
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
3.某市为了解本市初中生周末运动时间,随机调查了3 000名学生,统计了他们的周末运动时间,制成如图所示的频率分布直方图.
(1)按照分层随机抽样方法从[40,50)和[80,90]中随机抽取了9名学生.现从已抽取的9名学生中随机推荐3名学生参加体能测试.记推荐的3名学生来自[40,50)的人数为X,求X的分布列;
(2)由频率分布直方图可认为:周末运动时间t近似服从正态分布N(μ,σ2),其中μ为周末运动时间的平均数,σ近似为样本的标准差s,并已求得s≈14.6.可以用该样本的频率估计总体的概率,现从本市所有初中生中随机抽取12名学生,记周末运动时间在(43.9,87.7]之外的人数为Y,求P(Y=3)的值.(精确到0.001)
参考数据:当t~N(μ,σ2)时,P(μ-σ<t≤μ+σ)≈0.682 7,P(μ-2σ<t≤μ+2σ)≈0.954 5,P(μ-3σ<t≤μ+3σ)≈0.997 3.0.818 69≈0.165 1,0.181 43≈0.006 0.
4.某基地蔬菜大棚采用无土栽培的方式种植各类蔬菜.根据过去50周的资料显示,该地周光照量X(小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.
(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算样本相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时 30<X<50 50≤X≤70 X>70
光照控制仪最多可运行台数 3 2 1
若某台光照控制仪运行,则该台光照控制仪周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?
参考数据:≈0.55,≈0.95.
第七节 统计与概率的综合问题
1.解:(1)每天普及人数不少于240人的天数为3天,则X的所有可能取值为0,1,2,3,P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
故X的分布列为
X 0 1 2 3
P
E(X)=0×+1×+2×+3×=.
(2)设原来数据的样本中心点为(,),去掉第5天的数据后样本中心点为(','),
'=(1+2+3+4+6+7+8+9)=5,'=x5=5=,
'=(9-y5)=(9×190-203)=,
故=
=
=
===30,
='-'=-30×5=,所以=30x+.
2.解:(1)2×2列联表如表所示,
满意 不满意 总计
男 440 60 500
女 460 40 500
总计 900 100 1 000
χ2==≈4.444>3.841,
故有95%的把握认为消费者对新产品的满意度与性别有关.
(2)由题知,从该地区的消费者中随机抽取1人,不满意的概率为,X的所有可能取值为0,1,2,3,
且P(X=0)=()3=,P(X=1)=()2×=,
P(X=2)=××()2=,P(X=3)=()3=,
所以X的分布列为:
X 0 1 2 3
P
E(X)=0×+1×+2×+3×=.
3.解:(1)运动时间在[40,50)的人数为3 000×0.02×10=600.
运动时间在[80,90]的人数为3 000×0.01×10=300.
按照分层随机抽样方法共抽取9人,则在区间[40,50)内抽取的人数为6,在区间[80,90]内抽取的人数为3.
∴随机变量X的所有可能取值为0,1,2,3,
P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
∴随机变量X的分布列为
X 0 1 2 3
P
(2)μ==35×0.1+45×0.2+55×0.3+65×0.15+75×0.15+85×0.1=58.5,
σ=s≈14.6.
∴43.9=58.5-14.6=μ-σ,87.7=58.5+14.6×2=μ+2σ.
∴P(43.9<t≤87.7)=P(μ-σ<t≤μ+2σ)≈=0.818 6,
∴P(t≤μ-σ或t>μ+2σ)≈1-0.818 6=0.181 4,
∴Y~B(12,0.181 4).
∴P(Y=3)=×0.181 43×0.818 69≈220×0.006 0×0.165 1≈0.218.
4.解:(1)由已知数据可得==5,
==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
=
=2,
==.
所以样本相关系数r===≈0.95.
因为r>0.75,所以可用线性回归模型拟合y与x的关系.
(2)记商家周总利润为Y元,由条件可知至少需安装1台,最多安装3台光照控制仪.
①安装1台光照控制仪可获得周总利润3 000元.
②安装2台光照控制仪的情形:
当X>70时,只有1台光照控制仪运行,此时周总利润Y=3 000-1 000=2 000(元),P(Y=2 000)==0.2,
当30<X≤70时,2台光照控制仪都运行,此时周总利润Y=2×3 000=6 000(元),
P(Y=6 000)==0.8,
故Y的分布列为:
Y 2 000 6 000
P 0.2 0.8
所以E(Y)=2 000×0.2+6 000×0.8=5 200(元).
③安装3台光照控制仪的情形:
当X>70时,只有1台光照控制仪运行,此时周总利润Y=1×3 000-2×1 000=1 000(元),
P(Y=1 000)==0.2,
当50≤X≤70时,有2台光照控制仪运行,此时周总利润Y=2×3 000-1×1 000=5 000(元),
P(Y=5 000)==0.7,
当30<X<50时,3台光照控制仪都运行,周总利润Y=3×3 000=9 000(元),
P(Y=9 000)==0.1,
故Y的分布列为:
Y 1 000 5 000 9 000
P 0.2 0.7 0.1
所以E(Y)=1 000×0.2+5 000×0.7+9 000×0.1=4 600(元).
综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.
2 / 2第七节 统计与概率的综合问题
重点解读
统计与概率的综合问题是命制生活实践情境类试题的最佳切入点,所考查内容涉及数据分析、数学建模、数学运算、逻辑推理等核心素养,是近几年高考追逐的热点之一,处理此类问题的关键是把握概率、统计的本质,合理构造模型,正确进行数学运算和必要的逻辑推理.
统计图表与概率的综合问题
(师生共研过关)
(2025·青岛一模)为促进全民阅读,建设书香校园,某校在寒假面向全体学生发出“读书好、读好书、好读书”的号召,并开展阅读活动.开学后,学校统计了高一年级共1 000名学生的假期日均阅读时间(单位:分钟),得到了如图所示的频率分布直方图,若前两个小矩形的高度分别为0.007 5,0.012 5,后三个小矩形的高度比为3∶2∶1.
(1)根据频率分布直方图,估计高一年级1 000名学生假期日均阅读时间的平均值(同一组中的数据用该组区间的中点值为代表);
(2)开学后,学校从高一日均阅读时间不低于60分钟的学生中,按照分层随机抽样的方式,抽取6名学生作为代表分两周进行国旗下演讲,假设第一周演讲的3名学生日均阅读时间处于[80,100)的人数记为ξ,求随机变量ξ的分布列与数学期望.
解题技法
统计图表与概率综合问题的求解策略
(1)正确识读统计图表,从图表中提取有效信息及样本数据;
(2)根据统计原理即用样本数字特征估计总体的思想,结合样本中各统计量之间的关系构造数学模型(函数模型、不等式模型、二项分布模型、超几何分布模型或正态分布模型等);
(3)正确进行运算,求出样本数据中能够说明问题的特征值,从而用此数据估计总体或作出科学的决策与判断.
(2024·黄山模拟)某校高三年级1 000名学生的高考适应性演练数学成绩频率分布直方图如图所示,其中成绩分组区间是[30,50),[50,70),[70,90),[90,110),[110,130),[130,150].
(1)求图中a的值,并根据频率分布直方图,估计这1 000名学生的这次考试数学成绩的第85百分位数;
(2)从这次数学成绩位于[50,70),[70,90)的学生中采用比例分配的分层随机抽样的方法抽取9人,再从这9人中随机抽取3人,该3人中成绩在区间[70,90)的人数记为X,求X的分布列及数学期望.
回归分析与概率的综合问题
(师生共研过关)
(2025·郑州名校联盟)某高中数学兴趣小组,在学习了统计案例后,准备利用所学知识研究成年男性的臂长y(cm)与身高x(cm)之间的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数据:
x 159 165 170 176 180
y 67 71 73 76 78
(1)根据上表数据,可用线性回归模型拟合y与x的关系,请用样本相关系数加以说明;
(2)建立y关于x的经验回归方程(系数精确到0.01);
(3)从5名样本成年男性中任取2人,记这2人臂长差的绝对值为X,求E(X).
参考数据:xiyi=62 194,=8.6,≈16.8,
参考公式:样本相关系数
r=,
经验回归方程=+x中斜率和截距的最小二乘估计公式分别为=,=-.
解题技法
回归分析与概率综合问题的解题思路
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①求经验回归方程(预测);②求某随机变量的概率(范围)、均值、方差等;
(2)充分利用题目中提供的成对样本数据(散点图)做出判断,确定是线性问题还是非线性问题.求解时要充分利用已知数据,合理利用变形公式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
关卡x 1 2 3 4 5 6
平均过关时间 y(单位:秒) 50 78 124 121 137 352
计算得到一些统计量的值为:ui=28.5,xiui=106.05,其中ui=ln yi.
(1)若用模型y=aebx拟合y与x的关系,根据提供的数据,求出y关于x的经验回归方程;
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2分并进入下一关,否则获得-1分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为,若甲玩一轮此款益脑游戏,求“甲获得的积分X”的分布列和数学期望.
独立性检验与概率的综合问题
(师生共研过关)
(2024·湖北七市州调研)某高中学校为了解学生参加体育锻炼的情况,统计了全校所有学生在一年内每周参加体育锻炼的次数,现随机抽取了60名同学在某一周参加体育锻炼的数据,结果如下表:
一周参加体育 锻炼次数 0 1 2 3 4 5 6 7 合计
男生人数 1 2 4 5 6 5 4 3 30
女生人数 4 5 5 6 4 3 2 1 30
合计 5 7 9 11 10 8 6 4 60
(1)若将一周参加体育锻炼次数为3次及3次以上的,称为“经常锻炼”,其余的称为“不经常锻炼”.请列出2×2列联表,并依据小概率值α=0.1的独立性检验,能否认为性别因素与学生体育锻炼的经常性有关系;
(2)若将一周参加体育锻炼次数为0次的称为“极度缺乏锻炼”,“极度缺乏锻炼”会导致肥胖等诸多健康问题.以样本频率估计概率,在全校抽取20名同学,其中“极度缺乏锻炼”的人数为X,求E(X)和D(X);
(3)若将一周参加体育锻炼6次或7次的同学称为“运动爱好者”,为进一步了解他们的生活习惯,在样本的10名“运动爱好者” 中,随机抽取3人进行访谈,设抽取的3人中男生人数为Y,求Y的分布列和数学期望.
附:χ2=,n=a+b+c+d
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解题技法
独立性检验与概率综合问题的解题思路
本类题目以生活题材为背景,涉及独立性检验及概率问题的综合,解决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行比较,其次再按照随机变量满足的概率模型求解.
(2025·临沂一模) “赶大集”出圈彰显了传统民俗的独特魅力.为了解年轻人对“赶大集”的态度,随机调查了200位年轻人,得到的统计数据如下面的不完整的2×2列联表所示(单位:人)
性别 对“赶大集”的态度 合计
非常喜欢 感觉一般
男性 3t 100
女性 t
合计 60
(1)求t的值,试根据小概率值α=0.01的独立性检验,能否认为年轻人对“赶大集”的态度与性别有关;
(2)从样本中筛选出5名男性和3名女性共8人作为代表,这8名代表中有2名男性和2名女性非常喜欢“赶大集”.现从这8名代表中任选3名男性和2名女性进一步交流,记X为这5人中非常喜欢“赶大集”的人数,求X的分布列及数学期望E(X).
参考公式:
χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
第七节 统计与概率的综合问题
【考点·分类突破】
考点1
【例1】 解:(1)由题知:各组频率分别为:0.15,0.25,0.3,0.2,0.1,日均阅读时间的平均数为:
30×0.15+50×0.25+70×0.3+90×0.2+110×0.1=67(分钟).
(2)由题意,在[60,80),[80,100),[100,120]三组分别抽取3,2,1人,
ξ的可能取值为:0,1,2,
则P(ξ=0)==,P(ξ=1)==,
P(ξ=2)==,
所以ξ的分布列为:
ξ 0 1 2
P
E(ξ)=0×+1×+2×=1.
跟踪训练
解:(1)由频率分布直方图可得(0.002 5+0.007 5+0.015×2+2a)×20=1,解得a=0.005.
前四个矩形的面积之和为(0.002 5+0.007 5+2×0.015)×20=0.8,
前五个矩形的面积之和为0.8+0.005×20=0.9,
设这1 000名学生的这次考试数学成绩的第85百分位数为m,
则0.8+(m-110)×0.005=0.85,解得m=120,
因此,估计这1 000名学生的这次考试数学成绩的第85百分位数为120.
(2)数学成绩位于[50,70),[70,90)的学生人数之比为0.007 5∶0.015=1∶2,
所以,所抽取的9人中,数学成绩位于[50,70)的学生人数为9×=3,
数学成绩位于[70,90)的学生人数为9×=6,
由题意可知,随机变量X的可能取值有0,1,2,3,
则P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
所以,随机变量X的分布列如下表所示:
X 0 1 2 3
P
所以,E(X)=0×+1×+2×+3×=2.
考点2
【例2】 解:(1)由表中的数据和参考数据得
xi=850,=170,yi=365,=73,
(xi-)2=112+52+02+62+102=282,
=8.6,(xi-)(yi-)=xiyi-5=62 194-170×73×5=144,
所以r=≈≈0.997.
因为y与x的样本相关系数近似为0.997,说明y与x的线性相关程度相当高,从而可以用线性回归模型拟合y与x的关系.
(2)由=73及(1)得===≈0.51,
=-=73-×170≈-13.81,
所以y关于x的经验回归方程为=-13.81+0.51x.
(说明:根据=-≈73-0.51×170=-13.70,得出=-13.70+0.51x也正确)
(3)X的取值依次为2,3,4,5,6,7,9,11,
P(X=2)==,P(X=3)==,
P(X=4)==,P(X=5)==,
P(X=6)==,P(X=7)==,
P(X=9)==,P(X=11)==,
所以E(X)=2×+3×+4×+5×+6×+7×+9×+11×=.
跟踪训练
解:(1)对y=aebx两边取对数可得ln y=ln(aebx)=ln a+ln ebx,即ln y=ln a+bx,
令ui=ln yi,所以u=bx+ln a,由=ui=4.75,
=×(1+2+3+4+5+6)=3.5,=12+22+32+42+52+62=91.
所以=
==0.36,
又=+ln ,即4.75=0.36×3.5+ln ,
所以ln =3.49,所以=e3.49.
所以y关于x的经验回归方程为=e0.36x+3.49.
(2)由题知,甲获得的积分X的所有可能取值为5,7,9,12,
所以P(X=5)=,P(X=7)=×=,
P(X=9)=()2×=,P(X=12)=()3=,
所以X的分布列为
X 5 7 9 12
P
所以E(X)=5×+7×+9×+12×=.
考点3
【例3】 解:(1)根据统计表格数据可得列联表如下:
性别 锻炼 合计
不经常 经常
男生 7 23 30
女生 14 16 30
合计 21 39 60
零假设为H0:性别与锻炼情况独立,即性别因素与学生体育锻炼的经常性无关.
根据列联表的数据计算可得
χ2===≈3.590>2.706=x0.1,
根据小概率值α=0.1的独立性检验,推断H0不成立,
即性别因素与学生体育锻炼的经常性有关系,此推断犯错误的概率不超过0.1.
(2)因学校总学生数远大于所抽取的学生数,故X近似服从二项分布,
易知随机抽取一人为“极度缺乏锻炼”者的概率P==.
即可得X~B(20,),故E(X)=20×=,D(X)=20××=.
(3)易知10名“运动爱好者”有7名男生,3名女生,
所以Y的所有可能取值为0,1,2,3,且Y服从超几何分布,则
P(Y=0)==,P(Y=1)===,
P(Y=2)===,P(Y=3)===,
故所求分布列为
Y 0 1 2 3
P
可得E(Y)=0×+1×+2×+3×==2.1.
跟踪训练
解:(1)由题意可知:3t+(60-t)=100,解得t=20,
2×2列联表如下:
性别 对“赶大集”的态度 合计
非常喜欢 感觉一般
男性 60 40 100
女性 80 20 100
合计 140 60 200
零假设为H0:年轻人对“赶大集”的态度与性别无关,由列联表数据可得,
χ2==≈9.524>6.635=x0.01.
根据小概率值α=0.01的独立性检验,推断H0不成立,即认为年轻人对“赶大集”的态度与性别有关,此推断犯错误的概率不大于0.01.
(2)设进一步交流的男性中非常喜欢“赶大集”的人数为m,女性中非常喜欢“赶大集”的人数为n,则X=m+n,且X的所有可能取值为1,2,3,4.
P(X=1)=P(m=0,n=1)===,
P(X=2)=P(m=1,n=1)+P(m=0,n=2)=+=,
P(X=3)=P(m=2,n=1)+P(m=1,n=2)=+==,
P(X=4)=P(m=2,n=2)===.
所以X的分布列为
X 1 2 3 4
P
所以E(X)=1×+2×+3×+4×=.
4 / 4(共64张PPT)
第七节 统计与概率的综合问题
高中总复习·数学
重点解读
统计与概率的综合问题是命制生活实践情境类试题的最佳切入点,所
考查内容涉及数据分析、数学建模、数学运算、逻辑推理等核心素养,是
近几年高考追逐的热点之一,处理此类问题的关键是把握概率、统计的本
质,合理构造模型,正确进行数学运算和必要的逻辑推理.
目 录
CONTENTS
考点·分类突破
01.
课时·跟踪检测
02.
PART 01
考点·分类突破
精选考点 | 课堂演练
统计图表与概率的综合问题(师生共研过关)
(2025·青岛一模)为促进全民阅读,建设
书香校园,某校在寒假面向全体学生发出“读书
好、读好书、好读书”的号召,并开展阅读活动.
开学后,学校统计了高一年级共1 000名学生的假
期日均阅读时间(单位:分钟),得到了如图所示的频率分布直方图,若前两个小矩形的高度分别为0.007 5,0.012 5,后三个小矩形的高度比为3∶2∶1.
(1)根据频率分布直方图,估计高一年级1 000名学生假期日均阅读时间
的平均值(同一组中的数据用该组区间的中点值为代表);
解: 由题知:各组频率分别为:0.15,0.25,0.3,0.2,0.1,日均
阅读时间的平均数为:
30×0.15+50×0.25+70×0.3+90×0.2+110×0.1=67(分钟).
(2)开学后,学校从高一日均阅读时间不低于60分钟的学生中,按照分
层随机抽样的方式,抽取6名学生作为代表分两周进行国旗下演讲,假设
第一周演讲的3名学生日均阅读时间处于[80,100)的人数记为ξ,求随机
变量ξ的分布列与数学期望.
解: 由题意,在[60,80),[80,100),[100,120]三组分别抽取
3,2,1人,ξ的可能取值为:0,1,2,
则P(ξ=0)= = ,P(ξ=1)= = ,P(ξ=2)= = ,
所以ξ的分布列为:
ξ 0 1 2
P
E(ξ)=0× +1× +2× =1.
解题技法
统计图表与概率综合问题的求解策略
(1)正确识读统计图表,从图表中提取有效信息及样本数据;
(2)根据统计原理即用样本数字特征估计总体的思想,结合样本中各统
计量之间的关系构造数学模型(函数模型、不等式模型、二项分布模型、
超几何分布模型或正态分布模型等);
(3)正确进行运算,求出样本数据中能够说明问题的特征值,从而用此
数据估计总体或作出科学的决策与判断.
(2024·黄山模拟)某校高三年级1 000名学生的高考适应性演练数学成
绩频率分布直方图如图所示,其中成绩分组区间是[30,50),[50,
70),[70,90),[90,110),[110,130),[130,150].
(1)求图中a的值,并根据频率分布直方图,估计这1 000名学生的这次
考试数学成绩的第85百分位数;
解: 由频率分布直方图可得
(0.002 5+0.007 5+0.015×2+
2a)×20=1,解得a=0.005.
前四个矩形的面积之和为(0.002 5+
0.007 5+2×0.015)×20=0.8,
前五个矩形的面积之和为0.8+0.005×20=0.9,
设这1 000名学生的这次考试数学成绩的第85百分位数为m,
则0.8+(m-110)×0.005=0.85,解得m=120,
因此,估计这1 000名学生的这次考试数学成绩的第85百分位数为120.
(2)从这次数学成绩位于[50,70),[70,90)的学生中采用比例分配
的分层随机抽样的方法抽取9人,再从这9人中随机抽取3人,该3人中成绩
在区间[70,90)的人数记为X,求X的分布列及数学期望.
解: 数学成绩位于[50,
70),[70,90)的学生人数之比
为0.007 5∶0.015=1∶2,
所以,所抽取的9人中,数学成绩
位于[50,70)的学生人数为9×=3,
数学成绩位于[70,90)的学生人数为9× =6,
由题意可知,随机变量X的可能取值有0,1,2,3,
则P(X=0)= = ,P(X=1)= = ,
P(X=2)= = ,P(X=3)= = ,
所以,随机变量X的分布列如下表所示:
X 0 1 2 3
P
所以,E(X)=0× +1× +2× +3× =2.
回归分析与概率的综合问题(师生共研过关)
(2025·郑州名校联盟)某高中数学兴趣小组,在学习了统计案例
后,准备利用所学知识研究成年男性的臂长y(cm)与身高x(cm)之间
的关系,为此他们随机统计了5名成年男性的身高与臂长,得到如下数
据:
x 159 165 170 176 180
y 67 71 73 76 78
(1)根据上表数据,可用线性回归模型拟合y与x的关系,请用样本相关
系数加以说明;
解: 由表中的数据和参考数据得
xi=850, =170, yi=365, =73,
(xi- )2=112+52+02+62+102=282,
=8.6, (xi- )(yi- )= xiyi-5 =62 194
-170×73×5=144,
所以r= ≈ ≈0.997.
因为y与x的样本相关系数近似为0.997,说明y与x的线性相关程度相当
高,从而可以用线性回归模型拟合y与x的关系.
(2)建立y关于x的经验回归方程(系数精确到0.01);
解: 由 =73及(1)得 = = = ≈0.51, =
- =73- ×170≈-13.81,
所以y关于x的经验回归方程为 =-13.81+0.51x.
(说明:根据 = - ≈73-0.51×170=-13.70,得出 =-13.70+
0.51x也正确)
(3)从5名样本成年男性中任取2人,记这2人臂长差的绝对值为X,求E
(X).
参考数据: xiyi=62 194, =8.6, ≈16.8,
参考公式:样本相关系数r= ,经验回归方程
= + x中斜率和截距的最小二乘估计公式分别为 =
, = - .
解: X的取值依次为2,3,4,5,6,7,9,11,
P(X=2)= = ,P(X=3)= = ,
P(X=4)= = ,P(X=5)= = ,
P(X=6)= = ,P(X=7)= = ,
P(X=9)= = ,P(X=11)= = ,
所以E(X)=2× +3× +4× +5× +6× +7× +9× +
11× = .
解题技法
回归分析与概率综合问题的解题思路
(1)此类问题的特点为:同一生活实践情境下设计两类问题,即:①
求经验回归方程(预测);②求某随机变量的概率(范围)、均值、
方差等;
(2)充分利用题目中提供的成对样本数据(散点图)做出判断,确定是
线性问题还是非线性问题.求解时要充分利用已知数据,合理利用变形公
式,以达到快速准确运算的目的;
(3)明确所求问题所属事件的类型,准确构建概率模型.
当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的
身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏
公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关
时间,如下表:
关卡x 1 2 3 4 5 6
平均过关时间 y(单位:秒) 50 78 124 121 137 352
计算得到一些统计量的值为: ui=28.5, xiui=106.05,其中ui=ln yi.
(1)若用模型y=aebx拟合y与x的关系,根据提供的数据,求出y关于x
的经验回归方程;
解: 对y=aebx两边取对数可得ln y=ln(aebx)=ln a+ln ebx,即ln
y=ln a+bx,
令ui=ln yi,所以u=bx+ln a,由 = ui=4.75,
= ×(1+2+3+4+5+6)=3.5, =12+22+32+42+52+62=
91.
所以 = = =0.36,
又 = +ln ,即4.75=0.36×3.5+ln ,
所以ln =3.49,所以 =e3.49.
所以y关于x的经验回归方程为 =e0.36x+3.49.
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2
分并进入下一关,否则获得-1分且该轮游戏结束.甲通过练习,前3关都
能在平均时间内过关,后面3关能在平均时间内通过的概率均为 ,若甲玩
一轮此款益脑游戏,求“甲获得的积分X”的分布列和数学期望.
解: 由题知,甲获得的积分X的所有可能取值为5,7,9,12,
所以P(X=5)= ,P(X=7)= × = ,
P(X=9)=( )2× = ,
P(X=12)=( )3= ,
所以X的分布列为
X 5 7 9 12
P
所以E(X)=5× +7× +9× +12× = .
独立性检验与概率的综合问题(师生共研过关)
(2024·湖北七市州调研)某高中学校为了解学生参加体育锻炼的情
况,统计了全校所有学生在一年内每周参加体育锻炼的次数,现随机抽取
了60名同学在某一周参加体育锻炼的数据,结果如下表:
一周参加体育 锻炼次数 0 1 2 3 4 5 6 7 合计
男生人数 1 2 4 5 6 5 4 3 30
女生人数 4 5 5 6 4 3 2 1 30
合计 5 7 9 11 10 8 6 4 60
(1)若将一周参加体育锻炼次数为3次及3次以上的,称为“经常锻
炼”,其余的称为“不经常锻炼”.请列出2×2列联表,并依据小概率
值α=0.1的独立性检验,能否认为性别因素与学生体育锻炼的经常性
有关系;
性别 锻炼 合计
不经常 经常
男生 7 23 30
女生 14 16 30
合计 21 39 60
解: 根据统计表格数据可得列联表如下:
零假设为H0:性别与锻炼情况独立,即性别因素与学生体育锻炼的经常性
无关.
根据列联表的数据计算可得
χ2= = = ≈3.590>2.706=x0.1,
根据小概率值α=0.1的独立性检验,推断H0不成立,
即性别因素与学生体育锻炼的经常性有关系,此推断犯错误的概率不超过
0.1.
(2)若将一周参加体育锻炼次数为0次的称为“极度缺乏锻炼”,“极度
缺乏锻炼”会导致肥胖等诸多健康问题.以样本频率估计概率,在全校抽
取20名同学,其中“极度缺乏锻炼”的人数为X,求E(X)和D(X);
解: 因学校总学生数远大于所抽取的学生数,故X近似服从二项
分布,
易知随机抽取一人为“极度缺乏锻炼”者的概率P= = .
即可得X~B(20, ),
故E(X)=20× = ,
D(X)=20× × = .
(3)若将一周参加体育锻炼6次或7次的同学称为“运动爱好者”,为进
一步了解他们的生活习惯,在样本的10名“运动爱好者” 中,随机抽取3
人进行访谈,设抽取的3人中男生人数为Y,求Y的分布列和数学期望.
附:χ2= ,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解: 易知10名“运动爱好者”有7名男生,3名女生,
所以Y的所有可能取值为0,1,2,3,且Y服从超几何分布,则
P(Y=0)= = ,
P(Y=1)= = = ,
P(Y=2)= = = ,
P(Y=3)= = = ,
Y 0 1 2 3
P
可得E(Y)=0× +1× +2× +3× = =2.1.
故所求分布列为
解题技法
独立性检验与概率综合问题的解题思路
本类题目以生活题材为背景,涉及独立性检验及概率问题的综合,解
决该类问题首先收集数据列出2×2列联表,并按照公式求得χ2的值后进行
比较,其次再按照随机变量满足的概率模型求解.
(2025·临沂一模) “赶大集”出圈彰显了传统民俗的独特魅力.为了解
年轻人对“赶大集”的态度,随机调查了200位年轻人,得到的统计数据
如下面的不完整的2×2列联表所示(单位:人)
性别 对“赶大集”的态度 合计
非常喜欢 感觉一般
男性 3t 100
女性 t
合计 60
(1)求t的值,试根据小概率值α=0.01的独立性检验,能否认为年轻人
对“赶大集”的态度与性别有关;
解: 由题意可知:3t+(60-t)=100,解得t=20,
2×2列联表如下:
性别 对“赶大集”的态度 合计
非常喜欢 感觉一般
男性 60 40 100
女性 80 20 100
合计 140 60 200
零假设为H0:年轻人对“赶大集”的态度与性别无关,由列联表数据
可得,
χ2=
= ≈9.524>6.635=x0.01.
根据小概率值α=0.01的独立性检验,推断H0不成立,即认为年轻人
对“赶大集”的态度与性别有关,此推断犯错误的概率不大于0.01.
(2)从样本中筛选出5名男性和3名女性共8人作为代表,这8名代表中有2
名男性和2名女性非常喜欢“赶大集”.现从这8名代表中任选3名男性和2
名女性进一步交流,记X为这5人中非常喜欢“赶大集”的人数,求X的分
布列及数学期望E(X).
参考公式:χ2= ,其中n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解: 设进一步交流的男性中非常喜欢“赶大集”的人数为m,女性
中非常喜欢“赶大集”的人数为n,则X=m+n,且X的所有可能取值为
1,2,3,4.
P(X=1)=P(m=0,n=1)= = = ,
P(X=2)=P(m=1,n=1)+P(m=0,n=2)=
= ,
P(X=3)=P(m=2,n=1)+P(m=1,n=2)=
= = ,
P(X=4)=P(m=2,n=2)= = = .
所以X的分布列为
X 1 2 3 4
P
所以E(X)=1× +2× +3× +4× = .
PART 03
课时·跟踪检测
关键能力 | 课后练习
1. (2025·常德模拟)某市组织宣传小分队进行法律法规宣传,某宣传小
分队记录了前9天每天普及的人数,得到下表:
时间x(天) 1 2 3 4 5 6 7 8 9
每天普及 的人数y 80 98 129 150 203 190 258 292 310
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
20
22
23
24
25
(1)从这9天的数据中任选4天的数据,以X表示4天中每天普及人数不少
于240人的天数,求X的分布列和数学期望;
解: 每天普及人数不少于240人的天数为3天,则X的所有可能取值为
0,1,2,3,P(X=0)= = ,P(X=1)= = ,
P(X=2)= = ,P(X=3)= = ,
故X的分布列为
X 0 1 2 3
P
E(X)=0× +1× +2× +3× = .
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数
据,试用剩下的数据求出每天普及的人数y关于天数x的经验回归方程.
(参考数据: = yi=190, (xi- )2=60, (yi- )2=55
482, (xi- )(yi- )=1 800,
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直
线 = x+ 的斜率和截距的最小二乘估计分别为: =
= , = - )
解: 设原来数据的样本中心点为( , ),去掉第5天的数据后样
本中心点为( ', '),
'= (1+2+3+4+6+7+8+9)=5, '=x5=5= ,
'= (9 -y5)= (9×190-203)= ,
故 =
=
=
= = =30,
= '- '= -30×5= ,所以 =30x+ .
2. (2024·扬州第二次调研)甲公司推出一种新产品,为了解某地区消费
者对新产品的满意度,从中随机调查了1 000名消费者,得到下表:
满意 不满意
男 440 60
女 460 40
(1)能否有95%的把握认为消费者对新产品的满意度与性别有关;
解: 2×2列联表如表所示,
满意 不满意 总计
男 440 60 500
女 460 40 500
总计 900 100 1 000
χ2= = ≈4.444>3.841,
故有95%的把握认为消费者对新产品的满意度与性别有关.
(2)若用频率估计概率,从该地区消费者中随机选取3人,用X表示不满
意的人数,求X的分布列与数学期望.
附:χ2= ,n=a+b+c+d.
α 0.1 0.05 0.01
xα 2.706 3.841 6.635
解: 由题知,从该地区的消费者中随机抽取1人,不满意的概率为
,X的所有可能取值为0,1,2,3,
且P(X=0)=( )3= ,
P(X=1)= ( )2× = ,
P(X=2)= × ×( )2= ,
P(X=3)=( )3= ,
X 0 1 2 3
P
E(X)=0× +1× +2× +3× = .
所以X的分布列为:
3. 某市为了解本市初中生周末运动时间,随机调查了3 000名学生,统计
了他们的周末运动时间,制成如图所示的频率分布直方图.
(1)按照分层随机抽样方法从[40,50)和[80,90]中随机抽取了9名学
生.现从已抽取的9名学生中随机推荐3名学生参加体能测试.记推荐的3名
学生来自[40,50)的人数为X,求X的分布列;
解: 运动时间在[40,50)的人数为3 000×0.02×10=600.
运动时间在[80,90]的人数为3 000×0.01×10=300.
按照分层随机抽样方法共抽取9人,则在区间[40,50)内抽取的人数为
6,在区间[80,90]内抽取的人数为3.
∴随机变量X的所有可能取值为0,1,2,3,
P(X=0)= = ,P(X=1)= = ,
P(X=2)= = ,P(X=3)= = ,
∴随机变量X的分布列为
X 0 1 2 3
P
(2)由频率分布直方图可认为:周末运动时间t近似服从正态分布N
(μ,σ2),其中μ为周末运动时间的平均数,σ近似为样本的标准差s,
并已求得s≈14.6.可以用该样本的频率估计总体的概率,现从本市所有初
中生中随机抽取12名学生,记周末运动时间在(43.9,87.7]之外的人数
为Y,求P(Y=3)的值.(精确到0.001)
参考数据:当t~N(μ,σ2)时,P(μ-σ<t≤μ+σ)≈0.682 7,P
(μ-2σ<t≤μ+2σ)≈0.954 5,P(μ-3σ<t≤μ+3σ)≈0.997
3.0.818 69≈0.165 1,0.181 43≈0.006 0.
解: μ= =35×0.1+45×0.2+55×0.3+65×0.15+
75×0.15+85×0.1=58.5,σ=s≈14.6.
∴43.9=58.5-14.6=μ-σ,87.7=58.5+14.6×2=μ+2σ.
∴P(43.9<t≤87.7)=P(μ-σ<t≤μ+2σ)≈ =
0.818 6,
∴P(t≤μ-σ或t>μ+2σ)≈1-0.818 6=0.181 4,∴Y~B(12,
0.181 4).
∴P(Y=3)= ×0.181 43×0.818 69≈220×0.006 0×0.165
1≈0.218.
4. 某基地蔬菜大棚采用无土栽培的方式种植各
类蔬菜.根据过去50周的资料显示,该地周光照
量X(小时)都在30小时以上,其中不足50小时
的有5周,不低于50小时且不超过70小时的有35
周,超过70小时的有10周.根据统计,该基地的
西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的关系为如图所示的折线图.
(1)依据折线图,是否可用线性回归模型拟合y与x的关系?请计算样本
相关系数r并加以说明(精确到0.01);(若|r|>0.75,则线性相关程
度很高,可用线性回归模型拟合)
解: 由已知数据可得 = =5,
= =4.
因为 (xi- )(yi- )=(-3)×(-
1)+0+0+0+3×1=6,
=
=2 ,
= = .
所以样本相关系数r= = = ≈0.95.
因为r>0.75,所以可用线性回归模型拟合y与x的关系.
(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部
分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如
下关系:
周光照量X/小时 30<X<50 50≤X≤70 X>70
光照控制仪最 多可运行台数 3 2 1
若某台光照控制仪运行,则该台光照控制仪周利润为3 000元;若某台光照
控制仪未运行,则该台光照控制仪周亏损1 000元.以频率作为概率,商家
欲使周总利润的均值达到最大,应安装光照控制仪多少台?
参考数据: ≈0.55, ≈0.95.
解: 记商家周总利润为Y元,由条件可知至少需安装1台,最多安装3台光照控制仪.
①安装1台光照控制仪可获得周总利润3 000元.
②安装2台光照控制仪的情形:
当X>70时,只有1台光照控制仪运行,此时周总利润Y=3 000-1 000=
2 000(元),P(Y=2 000)= =0.2,
当30<X≤70时,2台光照控制仪都运行,此时周总利润Y=2×3 000=
6 000(元),P(Y=6 000)= =0.8,
故Y的分布列为:
Y 2 000 6 000
P 0.2 0.8
所以E(Y)=2 000×0.2+6 000×0.8=5 200(元).
③安装3台光照控制仪的情形:
当X>70时,只有1台光照控制仪运行,此时周总利润Y=1×3 000-2×1
000=1 000(元),
P(Y=1 000)= =0.2,
当50≤X≤70时,有2台光照控制仪运行,此时周总利润Y=2×3 000-
1×1 000=5 000(元),
P(Y=5 000)= =0.7,
当30<X<50时,3台光照控制仪都运行,周总利润Y=3×3 000=9 000
(元),
P(Y=9 000)= =0.1,
故Y的分布列为:
Y 1 000 5 000 9 000
P 0.2 0.7 0.1
所以E(Y)=1 000×0.2+5 000×0.7+9 000×0.1=4 600(元).
综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.
THANKS
演示完毕 感谢观看