第4讲 大题专攻——成对数据的统计分析
备|考|领|航
一、考情分析
高频考点 高考预测
回归分析及预测 高考对本讲内容的考查往往以实际问题为背景,考查经验回归方程的求解与运用、独立性检验等问题,常与概率综合考查,难度中等
独立性检验
二、真题感悟
1.(2024·全国甲卷理17题)(独立性检验)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
2.(2022·全国乙卷理19题)(回归分析、样本相关系数)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
重|难|排|查
1.求经验回归方程
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出);
(2)作出散点图,确定x,y具有线性相关关系(也可用样本相关系数r判断);
(3)把数据制成表格,并列出xi,yi,xiyi,;
(4)计算,,,xiyi;
(5)代入公式计算,的值;
(6)确定经验回归方程=x+;
(7)利用决定系数R2或残差分析判断拟合效果.
2.独立性检验的一般步骤
(1)根据样本数据列出2×2列联表;
(2)计算随机变量χ2的观测值,查表确定临界值xα;
(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样本数据中没有发现足够证据支持结论“X与Y不独立”.
回归分析及预测
【例1】 (2024·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 年份代码 2020年 2021年 2022年 2023年 2024年
xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2028年的酸雨区面积占国土面积的百分比.
附:样本相关系数
r=,≈6.
经验回归直线的斜率和截距的最小二乘法估计分别为:
=,=-,xiyi=70.6,=113.69.
感悟提升
回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:
(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;
(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;
(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值.
(2024·温州二模)红旗淀粉厂2024年之前只生产食品淀粉,下表为年投入资金x(万元)与年收益y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出回归方程;
(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:①经验回归直线=v+中斜率和截距的最小二乘估计分别为:
=,=-·.
②
yi ln xi (ln xi)2 yiln xi
161 29 20 400 109 603
③ln 2≈0.7,ln 5≈1.6.
独立性检验
【例2】 (2024·保定二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表)与成绩的中位数(中位数精确到0.01);
(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
强化训练 是否优秀 合计
优秀人数 非优秀人数
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值α=0.005的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
感悟提升
解决独立性检验问题的关键是过好三关
(1)假设关:假设两个分类变量无关;
(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;
(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断.
(2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:
男 女
在A餐厅用餐 40 20
在B餐厅用餐 15 25
(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;
(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?
附:χ2=.
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
4 / 4专题六 概率与统计
第1讲 小题研透——计数原理与统计初步
【锁定高考·明方向】
真题感悟
1.C 对于A,根据频数分布表可知,6+12+18=36<50,所以亩产量的中位数不小于1 050 kg, 故A错误;对于B,亩产量不低于1 100 kg的频数为24+10=34,所以低于1 100 kg的稻田占比为=66%,故B错误;对于C,稻田亩产量的极差最大为1 200-900=300,最小为1 150-950=200,故C正确;对于D,由频数分布表可得,平均值为×(6×925+12×975+18×1 025+30×1 075+24×1 125+10×1 175)=1 067,故D错误.故选C.
2.BD 若该组样本数据为1,2,3,4,5,8,则2,3,4,5的平均数为,1,2,3,4,5,8的平均数为,两组数据的平均数不相等,故A错误;不妨设x1≤x2≤x3≤x4≤x5≤x6,则x2,x3,x4,x5的中位数等于x1,x2,x3,x4,x5,x6的中位数,故B正确;若该组样本数据为1,2,2,2,2,8,则2,2,2,2的标准差为0,而1,2,2,2,2,8的标准差大于0,故C错误;由对选项B的分析可知,x2,x3,x4,x5的极差为x5-x2,x1,x2,x3,x4,x5,x6的极差为x6-x1,且易得x6-x1≥x5-x2,故D正确.故选B、D.
3.B 先将丙和丁捆在一起有种排列方式,然后将其与乙、戊排列,有种排列方式,最后将甲插入中间两空,有种排列方式,所以不同的排列方式共有=24种,故选B.
4.24 112 解析:由题意知,选4个方格,每行和每列均恰有一个方格被选中,则第一列有4个方格可选,第二列有3个方格可选,第三列有2个方格可选,第四列有1个方格可选,所以共有4×3×2×1=24种选法.
法一(列举法) 每种选法可标记为(a,b,c,d),a,b,c,d分别表示第一、二、三、四行的数字,则所有的可能结果为:(11,22,33,44),(11,22,43,34),(11,33,22,44),(11,33,43,24),(11,42,22,34),(11,42,33,24),(21,12,33,44),(21,12,43,34),(21,33,13,44),(21,33,43,15),(21,42,13,34),(21,42,33,15),(31,12,22,44),(31,12,43,24),(31,22,13,44),(31,22,43,15),(31,42,13,24),(31,42,22,15),(40,12,22,34),(40,12,33,24),(40,22,13,34),(40,22,33,15),(40,33,13,24),(40,33,22,15),比较可知,所选方格中,(21,33,43,15)的和最大,最大为112.
法二(整体分析法) 先按列分析,每列必选出一个数,故所选4个数的十位上的数字分别为1,2,3,4.再按行分析,第一、二、三、四行个位上的数字的最大值分别为1,3,3,5,故从第一行选21,从第二行选33,从第三行选43,从第4行选15,此时个位上的数字之和最大.故选中方格中的4个数之和的最大值为21+33+43+15=112.
5.5 解析:由二项式定理知( +x)10=x10-k.记ak=,k=0,1,…,10.
法一 对于k=1,2,…,10,有=·=.当k≤2时,>1;当k≥3时,<1,因此a0<a1<a2,a2>a3>…>a10,所以展开式各项系数中的最大值为a2==5.
法二 对于k=1,2,…,10,有ak-ak-1=(-3)=·( -)=·,当k≤2时,ak-ak-1>0;当k≥3时,ak-ak-1<0.因此有a0<a1<a2,a2>a3>…>a10,所以展开式各项系数中的最大值为a2==5.
【研透高考·攻重点】
【例1】 (1)C (2)D 解析:(1)根据题意,可分为两类:①当新节目插在中间的四个空隙中的一个时,有=4×2=8种方法;②当新节目插在中间的四个空隙中的两个时,有=4×3=12种方法,由分类加法计数原理得,共有8+12=20种不同的插法.故选C.
(2)由题意可知,先将5人分成3组,有两类分法,第一类,各组人数分别为3,1,1,共有种分法;第二类,各组人数分别为1,2,2,共有种分法.将3组人员分配到A,B,C三个乡村学校去,共有种分法,所以不同的选派方法共有( +)=150(种).故选D.
跟踪训练
1.C 以A为起点时,三条路线依次连接即可到达B点.共有3×2=6种选择,自B连接到C时,在C右侧可顺时针连接或逆时针连接,共有2种选择,∴以A为起点,C为终点时,共有6×2=12种方法;同理可知,以C为起点,A为终点时,共有12种方法.∴完成该图“一笔画”的方法数为12+12=24种.
2.B 法一(排除法) 从7个点中任意取3个点共有种取法,因为B,D,E,F四点共线,其中任意三点都不能构成三角形,所以共可以构成-=35-4=31(个)不同三角形,故选B.
法二(分类法) 第一类:B,D,E,F四个点中一个点都不取,可构成=1(个)三角形;第二类:从B,D,E,F四个点中取1个点,在A,C,G中取2个点,可构成=12(个)三角形;第三类:从B,D,E,F四个点中取2个点,在A,C,G中取1个点,可构成=18(个)三角形.共可以构成1+12+18=31(个)三角形,故选B.
【例2】 (1)AC (2)-40 解析:(1)根据二项式定理,( 2x-)8的通项为Tk+1=28-k(-1)kx8-2k,常数项为24(-1)4=1 120,故A正确;第四项的系数为28-3(-1)3=-1 792,第六项的系数为28-5(-1)5=-448,故B错误;因为n=8,所以各项的二项式系数之和为28=256,故C正确;令x=1,各项的系数之和为1,故D错误.
(2)(x-2y)6的通项公式为Tr+1=x6-r(-2y)r=(-2)rx6-ryr,令r=2得,T3=(-2)2x4y2=60x4y2,此时60x4y2·2=120x4y2,令r=3得,T4=(-2)3x3y3=-160x3y3,此时-160x3y3·=-160x4y2,故x4y2的系数为120-160=-40.
跟踪训练
1.C 令x=0,则15=a0,∴a0=1;令x=1,则35=a0+a1+a2+a3+a4+a5,∴a1+a2+a3+a4+a5=35-1=242.故选C.
2.32 -1 080 解析:由二项式定理得(3x-y+2z)5的展开式的通项公式为Tr+1=(3x-y)5-r·(2z)r,欲使得不含z,则r=0,∴T1=(3x-y)5,令x=1,y=1,则所有不含字母z的项的系数之和为25=32;含x3yz的项是·(3x)3(-y)·2z=-1 080x3yz,故其系数为-1 080.
3.4 解析:由(a+b)2n的展开式的二项式系数的最大值为x,则有x=,由(a+b)2n+1的展开式的二项式系数的最大值为y,则有y=,由9x=5y,故有9=5,即9×=5×,即9×=5×,即9(n+1)=5(2n+1),解得n=4.
【例3】 (1)BCD (2)2.5 解析:(1)设极差为t,由题中频率分布直方图可知,组距为1,共有12组,所以t≤1×12=12,且不是一定取等号,所以A不正确;前6组频率之和为0.02+0.04+0.1+0.14+0.2+0.2=0.7,前7组频率之和为0.7+0.1=0.8,所以75%分位数应位于[8.5,9.5)内,由8.5+1×=9,可以估计75%分位数为9,所以B正确;家庭年收入介于4.5万元至8.5万元之间的频率为0.1+0.14+0.2+0.2=0.64>0.5,所以C正确;由题中频率分布直方图可知,该地农户家庭年收入的平均值为3×0.02+4×0.04+5×0.1+6×0.14+7×0.2+8×0.2+9×0.1+10×0.1+11×0.04+(12+13+14)×0.02=7.68(万元),又7.68>6.5,所以D正确.综上,选B、C、D.
(2)设样本数据x1,x2,…,x8的平均数为,则(xi-)2=2,设样本数据y1,y2,…,y8的平均数为,由yi=xi+(-1)i(i=1,2,…,8),则=,所以(yi-)2=[xi+(-1)i-]2=2+(-1)i(xi-)+1=3+(-1)ixi=3+×(-2)=2.5.
跟踪训练
1.ACD 对于A,这5天的最高气温的平均数为=24 ℃,最低气温的中位数为17 ℃,它们的差为7 ℃,A正确.对于B,这5天的最低气温的极差为6 ℃,B错误.对于C,这5天的最高气温的众数为26 ℃,C正确.对于D,最低气温从小到大排列为13 ℃,15 ℃,17 ℃,18 ℃,19 ℃,且5×0.4=2,所以这5天的最低气温的第40百分位数是16 ℃,D正确.故选A、C、D.
2.168 27 解析:易知抽取的30名学生中,男生有20名,女生有10名,则用样本估计总体的平均值为=168,估计总体的方差为s2=×[16+(170-168)2]+×[25+(164-168)2]=27.
第2讲 小题研透——概率
【锁定高考·明方向】
真题感悟
1.A 法一 如图,左圆表示爱好滑冰的学生所占比例,右圆表示爱好滑雪的学生所占比例,A表示爱好滑冰且不爱好滑雪的学生所占比例,B表示既爱好滑冰又爱好滑雪的学生所占比例,C表示爱好滑雪且不爱好滑冰的学生所占比例,则0.6+0.5-B=0.7,所以B=0.4,C=0.5-0.4=0.1.所以若该学生爱好滑雪,则他也爱好滑冰的概率为==0.8,故选A.
法二 令事件A,B分别表示该学生爱好滑冰、该学生爱好滑雪,事件C表示该学生爱好滑雪的条件下也爱好滑冰,则P(A)=0.6,P(B)=0.5,P(AB)=P(A)+P(B)-0.7=0.4,所以P(C)=P(A|B)===0.8,故选A.
2.BC 法一 依题可知,=2.1,s2=0.01,所以Y~N(2.1,0.12),故P(Y>2)=P(Y>2.1-0.1)=P(Y<2.1+0.1)≈0.841 3>0.5,C正确,D错误;因为X~N(1.8,0.12),所以P(X>2)=P(X>1.8+2×0.1),因为P(X<1.8+0.1)≈0.841 3,所以P(X>1.8+0.1)≈1-0.841 3=0.158 7<0.2,而P(X>2)=P(X>1.8+2×0.1)<P(X>1.8+0.1)<0.2,B正确,A错误,故选B、C.
法二 由P(Z<μ+σ)≈0.841 3,得P(μ-σ<Z<μ+σ)≈0.682 6,又Y~N(2.1,0.12),X~N(1.8,0.12),则P(X>2)=≈=0.022 8<0.5,P(Y>2)=0.5+≈0.5+0.341 3=0.841 3>0.8>0.5,故选B、C.
3.ABD 对于A,因为信号的传输是相互独立的,所以采用单次传输方案依次发送1,0,1,依次收到1,0,1的概率p=(1-β)(1-α)(1-β)=(1-α)(1-β)2,则A正确;对于B,因为信号的传输是相互独立的,所以采用三次传输方案发送1,即发送3次1,依次收到1,0,1的概率p=(1-β)·β(1-β)=β(1-β)2,则B正确;对于C,因为信号的传输是相互独立的,所以采用三次传输方案发送1,译码为1包含两种情况:2次收到1,3次都收到1.而这两种情况是互斥的,所以采用三次传输方案发送1,收到译码为1的概率p=(1-β)2β+(1-β)3=3β(1-β)2+(1-β)3,则C错误;对于D,设“采用单次传输方案发送0,译码为0”为事件B,则P(B)=1-α.设采用三次传输方案发送0,收到的信号为0的次数为X,则P(X≥2)=P(X=2)+P(X=3)=(1-α)2α+(1-α)3=(1+2α)(1-α)2.又当0<α<0.5时,P(X≥2)-P(B)=(1+2α)(1-α)2-(1-α)=α(1-α)(1-2α)>0,所以采用三次传输方案译码为0的概率大于采用单次传输方案译码为0的概率,则D正确.故选A、B、D.
4. 解析:甲出1一定输,所以最多得3分,要得3分,就只有一种组合1-8,3-2,5-4,7-6.
得2分有三类,分别列举如下:
(1)出3和出5时赢,其余输:1-6,3-2,5-4,7-8;
(2)出3和出7时赢,其余输:1-4,3-2,5-8,7-6;1-8,3-2,5-6,7-4;1-6,3-2,5-8,7-4;
(3)出5和出7时赢,其余输:1-2,3-8,5-4,7-6;1-4,3-8,5-2,7-6;1-8,3-4,5-2,7-6;1-6,3-8,5-2,7-4;1-8,3-6,5-2,7-4;1-6,3-8,5-4,7-2;1-8,3-6,5-4,7-2.
共12种组合满足要求,而所有组合为4!,所以甲得分不小于2的概率为=.
【研透高考·攻重点】
【例1】 D 将5名志愿者分配到4个场馆,共有种不同的方法,其中A,B两名志愿者在同一个场馆共有种不同的方法,所以A,B两名志愿者不在同一个场馆的概率为P=1-=.故选D.
跟踪训练
1.C 设A表示事件“丙不是第一个出场,且甲最后出场”,B表示事件“丙不是第一个出场,且乙最后出场”.四人由随机抽签的方式确定出场次序,基本事件共有24个,事件A包含的基本事件有4个,故P(A)==,同理有P(B)=.由于事件A与事件B互斥,故丙不是第一个出场,且甲或乙最后出场的概率为P(A∪B)=P(A)+P(B)=.
2.D 令6个挂件分别为A,A,B,B,C,C,则将这6个挂件分为3组有5种可能:①AB,AB,CC;②AC,AC,BB;③BC,BC,AA;④AA,BB,CC;⑤AB,BC,AC.再将这分成3组的挂件分给3位同学,有3+3+3++=21(种)情况,恰好有1位同学得到同类吉祥物挂件为分组①②③,有3+3+3=9(种)情况,所以恰好有1位同学得到同类吉祥物挂件的概率是=.故选D.
【例2】 (1)A (2)BCD 解析:(1)抛掷次数为1的概率为=,点数可能为3或4,抛掷次数为2的概率为1-=,此时基本事件有(1,1),(1,2),(1,3),(1,4),(2,1),(2,2),(2,3),(2,4)共八种,其中点数之和至少为4的情况有(1,3),(1,4),(2,2),(2,3),(2,4)共五种,故抛掷骰子所得的点数之和至少为4的概率为×+×=+=.故选A.
(2)对于A,∵n(A)=60,n(D)=10,n(A∪D)=70,∴n(A∪D)=n(A)+n(D),∴A与D互斥,故A错误;对于B,∵n(A∪B)=n(A)+n(B)=n(Ω),∴A与B互为对立,故B正确;对于C,∵P(A)==,P(C)==,P(A∩C)==,∴P(A∩C)=P(A)P(C)=,∴A与C相互独立,故C正确;对于D,∵n(Ω)=100,n(A)=60,n(B)=40,n(C)=20,n(A∪B)=100,n(A∩C)=12,∴n(B∩C)=8,∴P(B∩C)==,又∵P(B)==,P(C)==,∴P(B∩C)=P(B)P(C)=,∴B与C相互独立,故D正确.故选B、C、D.
跟踪训练
1.A 由题意得,P(A)=,P(B)=,P(AB)=,∴P(AB)=P(A)P(B),∴事件A与B相互独立,则A与也相互独立,∴P(A)=P(A)P()=P(A)(1-P(B))=×=.故选A.
2.D 当n=2时,AB表示一正一反,故P(AB)=2××=,故A正确;此时P(A)=2××=,P(B)=1-P()=1-×=,P(AB)=≠=P(A)P(B),故B正确;当n=3时,A+B表示并非每次都是正面朝上,故P(A+B)=1-P()=1-××=,故C正确;此时P(AB)=3×××=,P(A)=1-P()=1-××-××=,P(B)=××+3×××=,所以P(AB)==×=P(A)P(B),故D错误.故选D.
【例3】 (1)C (2)B 解析:(1)据题意,记甲击中目标为事件A,乙击中目标为事件B,目标被击中为事件C,甲、乙同时击中目标为事件D,则P(A)=,P(B)=,所以P(C)=1-P()P()=1-(1-)×(1-)=,P(DC)=P(D)=P(AB)=P(A)P(B)=×=,则在目标被击中的情况下,甲、乙同时击中目标的概率为P(D|C)===.
(2)设A1,A2分别表示取得的这块芯片是由甲、乙线生产的,B表示取得的芯片为次品,甲线生产该芯片的次品率为p,则P(A1)==,P(A2)=,P(B|A1)=p,P(B|A2)=.由全概率公式得P(B)=P(A1)P(B|A1)+P(A2)P(B|A2)=p+×=0.08,解得p=.故选B.
跟踪训练
1. 解析:由题意知甲选到A的概率P==.记乙选择A活动为事件M,乙选了A活动再选择B活动为事件N,则P(M)==,P(MN)==,所以P(N|M)===.
2. 解析:设A=“在甲盒中拿到红球”,B=“在乙盒中拿到红球”.因为甲盒中有3个红球,2个黄球,所以P(A)=,P()=1-=,又乙盒中有2个红球,1个黄球,所以P(B|A)=,P(B|)=,所以P(B)=P(AB)+P(B)=P(A)P(B|A)+P()P(B|)=×+×=.
【例4】 D 因为正态密度函数为f(x)=,所以E(X)=90,所以正态曲线关于直线x=90对称,所以P(X<70)=P(X>110),又P(70≤X≤110)=0.8,所以P(X>110)==0.1,又共有50 000名学生参加这次考试,所以该市这次考试数学成绩超过110分的学生人数约为50 000×0.1=5 000,故选D.
跟踪训练
1.D 随机变量X服从正态分布N(2,σ2),且P(2<X≤2.5)=0.36,所以P(1.5≤X<2)=0.36,P(X<1.5)=(1-0.36×2)=0.14,所以P(X>1.5)=1-0.14=0.86,故选D.
2.0.01(答案不唯一,小于等于0.02的正数即可) 解析:依题意可得μ=80,要使次品率不高于0.27%,则正品率不低于99.73%,又根据正态曲线的特征知,|ξ-80|<3σ,所以ξ∈(80-3σ,80+3σ) (79.94,80.06),所以解得σ≤0.02,故σ的一个值可以为0.01.
第3讲 大题专攻——随机变量及其分布
【锁定高考·明方向】
真题感悟
1.解:X的所有可能取值为0,1,2,
且P(X=k)=,k=0,1,2,
所以X的分布列为
X 0 1 2
P
X的数学期望E(X)=0×+1×+2×=1.
2.解:(1)甲、乙所在队的比赛成绩不少于5分,则甲第一阶段至少投中1次,乙第二阶段也至少投中1次,
所以比赛成绩不少于5分的概率P=(1-0.63)(1-0.53)=0.686.
(2)若甲参加第一阶段比赛,则甲、乙所在队的比赛成绩X的所有可能取值为0,5,10,15.
P(X=0)=(1-p)3+[1-(1-p)3]·(1-q)3,
P(X=5)=[1-(1-p)3]··q·(1-q)2,
P(X=10)=[1-(1-p)3]··q2·(1-q),
P(X=15)=[1-(1-p)3]·q3,
所以E(X)=[1-(1-p)3]·[15q(1-q)2+30q2·(1-q)+15q3]=[1-(1-p)3]·15q=15pq·(p2-3p+3).
若乙参加第一阶段比赛,则甲、乙所在队的比赛成绩Y的所有可能取值为0,5,10,15.
同理,可得E(Y)=15pq(q2-3q+3).
E(X)-E(Y)=15pq(p2-3p-q2+3q)=15pq(q-p)(3-p-q),
由0<p<q≤1,
得q-p>0,3-p-q=3-(p+q)>0,
所以E(X)-E(Y)>0,即E(X)>E(Y).
故应该由甲参加第一阶段比赛.
【研透高考·攻重点】
【例1】 解:(1)设一轮摸球游戏结束时摸球次数不超过3次为事件A,记第i次(i=1,2,3)摸到红球为事件Bi,
则事件A=∪B1∪B1B2,
显然,B1,B1B2彼此互斥,
由互斥事件概率的加法公式:P(A)=P(∪B1∪B1B2)=P()+P(B1)+P(B1B2),
因为每次摸到红球后放回,所以P(Bi)=,P()=,
所以P(A)=+×+××=.
(2)依题意,X的可能取值为2,3,4,5,
P(X=2)=P()=,
P(X=3)=P(B1)=×=,
P(X=4)=P(B1B2)+P(B1B2B3B4)=××+()4=,
P(X=5)=P(B1B2B3)=()3×=,
所以一轮摸球游戏结束时,此人总得分X的分布列为
X 2 3 4 5
P
E(X)=2×+3×+4×+5×=.
跟踪训练
解:(1)记抛掷骰子的样本点为(a,b),则样本空间Ω={(a,b)|1≤a≤6,1≤b≤6,a∈N*,b∈N*},
则n(Ω)=36,
记事件A=“X>0”,记事件B=“X=[]=”,
则A={(a,b)|1≤a≤b≤6,a∈N*,b∈N*,且[]>0},则n(A)=21.
又AB={(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,2),(2,4),(2,6),(3,3),(3,6),(4,4),(5,5),(6,6)},
则n(AB)=14,
所以P(B|A)===,
即在X>0的条件下,X=的概率为.
(2)X的所有可能取值为0,1,2,3,4,5,6.
P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
P(X=4)=,P(X=5)=,P(X=6)=,
所以X的分布列为:
X 0 1 2 3 4 5 6
P
所以E(X)=0×+1×+2×+3×+4×+5×+6×=.
【例2】 解:(1)记“从10所学校中随机选取的3所学校参与‘自由式滑雪’都超过40人”为事件A,
参与“自由式滑雪”的人数超过40的学校共4所,
从中随机选择3所学校的选法共=4(种),
所以P(A)===.
(2)参与“单板滑雪”人数在45以上的学校共4所,
所以X的所有可能取值为0,1,2,3,
则P(X=0)===,
P(X=1)===,
P(X=2)===,
P(X=3)===,
所以X的分布列如下表:
X 0 1 2 3
P
所以E(X)=+2×+3×=.
(3)记“小明同学在一轮测试中要想获得优秀”为事件B,
则P(B)=( )2×+( )3=,
由题意,小明同学在集训测试中获得“优秀”的次数服从二项分布B( n,),
由题意得n≥5,得n≥,
因为n∈N*,所以n的最小值为20,
故至少要进行20轮测试.
跟踪训练
解:(1)由题意可知:每次抛掷骰子上两级台阶的概率为=,上三级台阶的概率为=,
且X的可能取值为6,7,8,9,可得(X-6)~B(3,),则有:
P(X=6)=()3=,
P(X=7)=××()2=,
P(X=8)=×()2×=,
P(X=9)=()3=,
所以X的分布列为
X 6 7 8 9
P
因为E(X-6)=3×=1,所以E(X)=7.
(2)因为位于第10级台阶则认定游戏失败,无法获得奖品,
结合题意可知:若学生位于第10级台阶,则抛掷3次后,学生位于第7级台阶,抛掷第4次上三级台阶,
可知不能获得奖品的概率为P1=××()2×=,
所以甲、乙两位学生参加游戏,恰有一人获得奖品的概率P=××(1-)=.
【例3】 解:(1)记“从第1组抽取的20株鸡冠花样本中随机抽取2株,至少有1株鸡冠花的株高增量在(7,10]内”为事件A,所以P(A)==.
(2)记“从第i(i=1,2,3)组的鸡冠花中各随机抽取1株,这株鸡冠花的株高增量在(7,10]内”为事件Bi,
由题意可知:P(B1)=,P(B2)=,P(B3)=,
X的可能取值有0,1,2,3,则有:
P(X=0)=(1-)×(1-)×(1-)=,
P(X=1)=×(1-)×(1-)+(1-)××(1-)+(1-)×(1-)×=,
P(X=2)=××(1-)+×(1-)×+(1-)××=,
P(X=3)=××=.
所以X的分布列为
X 0 1 2 3
P
X的期望E(X)=0×+1×+2×+3×=.
(3)由题意可知:ζ1,ζ2,ζ3均服从两点分布,则有:
ζ1的分布列为:
ζ1 0 1
P
可得ζ1的方差D(ζ1)=×=;
ζ2的分布列为:
ζ2 0 1
P
可得ζ2的方差D(ζ2)=×=;
ζ3的分布列为:
ζ3 0 1
P
可得ζ3的方差D(ζ3)=×=;
因为>>,所以D(ζ2)>D(ζ3)>D(ζ1).
跟踪训练
解:(1)设ζ表示1条灯带在安全使用寿命内更换的灯珠数量,
则P(ζ=5)=P(ζ=7)=P(ζ=8)=0.2,P(ζ=6)=0.4,
X的取值范围是{10,11,12,13,14,15,16},
P(X=10)=0.2×0.2=0.04,
P(X=11)=2×0.2×0.4=0.16,
P(X=12)=0.42+2×0.2×0.2=0.24,
P(X=13)=2×(0.2×0.2+0.2×0.4)=0.24,
P(X=14)=0.22+2×0.4×0.2=0.2,
P(X=15)=2×0.2×0.2=0.08,
P(X=16)=0.2×0.2=0.04,
X的分布列为
X 10 11 12 13 14 15 16
P 0.04 0.16 0.24 0.24 0.2 0.08 0.04
(2)由(1)可知P(X≥12)=0.8,
P(X≥13)=0.56,
故n0=13.
(3)由(2)可知n0-1=12,
在灯带安全使用寿命期内,当n=12时,设购买替换灯珠所需总费用为u元,当n=13时,设购买替换灯珠所需总费用为v元,则
E(u)=24+0.24×4+0.2×8+0.08×12+0.04×16=28.16,
E(v)=26+0.2×4+0.08×8+0.04×12=27.92,
E(v)<E(u),
故以购买替换灯珠所需总费用的期望值为依据,n=n0比n=n0-1的方案更优.
第4讲 大题专攻——成对数据的统计分析
【锁定高考·明方向】
真题感悟
1.解:(1)填写如下列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
则完整的2×2列联表如下:
优级品 非优级品 总计
甲车间 26 24 50
乙车间 70 30 100
总计 96 54 150
K2==4.687 5.
因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;
因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知==0.64,
又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,
所以>p+1.65,
所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
2.解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2)(xi-)(yi-)=xiyi-10=0.013 4,
(xi-)2=-10()2=0.002,
(yi-)2=-10()2=0.094 8,
所以==≈0.01×1.377=0.013 77,
所以样本相关系数r=
≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
【研透高考·攻重点】
【例1】 解:(1)由已知可得,==3,
==5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
(xi-)(yi-)=-5.9,=,=,
r==≈≈-0.98.
(2)由问题(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归模型进行描述.
由问题(1)知,===-0.59,
=-=5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=9,则=-0.59×9+6.87=1.56,预测2028年的酸雨区面积占国土面积的百分比为1.56%.
跟踪训练
解:(1)=,=,
===5,
∴=-=-5×=2,
∴=5ln x+2.
(2)设投入食品淀粉的资金为x万元,投入药用淀粉的资金为(200-x)万元,年收益为f(x),
∴f(x)=5ln x+2+(200-x)=5ln x-x+22,
f'(x)=-=0 x=50,
当0<x<50时,f'(x)>0,f(x)单调递增;当50<x<200时,f'(x)<0,f(x)单调递减.
∴f(x)max=f(50)=5ln 50-5+22=5(2ln 5+ln 2)+17≈36.5.
【例2】 解:(1)强化训练后的平均成绩约为
55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.
由于前三列概率之和为0.04+0.16+0.2=0.4,
设中位数为80+x,则0.032x=0.1,
解得x=3.125,所以中位数约为83.13.
(2)零假设为H0:跳水运动员是否优秀与强化训练无关.
补充完整的表格为
强化训练 是否优秀 合计
优秀人数 非优秀人数
强化训练前 40 60 100
强化训练后 60 40 100
合计 100 100 200
则χ2==8>7.879=x0.005,
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为跳水运动员是否优秀与强化训练有关.
跟踪训练
解:(1)由表中数据可得,选择A餐厅的概率为=,选择B餐厅的概率为=,
设事件A1:甲、乙两名同学去A餐厅用餐,
事件B1:甲、乙两名同学去B餐厅用餐,
事件A:甲、乙两名同学选择同一套餐用餐,
P(A1)=()2,P(B1)=()2,P(A|A1)=,P(A|B1)=,
则P(A)=P(A1)P(A|A1)+P(B1)·P(A|B1)=()2×+()2×=,
故甲、乙两名同学选择同一套餐的概率为.
(2)根据数据可得列联表:
餐厅 性别 合计
男 女
在A餐厅用餐 40 20 60
在B餐厅用餐 15 25 40
合计 55 45 100
零假设为H0:认为性别与选择餐厅之间无关,
根据列联表中的数据,经计算得到χ2=≈8.249>7.879=x0.005,
依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别与选择餐厅之间有关,此推断犯错误的概率不大于0.005.
培优点1 体育比赛与闯关
【例1】 解:(1)记事件A=“甲班在项目A中获胜”,则P(A)=××+×( )2××+×( )2×( )2×=,
所以甲班在项目A中获胜的概率为.
(2)记事件B=“甲班在项目B中获胜”,
则P(B)=( )3+×( )4+×( )5=.
X的可能取值为0,1,2,
则P(X=0)=P()=P()P()=×=,
P(X=2)=P(AB)=P(A)P(B)=×=,
P(X=1)=1-P(X=0)-P(X=2)=.
所以X的分布列为
X 0 1 2
P
故E(X)=0×+1×+2×=.所以甲班获胜的项目个数的数学期望为.
跟踪训练
解析:根据题意,设甲获胜为事件A,比赛进行两局为事件B,P(A)=×+×××=,P(AB)=××=,故P(B|A)====.
【例2】 解:(1)甲连胜四场的概率为.
(2)根据赛制,至少需要进行四场比赛,至多需要进行五场比赛.
比赛四场结束,共有三种情况:
甲连胜四场的概率为;
乙连胜四场的概率为;
丙上场后连胜三场的概率为.
所以需要进行第五场比赛的概率为1---=.
(3)丙最终获胜,有两种情况:
比赛四场结束且丙最终获胜的概率为;
比赛五场结束且丙最终获胜,则从第二场开始的四场比赛按照丙的胜、负、轮空结果有三种情况:胜胜负胜,胜负空胜,负空胜胜,概率分别为,,.
因此丙最终获胜的概率为+++=.
跟踪训练
解析:比赛进行四局结束有以下两种情况:第一局甲获胜,后三局丙连胜;第一局乙获胜,后三局丙连胜,第一局甲获胜,后三局丙连胜的概率P1=×××=,第一局乙获胜,后三局丙连胜的概率P2=×××=,故比赛进行四局结束的概率P=P1+P2=+=.
【例3】 解:(1)甲以11∶9赢得比赛,共计20次发球,在后4次发球中,需甲在最后一次获胜,最终甲以11∶9赢得比赛的概率为P=×( )2×( )2+( )2××=.
(2)设甲累计得分为随机变量X,X的可能取值为0,1,2,3.
P(X=0)=( )2×=,
P(X=1)=×( )2×+( )2×=,
P(X=2)=×( )2×+( )2×=,
P(X=3)=( )2×=,
所以随机变量X的分布列为
X 0 1 2 3
P
所以E(X)=0×+1×+2×+3×=.
跟踪训练
D 三队中选一队与丙比赛,丙输,×,例如是丙甲,若丙与乙、丁的两场比赛一赢一平,则丙只得4分,这时,甲乙、甲丁两场比赛中甲只能输,否则甲的分数不小于4分,不合题意,在甲输的情况下,乙、丁已有3分,那么它们之间的比赛无论什么情况,乙、丁中有一队得分不小于4分,不合题意.若丙全赢( 概率是( )2)时,丙得6分,其他3队分数最高为5分,这时甲乙,甲丁两场比赛中甲不能赢,否则甲的分数不小于6分,(1)若甲乙,甲丁两场比赛中甲一平一输,则一平一输的概率是( )2,如平乙,输丁,则乙丁比赛时,丁不能赢,概率是;(2)若甲乙,甲丁两场比赛中甲两场均平,概率是( )2,乙丁这场比赛无论结果如何均符合题意;(3)若甲乙,甲丁两场比赛中甲都输,概率是( )2,乙丁这场比赛只能平,概率是.综上,概率为××( )2×[×( )2×+( )2+( )2×]=,D正确.故选D.
培优点2 概率与统计中的创新问题
【例1】 解:(1)K2==24>6.635,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)①证明:R=
=,
由题意知,证明=即可,
左边=
=,
右边=
=.
左边=右边,故R=·.
②由调查数据可知P(A|B)==,P(A|)==,
且P(|B)=1-P(A|B)=,P(|)=1-P(A|)=,
所以R=×=6.
跟踪训练
解:(1)依题意,X1服从超几何分布,故X1的分布列为P(X1=k)=,k∈N,0≤k≤100.
X1 0 1 … 99 100
P …
(2)①证明:由题可知Xi(i=1,2,…,20)均服从完全相同的超几何分布,所以E(X1)=E(X2)=…=E(X20),E()=E( Xi)=E( Xi)=E(Xi)=×20E(X1)=E(X1),
D()=D( Xi)=D( Xi)=D(Xi)=×20D(X1)=D(X1).
故E()=E(X1),D()=D(X1).
②由①可知的均值E()=E(X1)=.
由公式得X1的方差D(X1)=,
所以D()=.
依题意有
解得N=1 456,M=624,
所以可以估计M=624,N=1 456.
【例2】 解:(1)依题意,X~B( 5,),则P(X=0)=( )5=,P(X=1)=( )4( )=,
P(X=2)=( )3( )2==,
P(X=3)=( )2( )3=,
P(X=4)=( )( )4=,
P(X=5)=( )5=,
故X的分布列为:
X 0 1 2 3 4 5
P
故E(X)=5×=.
(2)设事件“Y=n”表示前n-1次试验只成功了1次,且第n次试验成功,
故P(Y=n)=××( )n-2×=×( )n-2,
当n为偶数时,
P(AB)=P(2)+P(4)+…+P(n)=[1·( )0+3·( )2+…+(n-1)·( )n-2],
令Sn=1·( )0+3·( )2+…+(n-1)·( )n-2,
则Sn=1·( )2+3·( )4+…+(n-1)·( )n,
两式相减得:Sn=1+2[( )2+( )4+…+( )n-2]-(n-1)·( )n,
则Sn=-( )n·( +n),
即P(AB)=-( +n)·( )n.
当n为奇数时,同理可得
P(AB)=P(2)+P(4)+…+P(n-1)=[1·( )0+3·( )2+…+(n-2)·( )n-3]
=-( n+)·( )n-1,
综上,P(AB)=
【例3】 解:(1)∵10×(0.012+0.026+0.032+a+0.01)=1,∴a=0.02.
样本平均数的估计值为50×0.12+60×0.26+70×0.32+80×0.2+90×0.1=69.
(2)∵μ=69,σ=10.5.
∴P(X≥90)=P(X≥μ+2σ)≈=0.022 75.
∴能参加复试的人数约为40 000×0.022 75=910.
(3)由题意有x2y=.
答对两道题的概率P=x2(1-y)+x(1-x)y=x2+2xy-3x2y.
而x2y=,∴P=x2+-.
令f(x)=x2+-(0<x≤1),
则f'(x)=2x-=,
∴当x∈( 0,)时,f'(x)<0,f(x)在( 0,)内单调递减;
当x∈( ,1]时,f'(x)>0,f(x)在( ,1]内单调递增.
∴当x=时,f(x)min=.故概率P的最小值为.
跟踪训练
解:(1)由题意知,X的可能取值为0,1,2,
则P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X 0 1 2
P
则E(X)=0×+1×+2×=.
记事件A:小王已经答对一题,事件B:小王未进入决赛,
则小王在已经答对一题的前提下,仍未进入决赛的概率
P(B|A)====.
(2)①由题意知,f(p)=p(1-p)2
=3p3-6p2+3p( 0<p<),
则f'(p)=3(3p-1)(p-1),
令f'(p)=0,解得p=或p=1(舍),
当p∈( 0,)时,f'(p)>0,当p∈( ,)时,f'(p)<0,
所以f(p)在区间( 0,)内单调递增,在区间( ,)内单调递减,
所以当p=时,f(p)有极大值,且f(p)的极大值为f( )=.
②由题可设每名进入决赛的大学生获得的奖金为随机变量Y,
则Y的可能取值为60,120,180,360,
P(Y=60)=(1-p)3,
P(Y=120)=p(1-p)2,
P(Y=180)=p2(1-p),
P(Y=360)=p3,
所以E(Y)=60(1-p)3+120p(1-p)2+180p2(1-p)+360p3=60(2p3+3p+1),
所以9E(Y)≥1 120,
即540(2p3+3p+1)≥1 120,
整理得2p3+3p-≥0,
经观察可知p=是方程2p3+3p-=0的根,
故2p3+3p-=2( p3-p2)+( p2-p)+( p-)=( p-)( 2p2+p+),
因为2p2+p+>0恒成立,
所以由2p3+3p-≥0可得p-≥0,解得p≥,
又0<p<,所以p的取值范围为[,).
【例4】 解:(1)①二维离散型随机变量(ξ,η)的所有可能取值为(0,0),(0,1),(0,2),(0,3),(1,0),(1,1),(1,2),(2,0),(2,1),(3,0).
②由题意得0≤m+n≤3,
P(ξ=m,η=n)=P(ξ=m|η=n)·P(η=n),
因为P(η=n)=( )n( )3-n.
P(ξ=m|η=n)=( )m·( )3-n-m=( )3-n,
所以P(ξ=m,η=n)=( )3-n·( )n·( )3-n==·.
(2)证明:由定义及全概率公式知:
P(ξ=ai)=P{(ξ=ai)∩[(η=b1)∪(η=b2)∪…∪(η=bj)∪…]}
=P{[(ξ=ai)∩(η=b1)]∪[(ξ=ai)∩(η=b2)]∪…∪[(ξ=ai)∩(η=bj)]∪…}
=P[(ξ=ai)∩(η=b1)]+P[(ξ=ai)∩(η=b2)]+…+P[(ξ=ai)∩(η=bj)]+…
=P[(ξ=ai)∩(η=bj)]=P(ξ=ai,η=bj)
=Pij.
跟踪训练
解:(1)因为X~B( 3,),所以xk=P(X=k)=( )k( )3-k=(k=0,1,2,3),
因为Y~B( 3,),所以yk=P(Y=k)=( )k·( )3-k=(k=0,1,2,3),
所以==23-2k(k=0,1,2,3),
所以D(X||Y)=xkln=××ln 23+××ln 2+××ln 2-1+××ln 2-3=ln 2.
(2)因为xk=P(X=k)=pk(1-p)2-k(k=0,1,2),
y0=P(Y=0)=,y1=P(Y=1)=,y2=P(Y=2)=,
所以D(X||Y)=xkln
=x0ln+x1ln+x2ln
=(1-p)2ln[6(1-p)2]+2p(1-p)ln[3p(1-p)]+p2ln(6p2).
令f(p)=(1-p)2ln[6(1-p)2]+2p(1-p)ln[3p(1-p)]+p2ln(6p2),
则f'(p)=-2(1-p)ln[6(1-p)2]-2(1-p)+(2-4p)ln[3p(1-p)]+2-4p+2pln(6p2)+2p
=(-2+4p)ln 6-2ln(1-p)+2ln p+(2-4p)ln 3
=2ln p-2ln(1-p)+(4p-2)ln 2,
令g(p)=2ln p-2ln(1-p)+(4p-2)ln 2,
则g'(p)=++4ln 2,
因为0<p<1,所以g'(p)>0,故g(p)在(0,1)上单调递增,
又g( )=0,所以当0<p<时,g(p)<0,即f'(p)<0,当<p<1时,g(p)>0,即f'(p)>0,
所以f(p)在( 0,)上单调递减,在( ,1)上单调递增,
所以f(p)min=f( )=ln.
(3)证明:令φ(x)=ln x-x+1,则φ'(x)=-1=.易得当x∈(0,1)时,φ'(x)>0,当x∈(1,+∞)时,φ'(x)<0,故φ(x)在(0,1)上单调递增,在(1,+∞)上单调递减,
所以 x∈(0,+∞),φ(x)≤φ(1)=0,
所以ln x≤x-1,所以ln≤-1,
所以ln x≥1-,
所以D(X||Y)=xkln≥xk( 1-)
=(xk-yk)=xk-yk=1-1=0,
即D(X||Y)的值不可能为负.
1 / 3第4讲 大题专攻——成对数据的统计分析
备|考|领|航
一、考情分析
高频考点 高考预测
回归分析及预测 高考对本讲内容的考查往往以实际问题为背景,考查经验回归方程的求解与运用、独立性检验等问题,常与概率综合考查,难度中等
独立性检验
二、真题感悟
1.(2024·全国甲卷理17题)(独立性检验)某工厂进行生产线智能化升级改造.升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:
优级品 合格品 不合格品 总计
甲车间 26 24 0 50
乙车间 70 28 2 100
总计 96 52 2 150
(1)填写如下列联表:
优级品 非优级品
甲车间
乙车间
能否有95%的把握认为甲、乙两车间产品的优级品率存在差异?能否有99%的把握认为甲、乙两车间产品的优级品率存在差异?
(2)已知升级改造前该工厂产品的优级品率p=0.5.设为升级改造后抽取的n件产品的优级品率,如果>p+1.65,则认为该工厂产品的优级品率提高了.根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?(≈12.247)
附:K2=,
P(K2≥k) 0.050 0.010 0.001
k 3.841 6.635 10.828
.
解:(1)填写如下列联表:
优级品 非优级品
甲车间 26 24
乙车间 70 30
则完整的2×2列联表如下:
优级品 非优级品 总计
甲车间 26 24 50
乙车间 70 30 100
总计 96 54 150
K2==4.687 5.
因为K2=4.687 5>3.841,所以有95%的把握认为甲、乙两车间产品的优级品率存在差异;
因为K2=4.687 5<6.635,所以没有99%的把握认为甲、乙两车间产品的优级品率存在差异.
(2)由题意可知==0.64,
又p+1.65=0.5+1.65×≈0.5+1.65×≈0.57,
所以>p+1.65,
所以能认为生产线智能化升级改造后,该工厂产品的优级品率提高了.
2.(2022·全国乙卷理19题)(回归分析、样本相关系数)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2)(xi-)(yi-)=xiyi-10=0.013 4,
(xi-)2=-10()2=0.002,
(yi-)2=-10()2=0.094 8,
所以==≈0.01×1.377=0.013 77,
所以样本相关系数r=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
重|难|排|查
1.求经验回归方程
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出);
(2)作出散点图,确定x,y具有线性相关关系(也可用样本相关系数r判断);
(3)把数据制成表格,并列出xi,yi,xiyi,;
(4)计算,,,xiyi;
(5)代入公式计算,的值;
(6)确定经验回归方程=x+;
(7)利用决定系数R2或残差分析判断拟合效果.
2.独立性检验的一般步骤
(1)根据样本数据列出2×2列联表;
(2)计算随机变量χ2的观测值,查表确定临界值xα;
(3)如果χ2≥xα,就推断“X与Y不独立”,这种推断犯错误的概率不超过P(χ2≥xα);否则不能推断“X与Y不独立”,或者在样本数据中没有发现足够证据支持结论“X与Y不独立”.
回归分析及预测
【例1】 (2024·郑州第三次质量检测)按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是2020—2024年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比(yi%):
年份 年份代码 2020年 2021年 2022年 2023年 2024年
xi 1 2 3 4 5
yi 6.4 5.5 5.0 4.8 3.8
(1)求2020—2024年年份代码xi与yi的样本相关系数(精确到0.01);
(2)请用样本相关系数说明该组数据中y与x之间的关系可用一元线性回归模型进行描述,并求出y关于x的经验回归方程;
(3)预测2028年的酸雨区面积占国土面积的百分比.
附:样本相关系数r=,≈6.
经验回归直线的斜率和截距的最小二乘法估计分别为:
=,=-,xiyi=70.6,=113.69.
解:(1)由已知可得,==3,
==5.1,
由题可列下表:
xi- -2 -1 0 1 2
yi- 1.3 0.4 -0.1 -0.3 -1.3
(xi-)(yi-)=-5.9,=,=,
r==≈≈-0.98.
(2)由问题(1)知,y与x的样本相关系数r≈-0.98,|r|接近1,所以y与x之间具有极强的线性相关关系,可用一元线性回归模型进行描述.
由问题(1)知,===-0.59,
=-=5.1-(-0.59)×3=6.87,
所求经验回归方程为=-0.59x+6.87.
(3)令x=9,则=-0.59×9+6.87=1.56,预测2028年的酸雨区面积占国土面积的百分比为1.56%.
感悟提升
回归分析通常用来判断两组数据之间的关系,解此类题时要清楚:
(1)若两个变量呈现线性相关关系,可直接通过计算公式求回归方程;
(2)若两个变量呈现非线性相关关系,解题时可利用化归与转化思想,通过恰当的变换,将其转化为线性相关关系,再求回归方程;
(3)利用回归方程可以进行预测与估计,但要注意回归方程表示的是两组数据之间的相关关系,并不是函数关系,所以利用该方程求出的值是估计值,而不是一个确定的值.
(2024·温州二模)红旗淀粉厂2024年之前只生产食品淀粉,下表为年投入资金x(万元)与年收益y(万元)的8组数据:
x 10 20 30 40 50 60 70 80
y 12.8 16.5 19 20.9 21.5 21.9 23 25.4
(1)用y=bln x+a模拟生产食品淀粉年收益y与年投入资金x的关系,求出回归方程;
(2)为响应国家“加快调整产业结构”的号召,该企业又自主研发出一种药用淀粉,预计其收益为投入的10%.2024年该企业计划投入200万元用于生产两种淀粉,求年收益的最大值.(精确到0.1万元)
附:①经验回归直线=v+中斜率和截距的最小二乘估计分别为:
=,=-·.
②
yi ln xi (ln xi)2 yiln xi
161 29 20 400 109 603
③ln 2≈0.7,ln 5≈1.6.
解:(1)=,=,
===5,
∴=-=-5×=2,
∴=5ln x+2.
(2)设投入食品淀粉的资金为x万元,投入药用淀粉的资金为(200-x)万元,年收益为f(x),
∴f(x)=5ln x+2+(200-x)=5ln x-x+22,
f'(x)=-=0 x=50,
当0<x<50时,f'(x)>0,f(x)单调递增;当50<x<200时,f'(x)<0,f(x)单调递减.
∴f(x)max=f(50)=5ln 50-5+22=5(2ln 5+ln 2)+17≈36.5.
独立性检验
【例2】 (2024·保定二模)某青少年跳水队共有100人,在强化训练前、后,教练组对他们进行了成绩测试,分别得到如图1所示的强化训练前的频率分布直方图,如图2所示的强化训练后的频率分布直方图.
(1)根据图中数据,估计强化训练后的平均成绩(同一组中的数据用该组区间的中点值作代表)与成绩的中位数(中位数精确到0.01);
(2)我们规定得分80分以上(含80分)的为“优秀”,低于80分的为“非优秀”.
强化训练 是否优秀 合计
优秀人数 非优秀人数
强化训练前
强化训练后
合计
将上面的表格补充完整,依据小概率值α=0.005的独立性检验,能否据此推断跳水运动员是否优秀与强化训练有关?
解:(1)强化训练后的平均成绩约为
55×0.04+65×0.16+75×0.2+85×0.32+95×0.28=81.4.
由于前三列概率之和为0.04+0.16+0.2=0.4,
设中位数为80+x,则0.032x=0.1,
解得x=3.125,所以中位数约为83.13.
(2)零假设为H0:跳水运动员是否优秀与强化训练无关.
补充完整的表格为
强化训练 是否优秀 合计
优秀人数 非优秀人数
强化训练前 40 60 100
强化训练后 60 40 100
合计 100 100 200
则χ2==8>7.879=x0.005,
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为跳水运动员是否优秀与强化训练有关.
感悟提升
解决独立性检验问题的关键是过好三关
(1)假设关:假设两个分类变量无关;
(2)公式关:把相关数据代入独立性检验公式求χ2的观测值;
(3)对比关:将求出的χ2的观测值与临界值比对,进行准确判断.
(2024·开封第三次质量检测)某学校有A,B两家餐厅,A餐厅有2种套餐选择,B餐厅有4种套餐选择,且这6种套餐各不相同.A餐厅距离教学楼相比于B餐厅要近很多,经调查发现,100名不同性别的学生选择餐厅用餐的情况如下:
男 女
在A餐厅用餐 40 20
在B餐厅用餐 15 25
(1)以题中所给频率作为概率,求某天甲、乙两名同学选择同一套餐用餐的概率;
(2)依据小概率值α=0.005的独立性检验,能否认为性别与选择餐厅之间有关联?
附:χ2=.
α 0.05 0.01 0.005 0.001
xα 3.841 6.635 7.879 10.828
解:(1)由表中数据可得,选择A餐厅的概率为=,选择B餐厅的概率为=,
设事件A1:甲、乙两名同学去A餐厅用餐,
事件B1:甲、乙两名同学去B餐厅用餐,
事件A:甲、乙两名同学选择同一套餐用餐,
P(A1)=()2,P(B1)=()2,P(A|A1)=,P(A|B1)=,
则P(A)=P(A1)P(A|A1)+P(B1)P(A|B1)=()2×+()2×=,
故甲、乙两名同学选择同一套餐的概率为.
(2)根据数据可得列联表:
餐厅 性别 合计
男 女
在A餐厅用餐 40 20 60
在B餐厅用餐 15 25 40
合计 55 45 100
零假设为H0:认为性别与选择餐厅之间无关,
根据列联表中的数据,经计算得到χ2=≈8.249>7.879=x0.005,
依据小概率值α=0.005的独立性检验,可以推断H0不成立,即性别与选择餐厅之间有关,此推断犯错误的概率不大于0.005.
1.(2024·湘潭质量检测)2023年8月8日是我国第15个“全民健身日”,设立全民健身日(FitnessDay)是适应人民群众体育的需求,促进全民健身运动开展的需要.某学校为了提高学生的身体素质,举行了跑步竞赛活动,活动分为长跑、短跑两类项目,且该班级所有同学均参加活动,每位同学选择一项活动参加.
长跑 短跑
男同学 30 10
女同学 a 10
若采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名.
(1)求a的值以及该班同学选择长跑的概率;
(2)依据小概率值α=0.01的独立性检验,能否推断选择跑步项目的类别与其性别有关?
附:χ2=,其中n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
解:(1)因为采用分层随机抽样按性别从该班级中抽取6名同学,其中有男同学4名,女同学2名,所以男女同学的比例为2∶1,则=2,故a=10,
该班同学选择长跑的概率为=.
(2)依题意,完善2×2列联表,如下,
性别 跑步项目类别 合计
长跑 短跑
男同学 30 10 40
女同学 10 10 20
合计 40 20 60
零假设为H0:选择跑步项目类别与学生性别无关,
χ2===3.75<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断出H0不成立,
因此可以认为H0成立,即认为选择跑步项目类别与学生性别无关.
2.(2024·石家庄质量检测)在推动电子制造业高质量发展的大环境下,某企业统筹各类资源,进行了积极的改革探索.下表是该企业每月生产的一种核心产品的产量x(3≤x≤15)(件)与相应的生产总成本y(万元)的四组对照数据.
x 5 7 9 11
y 200 298 431 609
企业研究人员建立了y与x的两种回归模型,利用计算机算得近似结果如下:
经验回归方程①:=+173;经验回归方程②:=68x-160.
其中经验回归方程①的残差图如图所示(残差=观测值-预测值);
(1)在下表中填写经验回归方程②的残差,根据残差分析,判断哪一个经验回归方程更适宜作为y关于x的经验回归方程,并说明理由;
x 5 7 9 11
y 200 298 431 609
(2)从该企业在过去几年生产的该产品中随机抽取100件,优等品有60件,合格品有40件.每件优等品利润为20万元,每件合格品利润为15万元.若视频率为概率,该企业某月计划生产12件该产品,记优等品件数为X,总利润为Y.
(ⅰ)求Y与X的关系式,并求E(X)和E(Y);
(ⅱ)记该月的成本利润率为p,在(1)中选择的经验回归方程下,求p的估计值.(结果保留2位小数)
附:成本利润率=.
解:(1)经验回归方程②的残差数据如下表:
x 5 7 9 11
y 200 298 431 609
20 -18 -21 21
经验回归方程②的残差图如图所示:
经验回归方程①更适宜作为y关于x的经验回归方程.
(以下理由或其他合理的理由,说出一条即可得分):
理由1:经验回归方程①这4个样本点的残差的绝对值都比经验回归方程②的小.
理由2:经验回归方程①这4个样本的残差点落在的带状区域比经验回归方程②的带状区域更窄.
理由3:经验回归方程①这4个样本的残差点比经验回归方程②的残差点更贴近x轴.
(2)(ⅰ)由题意知,每件产品为优等品的概率P0==0.6,
则X~B(12,0.6),因此E(X)=12×0.6=7.2,
由Y=20X+15×(12-X)=5X+180,
则E(Y)=5E(X)+180=216.
(ⅱ)由(ⅰ)知总利润为216万元,总成本估计值=+173=749(万元),
则p=≈0.29.
3.(2024·湖南常德模拟)某市组织宣传小分队进行法律法规宣传,某宣传小分队记录了前9天每天普及的人数,得到下表:
时间x(天) 1 2 3 4 5 6 7 8 9
每天普及的人数y 80 98 129 150 203 190 258 292 310
(1)从这9天的数据中任选4天的数据,以X表示4天中每天普及人数不少于240人的天数,求X的分布列和数学期望;
(2)由于统计人员的疏忽,第5天的数据统计有误,如果去掉第5天的数据,试用剩下的数据求出每天普及的人数y关于天数x的经验回归方程.
参考数据:=yi=190,(xi-)2=60,
(yi-)2=55 482,(xi-)(yi-)=1 800.
解:(1)每天普及人数不少于240人的天数为3,则X的所有可能取值为0,1,2,3,
P(X=0)==,P(X=1)==,
P(X=2)==,P(X=3)==,
故X的分布列为
X 0 1 2 3
P
E(X)=0×+1×+2×+3×=.
(2)设原来数据的样本中心点为(,),去掉第5天的数据后样本中心点为(','),
'=(1+2+3+4+6+7+8+9)=5,'=x5=5=,
'=(9-y5)=(9×190-203)=,
故=
=
=
===30,
='-'=-30×5=,
所以=30x+.
4.(2024·河南九师联盟)PM2.5是指环境空气中直径小于或等于2.5微米的颗粒物.它能较长时间悬浮于空气中,其在空气中含量越高,说明空气污染越严重.城市中的PM2.5成分除扬尘等自然因素外,燃料的燃烧也是一个重要来源.某市环境检测部门为检测燃油车流量对空气质量的影响,在一个检测点统计每日过往的燃油车流量x(单位:辆)和空气中的PM2.5的平均浓度y(单位:μg/m3).检测人员采集了50天的数据,制成2×2列联表(部分数据缺失):
PM2.5的平均浓度 燃油车日流量 合计
燃油车日流量x<1 500 燃油车日流量x≥1 500
PM2.5的平均浓度y<100 16 24
PM2.5的平均浓度y≥100 20
合计 22
(1)完成上面的2×2列联表,并根据小概率值α=0.005的独立性检验,能否认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联?
(2)经计算得y与x之间的经验回归方程为=0.12x-73.86,且这50天的燃油车的日流量x的标准差Sx=249,PM2.5的平均浓度y的标准差Sy=36.若样本相关系数r满足|r|≥0.75,则判定所求经验回归方程有价值;否则判定其无价值.
①判断该经验回归方程是否有价值;
②若这50天的燃油车的日流量x满足=1.23×108,试求这50天的PM2.5的平均浓度y的平均数(利用四舍五入法精确到0.1).
参考数据:×1.23=0.024 6,2492=62 001,≈1 548.55.
解:(1)2×2列联表如下:
PM2.5的平均浓度 燃油车日流量 合计
燃油车日流量x<1 500 燃油车日流量x≥1 500
PM2.5的平均浓度y<100 16 8 24
PM2.5的平均浓度y≥100 6 20 26
合计 22 28 50
零假设为H0:PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆无关联.
根据列联表中的数据,计算得
χ2=≈9.624>7.879=x0.005,
所以根据小概率值α=0.005的独立性检验,推断H0不成立,所以可以认为PM2.5的平均浓度小于100 μg/m3与燃油车日流量小于1 500辆有关联.
(2)①由题意,得==0.12,
得(xi-)(yi-)=0.12(xi-)2,
由Sx==249,
Sy==36,
得r=
=
=0.12×=0.12×=0.83>0.75,
所以该经验回归方程有价值.
②因为Sx==249,
即=249,
所以=≈1 548.55,
又=0.12-73.86≈0.12×1 548.55-73.86=111.966≈112.0.
故可推算出这50天PM2.5平均浓度y的平均数约为112.0 μg/m3.
12 / 12