2021高考数学理二轮专题复习 专题四 统计与概率课件(4份)

文档属性

名称 2021高考数学理二轮专题复习 专题四 统计与概率课件(4份)
格式 zip
文件大小 2.3MB
资源类型 教案
版本资源 通用版
科目 数学
更新时间 2021-03-01 08:24:30

文档简介

(共85张PPT)
2课时突破
统计与概率解答题
第1课时 概率与统计的综合应用
考向一 统计与古典概型的综合问题
命题角度1 频率分布直方图与古典概型
【典例】(2020·济南二模)2020年4月21日,习近平总书记到安康市平利县老县镇考察调研,在镇中心小学的课堂上向孩子们发出了“文明其精神,野蛮其体魄”的期许.某市教育部门为了了解全市中学生疫情期间居家体育锻炼的情况,从全市随机抽取1
000名中学生进行调查,统计他们每周参加体育锻炼的时长,如图是根据调查结果绘制的频率分布直方图.
(1)已知样本中每周体育锻炼时长不足4小时的体育锻炼的中学生有100人,求直方图中a,b的值;
(2)为了更具体地了解全市中学生疫情期间的体育锻炼情况,利用分层抽样的方法从[10,12)和[12,14]两组中共抽取了6名中学生参加线上座谈会,现从上述6名学生中随机抽取2名在会上进行体育锻炼视频展示,求这2名学生来自不同组的概率.
【解析】(1)由题意得

(b+2a+0.075+0.1+0.2)×2=1,
所以a=0.05,b=0.025.
(2)因为

所以6名学生中有4名来自于[10,12)组,有2名来自于[12,14]组,
记事件A为“这2名学生来自不同组”,
则P(A)=
.
【探究延伸】
 本例(2)中,若利用分层抽样的方法从[2,4)和[4,6)两组中共抽取了9名中学生参加线上座谈会,再从上述9名学生中随机抽取2名在会上进行体育锻炼视频展示,求这2名学生来自不同组的概率.
【解析】因为
=2
,所以9名学生中有6名来自于[4,6)组,有3名来自于
[2,4)组,记事件A为“这2名学生来自不同组”,则P(A)=
.
命题角度2 其他统计图表与概率
【典例】(2020·惠州二调)为响应国家“精准扶贫、精准脱贫”的号召,某贫困县在精准推进上下实功,在精准落实上见实效.现从全县扶贫对象中随机抽取16人对扶贫工作的满意度进行调查,用茎叶图记录了他们对扶贫工作满意度的分数(满分100分),如图所示,已知图中的平均数与中位数相同.现将满意度分为“基本满意”(分数低于平均分)、“满意”(分数不低于平均分且低于95分)和“很满意”(分数不低于95分)三个级别.
(1)求茎叶图中数据的平均数和a的值;
(2)从“满意”和“很满意”的人中随机抽取2人,求至少有1人是“很满意”的概率.
【解析】(1)由题意,根据茎叶图中16个数据得中位数为
=88,由平均数
与中位数相同,得平均数为88,所以
,解得a=4.
(2)依题意,16人中,“基本满意”有8人,“满意”有4人,“很满意”有4
人,
则抽取2人是“满意”的概率是

故至少有1人是“很满意”的概率是
.
【素养提升】
 求解概率与统计问题的思路
(1)依据题目的直接描述或统计图表给出的信息,提炼出需要的信息.
(2)进行概率与统计的正确计算.
(3)此类问题中的概率模型多是古典概型,在求解时,要明确基本事件的构成.
【变式训练】
 (2020·衡阳二模)为了贯彻落实中央、省、市关于新型冠状病毒肺炎疫情防控工作要求,积极应对新型冠状病毒疫情,切实做好2020年春季开学工作,保障校园安全稳定,普及防控知识,确保师生生命安全和身体健康.某校开学前,组织高三年级800名学生参加了“疫情防控”网络知识竞赛(满分150分).已知这800名学生的成绩均不低于90分,将这800名学生的成绩分组如下:第一组[90,100),第二组[100,110),第三组[110,120),第四组[120,130),第五组[130,140),第六组[140,150],得到的频率分布直方图如图所示.
(1)求a的值并估计这800名学生的平均成绩(同一组中的数据用该组区间的中点值代表);
(2)该校“群防群控”督查组为更好地督促高三学生的“个人防控”,准备从这800名学生中选取2名学生参与督查工作,其选取办法是:先在第二组、第五组、第六组中用分层抽样的方法抽取6名学生,再从这6名学生中随机抽取2名学生.记这2名学生的竞赛成绩分别为x,y.求事件|x-y|≤20的概率.
【解析】(1)由频率分布直方图可知(0.010×2+0.025+a+0.015+0.005)×10=1,
解得a=0.035.
这800名学生竞赛成绩的平均数为:
95×0.010×10+105×0.010×10+115×0.025×10+125×0.035×10+135×0.015×10+145×0.005×10=120.
(2)由题意可知:第二组抽取2名学生,其成绩记为A,B,
则100≤A,B<110,
第五组抽取3名学生,其成绩记为C,D,E,
则130≤C,D,E<140,
第六组抽取1名学生,其成绩记为F,
则140≤F≤150,
现从这6名学生中抽取2名学生的成绩的基本事件为:
(A,B),(A,C),(A,D),(A,E),(A,F),(B,C),(B,D),(B,E),
(B,F),(C,D),(C,E),(C,F),(D,E),(D,F),(E,F)共15个.
其中事件|x-y|≤20包含的基本事件为:
(A,B),(C,D),(C,E),(D,E),(C,F),(D,F),(E,F)共7个,
记“这2名学生的竞赛成绩分别为x,y,其中|x-y|≤20”为事件M,则事件
|x-y|≤20的概率为P(M)=
.
   【加练备选】
 
为践行“绿水青山就是金山银山”的国家发展战略,我市对某辖区内畜牧、化工、煤炭三类行业共200个单位的生态环境治理成效进行了考核评估,考评分数达到85分及其以上的单位被称为“A类”环保单位,未达到85分的单位被称为“B类”环保单位.现通过分层抽样的方法确定了这三类行业共20个单位进行调研,统计考评分数如下:
畜牧类行业:85,92,77,81,89,87;
化工类行业:79,77,90,85,83,91;
煤炭类行业:87,89,76,84,75,94,90,88.
(1)计算该辖区这三类行业中每类行业的单位个数;
(2)若从畜牧类行业这六个单位中,再随机选取两个单位进行生产效益调查,求选出的这两个单位中既有“A类”环保单位,又有“B类”环保单位的概率.
【解析】(1)由题意得,抽取的畜牧、化工、煤炭三类行业单位个数之比为
3∶3∶4,
由分层抽样的定义,有:
畜牧行业的单位个数为
×200=60,
化工行业的单位个数为
×200=60,
煤炭行业的单位个数为
×200=80,
所以该辖区畜牧、化工、煤炭这三类行业中每类行业的单位个数分别为60,
60,80.
(2)记选出的2个单位中既有“A类”环保单位,又有“B类”环保单位为事件M,
这2个单位的考核数据情形有:
(85,92),(85,77),(85,81),(85,89),(85,87),(92,77),
(92,81),(92,89),(92,87),(77,81),(77,89),(77,87),
(81,89),(81,87),(89,87),共15个,
选出的这两个单位中既有“A类”环保单位,又有“B类”环保单位包含的基本事件有8个,分别为:(85,77),(85,81),(92,77),(92,81),(77,89),(77,87),(81,89),(81,87),
所以选出的这两个单位中既有“A类”环保单位,又有“B类”环保单位的概率
P(M)=
.
考向二 统计与随机变量分布列的综合问题
命题角度1 以超几何分布为背景的问题
【典例】自由购是通过自助结算方式购物的一种形式.某大型超市为调查顾客使用自由购的情况,随机抽取了100人,统计结果整理如下:
年龄
20
以下
[20,
30)
[30,
40)
[40,
50)
[50,
60)
[60,
70)
70
以上
(包括70)
使用
人数
3
12
17
6
4
2
0
未使
用人

0
0
3
14
36
3
0
(1)现随机抽取1名顾客,试估计该顾客年龄在[30,50)且未使用自由购的概率;
(2)从被抽取的年龄在[50,70)使用自由购的顾客中,随机抽取3人进一步了解情况,用X表示这3人中年龄在[50,60)的人数,求随机变量X的分布列及数学期望;
(3)为鼓励顾客使用自由购,该超市拟对使用自由购的顾客赠送1个环保购物袋.若某日该超市预计有5
000人购物,试估计该超市当天至少应准备多少个环保购物袋.
【解析】(1)在随机抽取的100名顾客中,年龄在[30,50)且未使用自由购的共有3+14=17人,所以随机抽取1名顾客,估计该顾客年龄在[30,50)且未使用自由购的概率为P=
.
(2)X所有的可能取值为1,2,3,
P(X=1)=

P(X=2)=

P(X=3)=
.
所以X的分布列为
X
1
2
3
P
所以X的数学期望为
E(X)=
.
(3)在随机抽取的100名顾客中,使用自由购的共有3+12+17+6+4+2=44人,
所以该超市当天至少应准备环保购物袋的个数估计为
×5
000=2
200.
命题角度2 以二项分布为背景的问题
【典例】生蚝即牡蛎,是所有食物中含锌最丰富的.在亚热带、热带沿海都适宜蚝的养殖,我国分布也很广,北起鸭绿江,南至海南岛,沿海皆可产蚝.蚝乃软体有壳、依附寄生的动物,咸淡水交界所产尤为肥美.因此,生蚝成为了一年四季不可或缺的一类美食.某饭店从某水产养殖厂大量购进一批生蚝,并随机抽取了40只统计质量,得到的结果如图所示.
(1)若购进这批生蚝500千克,试估计这批生蚝的数量;(结果四舍五入,保留整数)
(2)以频率估计概率,若在本次购买的生蚝中随机挑选4只,记质量在[5,25)内的生蚝的只数为X,求X的分布列以及数学期望.
【解析】(1)由题图中的数据可以估算每只生蚝的质量为:
(10×6+20×10+30×12+40×8+50×4)=28.5(克),
所以购进500
kg生蚝的数量为500
000÷28.5≈17
544(只).
(2)由题图中数据知,任意挑选一只,质量在[5,25)间的概率为p=

X的可能取值为0,1,2,3,4,
则P(X=0)=

P(X=1)=

P(X=2)=

P(X=3)=

P(X=4)=

所以X的分布列为:
所以E(X)=
.
X
0
1
2
3
4
P
【素养提升】
 统计与随机变量分布列的综合问题的解题思路
(1)寻找问题中随机变量的统计意义.
(2)综合统计中相关图、表、数据,明确相关联的随机变量的分布特征.
(3)根据随机变量的分布特征进一步解决相关问题.
【变式训练】
1.近年来,我国电子商务行业迎来了蓬勃发展的新机遇,但是电子商务行业由于缺乏监管,服务质量有待提高.某部门为了对本地的电商行业进行有效监管,调查了甲、乙两家电商的某种同类产品连续十天的销售额(单位:万元),得到如图所示的茎叶图.
(1)根据茎叶图,判断甲、乙两家电商对这种产品的销售谁更稳定些.
(2)为了综合评估本地电商的销售情况,从甲、乙两家电商十天的销售数据中各抽取两天的销售数据,其中销售额不低于120万元的天数分别记为X1,X2,令Y=X1+X2,求随机变量Y的分布列和数学期望.
【解析】(1)从茎叶图可知,甲电商的方差大于乙电商的方差,所以乙电商对这种产品的销售更稳定些.
(2)从茎叶图可知,甲电商的销售额不低于120万元的天数为5天,乙电商的销售额不低于120万元的天数为6天,
所以Y的可能取值为0,1,2,3,4,
P(Y=0)=P(X1=0,X2=0)=

P(Y=1)=P(X1=0,X2=1)+P(X1=1,X2=0)
=

P(Y=2)=P(X1=1,
X2=1)+P(X1=0X2=2)+P(X1=2X2=0)
=

P(Y=3)=P(X1=1,X2=2)+P(X1=2,X2=1)
=

P(Y=4)=P(X1=2,X2=2)=
.
所以Y的分布列为
数学期望E(Y)=
.
Y
0
1
2
3
4
P
2.过去五年,我国的扶贫工作进入了“精准扶贫”阶段.目前“精准扶贫”覆盖了全部贫困人口,东部帮西部,全国一盘棋的扶贫格局逐渐形成.到2020年底全国830个贫困县都将脱贫摘帽,最后4
335万贫困人口将全部脱贫,这将超过全球其他国家过去30年脱贫人口总和.2020年是我国打赢脱贫攻坚战收官之年,越是到关键时刻,更应该强调“精准”.为落实“精准扶贫”政策,某扶贫小组,为一“对点帮扶”农户引种了一种新的经济农作物,并指导该农户于2020年初开始种植.已知该经济农作物每年每亩的种植成本为1
000元,根据前期各方面调查发现,该经济农作物的市场价格和亩产量均具有随机性,且两者互不影响,其具体情况如表:
该经济农作物亩产量/kg
900
1
200
概率
0.5
0.5
该经济农作物市场价格/(元·kg-1)
15
20
概率
0.4
0.6
(1)设2020年该农户种植该经济农作物一亩的纯收入为X元,求X的分布列;
(2)若该农户从2020年开始,连续三年种植该经济农作物,假设三年内各方面条件基本不变,求这三年中该农户种植该经济农作物一亩至少有两年的纯收入不少于16
000元的概率;
(3)2020年全国脱贫标准约为人均纯收入4
000元.假设该农户是一个四口之家,且该农户在2020年的家庭所有支出与其他收入正好相抵,能否凭这一亩经济农作物的纯收入,预测该农户在2020年底可以脱贫?并说明理由.
【解析】(1)由题意知:1
200×20-1
000=23
000,
1
200×15-1
000=17
000,900×20-1
000=17
000,900×15-1
000=12
500,
所以X的所有可能取值为:23
000,17
000,12
500,
设A表示事件“作物产量为900kg”,则P(A)=0.5;
B表示事件“作物市场价格为15元/kg”,则P(B)=0.4.
则P(X=23
000)=P(
)=(1-0.5)(1-0.4)=0.3,
P(X=17
000)=P(
·B)+P(A·
)=(1-0.5)×0.4+0.5×(1-0.4)=0.5,
P(X=12
500)=P(A·B)=0.5×0.4=0.2,
所以X的分布列为:
X
23
000
17
000
12
500
P
0.3
0.5
0.2
(2)设C表示事件“种植该农作物一亩一年的纯收入不少于16
000元”,
则P(C)=P(X≥16
000)=P(X=23
000)+P(X=17
000)=0.3+0.5=0.8,
设这三年中有Y年的纯收入不少于16
000元,
则有:Y~B(3,0.8),所以这三年中至少有两年的纯收入不少于16
000元的概率为P=P(Y≥2)=
×0.83+
×0.82×0.2=0.896.
(3)由(1)知,2020年该农户种植该经济农作物一亩的预计纯收入为
E(X)=23
000×0.3+17
000×0.5+12
500×0.2=17
900(元),
>4
000,
凭这一亩经济农作物的纯收入,该农户的人均纯收入超过了国家脱贫标准,
所以,能预测该农户在2020年底可以脱贫.
考向三 期望与方差的实际应用问题
【典例】某工厂的一台某型号机器有2种工作状态:正常状态和故障状态.若机器处于故障状态,则停机检修.为了检查机器工作状态是否正常,工厂随机统计了该机器以往正常工作状态下生产的1
000个产品的质量指标值,得出如图1所示的频率分布直方图.由统计结果可以认为,这种产品的质量指标值服从正态分布N(μ,σ2),其中μ近似为这1
000个产品的质量指标值的平均数
,σ2近似为这1
000个产品的质量指标值的方差s2(同一组中的数据用该组区间中点值为代表).若产品的质量指标值全部在(μ-3σ,μ+3σ)之内,就认为机器处于正常状态,否则,认为机器处于故障状态.
(1)下面是检验员在一天内从该机器生产的产品中随机抽取10件测得的质量指标值:
29 45 55 63 67 73 78 87 93 113
请判断该机器是否出现故障?
(2)若机器出现故障,有2种检修方案可供选择:
方案一:加急检修,检修公司会在当天排除故障,费用为700元;
方案二:常规检修,检修公司会在七天内的任意一天来排除故障,费用为200元;
现需决策在机器出现故障时,该工厂选择何种方案进行检修,为此搜集检修公司对该型号机器近100单常规检修在第i(i=1,2,…,7)天检修的单数,得到如图2所示的条形图,将第i天常规检修单数的频率代替概率.已知该机器正常工作一天可收益200元,故障机器检修当天不工作,若机器出现故障,该选择哪种检修方案?
附:
≈13.71,
≈14.42,
≈15.10.
【解析】(1)可估计1
000个产品的质量指标值的平均数
和方差s2分别为
=40×0.04+50×0.08+60×0.24+70×0.30+80×0.20+90×0.10+100×0.04
=70,
s2=(-30)2×0.04+(-20)2×0.08+(10)2×0.24+02×0.30+102×0.20+202×0.10
+302×0.04=188,
所以μ=70,σ=
≈13.71,
所以μ-3σ≈28.87,μ+3σ≈111.13,
所以产品的质量指标值允许落在的范围为(28.87,111.13),又抽取产品质量指标值出现了113,不在(28.87,111.13)之内,故可判断该机器处于故障状态.
(2)方案一:工厂需要支付检修费和损失收益之和为700+200=900元;
方案二:设损失收益为X元,
则X的可能取值为200,400,600,800,1
000,1
200,1
400,
所以X的分布列为:
X
200
400
600
800
1
000
1
200
1
400
P
0.07
0.18
0.25
0.20
0.15
0.12
0.03
数学期望E(X)=200×0.07+400×0.18+600×0.25+800×0.20+1
000×0.15+
1
200×0.12+1
400×0.03=732元,故工厂需要支付检修费和损失收益之和为200+732=932元,
因为900<932,所以当机器出现故障时,选择加急检修更为适合.
【素养提升】
 利用期望与方差进行决策的思想方法
利用随机变量的期望与方差可以帮助我们作出科学的决策,其中随机变量的期望的意义在于描述随机变量的平均程度,而方差则描述了随机变量稳定与波动或者集中与分散的状况.品种的优劣、仪器的好坏、预报的准确与否、机器的性能好坏等很多指标都与这两个特征量有关.
【变式训练】
 (2020·潍坊二模)某种大型医疗检查机器生产商,对一次性购买2台机器的客户,推出两种超过质保期后两年内的延保维修优惠方案:
方案一:交纳延保金7
000元,在延保的两年内可免费维修2次,超过2次每次收取维修费2
000元;
方案二:交纳延保金10
000元,在延保的两年内可免费维修4次,超过4次每次收取维修费1
000元.某医院准备一次性购买2台这种机器.现需决策在购买机器时应购买哪种延保方案,为此搜集并整理了50台这种机器超过质保期后延保两年内维修的次数,得下表:
以这50台机器维修次数的频率代替1台机器维修次数发生的概率,记X表示这2台机器超过质保期后延保的两年内共需维修的次数.
(1)求X的分布列;
(2)以所需延保金及维修费用的期望值为决策依据,医院选择哪种延保方案更合算?
维修次数
0
1
2
3
台数
5
10
20
15
【解析】(1)X的所有可能取值为0,1,2,3,4,5,6,
所以X的分布列为
X
0
1
2
3
4
5
6
P
(2)选择延保方案一,所需费用Y1元的分布列为:
E(Y1)=
Y1
7
000
9
000
11
000
13
000
15
000
P
选择延保方案二,所需费用Y2元的分布列为:
E(Y2)=
因为E(Y1)>E(Y2),所以该医院选择延保方案二较合算.
Y2
10
000
11
000
12
000
P
专题能力提升练
十四 概率与统计的综合应用
(40分钟 80分)
1.(2020·蚌埠三模)随着网购人数的日益增多,网上的支付方式也呈现一种多样化的状态,越来越多的便捷移动支付方式受到了人们的青睐,更被网友们评为“新四大发明”之一.随着人们消费观念的进步,许多人喜欢用信用卡购物,考虑到这一点,一种“网上的信用卡”横空出世——蚂蚁花呗.这是一款支付宝和蚂蚁金融合作开发的新支付方式,简单便捷,同时也满足了部分网上消费群体在支付宝余额不足时的“赊购”消费需求.为了调查使用蚂蚁花呗“赊购”
消费与消费者年龄段的关系,某网站对其注册用户开展抽样调查,在每个年龄段的注册用户中各随机抽取100人,得到各年龄段使用蚂蚁花呗“赊购”的人数百分比如图所示.
(1)由大数据可知,在18到44岁之间使用花呗“赊购”的人数百分比y与年龄x成线性相关关系,利用统计图表中的数据,以各年龄段的区间中点代表该年龄段的年龄,求所调查群体各年龄段“赊购”人数百分比y与年龄x的线性回归方程(回归直线方程的斜率和截距保留两位有效数字);
(2)该网站年龄为20岁的注册用户共有2
000人,试估算该网站20岁的注册用户中使用花呗“赊购”的人数;
(3)已知该网站中年龄段在18-26岁和27-35岁的注册用户人数相同,现从18到35岁之间使用花呗“赊购”的人群中按分层抽样的方法随机抽取8人,再从这8人中简单随机抽取2人调查他们每个月使用花呗消费的额度,求抽取的两人年龄都在18到26岁的概率.
参考:
【解析】(1)由题意,
=
=31,
=
所以
=
×31≈1.0,
所求线性回归方程为
=-0.023x+1.0.
(2)由(1)知,该网站20岁的注册用户中使用花呗“赊购”的人数百分比为
-0.023×20+1.0=0.54,而2
000×0.54=1
080,
所以估计该网站20岁的注册用户中使用花呗“赊购”的人数为1
080人.
(3)按分层抽样,8人中年龄为18到26岁的有5人,记为A,B,C,D,E,年龄为
27到35岁的有3人,记为甲,乙,丙,从8人中抽取2人,可能有(A,B),(A,C),
(A,D),(A,E),(A,甲),(A,乙),(A,丙),(B,C),(B,D),(B,E),
(B,甲),(B,乙),(B,丙),(C,D),(C,E),(C,甲),(C,乙),(C,丙),
(D,E),(D,甲),(D,乙),(D,丙),(E,甲),(E,乙),(E,丙),(甲,乙),
(甲,丙),(乙,丙),共28种情形.其中2人均为18到26岁的有10种,所以抽取
的两人年龄都在18到26岁的概率为
2.受新冠肺炎疫情影响,2020年春节过后,广大市民积极响应国家号召居家防疫,工厂企业延迟开工,大中小学延迟开学,“网上办公”“网上教学”“网上购物”等成为人们的生活常态.为了解用户流量需求,提升服务水平,某市移动公司面向用户进行了一次使用手机流量上网时间的问卷调查,通过随机抽样,得到100人每天使用流量上网时间Z(单位:分钟)的数据,并统计如表:
时间
[20,
40)
[40,
60)
[60,
80)
[80,
100)
[100,
120)
[120,
140)
[140,
160)
频数
5
10
20
30
15
12
8
(1)由频率分布表可以认为,用户每天使用流量上网时间Z服从正态分布N(μ,958),μ近似为这100人使用流量上网时间的平均值(同一组数据用该组区间的中点值作为代表),求P(60.6(2)记X表示全市100万用户中每天使用流量上网时间不低于60.6分钟的人数,在(1)的条件下,求E(X);
(3)在(1)的条件下,移动公司在疫情防控期间针对用户制定表中的奖励方案:
①每天使用流量上网时间不低于μ的用户每天可2次获赠随机流量,低于μ的用户每天可1次获赠随机流量;
②每次获赠的随机流量和对应的概率如表所示.
获赠随机流量
(单位:M)
100
200
概率
设某用户获赠的随机流量为ξ,求ξ的分布列及数学期望.
附:①
≈31;②若Z~N(μ,σ2),
则P(μ-σ7,P(μ-2σ5,
P(μ-3σ3.
【解析】(1)由题意知:μ=30×0.05+50×0.1+70×0.2+90×0.3+110×0.15+130×0.12+150×0.08
=91.6,
因为σ=
≈31,所以60.6=μ-31,153.6=μ+2×31,所以P(60.6(2)因为每位用户每天使用流量上网时间不低于60.6分钟的概率:P(Z≥60.6)=P(Z≥μ-σ)=0.5+
=0.841
35,
所以X~B(106,0.841
35),
所以E(X)=106×0.841
35=841
350.
(3)由题意知P(Z<μ)=P(Z>μ)=

ξ的所有可能取值为100,200,300,400,
P(ξ=100)=
×
=

P(ξ=200)=
×
+
×
×
=

P(ξ=300)=
×2×
×
=

P(ξ=400)=
×
×
=

所以E(ξ)=100×
+200×
+300×
+400×
=200.
3.(2020·丰台区二模)为了增强学生的冬奥会知识,弘扬奥林匹克精神,北京市多所中小学学校开展了模拟冬奥会各项比赛的活动.为了了解学生在越野滑轮和旱地冰壶两项中的参与情况,在北京市中小学学校中随机抽取了10所学校,10所学校的参与人数如下:
(1)现从这10所学校中随机选取2所学校进行调查.求选出的2所学校参与越野滑轮人数都超过40人的概率;
(2)现有一名旱地冰壶教练在这10所学校中随机选取2所学校进行指导,记X为教练选中参加旱地冰壶人数在30人以上的学校个数,求X的分布列和数学期望;
(3)某校聘请了一名越野滑轮教练,对高山滑降、转弯、八字登坡滑行这3个动作进行技术指导.规定:这3个动作中至少有2个动作达到“优”,总考核记为“优”.在指导前,该校甲同学3个动作中每个动作达到“优”的概率为0.1.在指导后的考核中,甲同学总考核成绩为“优”.能否认为甲同学在指导后总考核达到“优”的概率发生了变化?请说明理由.
【解析】(1)记“选出的2所学校参与越野滑轮人数都超过40人”为事件S,
现从这10所学校中随机选取2所学校进行调查,可得基本事件总数为
.
参与越野滑轮人数超过40人的学校共4所,随机选择2所学校共
=6种,
所以P(S)=
(2)X的所有可能取值为0,1,2,参加旱地冰壶人数在30人以上的学校共4所.
P(X=0)=
P(X=1)=
P(X=2)=
X的分布列为:
E(X)=0×
(3)答案不唯一.
答案示例1:可以认为甲同学在指导后总考核为“优”的概率发生了变化.
理由如下:
指导前,甲同学总考核为“优”的概率为:
·0.12×0.9+
·0.13=0.028.
指导前,甲同学总考核为“优”的概率非常小,一旦发生,就有理由认为
指导后总考核达到“优”的概率发生了变化.
答案示例2:无法确定.理由如下:
指导前,甲同学总考核为“优”的概率为:
·0.12×0.9+
·0.13=0.028.
虽然概率非常小,但是也可能发生,所以,无法确定总考核达到“优”
的概率发生了变化.
4.(2020·郑州一模)水污染现状与工业废水排放密切相关,某工厂深入贯彻科学发展观,努力提高污水收集处理水平,其污水处理程序如下:原始污水必先经过A系统处理,处理后的污水(A级水)达到环保标准(简称达标)的概率为p(0某厂现有4个标准水量的A级水池,分别取样、检测,多个污水样本检测时,既可以逐个化验,也可以将若干个样本混合在一起化验,混合样本中只要有样本
不达标,则混合样本的化验结果必不达标,若混合样本不达标,则该组中各个样本必须再逐个化验;若混合样本达标,则原水池的污水直接排放.
现有以下四种方案:
方案一:逐个化验;
方案二:平均分成两组化验;
方案三:三个样本混在一起化验,剩下的一个单独化验;
方案四:四个样本混在一起化验.
化验次数的期望值越小,则方案越“优”.:
(1)若p=
,求2个A级水样本混合化验结果不达标的概率;
(2)①若p=
,现有4个A级水样本需要化验,请问:方案一、二、四中哪个最“优”?
②若“方案三”比“方案四”更“优”,求p的取值范围.
【解析】(1)该混合样本达标的概率是
,所以根据对立事件原理,
不达标的概率为1-
(2)①方案一:逐个检测,检测次数为4.
方案二:由(1)知,每组两个样本检测时,若达标则检测次数为1,概率为

若不达标则检测次数为3,概率为
.故方案二的检测次数记为ξ2,ξ2的
可能取值为2,4,6.其分布列如下,
可求得方案二的期望为
E(ξ2)=2×
方案四:混在一起检测,记检测次数为ξ4,ξ4可取1,5.其分布列如下,
可求得方案四的期望为
E(ξ4)=1×
比较可得E(ξ4)②方案三:设化验次数为η3,η3可取2,5.
η325Pp31-p3
E(η3)=2p3+5(1-p3)=5-3p3;(共90张PPT)
1课时突破
统计与概率高考小题
概率与统计 
关键能力·应用实践
考向一 用样本估计总体
【多维题组】速通关
1.2020年春节后,受疫情影响,某高中学校为学生开展导学助学网课.为了解网课教学效果,该校为学生举行了一次网上匿名测试.已知测试成绩整理后分成五组绘制成如图所示的频率分布直方图,且成绩在[70,80)间的学生共有240人,不及格(低于60分)的人数为m,则
(  )
A.a=0.005,m=40
B.a=0.05,m=80
C.a=0.05,m=40
D.a=0.005,m=80
【解析】选A.设参加测试的学生共有n名,根据(2a+0.02+0.03+0.04)×10=1,
解得a=0.005,
因为成绩在[70,80)间的学生共有240人,不及格(低于60分)的人数为m,
所以成绩落在[70,80)间的学生的频率为:
0.03×10=0.3=
,解得n=800,
m=0.005×10×800=40.
2.(2020·大连二模)甲、乙、丙三名同学在军训的实弹射击中各射击10发子弹,三人的射击成绩如表.s1,s2,s3分别表示甲、乙、丙三名同学这次射击成绩的标准差,则(  )
A.s3>s1>s2
B.s2>s1>s3
C.s1>s2>s3
D.s2>s3>s1
环数
7环
8环
9环
10环
甲的频数
2
3
3
2
乙的频数
1
4
4
1
丙的频数
3
2
2
3
【解析】选A.设
分别为甲、乙、丙射击成绩的平均数,
[2×(7-8.5)2+3×(8-8.5)2+3×(9-8.5)2+2×
=1.05,
同理可得,
=0.65,
=8.5,
=1.45,所以s3>s1>s2.
观察法:乙的数据比较集中,方差最小,标准差最小;丙的数据比较分散,方
差最大,标准差最大.
3.(2020·呼和浩特模拟)每到春夏交替时节,雌性杨树会以满天飞絮的方式来传播下一代,漫天飞舞的杨絮易引发皮肤病、呼吸道疾病等,给人们造成困扰,为了解市民对治理杨絮方法的赞同情况,某课题小组随机调查了部分市民(问卷调查表如表所示),并根据调查结果绘制了尚不完整的统计图(如图).
治理杨絮——您选哪一项?(单选)
A.减少杨树新增面积,控制杨树每年的栽种量
B.调整树种结构,逐渐更换现有杨树
C.选育无絮杨树品种,并推广种植
D.对雌性杨树注射生物干扰素,避免产生飞絮
E.其他
由两个统计图可以求得,选择D选项的人数和扇形统计图中E的圆心角度数分别为
(  )
A.500,28.8°
B.250,28.6°
C.500,28.6°
D.250,28.8°
【解析】选A.设接受调查市民的人数为x,由调查结果条形统计图可知选择A选
项的人数为300,
通过调查结果扇形统计图可知:选择A选项的人数比例为15%,
所以15%=
,解得x=2
000,而选择D选项的人数为:2
000×25%=500,扇形
统计图中E的圆心角度数为:(1-15%-12%-40%-25%)×360°=28.8°.
4.已知一组数据丢失了其中一个,另外六个数据分别是10,8,8,11,16,8.若这组数据的平均数、中位数、众数依次成等差数列,则丢失数据的所有可能值的和为________.?
【解析】设丢失的数据是x,则平均数为
,众数是8,若x≤8,则中位数为
8,此时x=-5;
若8+8,解得x=9;
若x≥10,则中位数为10,2×10=
+8,x=23,所有可能值为-5,9,23,
其和为27.
答案:27
【技法点拨】提素养
考向
解题策略
分层随机抽样
中的计算
考向
解题策略
频率分布直方
图的应用
(1)组距、频率:频率分布直方图中每个矩形的宽表示组距,高表示
,面积表示该组数据的频率,各个矩形的面积之和为1;
(2)众数:最高小长方形底边中点的横坐标;
(3)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标;
(4)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和;
(5)参数:若纵轴上存在参数,则根据所有小长方形的面积之和为1,列方程即可求得参数值
考向
解题策略
数字
特征
平均数、众数、中位数描述数据的集中趋势,方差与标准差描述数据的波动大小
考向二 变量间的相关关系、统计案例
【多维题组】速通关
1.(2020·柳州一模)某种产品的广告费支出x与销售额y之间有如下对应数据(单
位:百万元),根据下表求出y关于x的线性回归方程为
=6.5x+17.5,则表中a
的值为
(  )
A.50
B.54
C.56.5
D.64
x
2
4
5
6
8
y
30
40
57
a
69
【解析】选B.根据规律知道回归直线一定过样本点的中心,故得到
=5,
=50,得到a的值为54.
【变式拓展】
 本题条件不变,当广告费支出为10百万元时,销售额约为________百万元.?
【解析】
=6.5×10+17.5=82.5(百万元).
答案:82.5
2.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好该项运动,利用2×2列联表,由计算可得K2的观测值k≈7.245,参照下表,得到的正确结论是
(  )
A.有99%以上的把握认为“爱好该项运动与性别无关”
B.有99%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.005的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.005的前提下,认为“爱好该项运动与性别无关”
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
【解析】选B.由k≈7.245>6.635,可得有99%以上的把握认为“爱好该项运动与性别有关”.
3.在回归分析中,给出下列结论:
(1)可用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好;
(2)可用残差的平方和判断模型的拟合效果,残差的平方和越大,模型的拟合效果越好;
(3)可用相关系数r的值判断模型的拟合效果,r越大,模型的拟合效果越好;
(4)可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
以上结论中,错误的是
(  )
A.(1)(3)
B.(2)(3)
C.(1)(4)
D.(3)(4)
【解析】选B.用相关指数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,故(1)正确;用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故(2)不正确;可用相关系数r的值判断相关性的强弱,|r|越大,相关性越强,故(3)不正确;用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高,故(4)正确.
【技法点拨】提素养
考向
解题策略
回归方程
回归直线必过样本点的中心
回归分析
(1)散点图:确定两个变量是否相关,是正相关还是负相关;
(2)相关系数r:判断相关性的强弱;
(3)残差平方和、相关指数:判断模型拟合效果的优劣
独立性
检验
充分利用2×2列联表准确计算K2的观测值,与临界值进行比对,作出统计推断
考向三 概率问题(重难突破)
【多维题组】速通关
1.(2019·全国Ⅰ卷)我国古代典籍《周易》用“卦”描述万物的变化.每一“重
卦”由从下到上排列的6个爻组成,爻分为阳爻“——”和阴爻“—
—”,如
图就是一重卦.在所有重卦中随机取一重卦,则该重卦恰有3个阳爻的概率是
(  )
A.
    B.
    C.
    D.
【考场思维】
解题方法
直接法
考查内容
计数原理、古典概型
素养考查
逻辑推理、数学运算
【解析】选A.由题知,每一爻有2种情况,一重卦的6爻有26种情况,其中6爻中
恰有3个阳爻的情况有
,所以该重卦恰有3个阳爻的概率为
,故选A.
2.函数y=sin
x,在[0,π]中随机取一个数x,使y∈
的概率为
(  )
A.
B.
C.
D.
【解析】选C.当x∈
时,
y∈
,所以所求概率为
3.已知某市居民在2019年用于手机支付的个人消费额ξ(单位:元)服从正态分布N(2
000,1002),则该市某居民手机支付的消费额在(1
900,2
200)内的概率为
(  )
附:随机变量ξ服从正态分布N(μ,σ2),则
P(μ-σ<ξ7,
P(μ-2σ<ξ<μ+2σ)≈0.954
5,
P(μ-3σ<ξ<μ+3σ)≈0.997
3.
A.0.975
9
B.0.840
0
C.0.818
6
D.0.477
2
【解析】选C.因为ξ服从正态分布N(2
000,1002),
所以μ=2
000,σ=100,
则P(1
900<ξ<2
200)=P(μ-σ<ξ<μ+σ)+
[P(μ-2σ<ξ<μ+2σ)-P(μ-
σ<ξ<μ+σ)]
≈0.682
7+
(0.954
5-0.682
7)=0.818
6.
4.某单位举行诗词大会比赛,给每位参赛者设计了“保留题型”“升级题
型”“创新题型”三类题型,每类题型均指定一道题让参赛者回答.已知某位参
赛者答对每道题的概率均为
,且各次答对与否相互独立,则该参赛者答完三
道题后至少答对两道题的概率为________.?
【解析】由题意,设该参赛者答完三道题后答对的题目道数为X,则X~
B
,所以至少答对两道题的概率:P=
答案:
【技法点拨】提素养
考向
解题策略
古典概型
(1)判断是否为古典概型;
(2)计算公式:P=
.
几何概型
将试验构成的总区域和所求事件构成的区域转化为几何图形,并加以度量.
正态分布
(1)曲线以x=μ为对称轴;
(2)曲线与x轴之间的面积等于1.
二项分布
(1)条件:独立性与重复性;
(2)公式:P
【变式训练】
1.(2020·青岛二模)从编号为1,2,3,4,5,6的6张卡片中随机抽取一张,放
回后再随机抽取一张,则第一次抽得的卡片上数字能被第二次抽得的卡片上的
数字整除的概率为
(  )
A.
B.
C.
D.
【解析】选C.从编号为1,2,3,4,5,6的6张卡片中随机抽取一张,放回后再
随机抽取一张,有36个基本事件,其中第一次抽得的卡片上数字能被第二次抽
得的卡片上的数字整除有如下基本事件,
(第一次抽得的卡片1,第二次抽得的卡片2用(1,2)表示):(1,1),(1,2),
(1,3),(1,4),(1,5),(1,6),(2,2),(2,4),(2,6),(3,3),(3,
6),(4,4),(5,5),(6,6),共14个,
所以第一次抽得的卡片上数字能被第二次抽得的卡片上的数字整除的概率
2.(2020·四川模拟)以正三角形的顶点为圆心,其边长为半径作圆弧,由这三
段圆弧组成的曲边三角形被称为勒洛三角形,它是具有类似于圆的“等宽性”
曲线,由德国机械工程专家勒洛首先发现.如图,D,E,F为正三角形ABC各边中
点,作出正三角形DEF的勒洛三角形DEF(阴影部分),若在△ABC中随机取一点,
则该点取自于该勒洛三角形部分的概率为
(  )
A.
B.
C.
D.
【解析】选C.设三角形ABC边长为2,则正三角形DEF边长为1,
以D为圆心的扇形面积是
△DEF的面积是
所以勒洛三角形的面积为3个弓形面积加上1个正三角形面积,
即图中勒洛三角形面积为
△ABC面积为
所求概率
3.给出下列说法:①“x=
”是“tan
x=1”的充分不必要条件;②命题
“?x>0,ex-x-1>0”的否定是“?x0≤0,
-x0-1≤0”;③小赵、小钱、小
孙、小李到4个景点旅游,每人只去一个景点,设事件A为“4个人去的景点不相
同”,事件B为“小赵独自去一个景点”,则P(A|B)=
;④设X~N(1,1),其
正态分布密度曲线如图所示,那么向正方形ABCD中随机投掷10
000个点,则落
入阴影部分的点的个数的估计值是6
587.(注:若X~N
,则P(μ-
σ数为
(  )
A.1
B.2
C.3
D.4
【解析】选C.①由tan
x=1?x=
+kπ,k∈Z,故“x=
”是“tan
x=1”的
充分不必要条件,①正确;②命题“?x>0,ex-x-1>0”的否定是“?x0>0,
-x0-1≤0”,
②错误;
③由条件概率的计算公式得P(A|B)=
③正确;
④由已知落入阴影部分的点的个数的估计值是
10
000×
≈10
000×
≈6
587,④正确.
题组训练·素养提升
【新题速递】
1.2020年春节前后新冠肺炎疫情开始蔓延.党中央、国务院面对“突发灾难”果
断采取措施,举国上下万众一心支援武汉,全国各地医疗队陆续增援湖北,纷
纷投身疫情防控与救治病人之中.为了协助“抗疫英雄”的工作,武汉洪山区某
街道办事处有志愿者甲、乙、丙、丁4人,两人分成一组,进行测量体温、街道
喷药消毒、搬运物资等工作,则甲、乙志愿者在同一组的概率为
(  )                  
A.
B.
C.
D.
【解析】选B.甲、乙、丙、丁4人,两人分成一组,进行测量体温、街道喷药消
毒、搬运物资等工作,则可能的分组有:甲乙,丙丁;甲丙,乙丁;甲丁,乙
丙,包含的基本事件总数n=3,其中,甲、乙志愿者在同一组的情况只有一种:
甲乙,丙丁,
则甲、乙志愿者在同一组的概率P=
.
2.空气质量指数AQI是反映空气质量状况的指数,AQI指数值越小,表明空气质量越好,其对应关系如表:
AQI指
数值
0~50
51~
100
101~
150
151~
200
201~
300
>300
空气
质量


轻度
污染
中度
污染
重度
污染
严重
污染
如图是某市12月1日-20日AQI指数变化趋势:
下列叙述错误的是
(  )
A.这20天中AQI指数值的中位数略高于100
B.这20天中的中度污染及以上的天数占
C.该市12月的前半个月的空气质量越来越好
D.总体来说,该市12月上旬的空气质量比中旬的空气质量好
【解析】选C.对A:将这20天的数据从小到大排序后,第10个数据略小于100,
第11个数据约为120,因为中位数是这两个数据的平均数,故中位数略高于100
是正确的,故A正确;
对B:这20天中,AQI指数大于150的有5天,故中度污染及以上的天数占
是正
确的,故B正确;
对C:由折线图可知,从6日开始至11日越来越差,故C不正确;
对D:由折线图可知,上旬大部分AQI指数在100以下,中旬AQI指数大部分在100
以上,故上旬空气质量比中旬的要好,故D正确.
3.有一散点图如图所示,在5个(x,y)数据中去掉D(3,10)后,下列叙述正确的是
(  )
A.残差平方和变小
B.相关系数r变小
C.相关指数R2变小
D.解释变量x与预报变量y的相关性变弱
【解析】选A.因为从散点图可分析得出:
去掉D点,变量x与变量y的线性相关性变强,所以相关系数变大,相关指数变大,残差的平方和变小.
4.某工厂为了解产品的生产情况,随机抽取了100个样本.若样本数据x1,x2,…,x100的方差为8,则数据2x1-1,2x2-1,…,2x100-1的方差为________.?
?【解析】样本数据x1,x2,…,x100的方差为8,
所以数据2x1-1,2x2-1,…,2x100-1的方差为22×8=32.
答案:32
【创新迁移】
1.为了解学生课外使用手机的情况,某学校收集了本校500名学生2019年12月课
余使用手机的总时间(单位:小时)的情况.从中随机抽取了50名学生,将数据进
行整理,得到如图所示的频率分布直方图.已知这50名学生中,恰有3名女生课
余使用手机的总时间在[10,12],现在从课余使用手机总时间在[10,12]的样
本对应的学生中随机抽取3名,则至少抽到2名女生的概率为
(  )
A.
B.
C.
D.
【解析】选C.因为这50名学生中,恰有3名女生的课余使用手机总时间

,课余使用手机总时间在
的学生共有50×0.08×2=8(名),
所以从课余使用手机总时间在
的学生中随机抽取3人,基本事件总数
n=56,至少抽到2名女生包含的基本事件个数m=16,
则至少抽到2名女生的概率为P=
2.在平面区域M=
内随机取一点P,则点P在圆x2+y2=2内部的概率

(  )
A.
B.
C.
D.
【解析】选B.不等式组对应的平面区域如图所示:
其中满足x2+y2<2的点为阴影部分对应的点,其面积为
,不等式组对应的平面
区域的面积为1,故所求概率为
.
专题能力提升练
十三 概率与统计
(40分钟 80分)
一、选择题(每小题5分,共60分)
1.(2019·全国Ⅱ卷)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是
(  )
A.中位数
B.平均数
C.方差
D.极差
【解析】选A.由于去掉1个最高分、1个最低分,不影响中间的数值,故中位数不变.
2.(2019·全国Ⅲ卷)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为(  )
A.0.5
B.0.6
C.0.7
D.0.8
【解析】选C.由题意知阅读过《红楼梦》而没有阅读过《西游记》的学生人数
为80-60=20,所以阅读过《西游记》的学生人数为90-20=70,故所求的估计值

=0.7.
3.从1,2,3,4,5中任取两个不同的数,其中一个作为对数的底数,另一个作
为对数的真数,则对数值大于0且小于1的概率是
(  )
【解题导引】根据对数的限制条件,列出所有对数的基本事件,确定出满足条
件的对数个数,由古典概型的概率公式即可求解.
【解析】选C.由于1只能作为真数,从其余各数中任取一数为底数,共得到4个对数,其值均为0.
从1除外的其余各数中任取两数分别作为对数的底数和真数,基本事件为(2,3),(2,4),(2,5),(3,4),(3,5),(4,5),(3,2),(4,2),(5,2),(4,3),(5,3),(5,4),共12个,所以基本事件总数为16个,满足题设条件的事件有(3,2),(4,2),(5,2),(4,3),(5,3),(5,4),共6个,由古典概型的概率计算公式得所求事件的概率P=
.
4.有关独立性检验的命题,其中错误的是
(  )
A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大
B.对分类变量X与Y的随机变量K2的观测值k来说,k越小,“X与Y有关系”的可信程度越小
C.从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病
D.从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关
【解析】选C.选项A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,则K2观测值越大,两个变量有关系的可能性越大,所以选项A正确;
选项B,根据K2的观测值k越小,原假设“X与Y没关系”成立的可能性越大,则“X与Y有关系”的可信度越小,所以选项B正确;
选项C,从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,不表示某人秃顶他有95%的可能患有心脏病,所以选项C不正确;
选项D,从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,是独立性检验的解释,所以选项D正确.
【加练备选】
独立性检验显示:在犯错误的概率不超过0.1的前提下认为性别与是否喜爱喝酒有关,那么下列说法中正确的是
(  )
A.在100个男性中约有90人喜爱喝酒
B.若某人喜爱喝酒,那么此人为女性的可能性为10%
C.认为性别与是否喜爱喝酒有关判断出错的可能性至少为10%
D.认为性别与是否喜爱喝酒有关判断正确的可能性至少为90%
【解析】选D.独立性检验是对两个分类变量有关系的可信程度的判断,而不是因果关系,故A,B错误.由已知得,认为性别与是否喜爱喝酒有关判断出错概率的可能性至多为10%,故C错误,D正确.
5.袋子中有大小、形状完全相同的四个小球,分别写有“和”“谐”“校”“园”四个字,有放回地从中任意摸出一个小球,直到“和”“谐”两个字都摸到就停止摸球,用随机模拟的方法估计恰好在第三次停止摸球的概率.利用电脑随机产生1到4之间取整数值的随机数,分别用1,2,3,4代表“和”“谐”“校”“园”这四个字,以每三个随机数为一组,表示摸球三次的结果,经随机模拟产生了以下18组随机数:
343 432 341 342 234 142 243 331 112 342
241 244 431 233 214 344 142 134
由此可以估计,恰好第三次就停止摸球的概率为
(  )
【解析】选B.随机模拟产生的18组随机数中第三次就停止摸球的随机数有:142,112,241,142,共4个,由此可以估计,恰好第三次就停止摸球的概率为P=
.
6.(2020·黔南州期末)某团体打算从贵州五个著名景区(西江千户苗寨、镇远古镇、黄果树瀑布、小七孔景区、黔灵山公园)中随机选取两个进行游玩,则该团体没有选择黄果树瀑布的概率为
(  )
【解析】选C.从贵州五个著名景区(西江千户苗寨、镇远古镇、黄果树瀑布、小七孔景区、黔灵山公园)中随机选取两个进行游玩,基本事件总数n=10,该团体没有选择黄果树瀑布包含的基本事件个数m=6,所以该团体没有选择黄果树瀑布的概率P=
.
7.为了解某社区居民的家庭年收入和年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x万元
8.3
8.6
9.9
11.1
12.1
支出y万元
5.9
7.8
8.1
8.4
9.8
收入x万元8.38.69.911.112.1支出y万元5.97.88.18.49.8
根据上表可得回归直线方程
,其中

据此估计,该社区一户收入为16万元家庭年支出为
(  )
A.12.68万元
B.13.88万元
C.12.78万元
D.14.28万元
【解析】选A.

.

=0.78,
所以
=8-0.78×10=0.2.
所以
=0.78x+0.2.
取x=16,得
=0.78×16+0.2=12.68万元.
8.“今有池方一丈,葭生其中央,出水一尺,引葭赴岸,适与岸齐.问水深、葭
长各几何?”其意思是:有一个正方形的池塘,池塘的边长为一丈,有一棵芦
苇生长在池塘的正中央.露出水面一尺,若把它引向岸边,正好与岸边齐平(如
图所示),问水有多深,芦苇有多长?其中一丈为十尺.若从该芦苇上随机取一
点,则该点取自水上的概率为
(  )
【解析】选B.设水深为x尺,根据勾股定理可得(x+1)2=x2+52,解得x=12,可得
水深12尺,芦苇长13尺,所以从该芦苇上随机取一点,该点取自水上的概率为
P=
.
9.(2020·枣庄二模)2013年5月,华人数学家张益唐的论文《素数间的有界间
隔》在《数学年刊》上发表,破解了困扰数学界长达一个多世纪的难题,证明
了孪生素数猜想的弱化形式,即发现存在无穷多差小于7
000万的素数对.这是
第一次有人证明存在无穷多组间距小于定值的素数对.孪生素数猜想是希尔伯特
在1900年提出的23个问题中的第8个,可以这样描述:存在无穷多个素数p,使
得p+2是素数,素数对(p,p+2)称为孪生素数.在不超过16的素数中任意取出不
同的两个,则可组成孪生素数的概率为
(  )
【解析】选D.不超过16的素数有2,3,5,7,11,13共6个,任取2个的基本事件有:
(2,3),(2,5),(2,7),(2,11),(2,13),(3,5),(3,7),(3,11),(3,13),(5,7),(5,11),(5,13),(7,11),(7,13),(11,13),共15个,其中可组成孪生素数的有(3,5),(5,7),(11,13)共3个,
所以所求概率为P=
.
10.七巧板是我国古代劳动人民的发明之一,它是由五块等腰直角三角形、一块正方形和一块平行四边形共七块板组成的.如图,是一个用七巧板拼成的正方形,若在此正方形中任取一点,则此点取自阴影部分的概率是
(  )
【解析】选B.设小正方形的边长为1,
则两个等腰直角三角形的边长为1,1,
,一个等腰直角三角形的边长


,2,两个等腰直角三角形的边长为2,2,2
,即最大正方形边长
为2
,所以P=1-
.
11.为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是(  )
A.是否倾向选择生育二胎与户籍有关
B.是否倾向选择生育二胎与性别无关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
【解析】选C.由题比例图,可得是否倾向选择生育二胎与户籍有关,与性别无关,A,B选项不符合题意;倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数,D选项不符合题意;倾向选择生育二胎的人员中,男性人数为0.6×60=36,女性人数为0.6×40=24,不相同,C选项符合题意.
12.一个不透明袋中放有大小、形状均相同的小球,其中红球1个、黑球2个,现随机等可能取出小球,当有放回依次取出两个小球时,记取出的红球数为ξ1;当无放回依次取出两个小球时,记取出的红球数为ξ2,则
(  )
A.E(ξ1)B.E(ξ1)=E(ξ2),D(ξ1)>D(ξ2)
C.E(ξ1)=E(ξ2),D(ξ1)D.E(ξ1)>E(ξ2),D(ξ1)>D(ξ2)
【解析】选B.ξ1可能的取值为0,1,2;ξ2可能的取值为0,1,
,故E(ξ1)=

D(ξ1)=02×
+22×
+12×
.

故E(ξ2)=
,D(ξ2)=02×
+12×

故E(ξ1)=E(ξ2),D(ξ1)>D(ξ2).
【加练备选】
  已知5台机器中有2台存在故障,现需要通过逐台检测直至区分出这2台故障机器为止.若检测一台机器的费用为1
000元,则所需检测费用的均值为
(  )
A.3
200
B.3
400
C.3
500
D.3
600
【解析】选C.设检测的机器的台数为X,
则X的所有可能取值为2,3,4.
P(X=2)=

P(X=3)=

P(X=4)=

所以E(X)=2×
+3×
+4×
=3.5,
所以所需检测费用的均值为1
000×3.5=3
500.
二、填空题(每小题5分,共20分)
13.(2020·银川三模)我校高一、高二、高三共有学生1
800名,为了了解同学们对“智慧课堂”的意见,计划采用分层抽样的方法,从这1
800名学生中抽取一个容量为36的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的学生人数为________.?
【解析】设从高三年级抽取的学生人数为2x人,则从高二、高一年级抽取的人
数分别为2x-2,2x-4.由题意可得2x+(2x-2)+(2x-4)=36,所以x=7.设我校高三
年级的学生人数为N,再根据
,求得N=700.
答案:700
14.某研究机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:
由表中数据,求得线性回归方程为
,若某儿童的记忆能力为12时,
则他的识图能力约为________.?
记忆能力x
4
6
8
10
识图能力y
3
5
6
8
【解析】因为


所以
,所以

所以

当x=12时,y=9.5.
答案:9.5
15.研究珠海市农科奇观的某种作物,其单株生长果实个数x服从正态分布
N(90,σ2),且P(x<70)=0.1,从中随机抽取10株,果实个数在[90,100]的株数
记作随机变量X,假设X服从二项分布,则X的方差为________.?
【解析】因为x~N
(90,σ2)

所以


.
所以
=0.4,
而X~B

所以D(X)=10×0.4×0.6=2.4.
答案:2.4
16.为了解中学生课外阅读情况,现从某中学随机抽取200名学生,收集了他们一年内的课外阅读量(单位:本)等数据,以下是根据数据绘制的统计图表的一部分.
下面有两个推断:
①这200名学生阅读量的平均数可能是26本;
②这200名学生中的初中生阅读量的中位数一定在区间[20,30)内,
合理推断的序号是________.?
【解析】在①中,由学生类别阅读量中男生和女生人均阅读量知,这200名学生
的平均阅读量在区间(24.5,25.5)内,故①错误;
在②中,设在区间[0,10
)内的初中生人数为x,
则x∈[0,15],x∈N

当x=0时,初中生总人数为116人,
=58,
此时区间[0,20)有25人,区间[20,30)有36人,(共7张PPT)
专题四 统计与概率
必备知识·整合回顾
【核心知识】建体系
【常用结论】精归纳
1.两个变量的相关关系
线性回归方程
=
x+
必过定点
,其中
2.方差与标准差
(1)一组数据x1,x2,x3,…,xn,它们的方差为
s2=
标准差为σ=
(2)两组数据x1,x2,x3,…,xn与y1,y2,y3,…,yn,其中yi=axi+b,i=1,2,
3,…,n,则
=a
+b,它们的方差满足
标准差满足σy=
σx.
其中
3.随机变量的期望与方差
(1)
(2)
4.二项分布X~B(n,p)的期望与方差
(1)E
(2)D
【易错警示】防误区
 (1)公式模糊,计算出错:
①计算方差漏乘

②求回归直线方程系数
错误;
③独立性检验中计算K2错误;
④频率分布直方图中把纵坐标当成频率.
随机抽样
用样本估计总体
统计
{相关关系
独立性检验
概率的基本性质
概率
古典概型
几何概型
条件概率
事件的独立性
随机变量的分布列(共77张PPT)
第2课时 概率与统计案例的综合应用
考向一 概率与独立性检验的综合应用(规范解答)
【典例】(2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气
质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
空气质量等级
锻炼人次
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的
中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质
量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列
联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与
该市当天的空气质量有关?
附:K2=

空气质量
人次≤400
人次>400

不好
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【规范解答】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为
=0.43,等级为2的概率为
=0.27,等级为3的概率为
=0.21,等级为4的概率为
=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
=350.
(3)2×2列联表如下:
K2的观测值k=
≈5.820>3.841,因此,有95%的把握认为一天
中到该公园锻炼的人次与该市当天的空气质量有关.
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
【答题模板】
【素养提升】
解决独立性检验问题的关键是过好三关
(1)假设关:假设两个分类变量无关;
(2)公式关:把相关数据代入独立性检验公式求卡方;
(3)对比关:将求出的卡方观测值与临界值比对,作出准确判断.
【变式训练】
(2020·南昌二模)某班级共有50名同学(男女各占一半),为弘扬传统文化,班
委组织了“古诗词男女对抗赛”,将同学随机分成25组,每组男女同学各一名,
每名同学均回答同样的五个不同问题,答对一题得一分,答错或不答得零分,总
分5分为满分.25组同学得分如表:
组号
1
2
3
4
5
6
7
8
9
10
11
12
13

得分
5
4
5
5
4
5
5
4
4
4
5
5
4

得分
4
3
4
5
5
5
4
5
5
5
5
3
5
分差
1
1
1
0
-1
0
1
-1
-1
-1
0
2
-1
组号
14
15
16
17
18
19
20
21
22
23
24
25

得分
4
3
4
4
4
4
5
5
5
4
3
3

得分
5
3
4
5
4
3
5
5
3
4
5
5
分差
-1
0
0
-1
0
1
0
0
2
0
-2
-2
(1)完成2×2列联表,并判断是否有90%的把握认为“该次对抗赛是否得满分”
与“同学性别”有关;
(2)某课题研究小组假设各组男女同学分差服从正态分布N(μ,σ2),首先根据
前20组男女同学的分差确定μ和σ,然后根据后面5组同学的分差来检验模型,
检验方法是:记后面5组男女同学分差与μ的差的绝对值分别为xi(i=1,2,3,
4,5),若出现下列两种情况之一,则不接受该模型,否则接受该模型.
①存在xi≥3σ;②记满足2σ的总体(个体数无穷大)中任意取5个个体,其中落在区间(μ-3σ,μ-2σ)∪
(μ+2σ,μ+3σ)内的个体数大于或等于k的概率为P,P≤0.003.
试问该课题研究小组是否会接受该模型.
P(K2≥k0)
0.10
0.05
0.010
k0
2.706
3.841
6.635
参考公式和数据:
K2=

≈0.894,
≈0.949,0.9575≈0.803,43×0.9574≈36,43×43×0.9573
≈1.62×103;若X~N(μ,σ2),有P(μ-2σ≤X≤μ+2σ)≈0.954
5,P(μ-
3.
【解析】(1)由题表中数据,可得2×2列联表.
所以,计算
K2的观测值k=
≈1.282<2.706,
所以没有90%的把握认为“该次对抗赛是否得满分”与“同学性别”有关.
男同学
女同学
总计
该次大赛得满分
10
14
24
该次大赛未得满分
15
11
26
总计
25
25
50
(2)由题意知,μ=0,σ2=0.8;
又x1=0,x2=2,x3=0,x4=2,x5=2,
而2σ≈1.788,3σ≈2.682,所以不存在xi≥3σ;
满足2σ当X~N(μ,σ2),P(μ-3σ3-0.9545
≈0.043;
设从服从正态分布N(μ,σ2)的总体(个体数无穷大)中任意取5个个体,
其中值属于(μ-3σ,μ-2σ)∪(μ+2σ,μ+3σ)的个体数为Y,则Y~B
(5,0.043),
所以P(Y≥3)=1-0.9575-
×0.043×0.9574-
×0.0432×0.9573≈0.000
8
<0.003,
综上,第②种情况出现,所以该课题研究小组不会接受该模型.
【加练备选】
(2020·马鞍山二模)随着生活水平的提高和人们对健康生活的重视,越来越多
的人加入到健身运动中.国家统计局数据显示,2019年有4亿国人经常参加体育
锻炼.某健身房从参与健身的会员中随机抽取100人,对其每周参与健身的天数
和2019年在该健身房所有消费金额(单位:元)进行统计,得到统计表及统计
图:
平均每周
健身天数
不大于2
3或4
不少于5
人数(男)
20
35
9
人数(女)
10
20
6
若某人平均每周进行健身天数不少于5,则称其为“健身达人”.该健身房规定
消费金额不多于1
600元的为普通会员,超过1
600元但不超过3
200元的为银牌
会员,超过3
200元的为金牌会员.
(1)已知金牌会员都是健身达人,现从健身达人中随机抽取2人,求他们均是金
牌会员的概率;
(2)能否在犯错误的概率不超过0.05的前提下认为性别与是否为“健身达人”
有关系?
(3)该健身机构在2019年年底针对这100位消费者举办一次消费返利活动,现有
以下两种方案:
方案一:按分层抽样从普通会员、银牌会员和金牌会员中共抽取25位“幸运之
星”,分别给予188元,288元,888元的幸运奖励;
方案二:每位会员均可参加摸奖游戏,游戏规则如下:不透明摸奖箱中装有5张
形状大小完全一样的卡片,其中3张印跑步机图案、2张印动感单车图案,有放
回地摸三次卡片,每次只能摸一张,若摸到动感单车的总数为2,则获得100元
奖励,若摸到动感单车的总数为3,则获得200元奖励,其他情况不给予奖励.规
定每个普通会员只能参加1次摸奖游戏,每个银牌会员可参加2次摸奖游戏,每
个金牌会员可参加3次摸奖游戏(每次摸奖结果相互独立).
请你比较该健身房采用哪一种方案时,在此次消费返利活动中的支出较少,并
说明理由.
 附:K2=
,其中n=a+b+c+d为样本容量.
P(K2≥k0)
0.50
0.25
0.10
0.05
0.010
0.005
k0
0.455
1.323
2.706
3.841
6.635
7.879
【解析】(1)由题表可知,健身达人共有9+6=15人,由直方图可知,金牌会员共
有8+4=12人,
所以从健身达人中随机抽取2人,他们均是金牌会员的概率为
.
(2)由题表中的数据可制作如下的2×2列联表,
所以K2的观测值k=
≈0.123<3.841,故不能在犯错误的概率
不超过0.05的前提下认为性别与是否为“健身达人”有关系.
是健身达人
不是健身达人
总计

9
55
64

6
30
36
总计
15
85
100
(3)方案一:25位“幸运之星”中,普通会员人数为25×
=7人,银牌会员
人数为25×
=15人,金牌会员人数为25×
=3人,
所以健身房的支出为
7×188+15×288+3×888=8
300元;
方案二:每次摸卡片,摸到动感单车图案的卡片的概率为
,设参加一次游戏
获得的奖励金额为X,则X的可能取值为0,100,200,
P(X=0)=
,P(X=100)=

P(X=200)=
.数学期望E(X)=0×
+100×
+200×
=

所以健身房的支出为
(28+60×2+12×3)×
=7
654.4元.
因为7
654.4<8
300,所以健身房采用方案二时,在此次消费返利活动中的支出
较少.
考向二 概率与回归分析的综合应用
【典例】(2020·潍坊模拟)某位同学进行寒假社会实践活动,为了对白天平均
气温与某奶茶店的某种饮料销量之间的关系进行分析研究,他分别记录了1月
11日至1月15日的白天平均气温x(℃)与该奶茶店的这种饮料销量y(杯),得到
如下数据:
日期
1月11日
1月12日
1月13日
1月14日
1月15日
平均气温x/℃
9
10
12
11
8
销量y/杯
23
25
30
26
21
(1)若先从这五组数据中抽出2组,求抽出的2组数据恰好是相邻2天数据的概
率;
(2)请根据所给五组数据,求出y关于x的线性回归方程
=
x+

(3)根据(2)中所得的线性回归方程,若天气预报1月16日的白天平均气温为7(℃),
请预测该奶茶店这种饮料的销量.
附:线性回归方程
=
x+
中,
其中

为样本平均量.
【解析】(1)设“抽出的2组数据恰好是相邻2天数据”为事件A,所有基本事件
(m,n)(其中m,n为1月份的日期数)有:(11,12),(11,13),(11,14),
(11,15),(12,13),(12,14),(12,15),(13,14),(13,15),(14,15),
共有10种,事件A包括的基本事件有(11,12),(12,13),(13,14),(14,15)
共4种.所以P(A)=
.
(2)由数据,求得
=10,
=25,
由公式,求得
=2.1,
=
-
x=4,
所以y关于x的线性回归方程为
=2.1x+4.
(3)当x=7时,
=2.1×7+4=18.7,
所以该奶茶店这种饮料的销量大约为19杯.
【素养提升】
求回归直线方程的步骤
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系(有时可省略).
(2)计算出



的值.
(3)计算回归系数

.
(4)写出回归直线方程.
【变式训练】
近几年,电商行业的蓬勃发展带动了快递业的迅速增长,快递公司揽收价格一
般是采用“首重+续重”的计价方式.首重是指最低的计费重量,续重是指超过
首重部分的计费重量,不满一公斤按一公斤计费.某快递网点将快件的揽收价格
定为首重(不超过一公斤)8元,续重2元/公斤(例如,若一个快件的重量是0.6公
斤,按8元计费;若一个快件的重量是1.4公斤,按8元+2元×1=10元计费).根据
历史数据,得到该网点揽收快件重量的频率分布直方图如图所示:
(1)根据样本估计总体的思想,将频率视作概率,求该网点揽收快件的平均价格;
(2)为了获得更大的利润,该网点对“一天中收发一件快递的平均成本yi(单位:
元)与当天揽收的快递件数xi(单位:百件)(i=1,2,3,4,5)之间的关系”进行
调查研究,得到相关数据如表:
每天揽收快递
件数xi/百件
2
3
4
5
8
每件快递的平
均成本yi/元
5.6
4.8
4.4
4.3
4.1
根据以上数据,技术人员分别根据甲、乙两种不同的回归模型,得到两个回归
方程:
方程甲:
=-0.2x+5.6,
方程乙:
=3.5+
.
①为了评价两种模型的拟合效果,根据上表数据和相应回归方程,将以下表格
填写完整(结果保留一位小数),分别计算模型甲与模型乙的残差平方和Q1,Q2,
并依此判断哪个模型的拟合效果更好(备注:
=
-yi称为相应于点(xi,yi)
的残差,残差平方和Q=
);
每天揽收快递件
数xi/百件
2
3
4
5
8
每件快递的平均
成本yi/元
5.6
4.8
4.4
4.3
4.1
模型甲
预报值
5.2
5.0
4.8
残差
-0.4
0.2
0.4
模型乙
预报值
5.5
4.8
4.5
残差
-0.1
0
0.1
②预计该网点今年6月25日一天可以揽收1
000件快递,试根据①中确定的拟合
效果较好的回归模型估计该网点当天的总利润(总利润=(平均价格-平均成本)
×总件数).
【解析】(1)根据揽收快件的重量的频率分布直方图得到其价格的频率分布表
如下:
平均价格为:
8×0.45+10×0.25+12×0.15+14×0.1+16×0.05=10.1(元).
价格/元
8
10
12
14
16
频率
0.45
0.25
0.15
0.1
0.05
(2)①
每天揽收快递
件数xi/百件
2
3
4
5
8
每件快递的平
均成本yi/元
5.6
4.8
4.4
4.3
4.1
模型甲
预报值
5.2
5.0
4.8
4.6
4.0
残差
-0.4
0.2
0.4
0.3
-0.1
模型乙
预报值
5.5
4.8
4.5
4.3
4.0
残差
-0.1
0
0.1
0
-0.1
Q1=(-0.4)2+0.22+0.42+0.32+(-0.1)2=0.46,
Q2=(-0.1)2+02+0.12+02+(-0.1)2=0.03,
因为Q2②模型乙的回归方程为:=3.5+

把x=10代入
=3.5+
可得
=3.9,该网点当天的总利润估计为(10.1-3.9)×
1
000=6
200(元).
专题能力提升练
十五 概率与统计案例的综合应用
(40分钟
80分)
1.(2020·包头二模)2020年寒假是特殊的寒假.因为疫情全体学生只能在家进行
网上在线学习,为研究学生网上学习的情况,某校社团对男女各10名学生进行
了网上在线学习的问卷调查,每名学生给出评分(满分100分),得到如图所示
的茎叶图.
(1)根据茎叶图判断男生组和女生组哪个组对网课的评价更高?并说明理由;
(2)如图是按该20名学生的评分绘制的频率分布直方图,求a的值并估计这20名
学生评分的平均值(同一组中的数据用该组区间中点值作为代表);
(3)求该20名学生评分的中位数m,并将评分超过m和不超过m的学生数填入下面
的列联表:
超过m
不超过m
男生
女生
根据列联表,能否有85%的把握认为男生和女生的评分有差异?
附:K2=
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
【解析】(1)男生对网课的评价更高,理由如下:
①由题茎叶图可知,评价分数不低于70分的男生比女生多2人,
因此男生对网课的评价更高;
②由题茎叶图知,男生评分的中位数为77.5分,女生评分的中位数是72分,
因此男生对网课的评价更高;
③根据题茎叶图,计算男生评分的平均数是78分,女生评分的平均数是70.2分,
因此男生对网课的评价更高;
(2)由题茎叶图可知,这20名学生的评分在[70,80)的学生有9人,
则a=
÷10=0.045;
所以估计这20名学生评分的平均值为:
(55×0.01+65×0.02+75×0.045+85×0.02+95×0.005)×10=74;
(3)由题茎叶图知该20名学生评分的中位数m=
=74.5,
将评分超过m和不超过m的学生数填入下面的列联表:
超过m
不超过m
男生
6
4
女生
4
6
根据表中数据,计算K2的观测值
k=
=0.8<2.072,
所以没有85%的把握认为男生和女生的评分有差异.
2.(2020·马鞍山二模)为了研究昼夜温差与引发感冒的情况,医务人员对某高中在同一时间段相同温差下的学生感冒情况进行抽样调研,所得数据统计如表1所示,并将男生感冒的人数与温差情况统计如表2所示.
表1
患感冒人数
不患感冒人数
合计
男生
30
70
100
女生
42
58
p
合计
m
n
200
表2
(1)写出m,n,p的值;
(2)判断是否有95%的把握认为在相同的温差下“性别”与“患感冒”有关系;
温差x
6
7
8
9
10
患感冒人数y
8
10
14
20
23
(3)根据表2数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(若
0.75≤|r|≤1,则认为y与x线性相关性很强;0.3≤|r|≤0.75,则认为y与x线
性相关性一般;|r|≤0.25,则认为y与x线性相关性较弱).
附:K2=
n=a+b+c+d.
r=
P(K2≥k0)
0.25
0.15
0.10
0.05
0.025
0.010
k0
1.323
2.072
2.706
3.841
5.024
6.635
【解析】(1)根据题表1中数据直接可以得出m=72,n=128,p=100.
(2)由题中数据直接代入得K2的观测值k=200×
=3.125<3.841,所
以没有95%的把握认为在相同的温差下“性别”与“患感冒”有关系.
(3)由题表2得
所以
则r=
所以y与x的线性相关性很强.
3.2020年是全面建成小康社会目标实现之年,也是全面打赢脱贫攻坚战收官之年.某乡镇在2014年通过精准识别确定建档立卡的贫困户共有500户,结合当地实际情况采取多项精准扶贫措施,每年新脱贫户数如表:
年份
2015
2016
2017
2018
2019
年份
代码x
1
2
3
4
5
脱贫
户数y
55
68
80
92
100
(1)根据2015年~2019年的数据,求出y关于x的线性回归方程
并预测到2020年底该乡镇500户贫困户是否能全部脱贫;
(2)2019年的新脱贫户中有20户五保户,20户低保户,60户扶贫户.该乡镇某干
部打算按照分层抽样的方法对2019年新脱贫户中的5户进行回访,了解生产生活、
帮扶工作开展情况.为防止这些脱贫户再度返贫,随机抽取这5户中的2户进行每
月跟踪帮扶,求抽取的2户不都是扶贫户的概率.
参考公式:
【解析】(1)
xiyi=1×55+2×68+3×80+4×92+5×100=1
299,
所以y关于x的线性回归方程为
=11.4x+44.8.
当x=6时,
=11.4×6+44.8=113.2.
即预测2020年一年内该乡镇有113户贫困户脱贫.所以预测6年内该乡镇脱贫总户
数为55+68+80+92+100+113=508>500.
即预测到2020年底该乡镇500户贫困户能全部脱贫.
(2)由题意可得:按分层抽样抽取的5户贫困户中.有1户五保户a,1户低保户b,
3户扶贫户c,d,e.从这5户中任选2户,共有10种情况:ab,ac,ad,ae,bc,
bd,be,cd,ce,de,记2户不都是扶贫户为事件A,
则事件
共有3种情况:cd,ce,de.
所以P(
)=
,则P(A)=
故抽取的2户不都是扶贫户的概率为
4.(2020·广州二模)当今世界科技迅猛发展,信息日新月异.为增强全民科技意识,提高公众科学素养,某市图书馆开展了以“亲近科技、畅想未来”为主题的系列活动,并对不同年龄借阅者对科技类图书的情况进行了调查.该图书馆从只借阅了一本图书的借阅者中随机抽取100名,数据统计如表:
借阅科技类
图书(人)
借阅非科技类
图书(人)
年龄不超过50岁
20
25
年龄大于50岁
10
45
(1)是否有99%的把握认为年龄与借阅科技类图书有关?
(2)该图书馆为了鼓励市民借阅科技类图书,规定市民每借阅一本科技类图书奖励积分2分,每借阅一本非科技类图书奖励积分1分,积分累计一定数量可以用积分换购自己喜爱的图书.用表中的样本频率作为概率的估计值.
(i)现有3名借阅者每人借阅一本图书,记此3人增加的积分总和为随机变量ξ,求ξ的分布列和数学期望;
(ii)现从只借阅一本图书的借阅者中选取16人,则借阅科技类图书最有可能的
人数是多少?
附:K2=
其中n=a+b+c+d.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
【解析】(1)K2的观测值
所以有99%的把握认为年龄与借阅科技类图书有关.
(2)(i)因为用题表中的样本频率作为概率的估计值,
所以借阅科技类图书的概率P=
因为3名借阅者每人借阅一本图书,这3人增加的积分总和为随机变量ξ,
所以随机变量ξ的可能取值为3,4,5,6,
P(ξ=3)=
P(ξ=4)=
P(ξ=5)=
P(ξ=6)=
从而ξ的分布列为:
ξ
3
4
5
6
P
所以E(ξ)=3×
+4×
+5×
+6×
=3.9.
(ii)记16人中借阅科技类图书的人数为X,则随机变量X满足二项分布X~B
设借阅科技类图书最有可能的人数是k(k=0,1,2,…,16),


解得4.1≤k≤5.1,故k=5,
所以16人中借阅科技类图书最有可能的人数是5.
5.(2020·潍坊二模)区块链技术被认为是继蒸汽机、电力、互联网之后,新一
代颠覆性的核心技术.区块链作为构造信任的机器,将可能彻底改变整个人类社
会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增
长,居世界前列.现收集我国近5年区块链企业总数量相关数据,如表:
年份
2015
2016
2017
2018
2019
编号
1
2
3
4
5
企业总数量
y(单位:千个)
2.156
3.727
8.305
24.279
36.224
注:参考数据:
=74.691,
=312.761,
≈10.980,
≈40.457(其中z=ln
y).
附:样本(xi,yi)(i=1,2,…,n)的最小二乘估计分别为
(1)根据表中数据判断,y=a+bx与y=cedx(其中e=2.718
28…,为自然对数的底
数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结
果即可,不必说明理由)
(2)根据(1)的结果,求y关于x的回归方程(结果精确到小数点后第三位);
(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比
赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公
司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下
一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该
公司就获得此次信息化技术比赛的“优胜公司”,已知在每场比赛中,甲胜乙
的概率为
,甲胜丙的概率为
,乙胜丙的概率为
,请通过计算说明,哪
两个公司进行首场比赛时,甲公司获得“优胜公司”的概率最大?
【解析】(1)选择回归方程y=cedx适宜预测未来几年我国区块链企业总数量.
(2)对y=cedx两边取自然对数,得ln
y=ln
c+dx,
令z=ln
y,a=ln
c,b=d,得z=a+bx.
由于
因为
所以z关于x的回归方程为
=0.752x-0.060,
则y关于x的回归方程为
=e0.752x-0.060.
(3)对于首场比赛的选择有以下三种情况:
A、甲与乙先赛;B、甲与丙先赛;C、丙与乙先赛.由于在每场比赛中,甲胜乙
的概率为
,甲胜丙的概率为
,乙胜丙的概率为

则甲公司获胜的概率分别是:P(A)=
P(B)=
P(C)=
由于
所以甲与丙两公司进行首场比赛时,甲公司获得“优胜公司”的概率大.
6.(2020·新高考全国Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对
某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:
μg/m3),得下表:
PM2.5
SO2
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的
概率;
(2)根据所给数据,完成下面2×2列联表:
PM2.5
SO2
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度
与SO2浓度有关?
附:K2=
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度
不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,
且SO2浓度不超过150的概率的估计值为
=0.64.
(2)根据抽查数据,可得2×2列联表:
  SO2
PM2.5   
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
同课章节目录