2021湖南版二轮数学专题复习课件学案与训练15讲统计与统计案例(共93张PPT+学案+练习)

文档属性

名称 2021湖南版二轮数学专题复习课件学案与训练15讲统计与统计案例(共93张PPT+学案+练习)
格式 zip
文件大小 12.3MB
资源类型 教案
版本资源 人教A版(2019)
科目 数学
更新时间 2021-03-10 17:05:21

文档简介

第15讲 统计与统计案例
【p41】
【p41】
本讲主要考查统计的基本概念,用样本估计总体,统计图的识别与分析,变量间的相关关系,回归分析,独立性检验,正态分布等知识及统计思想应用,考点与实际问题联系紧密,复习中不能依赖记忆公式和简单的套用公式解题,应在充分认识统计方法特点的基础上,深刻理解回归分析和独立性检验的基本思想、方法及初步应用,提高阅读能力,找准数学模型,经历较为系统的数据处理的全过程,培养数据分析、数学运算等核心素养.
【p41】
探究一 抽样方法
                  
例1(1)已知某地区中小学生人数和近视情况分别如图1和图2所示,为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别是(  )
A.200,20
B.100,20
C.200,10
D.100,10
【解析】选A.
所抽人数为(3500+2000+4500)×2%=200,近视人数分别为小学生3500×10%=350,初中生4500×30%=1350,高中生2000×50%=1000,∴抽取的高中生近视人数为1000×2%=20.选A.
(2)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是__________.
【解析】4
由茎叶图可知,在区间[139,151]的人数为20,再由系统抽样的性质可知人数为20×=4人.
【点评】(1)在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,总体就需要分成几个组,则分段间隔即为(n为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.
(2)分层抽样中要注意按比例抽取各层次的样本数据,样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数与各层原有的人数,若各层应抽取的个体数不都是整数,则应当先剔除部分个体,调整总体个数.
探究二 用样本估计总体
例2(1)[2020·全国Ⅲ卷]在一组样本数据中,1,2,3,4出现的频率分别为p1,p2,p3,p4,i=1,则下面四种情形中,对应样本的标准差最大的一组是(  )
A.p1=p4=0.1,p2=p3=0.4
B.p1=p4=0.4,p2=p3=0.1
C.p1=p4=0.2,p2=p3=0.3
D.p1=p4=0.3,p2=p3=0.2
【解析】选B.
对于A选项,该组数据的平均数为xA=×0.1+×0.4=2.5,
方差为s=×0.1+×0.4+×0.4+×0.1=0.65;
对于B选项,该组数据的平均数为xB=×0.4+×0.1=2.5,
方差为s=×0.4+×0.1+×0.1+×0.4=1.85;
对于C选项,该组数据的平均数为xC=×0.2+×0.3=2.5,
方差为s=×0.2+×0.3+×0.3+×0.2=1.05;
对于D选项,该组数据的平均数为xD=×0.3+×0.2=2.5,
方差为s=×0.3+×0.2+×0.2+×0.3=1.45.
因此,B选项这一组的标准差最大.
故选:B.
(2)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40名用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.
A地区用户满意度评分的频率分布直方图
B地区用户满意度评分的频数分布表
满意度评
分分组
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
频数
2
8
14
10
6
  ①在下图中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).
②根据用户满意度评分,将用户的满意度分为三个等级:
满意度评分
低于70分
70分到89分
不低于90分
满意度等级
不满意
满意
非常满意
  估计哪个地区用户的满意度等级为不满意的概率大?说明理由.
【解析】①B地区用户满意度评分的频率分布直方图如下所示.
通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;
B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.
②判断:A地区用户的满意度等级为不满意的概率大.
记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,P(CB)的估计值为(0.005+0.02)×10=0.25.所以A地区用户的满意度等级为不满意的概率大.
(3)某工厂36名工人的年龄数据如下表.
工人编号
年龄
工人编号
年龄
工人编号
年龄
工人编号
年龄
1
40
10
36
19
27
28
34
2
44
11
31
20
43
29
39
3
40
12
38
21
41
30
43
4
41
13
39
22
37
31
38
5
33
14
43
23
34
32
42
6
40
15
45
24
42
33
53
7
45
16
39
25
37
34
37
8
42
17
38
26
44
35
49
9
43
18
36
27
42
36
39
  ①用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
②计算①中样本数据的均值x和方差s2;
③36名工人中年龄在x-s与x+s之间的有多少人?所占的百分比是多少?(精确到0.01%)
【解析】①36人分成9组,每组4人,其中第一组抽取的工人年龄为44,因为它在组中的编号为2,
所以所有样本数据的编号为4n-2(n=1,2,…,9),
样本的年龄数据为:44,40,36,43,36,37,44,43,37.
②由均值公式知:x==40,
由方差公式知:s2=[(44-40)2+(40-40)2+…+(37-40)2]=.
③因为s2=,s=,
所以36名工人中年龄在x-s和x+s之间的人数等于年龄在区间[37,43]上的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在x-s和x+s之间的人数所占的百分比为×100%≈63.89%.
【点评】(1)在作茎叶图或读茎叶图时,首先要弄清楚“茎”和“叶”分别代表什么,根据茎叶图,我们可方便地求出数据的众数与中位数,大体上估计出两组数据平均数的大小与稳定性的高低.
(2)解决与频率分布直方图有关的问题时,应正确理解已知数据的含义,掌握图表中各个量的意义,通过图表对已知数据进行分类.
探究三 回归分析
例3某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量
/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
它们分别用两种模型①=x+,②=e分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
x
7
30
1464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:
①剔除异常数据后求出(1)中所选模型的回归方程;
②若广告投入量x=18时,该模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:
==,=-.
【解析】(1)应该选择模型①,因为模型①残差点比较均匀地落在水平的带状区域中,说明模型拟合精度越高,回归方程的预报精度越高.
(2)①剔除异常数据,即月份为3的数据后,得
=(7×6-6)=7.2;
=(30×6-31.8)=29.64.
=364-62=328.
====3;
=-=29.64-3×7.2=8.04,
所以y关于x的线性回归方程为:=3x+8.04.
②把x=18代入回归方程得:=3×18+8.04=62.04,
故预报值约为62.04万元.
【点评】已知变量的某个值去预测与其有线性相关关系的变量的值时,一般先求出回归直线方程=x+,若,中有一个是已知的,常利用公式=-求另一个量,再把x的值代入回归直线方程=x+中,求出的估计值.
探究四 独立性检验
例4在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区1000名患者的相关信息,得到如下表格:
潜伏期/天
[0,2]
(2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,14]
人数
85
205
310
250
130
15
5
  (1)求这1000名患者的潜伏期的样本平均数(同一组中的数据用该组区间的中点值作代表);
(2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取200人,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有95%的把握认为潜伏期与患者年龄有关;
潜伏期≤6天
潜伏期>6天
总计
50岁以上(含50岁)
100
50岁以下
55
总计
200
  (3)以这1000名患者的潜伏期超过6天的频率,代替该地区1名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该研究团队随机调查了20名患者,其中潜伏期超过6天的人数最有可能(即概率最大)是多少?
附:
P(K2≥k0)
0.05
0.025
0.010
k0
3.841
5.024
6.635
K2=,其中n=a+b+c+d.
【解析】(1)=×(1×85+3×205+5×310+7×250+9×130+11×15+13×5)=5.4天.
(2)根据题意,补充完整的列联表如下:
潜伏期≤6天
潜伏期>6天
总计
50岁以上(含50岁)
65
35
100
50岁以下
55
45
100
总计
120
80
200
则K2==≈2.083,
因为K2≈2.083<3.841,所以没有95%的把握认为潜伏期与年龄有关.
(3)由题可知,该地区每1名患者潜伏期超过6天发生的概率为=,
设调查的20名的患者中潜伏期超过6天的人数为X,
则X~B,P(X=k)=C,k=0,1,2,…,20,
由得
化简得解得≤k≤,
又k∈N,所以k=8,即这20名患者中潜伏期超过6天的人数最有可能是8人.
【点评】独立性检验的具体步骤:第一步,根据题意确定临界值并作无关假设;第二步,找相关数据,列出2×2列联表;第三步,由公式K2=(其中n=a+b+c+d)计算出K2的观测值;第四步,将K2的观测值与临界值进行比较,进而作出推断.
探究五 正态分布
例5为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(μ,σ2).
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P(X≥1)及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性;
(ⅱ)下面是检验员在一天内抽取的16个零件的尺寸:
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得x-=i=9.97,s==≈0.212,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(-3,+3)的数据,用剩下的数据估计μ和σ(精确到0.01).
附:若随机变量Z服从正态分布N(μ,σ2),则P(μ-3σ【解析】(1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.9974,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.0026,故X~B(16,0.0026).因此P(X≥1)=1-P(X=0)=1-0.997416≈0.0408.
X的数学期望为EX=16×0.0026=0.0416.
(2)(ⅰ)如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.0026,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.0408,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.
(ⅱ)由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.
剔除(-3,+3)之外的数据9.22,剩下数据的平均数为(16×9.97-9.22)=10.02,
因此μ的估计值为10.02.
=16×0.2122+16×9.972≈1591.134,
剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为(1591.134-9.222-15×10.022)≈0.008,
因此σ的估计值为≈0.09.
【点评】本题主要考查用样本估计总体、正态分布、二项分布等基本知识和数据分析能力及运算求解能力.
【p45】
1.进行系统抽样的关键是根据总体和样本的容量确定分段间隔,根据第一段确定编号.如果总体不能被样本整除,即每段不能等分,应采用等可能剔除的方法剔除部分个体,以获得整数间隔.
2.进行分层抽样时应注意以下几点:①分层抽样中分多少层、如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠;②为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性要相同;③在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.
3.进行线性回归分析时应注意的问题:
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
4.独立性检验在实际应用中应注意的问题:
(1)独立性检验的关键是根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.
(2)复习独立性检验时,要根据实际问题,深刻体会独立性检验的思想.
5.理解正态分布的概念与性质,它的密度曲线可以表示成一条钟形曲线,而且随着总体的均值与标准差的不同,曲线的形状产生相应的变化.此外还要掌握好μ-3σ原则的应用.
【p45】
                  
考题1[2020·全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10
℃至40
℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是(  )
A.=+x
B.=+x2
C.=+ex
D.=+ln
x
【解析】选D.
由散点图分布可知,散点图分布在一个对数函数的图象附近,因此,最适合作为发芽率y和温度x的回归方程类型的是=+ln
x.
故选:D.
【命题立意】本题考查函数模型的选择,主要观察散点图的分布,属于基础题.
考题2[2020·新高考全国卷Ⅰ]为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
  SO2
PM2.5 
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
  SO2
PM2.5 
[0,150]
(150,475]
[0,75]
(75,115]
(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:K2=,
P(K2≥k)
0.050   0.010   0.001
k
3.841   6.635   10.828
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.
(2)根据抽查数据,可得2×2列联表:
  SO2
PM2.5 
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
(3)根据(2)的列联表得K2=≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
【命题立意】本题主要考查频率估计概率,2×2列联表,独立性检验等统计基础知识和统计图表识别能力、数据处理能力、运算求解能力.考查的数学核心素养是数据分析、数学运算.
考题3[2020·全国卷Ⅱ]某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1200,
(xi-x-)2=80,
(yi-y-)2=9000,
(xi-x-)(yi-y-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【解析】(1)由已知得样本平均数=i=60,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
【命题立意】本题主要考查线性样本平均数,相关系数,分层抽样等统计基础知识和数据处理能力、运算求解能力.考查的数学核心素养是数据分析、数学运算.【p112】
A组 基础演练
1.某工厂生产的30个零件编号为01,02,…,29,30,现利用如下随机数表从中抽取5个进行检测.若从表中第1行第5列的数字开始,从左往右依次读取数字,则抽取的第5个零件编号为(  )
3457078636
0468960823
2345788907
8442125331
2530073286
3221183429
7864540732
5242064438
1223435677
3578905642
A.25
B.23
C.12
D.07
【解析】选C.
2.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是(  )
A.甲地:总体均值为3,中位数为4
B.乙地:总体均值为1,总体方差大于0
C.丙地:中位数为2,众数为3
D.丁地:总体均值为2,总体方差为3
【解析】选D.
根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A中,中位数为4,可能存在大于7的数;同理,在选项C中也有可能;选项B中的总体方差大于0,叙述不明确,如果数目太大,也有可能存在大于7的数;选项D中,根据方差公式,如果有大于7的数存在,那么方差不会为3,故答案选D.
3.设X~N(μ1,σ),Y~N(μ2,σ),这两个正态分布密度曲线如图所示.下列结论中正确的是(  )
A.P(Y≥μ2)≥P(Y≥μ1)
B.P(X≤σ2)≤P(X≤σ1)
C.对任意正数t,P(X≤t)≥P(Y≤t)
D.对任意正数t,P(X≥t)≥P(Y≥t)
【解析】选C.
由正态分布密度曲线的性质可知,X~N(μ1,σ),Y~N(μ2,σ)的密度曲线分别关于直线x=μ1,x=μ2对称,因此结合题中所给图象可得,μ1<μ2,所以P(Y≥μ2)P(X≤σ1),B错误.对任意正数t,P(X≤t)≥P(Y≤t),P(X≥t)4.为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到等高条形图如图所示,根据图中信息,在下列各项中,说法最佳的一项是(  )
A.药物B的预防效果优于药物A的预防效果
B.药物A、B对该疾病均没有预防效果
C.药物A、B对该疾病均有显著的预防效果
D.药物A的预防效果优于药物B的预防效果
【解析】选D.
本题考查等高条形图问题.由等高条形图知,药物A的预防效果优于药物B的预防效果.故选D.
5.(多选)如下图是2017年第一季度五省GDP情况图,则下列陈述中正确的是(  )
A.2017年第一季度GDP增速由高到低排位第5的是浙江省
B.与去年同期相比,2017年第一季度的GDP总量实现了增长
C.去年同期河南省的GDP总量不超过4000亿元
D.2017年第一季度GDP总量和增速由高到低排位均居同一位的省只有1个
【解析】选ABC.
解决本题需要从统计图获取信息,解题的关键是明确图表中数据的来源及所表示的意义,依据所代表的实际意义获取正确的信息.
由折线图可知A、B正确;4067.4÷(1+6.6%)≈3816<4000,故C正确;2017年第一季度GDP总量和增速由高到低排位均居同一位的省有江苏均第一;河南均第四,共2个,故选ABC.
6.(多选)下图为某地区2006年~2018年地方财政预算内收入、城乡居民储蓄年末余额折线图.根据该折线图可知,该地区2006年~2018年(  )
A.财政预算内收入、城乡居民储蓄年末余额均呈增长趋势
B.财政预算内收入、城乡居民储蓄年末余额的逐年增长速度相同
C.财政预算内收入年平均增长量高于城乡居民储蓄年末余额年平均增长量
D.城乡居民储蓄年末余额与财政预算内收入的差额逐年增大
【解析】选AD.
由图可以看出两条曲线均在上升,从而选项A正确;
图中两曲线间隔越来越大,说明年增长速度不同,差额逐年增大,故选项B错误,选项D正确;
又从图中可以看出财政预算内收入年平均增长量应该小于城乡居民储蓄年末余额年平均增长量,所以选项C错误.故选AD.
7.一个总体分为A,B两层,其个体数之比为4∶1,用分层抽样方法从总体中抽取一个容量为10的样本,已知B层中甲、乙都被抽到的概率为,则总体中的个数为________.
【解析】40
由条件易知B层中抽取的样本数是2,设B层总体数是n,则又由B层中甲、乙都被抽到的概率是=,可得n=8,所以总体中的个数是4×8+8=40.
8.为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【解析】(1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
9.下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了2种理由,答出其中任意一种或其他合理理由均可得分.
10.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求这40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解析】(1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
以上给出了4种理由,答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
11.某公司为评估两套促销活动方案(方案1的运作费用为5元/件;方案2的运作费用为2元/件),在某地区部分营销网点进行试点(每个试点网点只采用一种促销活动方案),运作一年后,对比该地区上一年度的销售情况,制作相应的等高条形图如图所示.
(1)请根据等高条形图提供的信息,为该公司今年选择一套较为有利的促销活动方案(不必说明理由);
(2)已知该公司产品的成本为10元/件(未包括促销活动运作费用),为制定本年度该地区的产品销售价格,统计上一年度的8组售价xi(单位:元/件,整数)和销量yi(单位:件)(i=1,2,…,8)如下表所示:
售价x
33
35
37
39
41
43
45
47
销量y
840
800
740
695
640
580
525
460
①请根据下列数据计算相应的相关指数R2,并根据计算结果,选择合适的回归模型进行拟合;
②根据所选回归模型,分析售价x定为多少时?利润z可以达到最大.
=-1200
ln
x+5000
=-27x+1700
=-x2+1200
∑8,i=1,8,
)(yi-)2
124650
(附:相关指数R2=1-)
【解析】(1)由等高条形图可知,年度平均销售额与方案1的运作相关性强于方案2.
(2)①由已知数据可知,回归模型=-1200ln
x+5000对应的相关指数R=0.5792;
回归模型=-27x+1700对应的相关指数R=0.8946;
回归模型=-x2+1200对应的相关指数R=0.9990.
因为R>R>R,所以采用回归模型=-x2+1200进行拟合最为合适.
②由(1)可知,采用方案1的运作效果较方案2好,
故年利润z=,
z′=-,
当x∈时,z=单调递增;
当x∈时,z=单调递减,
故当售价x=40时,利润达到最大.
12.在最新公布的湖南新高考方案中,“3+1+2”模式要求学生在语数外3门全国统考科目之外,在历史和物理2门科目中必选且只选1门,再从化学、生物、地理、政治4门科目中任选2门,后三科的高考成绩按新的规则转换后计入高考总分.相应地,高校在招生时可对特定专业设置具体的选修科目要求.双超中学高一年级有学生1200人,现从中随机抽取40人进行选科情况调查,用数字1~6分别依次代表历史、物理、化学、生物、地理、政治6科,得到如下的统计表:
序号
选科
情况
序号
选科
情况
序号
选科
情况
序号
选科
情况
1
134
11
236
21
156
31
235
2
235
12
234
22
235
32
236
3
235
13
145
23
245
33
235
4
145
14
135
24
235
34
135
5
156
15
236
25
256
35
156
6
245
16
236
26
156
36
236
7
256
17
156
27
134
37
156
8
235
18
236
28
235
38
134
9
235
19
145
29
246
39
235
10
236
20
235
30
156
40
245
(1)双超中学规定:每个选修班最多编排50人且尽量满额编班,每位老师执教2个选修班(当且仅当一门科目的选课班级总数为奇数时,允许这门科目的1位老师只教1个班).已知双超中学高一年级现有化学、生物科目教师每科各8人,用样本估计总体,则化学、生物两科的教师人数是否需要调整?如果需要调整,各需增加或减少多少人?
(2)请创建列联表,运用独立性检验的知识进行分析,探究是否有99%的把握判断学生“选择化学科目”与“选择物理科目”有关.
附:K2=
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
(3)某高校A在其热门人文专业B的招生简章中明确要求,仅允许选修了历史科目,且在政治和地理2门中至少选修了1门的考生报名.现从双超中学高一新生中随机抽取3人,设具备A高校B专业报名资格的人数为X,用样本的频率估计概率,求X的分布列与期望.
【解析】(1)经统计可知,样本40人中,选修化学、生物的人数分别为24,11,则可估计高一年级选修相应科目人数分别为720,330,根据每个选修班最多编排50人且尽量满额编班,得对应开设选修班的数目分别为15,7.现有化学、生物科目教师每科各8人,根据每位老师执教2个选修班,当且仅当一门科目的选课班级总数为奇数时,允许这门科目的1位老师只教1个班的条件,知生物科目需要减少4名老师,化学科目不需调整.
(2)根据表格中的数据进行统计后,制作列联表如下:
选物理
不选物理
合计
选化学
19
5
24
不选化学
6
10
16
合计
25
15
40
则K2===≈7.111>6.635,
∴有99%的把握判断学生“选择化学科目”与“选择物理科目”有关.
(3)经统计,样本中选修了历史科目,且在政治和地理2门中至少选修了1门的人数为12,频率为p==0.3,
用频率估计概率,则X~B(3,0.3),分布列如下:
X
0
1
2
3
P
0.343
0.441
0.189
0.027
数学期望为E(X)=np=0.9.
B组 能力提升
13.2020年,新冠肺炎疫情牵动每一个中国人的心,危难时刻众志成城,共克时艰,为疫区助力.福建省漳州市东山县共101个海鲜商家及个人为缓解武汉物质压力,募捐价值百万的海鲜输送武汉.东山岛,别称陵岛,形似蝴蝶亦称蝶岛,隶属于福建省漳州市东山县,是福建省第二大岛,中国第七大岛,介于厦门市和广东省汕头之间,东南是著名的闽南渔场和粤东渔场交汇处,因地理位置发展海产品养殖业具有得天独厚的优势.根据养殖规模与以往的养殖经验,某海鲜商家的海产品每只质量(克)在正常环境下服从正态分布N(280,25).
(1)随机购买10只该商家的海产品,求至少买到一只质量小于265克该海产品的概率(保留到小数点后两位);
(2)2020年该商家考虑增加先进养殖技术投入,该商家欲预测先进养殖技术投入为49千元时的年收益增量.现用以往的先进养殖技术投入xi(千元)与年收益增量yi(千元)(i=1,2,3,…,8)的数据绘制散点图,由散点图的样本点分布,可以认为样本点集中在曲线y=a+b的附近,且=46.6,=563,=6.8,(ti-)(yi-)=108.8,其中ti=,=i.
根据所给的统计量,求y关于x的回归方程,并预测先进养殖技术投入为49千元时的年收益增量.
附:若随机变量Z~N(1,4),则P(-5对于一组数据(u1,v1),(u2,v2),…(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.
【解析】(1)由已知,单只海产品质量ξ~N(280,25),则μ=280,σ=5,
由正态分布的对称性可知,
P(ξ<265)=[1-P(265<ξ<295)]=[1-P(μ-3σ<ξ<μ+3σ)]=(1-0.9974)=0.0013,
设购买10只该商家海产品,其中质量小于265
g的为X只,故X~B(10,0.0013),故P(X≥1)=1-P(X=0)=1-(1-0.0013)10≈1-0.9871=0.0129,
所以随机购买10只该商家的海产品,至少买到一只质量小于265克的概率为0.01.
(2)由=6.8,y-=563,2=1.6,
有===68,
且=y--=563-68×6.8=100.6,
所以y关于x的回归方程为=100.6+68,
当x=49时,年销售量y的预报值=100.6+68=576.6千元.
所以预测先进养殖技术投入为49千元时的年收益增量为576.6千元.
14.2019年7月1日至3日,世界新能源汽车大会在海南博鳌召开,大会着眼于全球汽车产业的转型升级和生态环境的持续改善.某汽车公司顺应时代潮流,最新研发了一款新能源汽车,并在出厂前对100辆汽车进行了单次最大续航里程(理论上是指新能源汽车所装载的燃料或电池所能够提供给车行驶的最远里程)的测试.现对测试数据进行分析,得到如下的频率分布直方图:
(1)估计这100辆汽车的单次最大续航里程的平均值(同一组中的数据用该组区间的中点值代表).
(2)根据大量的汽车测试数据,可以认为这款汽车的单次最大续航里程X近似地服从正态分布N(μ,σ2),经计算第(1)问中样本标准差s的近似值为50.用样本平均数作为μ的近似值,用样本标准差s作为σ的估计值,现任取一辆汽车,求它的单次最大续航里程恰在250千米到400千米之间的概率.
参考数据:若随机变量ξ服从正态分布N(μ,σ2),则P(μ-σ<ξ<μ+σ)≈0.6826,P(μ-2σ<ξ<μ+2σ)≈0.9544,P(μ-3σ<ξ<μ+3σ)≈0.9974.
(3)某汽车销售公司为推广此款新能源汽车,现面向意向客户推出“玩游戏,送大奖”活动,客户可根据抛掷硬币的结果,操控微型遥控车在方格图上行进,若遥控车最终停在“胜利大本营”,则可获得购车优惠券.已知硬币出现正、反面的概率都是,方格图上标有第0格、第1格、第2格、…、第50格.遥控车开始在第0格,客户每掷一次硬币,遥控车向前移动一次,若掷出正面,遥控车向前移动一格(从k到k+1),若掷出反面,遥控车向前移动两格(从k到k+2),直到遥控车移到第49格(胜利大本营)或第50格(失败大本营)时,游戏结束,设遥控车移到第n格的概率为Pn,试说明{Pn-Pn-1}是等比数列,并解释此方案能否成功吸引顾客购买该款新能源汽车.
【解析】(1)=0.002×50×205+0.004×50×255+0.009×50×305+0.004×50×355+0.001×50×405=300(千米).
(2)由X~N(300,502),
∴P(250(3)遥控车开始在第0格为必然事件,P0=1.第一次掷硬币出现正面,遥控车移到第一格,其概率为,即P1=.
遥控车移到第n(2≤n≤49)格的情况是下面两种,而且只有两种:
①遥控车先到第n-2格,又掷出反面,其概率为Pn-2.
②遥控车先到第n-1格,又掷出正面,其概率为Pn-1.
∴Pn=Pn-2+Pn-1.
∴Pn-Pn-1=-(Pn-1-Pn-2).
∴1≤n≤49时,数列{Pn-Pn-1}是等比数列,首项P1-P0=-,公比为-的等比数列.
∴P1-1=-,P2-P1=,P3-P2=,…,Pn-Pn-1=,
∴Pn=(Pn-Pn-1)+(Pn-1-Pn-2)+…+(P1-P0)+P0=++…++1
==(n=0,1,…,49).
∴获胜的概率P49=,
失败的概率P50=P48=
×=,
∴P49-P50=-
=>0.
∴获胜的概率大.
∴此方案能成功吸引顾客购买该款新能源汽车.(共93张PPT)
专题六 统计与概率
第15讲 统计与统计案例
知识网络>●●。。
备考建议>●。
典例剖析>●。·。
o)(iy
7
1464.24-6×31.8=1273.44
364-62=328
72℃y
1273.44-5×7.2×29.64
328-5×7.2×7.2
206.4
68.8
16
(x;-x)
16
16x2)
16
规律总结>●。。
高考
●●●●●
P(K≥k)0.050
0.010
0.001
841
6.635
10.828
(i
y
附:相关系数r
∑(x1-x)2∑(y;-y)
2≈1.414
(x;一文)(
800
7
20
80×9000
C
≈0.94
限时训练>●。。
y
yiyi
(附:相关指数R2=1-元
Viy
i=1
563,t=6.8


)=1469,

(t
t)(y2-y)=108.8,其中t1=√x1,t
8

∑(a
2)由=6.8,3=563,∑(t1-7)(
108.8

)2=1.6
∑(1-)(y-3
有b
108
∑(1-7)
同课章节目录