2025届高考数学一轮复习-高中数学人教版(2019)第九部分《 统计与成对数据的统计分析》(3份打包)(含答案)

文档属性

名称 2025届高考数学一轮复习-高中数学人教版(2019)第九部分《 统计与成对数据的统计分析》(3份打包)(含答案)
格式 zip
文件大小 3.3MB
资源类型 教案
版本资源 通用版
科目 数学
更新时间 2024-12-10 21:30:07

文档简介

第9部分第3节《成对数据的统计分析》-2025届高考一轮复习-基础摸查+基础夯实+优化提升
基础摸查
【习题导入】
1.对于x,y两变量,有四组成对样本数据,分别算出它们的样本相关系数r如下,则线性相关性最强的是(  )
A.-0.82 B.0.78 C.-0.69 D.0.87
2.在对两个变量x,y进行回归分析时有下列步骤:
①对所求出的经验回归方程作出解释;②收集数据(xi,yi),i=1,2,…,n;③求经验回归方程;④根据所收集的数据绘制散点图.
则下列操作顺序正确的是(  )
A.①②④③ B.③②④①
C.②③①④ D.②④③①
3.某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得到经验回归方程=-2x+,当气温为-4 ℃时,预测用电量约为(  )
A.68度 B.52度
C.12度 D.28度
4.某机构为调查网游爱好者是否有性别差异,通过调研数据统计:在500名男生中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,用下列最适合的统计方法是(  )
A.均值 B.方差
C.独立性检验 D.回归分析
5.如表是2×2列联表,则表中a,b的值分别为(  )
y1 y2 合计
x1 a 8 35
x2 11 34 45
合计 b 42 80
A.27,38 B.28,38
C.27,37 D.28,37
6.已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.
【知识归纳】
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,
其中
(2)利用决定系数R2刻画回归效果
,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
x y 合计
y=y1 y=y2
x=x1 a b a+b
x=x2 c d c+d
合计 a+c b+d n=a+b+c+d
(2)临界值
χ2=.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立 ,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
常用结论:
1.求解经验回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).
2.根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
【题型展示】
 考点一 成对数据的相关性
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为(  )
A.-1 B.0 C.- D.1
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是(  )
3.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 1 2 3 4 5 6
人均销售额 6 5 8 3 4 7
利润率(%) 12.6 10.4 18.5 3.0 8.1 16.3
根据表中数据,下列说法正确的是(  )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
4.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中拟合效果最好的模型是(  )
A.模型1的决定系数R2为0.98
B.模型2的决定系数R2为0.80
C.模型3的决定系数R2为0.50
D.模型4的决定系数R2为0.25
 考点二 回归分析
角度1 线性回归分析
例1根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示:
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的经验回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少.
附:相关系数
=eq \f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\a\vs4\al(\o(x,\s\up6(-)) ) \a\vs4\al(\o(y,\s\up6(-)) ),\r(\o(∑,\s\up6(n),\s\do4(i=1))x-n\o(x,\s\up6(-))2)\r(\o(∑,\s\up6(n),\s\do4(i=1))y-n\o(y,\s\up6(-))2)),
经验回归直线=x+的斜率和截距的最小二乘估计分别为==eq \f(\o(∑,\s\up6(n),\s\do4(i=1))xiyi-n\a\vs4\al(\o(x,\s\up6(-)) ) \a\vs4\al(\o(y,\s\up6(-)) ),\o(∑,\s\up6(n),\s\do4(i=1))x-n\o(x,\s\up6(-))2),=-.
角度2 非线性回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 (wi-)2 (xi-)·(yi-) (wi-)·(yi-)
46.6 563 6.8 289.8 1.6 1 469 108.8
(1)根据散点图判断y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.
根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:
=,=- .
训练1 下图是某地区2005年至2021年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2023年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2005年至2021年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2015年至2021年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2023年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
 考点三 独立性检验
例3 甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验分析甲机床的产品质量与乙机床的产品质量有差异.
附:χ2=,
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
训练2 某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次空气质量等级      [0,200] (200,400] (400,600]
1(优) 2 16 25
2(良) 5 10 12
3(轻度污染) 6 7 8
4(中度污染) 7 2 0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,能否在犯错误的概率不超过0.05的前提下,认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400 人次>400
空气质量好
空气质量不好
附:χ2=,
基础夯实
1.观察下列各图,其中两个分类变量x,y之间关系最强的是(  )
2.下列关于独立性检验的说法正确的是(  )
A.独立性检验是对两个变量是否具有线性相关关系的一种检验
B.独立性检验可以100%确定两个变量之间是否具有某种关系
C.利用χ2独立性检验推断吸烟与患肺病的关联中,若有99%的把握认为吸烟与患肺病有关系时,则我们可以说在100个吸烟的人中,有99人患肺病
D.对于独立性检验,随机变量χ2的值越小,判定“两变量有关系”犯错误的概率越大
3.某公司在2015~2019年的收入与支出情况如下表所示:
收入x(亿元) 2.2 2.6 4.0 5.3 5.9
支出y(亿元) 0.2 1.5 2.0 2.5 3.8
根据表中数据可得经验回归方程为=0.8x+a,依此估计该公司收入为8亿元时的支出为(  )
A.4.2亿元 B.4.4亿元
C.5.2亿元 D.5.4亿元
4.已知某地的财政收入x与支出y满足经验回归方程=x++e(单位:亿元),其中=0.8,=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,那么支出预计不会超过(  )
A.9亿元 B.10亿元
C.9.5亿元 D.10.5亿元
5.为了考察某种中成药预防流感的效果,抽样调查40人,得到如下数据:
药物 流感
患流感 未患流感
服用 2 18
未服用 8 12
下表是χ2独立性检验中几个常用的小概率值和相应的临界值:
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
根据表中数据,计算χ2=,若由此认为“该药物预防流感有效果”,则该结论出错的概率不超过(  )
A.0.05 B.0.1 C.0.01 D.0.005
6.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是(  )
营养品 身高 合计
有明显增长 无明显增长
食用 a 10 50
未食用 b 30 50
合计 60 40 100
参考公式:χ2=,其中n=a+b+c+d.
参考数据:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.a=b=30
B.χ2≈12.667
C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是
D.根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响
7.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是(  )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
8.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得样本相关系数r与残差平方和m,如下表:
甲 乙 丙 丁
r 0.82 0.78 0.69 0.85
m 106 115 124 103
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?
A.甲 B.乙 C.丙 D.丁
9.下列有关线性回归的说法,不正确的是(  )
A.具有相关关系的两个变量不是因果关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.任一组数据都有经验回归方程
10.对于样本相关系数,下列说法错误的是(  )
A.样本相关系数可以用来判断成对样本数据相关的正负性
B.样本相关系数可以是正的,也可以是负的
C.样本相关系数r∈[-1,1]
D.样本相关系数越大,成对样本数据的线性相关程度也越强
11.色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得数据列于表中:已知该产品的色度y和色差x之间满足线性相关关系,且=0.8x+,现有一对测量数据为(30,23.6),则该数据的残差为(  )
色差x 21 23 25 27
色度y 15 18 19 20
A.-0.96 B.-0.8 C.0.8 D.0.96
12.(多选)为考察一种新型药物预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的2×2列联表中,由列联表中的数据计算得χ2≈9.616.参照附表,下列结论正确的是(  )
附表:
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.根据小概率值α=0.001的独立性检验,分析认为“药物有效”
B.根据小概率值α=0.001的独立性检验,分析认为“药物无效”
C.根据小概率值α=0.005的独立性检验,分析认为“药物有效”
D.根据小概率值α=0.005的独立性检验,分析认为“药物无效”
13.(多选)根据分类变量x与y的观察数据,计算得到χ2=2.974,依据表中给出的χ2独立性检验中的小概率值和相应的临界值,作出下列判断,正确的是(  )
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.根据小概率值α=0.05的独立性检验,分析变量x与y相互独立
B.根据小概率值α=0.05的独立性检验,分析变量x与y不相互独立
C.变量x与y相互独立,这个结论犯错误的概率不超过0.1
D.变量x与y不相互独立,这个结论犯错误的概率不超过0.1
14.(多选)某工厂研究某种产品的产量x(单位:吨)与所需某种材料y(单位:吨)之间的相关关系,在生产过程中收集4组数据如表所示.根据表中数据可得经验回归方程为=0.7x+,则下列四个说法中正确的为(  )
x 3 4 6 7
y 2.5 3 4 5.9
A.变量x与y正相关
B.y与x的样本相关系数r<0
C.=0.35
D.当产量为8吨时,预测所需材料约为5.95吨
15.(多选)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的平均值为176 cm,根据这10名志愿者的数据求得臂展u关于身高v的经验回归方程为=1.2v-34,则下列结论正确的是(  )
A.这10名志愿者身高的极差小于臂展的极差
B.这10名志愿者的身高和臂展呈负相关
C.这10名志愿者臂展的平均值为176.2 cm
D.根据经验回归方程可估计身高为160 cm的人的臂展为158 cm
16.(多选)已知变量x,y之间的线性经验回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是(  )
x 6 8 10 12
y 6 m 3 2
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,=-3.7
C.m=4
D.该经验回归直线必过点(9,4)
17.(多选)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算χ2≈4.762,则可以推断出(  )
满意 不满意
男 30 20
女 40 10
α 0.100 0.050 0.010
xα 2.706 3.841 6.635
A.该学校男生对食堂服务满意的概率的估计值为
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
18.已知具有相关关系的两个随机变量的一组观测数据的散点图分布在函数y=2e2x+1的图象附近,设z=ln y,将其变换后得到经验回归方程为z=mx+n,则mn=________.
19.某智能机器人的广告费用x(万元)与销售额y(万元)的统计数据如表所示:
广告费用x(万元) 2 3 5 6
销售额y(万元) 28 31 41 48
根据此表可得经验回归方程为=5x+,据此模型预测广告费用为8万元时销售额为________万元.
20.已知x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的决定系数为R,用=x+拟合时的决定系数为R,则R,R中较大的是________.
21.某市物价部门对本市的5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元/件)和销售量y(件)的数据如下表所示:
售价x 9 9.5 m 10.5 11
销售量y 11 n 8 6 5
由散点图可知,销售量y与售价x之间有较强的线性相关关系,其经验回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
22.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得χ2≈3.918,经查临界值表知x0.05=3.841.则下列结论中,正确结论的序号是________.
①认为“这种血清能起到预防感冒的作用”犯错误的概率不超过0.05;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
23.如表是对于“喜欢运动”与性别是否有关的2×2列联表,依据表中的数据,得到χ2≈________(结果保留到小数点后3位).
喜欢运动 不喜欢运动 合计
男 40 28 68
女 5 12 17
合计 45 40 85
24.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示:
注意力稳定 注意力不稳定
男生 29 7
女生 33 5
则χ2=________(精确到小数点后三位),依据概率值α=0.05的独立性检验,该实验________该年龄段的学生在注意力的稳定性上对于性别没有显著差异(填拒绝或支持).
25.某城市地铁将于2023年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单位:百元) [15,25) [25,35) [35,45) [45,55) [55,65) [65,75]
赞成定价者人数 1 2 3 5 3 4
认为价格偏高者人数 4 8 12 5 2 1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,依据小概率值α=0.01的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”.
对地铁定价的态度 人均月收入
不低于55百元的人数 低于55百元的人数 合计
认为价格偏高者
赞成定价者
合计
附:χ2=,其中n=a+b+c+d.
参考数据:
α 0.1 0.05 0.01 0.005
xα 2.706 3.841 6.635 7.879
26.某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数r=
,≈1.414.
27.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得x=0.038,y=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数r==,≈1.377.
28.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品 二级品 合计
甲机床 150 50 200
乙机床 120 80 200
合计 270 130 400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验能否认为甲机床的产品质量与乙机床的产品质量有差异?
附:χ2=,n=a+b+c+d.
α 0.05 0.01 0.001
xα 3.841 6.635 10.828
29.某花圃为提高某品种花苗质量,开展技术创新活动,A,B在实验地分别用甲、乙方法培育该品种花苗.为观测其生长情况,分别在实验地随机抽取各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.
(1)求图中a的值,并求综合评分的中位数;
(2)填写下面的2×2列联表,并根据小概率值α=0.01的独立性检验,分析优质花苗与培育方法是否有关,请说明理由.
优质花苗 非优质花苗 合计
甲培育法 20
乙培育法 10
合计
附:χ2=,其中n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
优化提升
30.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是(  )
A.若χ2=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
31.在某病毒疫苗的研发过程中,需要利用基因编辑小鼠进行动物实验.现随机抽取100只基因编辑小鼠对该病毒疫苗进行实验,得到如下2×2列联表(部分数据缺失):
被某病毒感染 未被某病毒感染 合计
注射疫苗 10 50
未注射疫苗 30 50
合计 30 100
计算可知,根据小概率值α=________的独立性检验,分析 “给基因编辑小鼠注射该种疫苗能起到预防该病毒感染的效果”(  )
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
A.0.001 B.0.05
C.0.01 D.0.005
32.(多选)有两个分类变量X,Y,其列联表如表所示.
X Y 合计
Y1 Y2
X1 a 20-a 20
X2 15-a 30+a 45
合计 15 50 65
其中a,15-a均为大于5的整数,若依据α=0.05的独立性检验可以认为X与Y有关,则a的可能取值为(  )
A.6 B.7 C.8 D.9
33.(多选)在一次恶劣天气的飞行航程中,调查男、女乘客在飞机上晕机的情况,得到如下列联表:(单位:人),则(  )
性别 晕机 合计
晕机者 未晕机者
男 a 15 c
女 6 b d
合计 e 28 46
A.<
B.χ2<2.706
C.依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别有关
D.依据小概率值α=0.1的独立性检验,可以认为在恶劣天气的飞行航程中,是否晕机与性别无关
34.(多选)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经验回归方程为=6x2+,则下列说法正确的是(  )
周数(x) 1 2 3 4 5
治愈人数(y) 2 17 36 93 142
A.=4
B.=-8
C.此回归模型第4周的残差为5
D.估计第6周治愈人数为220
35.(多选)已知由样本数据(xi,yi)(i=1,2,3,…,10)组成的一个样本,得到经验回归方程为=2x-0.4,且=2,去除两个歧义点(-2,1)和(2,-1)后,得到新的经验回归直线的斜率为3.则下列说法正确的是(  )
A.相关变量x,y具有正相关关系
B.去除两个歧义点后,新样本中变量xj(j=1,2,…,8)的平均值变大
C.去除两个歧义点后的经验回归方程为1=3x-3
D.去除两个歧义点后,样本数据(4,8.9)的残差为0.1
36.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
药物 疾病 合计
未患病 患病
服用 a 50-a 50
未服用 80-a a-30 50
合计 80 20 100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为________.(其中a≥40且a∈N*)(参考数据:≈2.58,≈3.29)
附:χ2=,n=a+b+c+d.
α 0.1 0.05 0.01 0.005 0.001
xα 2.706 3.841 6.635 7.879 10.828
37.2020年,全球开展了某疫苗研发竞赛,我国处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10 000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2 500人,分成5组,各组感染人数如下:
调查人数x 300 400 500 600 700
感染人数y 3 3 6 6 7
并求得y与x的经验回归方程为=0.011x+,同期,在人数为10 000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为N;注射疫苗后仍被感染的人数记为n,则估计该疫苗的有效率为________.(疫苗的有效率为1-,结果保留3位有效数字)
38.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
39.《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:
科技投入x 1 2 3 4 5 6 7
收益y 19 20 22 31 40 50 70
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:
x xiyi xizi (yi-)2 (yi-)2
5 140 1 239 149 2 134 130
其中zi=log2 yi,=zi.
(1)请根据表中数据,建立y关于x的回归方程(系数精确到0.1);
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得回归方程为=8.25x+3,以及该回归模型的决定系数(即相关指数)R=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程=u+的斜率和截距的最小二乘法估计分别为==eq \f(\o(∑,\s\up16(n),\s\do14(i=1))uivi-n\o(u,\s\up6(-)) \o(v,\s\up6(-)),\o(∑,\s\up16(n),\s\do14(i=1))u-n\o(u,\s\up6(-))2),=-,决定系数:R2=1-.
参考数据:log2 5≈2.3.
参考答案:
基础摸查
【习题导入】
1.D 2.D 3.A
4.C 5.A 6.0.01
【题型展示】
 考点一 成对数据的相关性
1.A
2.D
3.A
4.A
 考点二 回归分析
角度1 线性回归分析
例1解 (1)==5,
==5.
(xi-)(yi-)=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
(xi-)2=(-3)2+(-1)2+02+12+32=20,
(yi-)2=(-2)2+(-1)2+02+12+22=10.
==>0.75,
∴可用线性回归模型拟合y与x的关系.
(2)===0.7,
则=-=5-0.7×5=1.5,
∴=0.7x+1.5.
当x=12时,=0.7×12+1.5=9.9,
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
角度2 非线性回归分析
例2 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2×(100.6+68)-x
=-x+13.6+20.12.
所以当==6.8,即x=46.24时,
取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
训练1
解 (1)利用模型①,该地区2023年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2023年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2005年至2021年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2005年至2021年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2015年相对2014年的环境基础设施投资额有明显增加,2015年至2021年的数据对应的点位于一条直线的附近,这说明从2015年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2015年至2021年的数据建立的线性模型=99+17.5t可以较好地描述2015年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2021年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
 考点三 独立性检验
例3
解 (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)需假设H0为:甲机床的产品质量与乙机床的产品质量无差异.
根据题表中的数据可得
χ2==≈10.256>6.635=x0.01.
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
此推断犯错误的概率不大于0.01.
训练2
解 (1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级 1 2 3 4
概率的估计值 0.43 0.27 0.21 0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400 人次>400
空气质量好 33 37
空气质量不好 22 8
零假设为H0:
一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据列联表得
χ2=≈5.820>3.841=xα.
根据小概率值α=0.050的χ2独立性检验,可推断H0不成立,所以在犯错误的概率不超过0.05的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
基础夯实
1.D 
2.D 
3.C
4.D
5.A 
6.D
7.B
8.D
9.D 
10.D 
11.C
12.BC 
13.AD 
14.ACD
15.AD 
16.ABD
17.AC
18.2ln 2+2
19.57 
20.R
21.10
22.①
23.4.722
24.0.538 支持
25.解 (1)“赞成定价者”的月平均收入为x1=
≈50.56.
“认为价格偏高者”的月平均收入为x2=
=38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
对地铁定价的态度 人均月收入 合计
不低于55百元的人数 低于55百元的人数
认为价格偏高者 3 29 32
赞成定价者 7 11 18
合计 10 40 50
零假设为H0:月收入以55百元为分界点对地铁定价的态度无差异.
χ2=≈6.27<6.635=x0.01,
∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为“月收入以55百元为分界点对地铁定价的态度没有差异”.
26.解 (1)由已知得样本平均数为=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数为
r=
==≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
27.解 (1)样本中10棵这种树木的根部横截面积的平均值
==0.06(m2),
样本中10棵这种树木的材积量的平均值==0.39(m3),
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)r=
=≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
可得=,解得Y=1 209.
则该林区这种树木的总材积量的估计值为1 209 m3.
28.解 (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异,
根据题表中的数据可得
χ2=
=≈10.256>6.635=x0.01,
所以依据小概率值α=0.01的独立性检验,推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
29.解 (1)由直方图的性质可知,0.005×10+0.010×10+0.025×10+10a+0.020×10=1,
解得a=0.040,
因为(0.02+0.04)×10=0.6>0.5,所以中位数位于[80,90)内,
设中位数为x,则有0.020×10+0.040×(90-x)=0.5,
解得x=82.5.
故综合评分的中位数为82.5.
(2)由(1)得优质花苗的频率为0.6,
所以样本中优质花苗的数量为60,
得如下列联表:
优质花苗 非优质花苗 合计
甲培育法 20 30 50
乙培育法 40 10 50
合计 60 40 100
零假设为H0:优质花苗与培育方法无关,
χ2=
≈16.667>6.635=x0.01,
所以根据小概率值α=0.01的独立性检验,推断H0不成立,即认为优质花苗与培育方法有关.
优化提升
30.C
31.B
32.CD
33.BD
34.BC
35.ABC
36.46
37.0.818
38.
39.解 (1)将y=2bx+a两边取对数得log2 y=bx+a,令z=log2 y,则=x+,
∵=4,∴根据最小二乘估计可知
=≈0.3,
∴=-=5-0.3×4=3.8,
∴回归方程为=0.3x+3.8,即=20.3x+3.8.
(2)①甲建立的回归模型:R=1-≈0.939>R=0.893.
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
设20.3x+3.8≥100,解得0.3x+3.8≥log2 100=2+2log2 5,解得x≥9.3.
∴科技投入的费用至少要9.3百万元,下一年的收益才能达到1亿.第9部分第1节《随机抽样与统计图表》-2025届高考一轮复习-基础摸查+基础夯实+优化提升
基础摸查
【习题导入】
1.从某市参加升学考试的学生中随机抽查1 000名学生的数学成绩进行统计分析,在这个问题中,下列说法错误的是(  )
A.总体指的是该市参加升学考试的全体学生
B.样本是指1 000名学生
C.样本量指的是1 000名学生
D.个体指的是该市参加升学考试的每一名学生
2.已知某一段公路限速70千米/时,现抽取400辆通过这一段公路的汽车的速度,其频率分布直方图如图所示,则这400辆汽车中在该路段超速的有________辆.
3.为了了解我国某品牌手机的销售情况,小张在某网站上下载了如图所示的统计图.
小张是通过________获取数据.
【知识归纳】
1.总体、个体、样本
调查对象的全体(或调查对象的某些指标的全体)称为 ,组成总体的每一个调查对象(或每一个调查对象的相应指标)称为 ,在抽样调查中,从总体中抽取的那部分个体称为 ,样本中包含的个体数称为 ,简称样本量.
2.简单随机抽样
________和 是比较常用的两种方法.
3.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为 ,每一个子总体称为 .
4.统计图表
(1)常见的统计图表有 、 、 、 等.
(2)作频率分布直方图的步骤
①求 ;
②决定 与 ;
③将 分组;
④列频率分布表;
⑤画频率分布直方图.
常用结论:
1.利用比例分配的分层随机抽样要注意按比例抽取,若各层应抽取的个体数不都是整数,可以进行一定的技术处理,比如将结果取成整数等.
2.在比例分配的分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层和第2层的样本平均数分别为,,样本平均数为,则=+=+.
3.频率分布直方图中纵轴上的数据是各组的频率除以组距,不要和条形图混淆.
【题型展示】
题型一 抽样方法
例1 (1)某社区为迎接中秋节,组织了隆重的庆祝活动,为全面了解社区居民的文娱喜好,已知参加活动的老年人、中年人、青年人的人数比为10∶13∶12,如果采用比例分配的分层随机抽样方法从所有人中抽取一个70人的样本进行调查,则应抽取的青年人的人数为(  )
A.20 B.22 C.24 D.26
(2)总体由编号01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从第1行的第6列和第7列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为(  )
第1行 78  16  62  32  08  02  62
42  62  52  53  69  97  28
01  98
第2行 32  04  92  34  49  35  82 
00  36  23  48  69  69  38
74  81
A.19 B.25 C.26 D.27
跟踪训练1 (1)假设要考查某公司生产的500 g袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数法抽取样本时,先将800袋牛奶按000,001,…,799进行编号,若从随机数表第7行第8列的数开始向右读,则得到的第4个个体的编号是________.
(下面摘取了随机数表第7行到第9行)
84421753315724550688770474476721763350258392120676
63016378591695566719981050717512867358074439523879
33211234297864560782524207443815510013429966027954
(2)2022年北京冬奥会吉祥物“冰墩墩”设计造型可爱,市场供不应求,某厂的三个车间在一个小时共生产450个冰墩墩,在出厂前要检查这批冰墩墩的质量,决定采用比例分配的分层随机抽样方法进行抽取,若从一、二、三车间中抽取的冰墩墩数量分别为a,b,c且a,b,c构成等差数列,则第二车间生产的冰墩墩的个数为(  )
A.200 B.300 C.120 D.150
题型二 统计图表
例2 (1)(多选)我国人口老龄化加剧,出现劳动人口不断减少,生育率降低等问题.为了缓解人口压力,我国陆续开放二胎、三胎政策.为了解户籍和性别对生育多胎(二胎或三胎)选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人.绘制不同群体中倾向选择生育多胎与倾向选择不生育多胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育多胎的对应比例,则下列叙述中正确的是(  )
A.是否倾向选择生育多胎与户籍有关
B.是否倾向选择生育多胎与性别有关
C.倾向选择生育多胎的人员中,男性人数与女性人数相同
D.倾向选择不生育多胎的人员中,农村户籍人数少于城镇户籍人数
(2)(多选)新式茶饮是指以上等茶叶通过萃取浓缩液,再根据消费者偏好,添加牛奶、坚果、柠檬等小料调制而成的饮料.如图为2022年我国消费者购买新式茶饮的频次扇形图及月均消费新式茶饮金额的条形图.
根据所给统计图,下列结论中正确的是(  )
A.每周都消费新式茶饮的消费者占比不到90%
B.每天都消费新式茶饮的消费者占比超过20%
C.月均消费新式茶饮50~200元的消费者占比超过50%
D.月均消费新式茶饮超过100元的消费者占比超过60%
跟踪训练2 (1)(多选)某中学组织三个年级的学生进行禁毒知识竞赛.经统计,得到成绩排在前200名学生分布的扇形图(图1)和其中的高一学生排名分布的频率条形图(图2).则下列命题正确的是(  )
A.成绩排在前200名的200人中,高二人数比高三人数多10
B.成绩排在第1~50名的50人中,高一人数比高二的多
C.成绩排在第51~150名的100人中,高三人数占比可能超过
D.成绩排在第51~100名的50人中,高二人数肯定多于23
(2)已知全国农产品批发价格200指数月度变化情况如图所示,下列选项正确的是(  )
A.全国农产品夏季价格比冬季低
B.全国农产品批发价格200指数2022年每个月逐渐增加
C.2022年“菜篮子”产品批发价格指数与农产品批发价格200指数趋势基本保持一致
D.2022年6月农产品批发价格200指数大于126
题型三 频率分布直方图
例3 下面是北方某城市2022年1~2月的日平均气温(单位:℃)的记录数据:
-3 2  -4 -7 -11 -1 7  8  9 -6
-14 -18 -15 -9 -6 -1 0 5 -4 -9
-6 -8 -12 -16 -19 -15 -22 -25 -24 -19
-8 -6 -15 -11 -12 -19 -25 -24 -18 -17
-14 -22 -13 -9 -6 0 -1 5 -4 -9
-3 2 -4 -4 -1 7 5 -6 -5
(1)将数据适当分组,并画出相应的频率分布直方图;
(2)试估计该城市2022年1~2月的日平均气温在0℃以下的天数所占的百分比.
跟踪训练3 某校为了解学生学习的效果,进行了一次摸底考试,从中选取60名学生的成绩,分成[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组后,得到不完整的频率分布直方图如图所示,观察图形,回答下列问题:
(1)求分数在区间[70,80)内的频率,并补全这个频率分布直方图;
(2)根据评奖规则,排名在前10%的学生可以获奖,请你估计获奖的学生至少需要多少分?
基础夯实
1.下列情况中,适合用全面调查的是(  )
A.检查某人血液中的血脂含量
B.调查某地区的空气质量状况
C.乘客上飞机前的安检
D.调查某市市民对垃圾分类处理的意识
2.从某班50名同学中选出5人参加户外活动,利用随机数表法抽取样本时,先将50名同学按01,02,…,50进行编号,然后从随机数表的第1行第5列和第6列数字开始从左往右依次选取两个数字,则选出的第5个个体的编号为(  )
注:表为随机数表的第1行与第2行
0347 4373 8636 9647 3661 4698 6371 6297
7424 6792 4281 1457 2042 5332 3732 1676
A.24 B.36 C.46 D.47
3.某中学400名教师的年龄分布情况如图,现要从中抽取40名教师作样本,若用分层随机抽样方法,则40岁以下年龄段应抽取(  )
A.40人 B.200人 C.20人 D.10人
4.在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是(  )
A.15 B.18 C.20 D.25
5.某学校于3月12日组织师生举行植树活动,购买垂柳、银杏、侧柏、海桐四种树苗共计1 200棵,所占比例如图所示.高一、高二、高三报名参加植树活动的人数分别为600,400,200,若每种树苗均按各年级报名人数的比例进行分配,则高三年级应分得的侧柏的棵数为(  )
A.34 B.46 C.50 D.70
6.要完成下列两项调查:(1)某社区有100户高收入家庭,210户中等收入家庭,90户低收入家庭,从中抽取100户调查购买力的某项指标;(2)从某中学高二年级的10名体育特长生中抽取3人调查学习负担情况.应采取的抽样方法是(  )
A.(1)(2)都用简单随机抽样法
B.(1)用分层随机抽样法,(2)用简单随机抽样法
C.(1)用简单随机抽样法,(2)用分层随机抽样法
D.(1)(2)都用分层随机抽样法
7.下列调查方式合适的是(  )
A.为了了解一批炮弹的杀伤半径,采用普查的方式
B.为了了解一批玉米种子的发芽率,采用普查的方式
C.为了了解一条河流的水质,采用抽样调查的方式
D.为了了解一个寝室的学生(共5个人)每周体育锻炼的时间,采用抽样调查的方式
8.某工厂为了对40个零件进行抽样调查,将其编号为00,01,…,38,39.现要从中选出5个,利用下面的随机数表,从第一行第3列开始,由左至右依次读取,则选出来的第5个零件编号是(  )
0347 4373 8636 9647 3661 4698 6371 6233 2616 8045 6011 1410
A.36 B.16 C.11 D.14
9.从某中学随机抽取100名学生,将他们的身高数据(单位:cm)绘制成频率分布直方图,如图所示.若要从身高在[150,160),[160,170),[170,180]三组内的学生中,用比例分配的分层随机抽样方法选取16人参加一次活动.则从身高在[170,180]内的学生中选取的人数为(  )
A.3 B.4 C.5 D.7
10.(多选)某中学高一年级有20个班,每班50人;高二年级有30个班,每班45人.甲就读于高一,乙就读于高二.学校计划从这两个年级中共抽取235人进行视力调查,下列说法中正确的有(  )
A.应该采用分层随机抽样法
B.高一、高二年级应分别抽取100人和135人
C.乙被抽到的可能性比甲大
D.该问题中的总体是高一、高二年级的全体学生的视力
11.(多选)港珠澳大桥是中国境内一座连接中国香港、广东珠海和中国澳门的桥隧工程,因其超大的建筑规模、空前的施工难度以及顶尖的建造技术闻名世界,为内地前往香港的游客提供了便捷的交通途径,某旅行社分年龄统计了大桥落地以后,由香港大桥实现内地前往香港的老中青旅客的比例分别为5∶2∶3,现使用分层随机抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,则(  )
A.老年旅客抽到100人
B.中年旅客抽到20人
C.n=200
D.被抽到的老年旅客以及中年旅客人数之和超过200人
12.(多选)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是(  )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数增量大于复工指数的增量
C.第3天至第11天复工复产指数均增大都超过80%
D.第9天至第11天复产指数增量大于复工指数的增量
13.(多选)某学校为了调查学生在一周生活方面的支出情况,抽出了一个样本量为n的样本,其频率分布直方图如图所示,其中支出在[50,60)元的学生有60人,则下列说法正确的是(  )
A.样本中支出在[50,60)元的频率为0.03
B.样本中支出不少于40元的人数为132
C.n的值为200
D.若该校有2 000名学生,则一定有600人的支出在[50,60)元
14.(多选)某大学通过专业化、精细化、信息化和国际化的就业指导工作,引导学生把个人职业生涯发展同国家社会需要紧密结合,鼓励学生到祖国最需要的地方建功立业.2022年该校毕业生中,有本科生2 971人,硕士生2 527人,博士生1 467人,毕业生总体充分实现就业,就业地域分布更趋均匀合理,实现毕业生就业率保持高位和就业质量稳步提升.如图,下列说法正确的是(  )
A.博士生有超过一半的毕业生选择在北京就业
B.毕业生总人数超半数选择在北京以外的单位就业
C.到四川省就业的硕士毕业生人数比到该省就业的博士毕业生人数多
D.到浙江省就业的毕业生人数占毕业生总人数的12.8%
15.从一群玩游戏的小孩中随机抽出k人,一人分一个苹果,让他们返回继续游戏.过了一会儿,再从中任取m人,发现其中有n个小孩曾分过苹果,估计参加游戏的小孩的人数为________.
16.为了解学生“阳光体育”活动的情况,随机统计了n名学生的“阳光体育”活动时间(单位:分钟),所得数据都在区间[10,110]内,其频率分布直方图如图所示.已知活动时间在[10,35)内的频数为80,则n的值为________.
17.某班的数学老师要对该班一模考试的数学成绩进行分析,利用随机数法抽取样本时,先将该班70名同学按00,01,02,…,69进行编号,然后从随机数表第9行第9列的数开始向右读,则选出的10个样本中第8个样本的编号是________.
注:以下是随机数表的第8行和第9行
第8行:
63  01  63  78  59  16  95  55  67  19  98
10  50  71  75  12  86  73  58  07  44  39
52  38  79
第9行:
33  21  12  34  29  78  64  56  07  82  52
42  07  44  38  15  51  00  13  42  99  66
02  79  54
18.一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如表(单位:辆):
轿车A 轿车B 轿车C
舒适型 100 150 z
标准型 300 450 600
按类型用分层随机抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆,则z的值为________.
19.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形面积等于其他8个小长方形的面积和的,且样本容量为140,则中间一组的频数为________.
20.某汽车研究院现有300名研究员,他们的学历情况如图所示,该研究院今年计划招聘一批新研究员,并决定不再招聘本科生,且使得招聘后本科生的比例下降到15%,硕士生的比例不变,则该研究院今年计划招聘的硕士生人数为________.
21.某手机店根据手机销售的相关数据绘制了两幅统计图.来自该店财务部的数据报告表明,该手机店 1~4 月的手机销售总额是290万元.请根据图1、图2解答下列问题:
图1
图2
(1)该手机店3月份的销售额为多少万元?
(2)该店1月份音乐手机的销售额为多少万元?
(3)小刚观察图2后,认为四月份音乐手机的销售额比3月份减少了,你同意他的看法吗?请说明理由.
22.为了了解某工厂生产的产品情况,从该工厂生产的产品中随机抽取了一个容量为200的样本,测量它们的尺寸(单位:mm),并将数据分为[92,94),[94,96),[96,98),[98,100),[100,102),[102,104),[104,106]七组,其频率分布直方图如图所示.
(1)求图中的x值;
(2)根据频率分布直方图,求200件样本中尺寸在[98,100)内的样本数;
(3)记产品尺寸在[98,102)内为A等品,每件可获利5元;产品尺寸在[92,94)内为不合格品,每件亏损2元;其余为合格品,每件可获利3元.若该工厂一个月共生产3 000件产品.以样本的频率代替总体在各组的频率,若单月利润未能达到11 000元,则需要对该工厂设备实施升级改造.试判断是否需要对该工厂设备实施升级改造.
优化提升
23.工业生产者出厂价格指数(PPI)是反映工业企业产品第一次出售时的出厂价格的变化趋势和变动幅度.根据下面提供的我国2020年1月-2021年12月的工业生产者出厂价格指数的月度同比(将上一年同月作为基期进行对比的价格指数)和月度环比(将上月作为基期进行对比的价格指数)涨跌情况的折线图判断,以下结论中正确的是(  )
A.2020年各月的PPI在逐月增大
B.2020年各月的PPI均高于2019年同期水平
C.2021年1月~12月各月的PPI在逐月减小
D.2021年1月~12月各月的PPI均高于2020年同期水平
24.为了研究人们生活健康情况,某市随机选取年龄在15~75岁之间的1 000人进行调查,得到频率分布直方图如图所示,其中=,利用比例分配的分层随机抽样方法从年龄在[15,25),[25,35),[35,45),[45,55),[55,65),[65,75]之间共选取20名市民书写生活健康的报告,其中选取年龄在[35,45)内的市民人数为(  )
A.2 B.3 C.4 D.7
25.(多选)2022年举办的北京冬奥会促进了我国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领户外用品行业市场进一步增长.下面是2015年至2021年中国雪场滑雪人次(单位:万人次)与同比增长率的统计图,则下面结论中正确的是(  )
A.2015年至2021年,中国雪场滑雪人次逐年增加
B.2016年至2018年,中国雪场滑雪人次和同比增长率均逐年增加
C.2021年与2016年相比,中国雪场滑雪人次的同比增长率近似相等,所以同比增长人数也近似相等
D.2021年与2019年相比,中国雪场滑雪人次增长率约为30.5%
26.(多选)去年7月,有关部门出台在疫情防控常态化条件下推进电影院恢复开放的通知,规定低风险地区在电影院各项防控措施有效落实到位的前提下,可有序恢复开放营业.一批影院恢复开放后,统计影院连续14天的相关数据得到如下的统计图表.其中,编号为1的日期是周一,票房指影院门票销售金额,观影人次相当于门票销售数量.
由统计图表可以看出,连续14天内(  )
A.周末日均的票房和观影人次高于非周末
B.影院票房,第二周相对于第一周同期趋于上升
C.观影人次,在第一周的统计中逐日增长量大致相同
D.每天的平均单场门票价格都高于20元
27.某工厂的三个车间在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层随机抽样的方法进行抽取,若从第一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为________.
28.为了了解全区科级干部“党风廉政知识”的学习情况,按照分层随机抽样的方法,从全区320名正科级干部和1 280名副科级干部中抽取40名科级干部预测全区科级干部“党风廉政知识”的学习情况.现将这40名科级干部分为正科级干部组和副科级干部组,利用同一份试卷分别进行预测.经过预测后,两组各自将预测成绩统计分析如下表:
分组 人数 平均成绩
正科级干部组 a 80
副科级干部组 b 70
(1)则a=________,b=________.
(2)这40名科级干部预测成绩的平均分=________.
29.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小长方形的高为________;
(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为________.
30.某地各项事业取得令人瞩目的成就,以2022年为例,社会固定资产总投资约为3 730亿元,其中包括中央项目、省属项目、地(市)属项目、县(市)属项目和其他项目.图1、图2分别是这五个项目的投资额不完整的条形图和扇形图,请完成下列问题.
(1)地(市)属项目投资额为________亿元;
(2)在图2中,县(市)属项目部分所占百分比为m%,对应的圆心角为β,则m=________,β=________度(m,β均取整数).
参考答案:
基础摸查
【习题导入】
1.C 2.80 3.查询
【知识归纳】
1.总体 个体 样本 样本容量
2.抽签法 随机数法
3.分层随机抽样 层
4.(1)条形图 扇形图 折线图
频率分布直方图 (2)①极差
②组距 组数 ③数据
【题型展示】
例1 (1)C
(2)B
跟踪训练1 (1)068
(2)D
例2 (1)AD
(2)BC
跟踪训练2 (1)AC
(2)C
例3 解 (1)经过统计可得频率分布表如下.
分组 频数 频率
[-25,-20) 6 0.020
[-20,-15) 7 0.024
[-15,-10) 10 0.034
[-10,-5) 13 0.044
[-5,0) 12 0.041
[0,5) 4 0.013
[5,10] 7 0.024
合计 59 1 0.2
频率分布直方图为
(2)该城市2022年1~2月的日平均气温在0℃以下的天数为48,2022年1~2月共有59天,
所以该城市2022年1~2月的日平均气温在0℃以下的天数所占的百分比为×100%≈81%.
跟踪训练3 解 (1)设分数在[70,80)内的频率为x,
根据频率分布直方图,可得(0.01+0.015+0.02+0.025+0.005)×10+x=1,
解得x=0.25,所以分数在[70,80)内的频率为0.25,
补全这个频率分布直方图,如图所示.
(2)因为分数在区间[80,90)内的频率为0.25,在区间[90,100]内的频率为0.05,
而0.05<10%<0.25+0.05,
所以设排名前10%的分界点为90-a,则0.025a+0.005×10=10%,解得a=2,
所以排名前10%的分界点为88分,即获奖的学生至少需要88分.
基础夯实
1.C 
2.A
3.C
4.A
5.C
6.B
7.C 
8.C 
9.B 
10.ABD
11.AC
12.CD
13.BC
14.ABC
15.
16.800
17.38
18.400
19.40 
20.40
21.解 (1)由已知及图1得,3月份手机销售额为
290-(85+80+65)=60(万元).
(2)由图1及图2得,1月份音乐手机销售额为85×23%=19.55(万元).
(3)不同意.由图1及图2知,3月份音乐手机销售额为
60×18%=10.8(万元),
4月份音乐手机销售额为
65×17%=11.05(万元),
11.05>10.8,所以4月份音乐手机销售额比3月份音乐手机销售额增加了,所以不同意小刚的看法.
22.解 (1)由(0.02+0.04+0.06+0.07+0.09+0.10+x)×2=1,
解得x=0.12.
(2)200件样本中尺寸在[98,100)内的样本数为200×0.09×2=36.
(3)由题意可得,这批产品中优等品有3 000×(0.18+0.20)=1 140(件),
这批产品中不合格品有3 000×0.04=120(件),
这批产品中合格品有3 000-1 140-120=1 740(件),
1 140×5+1 740×3-120×2
=10 680(元).
所以该工厂生产的产品一个月所获得的利润为10 680元,
因为10 680<11 000,
所以需要对该工厂设备实施升级改造.
优化提升
23.D
24.D
25.ABD
26.AB
27.1 200
28.(1)8 32 (2)72
29.(1)0.04 (2)440
30.(1)830 (2)18 65第9部分第2节《用样本估计总体》-2025届高考一轮复习-基础摸查+基础夯实+优化提升
基础摸查
【习题导入】
1.若数据x1,x2,…,x9的方差为2,则数据2x1,2x2,…,2x9的方差为(  )
A.2 B.4 C.6 D.8
2.某射击运动员7次的训练成绩分别为86,88,90,89,88,87,85,则这7次成绩的第80百分位数为(  )
A.88.5 B.89 C.91 D.89.5
3.某校体育节10名旗手的身高(单位:cm)分别为175,178,176,180,179,175,176,179,180,179,则中位数为________.
【知识归纳】
1.总体百分位数的估计
(1)第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=,
s2=[(x1-)2+(x2-)2+…+(xn-)2].
常用结论:
1.频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)若数据x1,x2,…,xn的方差为s2,那么
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
【题型展示】
题型一 样本的数字特征和百分位数的估计
例1 (1)(多选)下面是某城市某日在不同观测点对细颗粒物(PM2.5)的观测值:
396 275 268 225 168 166 176 173 188 168 141 157
若在此组数据中增加一个比现有的最大值大25的数据,下列数字特征发生改变的是(  )
A.极差 B.中位数
C.众数 D.平均数
(2)从某中学抽取10名同学,他们的数学成绩如下:82,85,88,90,92,92,92,96,96,98(单位:分),则这10名同学数学成绩的众数、第25百分位数分别为(  )
A.92,85 B.92,88
C.95,88 D.96,85
延伸探究 本例中,第70百分位数是多少?
跟踪训练1 (1)(多选)冬季奥林匹克运动会,是世界规模最大的冬季综合性运动会.自1924年起,每四年举办一届.2022年2月在北京举办了第24届冬季奥林匹克运动会,为了宣传奥运精神,红星实验学校组织了甲、乙两个社团,利用一周的时间对外进行宣传,将每天宣传的次数绘制成如图所示的频数分布折线图,则(  )
A.甲社团宣传次数的众数小于乙社团宣传次数的众数
B.甲社团宣传次数的极差大于乙社团宣传次数的极差
C.甲社团宣传次数的平均数大于乙社团宣传次数的平均数
D.甲社团宣传次数的方差大于乙社团宣传次数的方差
(2)某中学高一年级8名学生某次考试的数学成绩(满分150分)分别为85,90,93,99,101,103,116,130,则这8名学生数学成绩的第75百分位数为(  )
A.102 B.103 C.109.5 D.116
题型二 总体集中趋势的估计
例2 治理沙漠化离不开优质的树苗,现从苗圃中随机地抽测了200株树苗的高度(单位:cm),得到如图所示的频率分布直方图.
(1)求直方图中a的值及众数、中位数;
(2)若树苗高度在185 cm及以上是可以移栽的合格树苗.从样本中用比例分配的分层随机抽样方法抽取20株树苗作进一步研究,不合格树苗、合格树苗分别应抽取多少株?
跟踪训练2 为了讴歌中华民族实现伟大复兴的奋斗历程,增进学生对中国共产党的热爱,某学校举办了一场党史竞赛活动,共有500名学生参加了此次竞赛活动.为了解本次竞赛活动的成绩,从中抽取了50名学生的成绩(成绩均为整数,满分为100分)进行统计,所有学生的成绩都不低于60分,将这50名学生的成绩(单位:分)进行分组,第一组[60,70),第二组[70,80),第三组[80,90),第四组[90,100],得到如图所示的频率分布直方图.
(1)求图中m的值,并估计此次竞赛活动学生成绩的中位数;
(2)根据频率分布直方图,估计此次竞赛活动成绩的平均数.若对成绩不低于平均数的同学进行奖励,请估计在参赛的500名学生中有多少名学生获奖.
题型三 总体离散程度的估计
例3 某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下.
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.
(1)求,,s,s;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果-≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
跟踪训练3 甲、乙两名学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲 82 81 79 78 95 88 93 84
乙 92 95 80 75 83 80 90 85
(1)求两位学生预赛成绩的平均数和方差;
(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.
基础夯实
1.为做好疫情防控工作,某校坚持落实“双测温两报告”制度,以下是某宿舍6名学生某日上午的体温记录:36.3,36.1,36.4,36.7,36.5,36.6(单位:℃),则该组数据的第80百分位数为(  )
A.36.7 B.36.6 C.36.5 D.36.4
2.已知一组数据x1,x2,x3,x4,x5的平均数为2,方差为,则另一组数据3x1-2,3x2-2,3x3-2,3x4-2,3x5-2的平均数、方差分别为(  )
A.2, B.2,1 C.4, D.4,
3.12名跳高运动员参加一项校际比赛,成绩分别为1.70,1.65,1.68,1.69,1.72,1.59,1.60,1.67,1.74,1.78,1.55,1.75(单位:m),则比赛成绩的75%分位数是(  )
A.1.72 B.1.73 C.1.74 D.1.75
4.某样本中共有5个数据,其中四个值分别为0,1,2,3,第五个值丢失,已知该样本的平均数为1,则样本方差为(  )
A.2 B. C. D.
5.甲组数据为:5,12,16,21,25,37,乙组数据为:1,6,14,18,38,39,则甲、乙的平均数、极差及中位数相同的是(  )
A.极差 B.平均数
C.中位数 D.都不相同
6.演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是(  )
A.中位数 B.平均数
C.方差 D.极差
7.根据气象学上的标准,连续5天的日平均气温低于10 ℃即为入冬,将连续5天的日平均温度的记录数据(记录数据都是自然数)作为一组样本,现有4组样本①,②,③,④,依次计算得到结果如下:
①平均数<4;
②平均数<4且极差小于或等于3;
③平均数<4且标准差s≤4;
④众数等于5且极差小于或等于4.
则4组样本中一定符合入冬指标的共有(  )
A.1组 B.2组 C.3组 D.4组
8.(多选)下表为2021年某煤炭公司1~10月份的煤炭生产量:
月份 1 2 3 4 5 6 7 8 9 10
产量(单位:万吨) 23 25 24 17.5 17.5 21 26 29 30 27
则下列结论正确的是(  )
A.极差为12.5万吨 B.平均数为24万吨
C.中位数为24万吨 D.众数为17.5万吨
9.(多选)某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论正确的是(  )
A.得分在[40,60)之间的共有40人
B.从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5
C.估计得分的众数为55
D.这100名参赛者得分的中位数为65
10.(多选)成立时间少于10年、估值超过10亿美元且未上市的企业称为独角兽企业.2022年中国新经济独角兽企业分布较广泛、覆盖居民生活的各个方面.如图为2022年中国新经济独角兽企业TOP100的行业分布图,在中国新经济独角兽企业TOP100榜单中,京、沪、粤三地的企业数量共同占比达到70%.下列说法正确的是(  )
A.随着智能出行与共享经济观念的普及,汽车交通行业备受投资者关注
B.在该TOP100榜单中独角兽企业数量的中位数是3
C.在中国新经济独角兽企业TOP100榜单中,京、沪、粤三地的企业超过82家
D.2022年中国新经济独角兽企业TOP100榜单中,企业服务、汽车交通、先进制造行业的企业数量共同占比超过30%
11.(多选)习近平总书记强调,要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一年级学生每周在校体育锻炼时长(单位:小时)进行了统计,得到如下频率分布表:
分组 [2,3) [3,4) [4,5) [5,6]
频率 0.25 0.30 0.20 0.25
则下列关于高一年级学生每周体育锻炼时长的说法中正确的是(  )
A.众数约为2.5
B.中位数约为3.83
C.平均数为3.95
D.第80百分位数约为5.2
12.(多选)第24届冬奥会于2022年2月4日在国家体育场鸟巢举行了盛大开幕式.在冬奥会的志愿者选拔工作中,某高校承办了面试工作,面试成绩满分100分,现随机抽取了80名候选者的面试成绩并分为五组,绘制成如图所示的频率分布直方图,则下列说法正确的是(每组数据以区间的中点值为代表)(  )
A.b的值为0.25
B.候选者面试成绩的中位数约为69.4
C.在被抽取的候选者中,成绩在区间[65,75)之间的候选者有30人
D.估计候选者的面试成绩的平均数约为69.5
13.电影《长津湖》点燃了人们心中对英雄的崇敬之情,也更加显示出如今和平生活的来之不易.某影院记录了观看此片的70位观众的年龄,其中年龄位于区间[10,20)内的有10位,位于区间[20,30)内的有20位,位于区间[30,40)内的有25位,位于区间[40,50]内的有15位,则这70位观众年龄的众数的估计值为________.
14.已知某样本数据分别为1,2,3,a,6,若样本平均数=3,则样本方差s2=________.
15.若数据x1,x2,x3,…,xn的平均数=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为________.
16.为了调查某厂工人生产某种产品的能力,随机抽查了20名工人某天生产该产品的数量得到频率分布直方图如图所示,则:
(1)这20名工人中一天生产该产品数量在[55,75)的人数是________;
(2)这20名工人中一天生产该产品数量的中位数为________;
(3)这20名工人中一天生产该产品数量的平均数为________.
17.某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩的70%分位数约为________秒.
18.一次数学知识竞赛中,两组学生的成绩如下:
分数 50 60 70 80 90 100
人数 甲组 2 5 10 13 14 6
乙组 4 4 16 2 12 12
经计算,两组的平均分都是80分,请根据所学过的统计知识,进一步判断这次竞赛中哪个组更优秀,并说明理由.
19.某中学举行电脑知识竞赛,现将参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图.
(1)求参赛学生的成绩的众数、中位数;
(2)求参赛学生的平均成绩.
20.某学校对高一某班的同学进行了身高(单位:cm)调查,将得到的数据进行适当分组后(除最后一组为闭区间外其余每组为左闭右开区间),画出如图所示的频率分布直方图.
(1)求m的值;
(2)估计全班同学身高的中位数;
(3)估计全班同学身高的平均数及方差(同一组中的数据用该组区间的中点值作代表).
21.对参加某次数学竞赛的1 000名选手的初赛成绩(满分:100分)作统计,得到如图所示的频率分布直方图.
(1)根据直方图完成以下表格;
成绩 [50,60) [60,70) [70,80) [80,90) [90,100]
频数
(2)求参赛选手初赛成绩的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)如果从参加初赛的选手中选取380人参加复赛,那么如何确定进入复赛的选手成绩?
优化提升
22.某校排球社的同学为训练动作组织了垫排球比赛,以下为根据排球社50位同学的垫球个数画的频率分布直方图,所有同学垫球数都在5~40之间.估计垫球数的样本数据的第75百分位数是(  )
A.17.5 B.18.75 C.27 D.28
23.(多选)某学校规定,若五个工作日内学校某天有超过3个人的体温测量值高于37.5 ℃,则需全员进行核酸检测.该校统计了五个工作日内每天体温超过37.5 ℃的人数,则根据这组数据的下列信息,能断定该校不需全员进行核酸检测的是(  )
A.中位数是1,平均数是1
B.中位数是1,众数是0
C.中位数是2,众数是2
D.平均数是2,方差是0.8
24.(多选)已知一组数据丢失了一个大于3的数据,剩下的六个数据分别是3,3,5,3,6,11,若这组数据的平均数与众数的和是中位数的2倍,则丢失的数据可能是(  )
A.4 B.12 C.18 D.20
25.(多选)为比较甲、乙两名学生的数学学科素养的各项能力指标值(满分为5分,分值高者为优),绘制了如图所示的六维能力雷达图,例如图中甲的数学抽象指标值为4,乙的数学抽象指标值为5,则下面叙述正确的是(  )
A.甲的逻辑推理能力指标值优于乙的逻辑推理能力指标值
B.甲的数学建模能力指标值优于乙的直观想象能力指标值
C.乙的六维能力指标值整体水平优于甲的六维能力指标值整体水平
D.甲的数学运算能力指标值优于甲的直观想象能力指标值
26.若等差数列{xn}的公差为3,则x1,x2,x3,…,x9的方差为________.
27.气象意义上从春季进入夏季的标志为:“连续5天的日平均温度均不低于22 ℃”,现有甲、乙、丙三地连续5天的日平均温度的记录数据(记录数据都是正整数):
①甲地:5个数据的中位数为24,众数为22;
②乙地:5个数据的中位数为27,总体均值为24;
③丙地:5个数据中有一个数据是32,总体均值为26,总体方差为10.8.
则肯定进入夏季的地区的序号为________.
28.“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层随机抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加“一带一路”知识竞赛,分别代表相应组的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
①分别求5个年龄组和5个职业组成绩的平均数和方差;
②以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
参考答案:
基础摸查
【习题导入】
1.D 2.B 3.178.5
【题型展示】
例1 (1)ABD
(2)B
延伸探究 解 10×70%=7,第70百分位数是第7项与第8项的平均数,为=94.
跟踪训练1 (1)ABD
(2)C
例2 解 (1)∵(0.001 5+0.011 0+0.022 5+0.030 0+a+0.008 0+0.002 0)×10=1,
∴a=0.025 0,
众数为=190,
设中位数为x,∵(0.001 5+0.011 0+0.022 5)×10=0.35<0.5,
(0.001 5+0.011 0+0.022 5+0.030 0)×10=0.65>0.5,
则1850.35+0.030 0×(x-185)=0.5,
∴x=190.
故a=0.025 0,众数为190,
中位数为190.
(2)由题意可知,合格树苗所占频率为(0.030 0+0.025 0+0.008 0+0.002 0)×10=0.65,不合格树苗所占频率为1-0.65=0.35,
所以不合格树苗抽取
20×0.35=7(株),
合格树苗抽取20×0.65=13(株),
故不合格树苗、合格树苗应分别抽取7株和13株.
跟踪训练2 解 (1)由频率分布直方图知
(0.01+m+0.04+0.02)×10=1,解得m=0.03;
设此次竞赛活动学生成绩的中位数为x0,因为数据落在[60,80)内的频率为0.4,落在[60,90)内的频率为0.8,
从而可得80所以估计此次竞赛活动学生成绩的中位数为82.5.
(2)由频率分布直方图及(1)知,
=65×0.1+75×0.3+85×0.4+95×0.2=82,
此次竞赛活动学生成绩不低于82的频率为0.2+×0.4=0.52,
则获奖的学生有
500×0.52=260(名),
所以估计此次竞赛活动成绩的平均数为82,在参赛的500名学生中有260名学生获奖.
例3 解 (1)由表格中的数据易得
=×(-0.2+0.3+0+0.2-0.1-0.2+0+0.1+0.2-0.3)+10.0
=10.0,
=×(0.1+0.4+0.1+0+0.1+0.3+0.6+0.5+0.4+0.5)+10.0
=10.3,
s=×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,
s=×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据可得-=10.3-10.0=0.3,
而2=
=,
显然有->2成立,所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
跟踪训练3 解 (1)甲=×(82+81+79+78+95+88+93+84)=85,
乙=×(92+95+80+75+83+80+90+85)=85,
s=×[(82-85)2+(81-85)2+(79-85)2+(78-85)2+(95-85)2+(88-85)2+(93-85)2+(84-85)2]=35.5,
s=×[(92-85)2+(95-85)2+(80-85)2+(75-85)2+(83-85)2+(80-85)2+(90-85)2+(85-85)2]=41.
(2)由(1)知甲=乙,s甲的成绩较稳定,所以派甲参赛比较合适.
基础夯实
1.B 
2.D 
3.B
4.A
5.B
6.A
7.B
8.ABD
9.ABC
10.AD 
11.BCD
12.BD
13.35 
14.
15.16,18
16.(1)13 (2)62.5 (3)64
17.16.5
18.解 从不同的角度分析如下:
①甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数这一角度看,甲组成绩好些.
②s=×[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172.
同理得s=256.
因为s<s,所以甲组的成绩比乙组的成绩稳定.
③甲、乙两组成绩的中位数、平均数都是80分,其中甲组成绩在80分以上(含80分)的有33人,乙组成绩在80分以上(含80分)的有26人,从这一角度看,甲组成绩总体较好.
④从成绩统计表看,甲组成绩大于或等于90分的有20人,乙组成绩大于或等于90分的有24人,所以乙组成绩在高分段的人数多.
同时,乙组满分比甲组多6人,从这一角度看,乙组成绩较好.
19.解 (1)因为频率分布直方图中最高小长方形所在的区间的中点值为65,所以众数为65,
又因为第一个小长方形的面积为0.3,
第二个小长方形的面积是0.4,0.3+0.4>0.5,所以中位数在第二组,
设中位数为x,则0.3+(x-60)×0.04=0.5,解得x=65,所以中位数为65.
(2)依题意,
可得平均成绩为(55×0.030+65×0.040+75×0.015+85×0.010+95×0.005)×10=67,
所以参赛学生的平均成绩为67分.
20.解 (1)由频率分布直方图可得(m+0.010+0.010+0.015+0.040)×10=1,解得m=0.025.
(2)设全班同学身高的中位数为x,由题可知x∈[165,175),得0.10+0.15+(x-165)×0.040=0.5,
解得x=171.25,
故估计全班同学身高的中位数为171.25.
(3)估计全班同学身高的平均数为150×0.10+160×0.15+170×0.40+180×0.25+190×0.10=171,
估计全班同学身高的方差为(150-171)2×0.10+(160-171)2×0.15+(170-171)2×0.40+(180-171)2×0.25+(190-171)2×0.10=119.
21.解 (1)填表如下:
成绩 [50,60) [60,70) [70,80) [80,90) [90,100]
频数 50 150 350 350 100
(2)平均数为55×0.05+65×0.15+75×0.35+85×0.35+95×0.1=78,
方差为(55-78)2×0.05+(65-78)2×0.15+(75-78)2×0.35+(85-78)2×0.35+(95-78)2×0.1=101.
(3)进入复赛的选手成绩为80+×10=82(分),
所以初赛成绩为82分及以上的选手均可进入复赛.(说明:回答82分以上,或82分及以上均可).
优化提升
22.D
23.AD
24.AC
25.AC
26.60
27.①③
28.解 (1)根据频率分布直方图得第一组的频率为0.01×5=0.05,∴=0.05,∴x=120.
(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,
∴a=≈32,则中位数为32.
(3)①5个年龄组成绩的平均数为1=×(93+96+97+94+90)=94,方差为s=×[(-1)2+22+32+02+(-4)2]=6.
5个职业组成绩的平均数为2=×(93+98+94+95+90)=94,方差为s=×[(-1)2+42+02+12+(-4)2]=6.8.
②从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).
同课章节目录