专题04 统计
题型1 简单随机抽样及其适用条件 题型2 抽签法简单随机抽样及其步骤
题型3 随机数法简单随机抽样及其步骤 题型4 分层随机抽样及其适用条件
题型5 普查与抽样 题型6 根据统计数据确定极差组距和组数
题型7 画频率分布直方图 题型8 频率分布直方图的应用
题型9 平均数 题型10 中位数
题型11 众数 题型12 方差
题型13 极差 题型14 统计图表获取信息
题型15 条形统计图 题型16 折线统计图
题型17 扇形统计图
▉考点01 简单随机抽样
1.抽样调查的必要性
(1)相关概念
名称 定义
全面调查(普查) 对每一个调查对象都进行调查的方法.
抽样调查 根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
总体 调查对象的全体.
个体 从总体中抽取的那部分个体.
样本 从总体中抽取的那部分个体.
样本量 样本中包含的个体数.
(2)抽样的必要性
普查往往需要花费大量的财力、物力,而抽样调查具有花费少、效率高的特点.另外,在有些调查中,抽样调查则具有不可替代的作用,比如:
①一些个体具有破坏性.如不可能对所有的炮弹都进行试射检验其是否合格.
②一些检测具有毁损性.如不可能把地里所有的种子都挖出来检验其是否发芽.
2.简单随机抽样
(1)简单随机抽样的概念
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
(2)(不放回)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取样本的总体中所含个体的个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单随机抽样中各个个体被抽到的可能性(机会)都相等(与第几次抽取无关),从而保证了抽样的公平性.
3.两种常见的简单随机抽样方法
(1)抽签法
一般地,抽签法就是把总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些号签放在一个不透明的盒,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的数量.
(2)随机数法
先把总体中的N个个体编号,用随机数工具产生1~N范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的数量.如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
(3)两种抽样方法的优缺点
抽样方法 优点 缺点 适用范围
抽签法 简单易行. 总体量较大时,操作起来比较麻烦. 适用于总体中个体数不多的情形.
随机数法 简单易行,它很好地解决了总体量较大时用抽签法制签困难的问题. 总体量很大,样本量也很大时,利用随机数法抽取样本仍不方便. 总体量较大,样本量较小的情形.
4.总体平均数与样本平均数
(1)概念
名称 定义
总体均值(总体平均数) 一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式.
样本均值(样本平均数) 如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称为样本均值,又称样本平均数.
说明:(1)在简单随机抽样中,我们常用样本平均数去估计总体平均数; (2)总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性); (3)一般情况下,样本量越大,估计越准确.
(2)求和符号∑的性质
①;
②,其中k为常数.
▉考点02 分层随机抽样
1.分层随机抽样
(1)分层随机抽样的必要性
简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本,从而使得估计出现较大的误差,这时候我们可以考虑采取一种新的抽样方法——分层随机抽样.
(2)分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(3)比例分配
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.即
①=;
②=.
(4)分层随机抽样的步骤
①分层:根据已经掌握的信息,将总体分成互不重叠的层.
②求比:根据总体中的个体数N和样本容量n计算抽样比.
③定数:确定第i层应该抽取的个体数为ni=Ni·k(Ni为总体中第i层所包含的个体数),使得各ni之和为n.
④抽样:按“定数”步骤中确定的个体数在各层中随机地抽取个体,合在一起便得到容量为n的样本.
(5)分层随机抽样的特点
①适用于由差异明显的几部分(即层)组成的总体;
②分成的各层互不重叠;
③各层抽取的比例都等于样本容量在总体中的比例,即,其中n为样本容量,N为总体容量;
④分层随机抽样使样本具有较强的代表性,而且在各层抽样时,又可灵活地选用不同的随机抽样方法.
2.分层随机抽样的平均数计算
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量
分别为m和n,第1层、第2层的总体平均数分别为,第1层、第2层的样本平均数分别为,总体平均数为,样本平均数为,则.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用估计总体平均数.
又==,
所以.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
▉考点03 总体取值规律的估计
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图 折线图 扇形图
特 点 一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的. 用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化. 用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景 能清楚地表示每个项目的具体数量,便于相互比较大小. 能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中. 可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
▉考点04 总体百分位数、集中趋势与离散程度的估计
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
名称 概念
平 均 数 如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中 位 数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众 数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
3.总体离散程度的估计
(1)方差和标准差
假设一组数据是,,,,用表示这组数据的平均数,则我们称为这组数据的方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差
.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中出
现的频数为,则总体方差为.
总体标准差:S=.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则
标准差为0.反之,标准差为0的样本,其中的数据都相等.
4.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
▉考点05 统计案例
1.课中探究
为了解某公司员工的身体肥胖情况,我们该如何根据数据表写一份该公司员工身体肥胖情况的统计分析报告 该如何分析公司员工胖瘦程度的整体情况并提出控制体重的建议
(1)教学目标
①通过一个完整案例,经历统计学解决问题的过程,在此过程中,进一步学习数据收集和处理的方法、数据直观图表的表示方法和数据统计特征的刻画方法.
②通过实际操作、计算机模拟等活动,积累数据分析的经验,培养数据分析的素养.
(2)教学内容
教学重点:①了解统计报告的组成部分,培养学生数据分析的素养;②体会统计方法的必要性与合理性,正确了解样本和总体的关系.
教学难点:体会统计方法的必要性与合理性,正确了解样本和总体的关系.
2.背景与数据
近年来,我国肥胖人群的规模急速增长,肥胖人群有很大的心血管安全隐患.目前,国际上常用身体质量指数(Body Mass Index,缩写BMI)来衡量人体胖瘦程度以及是否健康,其计算公式是
中国成人的BMI数值标准为:BMI<18.5为偏瘦;18.5≤BMI<23.9为正常;24≤BMI<27.9为偏胖;BMI≥28为肥胖.
3.任务与要求
根据上面的数据,写一份该公司员工肥胖情况的统计分析报告.要求:
(1)选择合适的图表展示数据;
(2)比较男、女员工在肥胖状况上的差异;
(3)分析公司员工胖瘦程度的整体情况;
(4)提出控制体重的建议.
4.统计报告的主要组成部分
(1)标题
(2)前言
简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.
(3)主题
展示数据分析的全过程:首先要明确所关心的问题是什么,说明数据蕴含的信息;根据数据分析的需要,说明如何选择合适的图标描述和表达数据;从样本数据中提取能刻画其特征的量,如均值、方差等,用于比较男、女员工在肥胖状况上的差异;通过样本估计总体的统计规律,分析公司员工胖瘦程度的整体.
(4)结尾
对主题部分的内容进行概括,结合控制体重的一般方法,提出控制公司员工体重的建议.
▉一.简单随机抽样及其适用条件(共3小题)
1.经过简单随机抽样获得的样本数据为x1,x2, ,xn,且数据x1,x2, ,xn的平均数为,方差为s2,则下列说法正确的是( )
A.若数据x1,x2, ,xn,方差s2=0,则所有的数据xi(i=1,2, ,n)都为0
B.若数据x1,x2, ,xn,的平均数为3,则yi=2xi+1(i=1,2, ,n)的平均数为6
C.若数据x1,x2, ,xn,的方差为s2=3,则yi=2xi+1(i=1,2, ,n)的方差为12
D.若数据x1,x2, ,xn,的25%分位数为90,则可以估计总体中有至少有75%的数据不大于90
【答案】C
【解答】解:对于A,数据x1,x2, ,xn的方差s2=0时,说明所有的数据x1,x2, ,xn都相等,但不一定为0,故选项A错误;
对于B,数据x1,x2, ,xn,的平均数为,数据yi=2xi+1(i=1,2, ,n)的平均数为2×3+1=7,故选项B错误;
对于C,数据x1,x2, ,xn的方差为s2=3,数据yi=2xi+1(i=1,2, ,n)的方差为22×3=12,故选项C正确;
对于D,数据x1,x2, ,xn,的25%分位数为90,则可以估计总体中有至少有75%的数据大于90,故选项D错误,
故选:C.
2.下列情况适合用抽样调查的是( )
A.调查某化工厂周围5个村庄是否受到污染
B.调查某批次汽车的抗撞击能力
C.调查某班学生的身高情况
D.学校招聘,对应聘人员进行面试
【答案】B
【解答】解:ACD,样本容量较少,适合用普查,
B,该调查具有损坏性,适合用抽样调查.
故选:B.
3.一个总体中共有10个个体,用简单随机抽样的方法从中抽取一个样本容量为3的样本,则某一个特定个体被抽到的概率为( )
A. B. C. D.
【答案】A
【解答】解:因为简单随机抽样中每一个个体被抽到的概率均相等,
所以某一个特定个体被抽到的概率为.
故选:A.
▉二.抽签法简单随机抽样及其步骤(共2小题)
4.某校高一共有10个班,编号1至10,某项调查要从中抽取三个班作为样本,现用抽签法抽取样本,每次抽取一个号码,共抽3次,设五班第一次被抽到的可能性为a,第二次被抽到的可能性为b,则( )
A.a,b B.a,b
C.a,b D.a,b
【答案】D
【解答】解:∵总体中共有10个个体,
∴五班第一次被抽到的概率是,第二次被抽到的概率为,
即a b.
故选:D.
5.下列抽样试验中,适合用抽签法的是( )
A.从某厂生产的5000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验
D.从某厂生产的5000件产品中抽取10件进行质量检验
【答案】B
【解答】解:对于A,D,选项中的总体的个体数较大,不适合抽签法,故AD错误;
对于C,甲、乙两厂生产的产品质量可能差别较大,因此未达到搅拌均匀的条件,也不适合抽签法,故C错误;
对于B,总体容量和样本容量都较小,且同厂生产的产品可视为搅拌均匀了,故B正确.
故选:B.
▉三.随机数法简单随机抽样及其步骤(共3小题)
6.某中学高一年级有400人,高二年级有320人,高三年级有280人,若用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.2,则n等于( )
A.80 B.160 C.200 D.280
【答案】C
【解答】解:由题意可知,,
解得n=200.
故选:C.
7.下列说法错误的是( )
A.调查一个班级学生每周的体育锻炼时间适合用全面调查
B.实现简单随机抽样的常用方法有抽签法和随机数法
C.简单随机抽样是等概率抽样
D.为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生进行调查分析.在这个问题中,被抽取的200名学生是样本量
【答案】D
【解答】解:对于A,一个班级的学生相对较少,适合用全面调查,故A正确,
对于B,抽签法和随机数法是两种常见的简单随机抽样方法,故B正确,
对于C,简单随机抽样种每个个体被抽到的可能性是相等的,是等概率抽样,故C正确,
对于D,被抽取的200名学生是样本,不是样本量,故D错误.
故选:D.
8.利用计算机产生[0,1]之间的均匀随机数a1=rand,经过下列的哪种变换能得到[﹣2,3]之间的均匀随机数( )
A.a=a1 5﹣2 B.a=a1 2﹣3 C.a=a1 3﹣2 D.a=a1 2﹣5
【答案】A
【解答】解:∵计算机产生[0,1]之间的均匀随机数a1=rand,
∴经过a=a1 5﹣2能得到[﹣2,3]之间的均匀随机数,
故选:A.
▉四.分层随机抽样及其适用条件(共2小题)
9.从一个含有N个个体的总体中抽取一容量为n的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为p1,p2,p3,三者关系可能是( )
A.p1=p2<p3 B.p1=p2=p3 C.p1=p3<p2 D.p2=p3<p1
【答案】B
【解答】解:因为在抽签法抽样、随机数法抽样和分层随机抽样中,每个个体被抽中的概率均为,
所以p1=p2=p3.
故选:B.
10.某校高三年级有810名学生,其中男生有450名,女生有360名,按比例分层随机抽样的方法抽取一个容量为72的样本,则抽取男生和女生的人数分别为( )
A.40,32 B.42,30 C.44,28 D.46,26
【答案】A
【解答】解:根据分层抽样原理知,,,
所以抽取男生40人,女生32人.
故选:A.
▉五.普查与抽样(共3小题)
11.在以下调查中,适合用全面调查的是( )
A.了解一个班级学生的身高情况
B.了解一批水稻种子的发芽率
C.调查某城市居民的食品消费结构
D.调查某批次汽车的抗撞击能力
【答案】A
【解答】解:对于A选项,了解一个班级学生的身高情况,适合用全面调查;
对于B选项,了解一批水稻种子的发芽率,调查数量较多,不适合用全面调查;
对于C选项,调查某城市居民的食品消费结构,调查数量较多,不适合用全面调查;
对于D选项,调查某批次汽车的抗撞击能力,具有破坏性,不适合用全面调查.
故选:A.
12.为了了解高一年级学生的视力情况,特别是近视率问题,抽查了其中100名同学的视力情况.在这个过程中,100名同学的视力情况(数据)是( )
A.总体 B.个体
C.总体的一个样本 D.样本容量
【答案】C
【解答】解:100名同学的视力情况(数据)是从总体中抽取的一部分个体所组成的集合,
所以是总体的一个样本.
故选:C.
13.在以下调查中,适合用全面调查的是( )
A.调查一个县各村的粮食播种面积
B.调查一批玉米种子的发芽率
C.调查一批炮弹的杀伤半径
D.调查一个水库所有鱼中草鱼所占的比例
【答案】A
【解答】解:全面调查是对调查对象的所有单位一一进行调查的调查方式,
对于A,调查一个县各村的粮食播种面积适合全面调查;
对于B,调查一批玉米种子的发芽率,调查数目较多,且具有破坏性,不适合全面调查;
对于C,调查一批炮弹的杀伤半径,调查数目较多,可以使用抽样调查;
对于D,查一个水库所有鱼中草鱼所占的比例.调查数目较多,不适合全面调查.
故选:A.
▉六.根据统计数据确定极差组距和组数(共2小题)
14.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )
A.10组 B.9组 C.8组 D.7组
【答案】B
【解答】解:∵数据中的最大值是140,最小值是51,
故该组数据的极差为140﹣51=89
又∵组距为10,
89÷10=8.9
故可将该组数据分成9组,
故选:B.
15.为了解某年级女生的身高情况,从中抽出20名进行测量,结果如下:(单位:cm)
149 159 142 160 156 163 145 150 148 151
156 144 148 149 153 143 168 168 152 155
在列样本频率分布表的过程中,如果设组距为4cm,那么组数为( )
A.4 B.5 C.6 D.7
【答案】D
【解答】解:最大值与最小值的差:168﹣142=26;
组距是4时,6.5,则分成7组;
故选:D.
▉七.画频率分布直方图(共3小题)
(多选)16.某市为最大限度的吸引“高精尖缺”人才,向全球“招贤纳士”,推进了人才引入落户政策.随着人口增多,对住房要求也随之而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取n名市民,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共200户,所占比例为,二居室住户占.如图2是用分层抽样的方法从所有调查的市民的满意中,抽取10%的调查结果绘制成的统计图,则下列说法错误的是( )
A.样本容量为60
B.样本中三居室住户共抽取了25户
C.根据样本可估计对四居室满意的住户有70户
D.样本中对三居室满意的有15户
【答案】BC
【解答】解:如图1调查的所有市民中四居室共200户,所占比例为,二居室住户占,
所以600,二居室有600100户,三居室为300户,
由频率分布直方图和扇形统计图得:
在A中,样本容量为n=600×10%=60,故A正确;
在B中,样本中三居室住户共抽取了300×10%=30户,故B错误;
在C中,根据样本可估计对四居室满意的住户有200×40%=80户,故C错误;
在D中,样本中对三居室满意的有300×10%×50%=15户,故D正确.
故选:BC.
17.某校高二年级的600名学生参加一次科普知识竞赛,然后随机抽取50名学生的成绩进行统计分析.
分组 频数 频率
[50,60) 5 0.1
[60,70) 10 0.2
[70,80) 15 0.3
[80,90) 15 0.3
[90,100) 5 0.1
合计 50 1
(1)完成频率分布表;
(2)根据上述数据画出频率分布直方图;
(3)估计这次竞赛成绩在80分以上的学生人数是多少?
(4)估计这次竞赛中成绩的众数,中位数,平均数分别是多少?
【答案】见试题解答内容
【解答】解:(1)根据频率,完成下列频率分布表;
分组 频数 频率
[50,60) 5 0.1
[60,70) 10 0.2
[70,80) 15 0.3
[80,90) 15 0.3
[90,100) 5 0.1
合计 50 1
(2)根据上述数据画出频率分布直方图如下;
(3)∵成绩在80分以上的频率为0.3+0.1=0.4,
∴估计高二年级600名学生中成绩在80分以上的有:
600×0.4=240(人),
(4)估计平均成绩为:0.1×55+0.2×65+0.3×75+0.3×85+0.1×95=76.5,
众数落在第三组和第四组,即众数为75,85,
中位数,前三组的频率为0.1+0.2+0.3=0.6,故中位数落在第三组,为70+1077
18.某班50名同学参加数学测验,成绩的分组及各组的频数如下:
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100),8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图.
【答案】见试题解答内容
【解答】解:(1)频率分布表如下:
成绩分组 频数 频率
[40,50) 2 0.04
[50,60) 3 0.06
[60,70) 10 0.2
[70,80) 15 0.3
[80,90) 12 0.24
[90,100) 8 0.16
(2)频率分布直方图如图所示:
▉八.频率分布直方图的应用(共2小题)
19.某地教育局为了解“双减”政策的落实情况,在辖区内初一年级在校学生中抽取了100名学生,调查了他们课下做作业的时间,得到如图所示的频率分布直方图,则下列结论不正确的是( )
A.该地初一年级学生做作业的时间超过3小时的概率估计为35%
B.估计该地初一年级有一半以上的学生做作业的时间超过2小时
C.估计该地初一年级学生做作业的时间的众数为2.25小时
D.估计该地初一年级有一半以上的学生做作业的时间在2小时至3小时之间
【答案】D
【解答】解:对于A,超过3小时的概率估计为:(0.3+0.2+0.1+0.1)×0.5=35%,故A正确;
对于B,超过2小时的概率估计为:(0.5+0.4+0.3+0.2+0.1+0.1)×0.5=0.8>0.5,故B正确;
对于C,由图知众数约为 (小时),故C正确;
对于D,时间在2小时至3小时之间的概率估计为:(0.5+0.4)×0.5=0.45,
所以没有一半以上的学生做作业的时间在2小时至3小时之间,故D错误.
故选:D.
20.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化”暨“喜迎党的二十大”党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法不正确的是( )
A.a的值为0.005
B.估计这组数据的众数为75
C.估计成绩低于60分的有250人
D.估计这组数据的第85百分位数为85
【答案】D
【解答】解:根据频率分布直方图可知:10(2a+3a+3a+6a+5a+a)=1,即a=0.005,故A正确;
由图易得在区间[70,80)的人最多,故可估计这组数据的众数为75,故B正确;
10×0.005×(2+3)×1000=250,故成绩低于6(0分)的有250人,即C正确;
由图中前四组面积之和为:(2+3+3+6)×0.005×10=0.7,
图中前五组面积之和为:(2+3+3+6+5)×0.005×10=0.95,
故这组数据的第85百分位数在第五组数据中,
设这组数据的第85百分位数为m,
则有0.7+5×0.005(m﹣80)=0.85,
故m=86,即估计这组数据的第85百分位数为86,故D错误.
故选:D.
▉九.平均数(共2小题)
21.已知互不相等的一组数x1,x2,x3,x4,x5,x6,x7,x8的平均数为x8,方差为,若x1,x2,x3,x4,x5,x6,x7的方差为,则( )
A.
B.
C.
D.与的大小关系不确定
【答案】C
【解答】解:已知互不相等的一组数x1,x2,x3,x4,x5,x6,x7,x8的平均数为x8,方差为,
若x1,x2,x3,x4,x5,x6,x7的方差为,
即,
所以x1+x2+x3+x4+x5+x6+x7=7x8,则,
所以数据x1,x2,x3,x4,x5,x6,x7的平均数是x8,
又
,,
与的分子相同,比较分母,可知.
故选:C.
22.下列说法正确的是( )
A.数据1,8,3,5,6的第60百分位数是5
B.若一组样本数据4,6,7,8,9,a的平均数为7,则a=7
C.用分层随机抽样时,个体数最多的层里的个体被抽到的概率最大
D.若x1,x2, ,x10的标准差为4,则﹣2x1+3,﹣2x2+3,﹣2x3+3,…,﹣2x10+3的标准差是8
【答案】D
【解答】解:对于A,数据1,8,3,5,6从小到大为1,3,5,6,8,
5×0.6=3,
∴数据1,8,3,5,6的第60百分位数是 (5+6)=5.5,故A错误;
对于B,一组样本数据4,6,7,8,9,a的平均数为7,
∴(4+6+7+8+9+a)=7,
解得a=8,故B错误;
对于C,用分层随机抽样时,个体数最多的层里的个体被抽到的概率与其它层里的个体被抽到的概率相等,故C错误;
对于D,若x1,x2, ,x10的标准差为4,
则﹣2x1+3,﹣2x2+3,﹣2x3+3,…,﹣2x10+3的标准差是 8,故D正确.
故选:D.
▉十.中位数(共2小题)
23.某中学举办迎国庆歌咏比赛,邀请了七位评委,对一个选手打分后,得到一组互不相等的数据x1,x2,x3,x4,x5,x6,x7,去掉其中最高分与最低分得到的数据与原始数据一定相同的是( )
A.平均分 B.极差 C.标准差 D.中位数
【答案】D
【解答】解:对于选项A:由题意若7个数据为1,2,3,5,6,7,8,可得原平均分为,
去掉最高和最低分后平均分为,
∵,∴平均分不一定相同,故选项A错误;
对于选项B:由题意若7个数据为1,2,3,5,6,7,8,可得原极差为8﹣1=7,
去掉最高和最低分后为2,3,5,6,7,极差为7﹣2=5,
∵7≠5,∴极差不一定相同,故选项B错误;
对于选项C:由题意若7个数据为1,2,3,4,5,6,7,可得原数据平均数为,
标准差为,
去掉最高和最低分后平均数为,
标准差为,
∴标准差不一定相同,故选项C错误;
对于选项D:由题意可设x1<x2<x3<x4<x5<x6<x7,可得原始数据的中位数为x4,
去掉最高和最低分后可得x2,x3,x4,x5,x6的中位数也为x4,
∴去掉其中最高分与最低分得到的数据与原始数据一定相同的是中位数,故选项D正确.
故选:D.
24.已知一组样本数据为“2,2,3,5,6,7,8”,该样本数据的中位数是( )
A.6 B.5 C.3 D.2
【答案】B
【解答】解:由中位数定义可知,从小到大,选择第4个数为作为中位数,即5.
故选:B.
▉十一.众数(共2小题)
25.某校举行“勇士杯”学生篮球比赛,统计高一年级部分班级的得分数据如下:
班级 1 2 3 4 5 6 7 8
得分 28 34 34 30 26 28 28 32
则下列说法正确的是( )
A.得分的众数为34
B.得分的中位数为28
C.得分的75%分位数为33
D.得分的极差为6
【答案】C
【解答】解:根据表格中数据可知,出现次数最多的是28,所以得分的众数为28,即A错误;
将8个数据从小到大排列为26,28,28,28,30,32,34,34,
所以中位数为 ,可知B错误;
易知75%×8=6为整数,
所以第75%分位数为第6个和第7个数的平均值 ,即C正确;
得分的极差为34﹣26=8,即D错误.
故选:C.
26.某校运动会,一位射击运动员10次射击射中的环数依次为:7,7,10,9,7,6,9,10,7,8.则下列说法错误的是( )
A.这组数据的平均数为8
B.这组数据的众数为7
C.这组数据的极差为4
D.这组数据的第80百分位数为9
【答案】D
【解答】解:根据题意,依次分析选项:
对于A,该组数据的平均数(7+7+10+9+7+6+9+10+7+8)=8,A正确;
对于B,数据的众数为7,B正确;
对于C,数据的极差为10﹣6=4,C正确;
对于D,数据从小到大排列为6,7,7,7,7,8,9,9,10,10,则这组数据的第80百分位数为(9+10)=9.5,D错误.
故选:D.
▉十二.方差(共2小题)
27.已知样本容量为5的样本平均数为3,方差为,将数据9加入原样本得到样本容量为6的新样本,若新样本的平均数为,方差为s2,则( )
A. B. C. D.
【答案】B
【解答】解:设原样本为x1,x2,x3,x4,x5,则,
所以,可得.
所以,
所以
.
故选:B.
28.已知x1,x2,…,xn的方差为3,则2x1+1,2x2+1,…,2xn+1的方差为( )
A.6 B.7 C.12 D.18
【答案】C
【解答】解:由已知方差为3,
得2x1+1,2x2+1,…,2xn+1的方差为22×3=12.
故选:C.
▉十三.极差(共2小题)
29.已知一组样本数据8,11,9,7,a,5的极差为6,则a的取值范围是( )
A.[5,11] B.{5,11} C.{5} D.[6,17]
【答案】A
【解答】解:因为数据的极差为6,而11﹣5=6,
所以所以5≤a≤11,
即a的取值范围是[5,11].
故选:A.
(多选)52.气象台预报嘉兴市5月份气候适宜,温度波动幅度较小,比较适合户外运动,其中2024年5月9日至5月15日7天内的当日最高温度(单位℃)分别为:24,28,23,25,26,26,29,则以下说法正确的是( )
A.该组数据的极差为6
B.该组数据的众数为26
C.该组数据的中位数为25.5
D.该组数据的第70百分位数为26
【答案】ABD
【解答】解:将这组数据按照从小到大的顺排列得23,24,25,26,26,28,29,
则该组数据的极差为29﹣23=6,故A正确;
该组数据的众数为26,故B正确;
该组数据的中位数为26,故C错误;
因为70%×7=4.9,所以该组数据的第70百分位数为第5个数据,即26,故D正确.
故选:ABD.
30.为了解夏季高温天气的变化情况,某气象部门记录了某地区连续10天的日平均气温(单位:℃),其数据分别为30,32,29,34,31,36,33,38,35,37,则该地区这10天日平均气温的极差是 9 ℃.
【答案】9.
【解答】解:某气象部门记录了某地区连续10天的日平均气温(单位:℃),
其数据分别为30,32,29,34,31,36,33,38,35,37,
∴该地区这10天日平均气温的极差是38﹣29=9℃.
故答案为:9.
▉十四.统计图表获取信息(共3小题)
31.如图所示,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成不规则形态,图(3)形成“右拖尾”形态,根据所给图形作出以下判断,正确的是( )
A.图(1)中平均数>中位数=众数
B.图(2)中众数>平均数
C.图(3)中众数<中位数<平均数
D.图(3)中众数<平均数<中位数
【答案】C
【解答】解:对于A,因为图(1)的频率分布直方图是对称的,
所以平均数=中位数=众数,故A错误;
对于B,图(2)中众数<平均数,故B错误;
对于C,D,图(3)中众数最小,由“右拖尾”可知平均数大于中位数,
所以众数<中位数<平均数,故C正确,D错误.
故选:C.
32.在统计学中,月度同比是指本月份和上一年同月份相比较的增长率,月度环比是指本月份和上一个月份相比较的增长率.如图是国家统计局发布的2023年全国居民消费价格月度涨跌幅度折线图,则下列说法正确的是( )
A.2023年2月至6月居民的消费价格持续下降
B.2023年7月居民消费价格高于2022年同期
C.2023年4月居民消费价格环比上涨0.1%,同比下降0.1%
D.2023年8月的居民消费价格是全年最高的
【答案】A
【解答】解:对于选项A,2月至6月环比增长率分别是﹣0.5%,﹣0.3%,﹣0.1%,﹣0.2%,﹣0.2%,故消费价格持续下降,故选项A正确;
对于选项B,由月度同比图可知2023年7月居民消费价格低于2022年同期,故选项B错误;
对于选项C,2023年4月居民消费价格环比下降0.1%,同比上升0.1%,故选项C错误;
对于选项D,虽然2023年8月的月度环比上涨幅度较大,但仅根据环比数据不能直接得出8月的居民消费价格是全年最高的,
因为前面的月份价格也有变化情况,例如1月同比上涨2.1%,且后续月份价格变化复杂,不能简单判断8月价格最高,故选项D错误.
故选:A.
33.莎士比亚说“书籍是全人类的营养品”.在这个充满变化的时代,书籍始终是我们最可靠的伙伴.阅读不仅能够丰富你的知识,更能塑造你的品格,成为你成长道路上最珍贵的礼物.下图是国家图书馆在2024年1月到7月外借图书量(单位:册次)的统计图:
下列说法正确的是( )
A.这七个月外借图书量的中位数是12867
B.这组数据的第80百分位数是10079
C.1月,2月,3月这三个月外借图书量的方差比2月,3月,4月这三个月外借图书量的方差大
D.1月,2月,3月,4月这四个月外借图书量的平均数比2月,3月,4月,5月这四个月外借图书量的平均数小
【答案】D
【解答】解:国家图书馆在2024年1月到7月外借图书量分别为1415,796,12263,12867,11778,10079,4785,
从小到大为796,1415,4785,10079,11778,12263,12867,故中位数是10079,故A错误;
又7×80%=5.6,所以这组数据的第80百分位数是12263,故B错误;
2月,3月,4月这三个月外借图书量的平均数为,
则其方差为,
1月,2月,3月这三个月外借图书量的平均数为,
则其方差为,
故1月,2月,3月这三个月外借图书量的方差比2月,3月,4月这三个月外借图书量的方差小,故C错误;
由统计图可知1月外借图书量远小于5月外借图书量,所以1月,2月,3月,4月这四个月外借图书量的平均数比2月,3月,4月,5月这四个月外借图书量的平均数小,故D正确.
故选:D.
▉十五.条形统计图(共2小题)
34.2023年4月,国内猪肉、鸡蛋、鲜果、禽肉、粮食、食用油、鲜菜价格同比(与去年同期相比)的变化情况如图所示,则下列说法正确的是( )
A.猪肉、鸡蛋、鲜果、禽肉、粮食、食用油这6种食品中,食用油价格同比涨幅最小
B.猪肉价格同比涨幅超过禽肉价格同比涨幅的5倍
C.去年4月鲜菜价格要比今年4月低
D.这7种食品价格同比涨幅的平均值超过7%
【答案】D
【解答】解:对于A,猪肉、鸡蛋、鲜果、禽肉、粮食、食用油这6种食品中,粮食价格同比涨幅最小,故A错,
对于B,猪肉价格同比涨幅超过禽肉价格同比涨幅的倍数为34.3%÷8.5%≈4,故B错,
对于C,根据图表可得去年鲜菜价格比今年高,故C错,
对于D,这7种食品价格同比涨幅的平均值约为,(7.6%+3%+8.5%+9.6%+10.4%+34.4%﹣21.2%)÷7≈7.5%,故D对,
故选:D.
(多选)35.(多选)为了解某企业员工的学习情况,对该企业员工进行问卷调查,已知他们的得分都处在A,B,C,D四个区间内,根据调查结果得到下面的统计图.已知该企业男员工占,则下列结论错误的是( )
A.男、女员工得分在A区间的占比相同
B.在各得分区间男员工的人数都多于女员工的人数
C.得分在C区间的员工最多
D.得分在D区间的员工占总人数的19%
【答案】BC
【解答】解:根据题意,设员工总人数为n,因为女员工人数为20+60+70+50=200(人),
因为企业男员工占,所以企业女员工占,
所以,解得n=500,
所以男员工人数为500﹣200=300(人),
对于选项A,女员工得分在A区间的占比为,男员工得分在A区间的占比为1﹣40%﹣35%﹣15%=10%,故选项A正确;
对于选项B,由题图1可知,女员工在A区间有20人,B区间有60人,C区间有70人,D区间有50人,
男员工在A区间有300×10%=30(人),B区间有300×40%=120(人),C区间有300×35%=105(人),D区间有300×15%=45(人),所以D区间男员工少于女员工,故选项B错误;
对于选项C,B区间有60+120=180(人),C区间有70+105=175(人),所以B区间人数比C区间多,故选项C错误;
对于选项D,D区间有50+45=95(人),所以得分在D区间的员工占总人数的,故选项D正确.
故选:BC.
▉十六.折线统计图(共2小题)
36.如图为近一年我国商品零售总额和餐饮收入总额同比增速情况折线图,根据该图,下列结论正确的是( )
(注:同比,指当前的数据与上一年同期进行比对;环比,指当前数据与上个月的数据进行比对.)
A.2024年1~2月份,商品零售总额同比增长9.2%
B.2023年3~12月份,餐饮收入总额同比都降低
C.2023年6 10月份,商品零售总额同比都增加
D.2023年12月,餐饮收入总额环比增速为﹣14.1%
【答案】C
【解答】解:对于A,2024年1~2月份,商品零售总额同比增长2.9%,故A错误;
对于B,2023年8月份,餐饮收入总额同比增加,故B错误;
对于C,2023年6 10月份,商品零售总额同比都增加,故C正确;
对于D,2023年12月,餐饮收入总额环比增速并未告知,故D错误.
故选:C.
37.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
【答案】A
【解答】解:由已有中2014年1月至2016年12月期间月接待游客量(单位:万人)的数据可得:
月接待游客量逐月有增有减,故A错误;
年接待游客量逐年增加,故B正确;
各年的月接待游客量高峰期大致在7,8月,故C正确;
各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳,故D正确;
故选:A.
▉十七.扇形统计图(共2小题)
38.已知某市某居民小区户主人数和户主对户型结构的满意率分别如图①和②所示,为了解该小区户主对户型结构的满意程度,用按比例分配的分层随机抽样的方法抽取20%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A.160;12 B.120,12 C.160,9 D.120,9
【答案】A
【解答】解:样本容量=(250+150+400)×20%=160,
抽取的户主对四居室满意的人数为150×20%×40%=12.
故选:A.
39.我国在2024年的全国发电装机容量为33.5亿千瓦,包括水电、火电、核电、风电、太阳能发电,其占比如图所示,根据此扇形图,下面说法正确的是( )
A.2024年我国太阳能发电装机容量部分的扇形圆心角小于90°
B.2024年我国火电发电装机容量超过15亿千瓦
C.2024年我国火电发电装机容量超过新能源(太阳能、风电、核电)的发电装机容量
D.若2025年核电规模要达到2024年全国发电装机容量规模的11.8%,则还要再建设的核电的发电装机容量为3.35亿千瓦
【答案】D
【解答】解:对于A:太阳能发电装机容量占26.5%,超过,则扇形圆心角大于90°,所以A错误;
对于B:2024年我国火电发电装机容量占43.1%,因为43.1%×33.5≈14.43<15,所以B错误;
对于C:2024年我国火电发电装机容量占43.1%,新能源(太阳能、风电、核电)的发电装机容量占比和为26.5%+15.5%+1.8%=43.8%,所以C错误;
对于D:还要再建设的核电的发电装机容量为(11.8%﹣1.8%)×33.5=3.35亿千瓦,所以D正确.
故选:D.专题04 统计
题型1 简单随机抽样及其适用条件 题型2 抽签法简单随机抽样及其步骤
题型3 随机数法简单随机抽样及其步骤 题型4 分层随机抽样及其适用条件
题型5 普查与抽样 题型6 根据统计数据确定极差组距和组数
题型7 画频率分布直方图 题型8 频率分布直方图的应用
题型9 平均数 题型10 中位数
题型11 众数 题型12 方差
题型13 极差 题型14 统计图表获取信息
题型15 条形统计图 题型16 折线统计图
题型17 扇形统计图
▉考点01 简单随机抽样
1.抽样调查的必要性
(1)相关概念
名称 定义
全面调查(普查) 对每一个调查对象都进行调查的方法.
抽样调查 根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法.
总体 调查对象的全体.
个体 从总体中抽取的那部分个体.
样本 从总体中抽取的那部分个体.
样本量 样本中包含的个体数.
(2)抽样的必要性
普查往往需要花费大量的财力、物力,而抽样调查具有花费少、效率高的特点.另外,在有些调查中,抽样调查则具有不可替代的作用,比如:
①一些个体具有破坏性.如不可能对所有的炮弹都进行试射检验其是否合格.
②一些检测具有毁损性.如不可能把地里所有的种子都挖出来检验其是否发芽.
2.简单随机抽样
(1)简单随机抽样的概念
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样;如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样.放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本.
(2)(不放回)简单随机抽样的特征
①有限性:简单随机抽样要求被抽取样本的总体中所含个体的个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单随机抽样中各个个体被抽到的可能性(机会)都相等(与第几次抽取无关),从而保证了抽样的公平性.
3.两种常见的简单随机抽样方法
(1)抽签法
一般地,抽签法就是把总体中的N个个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些号签放在一个不透明的盒,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的数量.
(2)随机数法
先把总体中的N个个体编号,用随机数工具产生1~N范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的数量.如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
(3)两种抽样方法的优缺点
抽样方法 优点 缺点 适用范围
抽签法 简单易行. 总体量较大时,操作起来比较麻烦. 适用于总体中个体数不多的情形.
随机数法 简单易行,它很好地解决了总体量较大时用抽签法制签困难的问题. 总体量很大,样本量也很大时,利用随机数法抽取样本仍不方便. 总体量较大,样本量较小的情形.
4.总体平均数与样本平均数
(1)概念
名称 定义
总体均值(总体平均数) 一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式.
样本均值(样本平均数) 如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称为样本均值,又称样本平均数.
说明:(1)在简单随机抽样中,我们常用样本平均数去估计总体平均数; (2)总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性); (3)一般情况下,样本量越大,估计越准确.
(2)求和符号∑的性质
①;
②,其中k为常数.
▉考点02 分层随机抽样
1.分层随机抽样
(1)分层随机抽样的必要性
简单随机抽样是使总体中每一个个体都有相等的机会被抽中,但因为抽样的随机性,有可能会出现比较“极端”的样本,从而使得估计出现较大的误差,这时候我们可以考虑采取一种新的抽样方法——分层随机抽样.
(2)分层随机抽样的概念
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(3)比例分配
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.即
①=;
②=.
(4)分层随机抽样的步骤
①分层:根据已经掌握的信息,将总体分成互不重叠的层.
②求比:根据总体中的个体数N和样本容量n计算抽样比.
③定数:确定第i层应该抽取的个体数为ni=Ni·k(Ni为总体中第i层所包含的个体数),使得各ni之和为n.
④抽样:按“定数”步骤中确定的个体数在各层中随机地抽取个体,合在一起便得到容量为n的样本.
(5)分层随机抽样的特点
①适用于由差异明显的几部分(即层)组成的总体;
②分成的各层互不重叠;
③各层抽取的比例都等于样本容量在总体中的比例,即,其中n为样本容量,N为总体容量;
④分层随机抽样使样本具有较强的代表性,而且在各层抽样时,又可灵活地选用不同的随机抽样方法.
2.分层随机抽样的平均数计算
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量
分别为m和n,第1层、第2层的总体平均数分别为,第1层、第2层的样本平均数分别为,总体平均数为,样本平均数为,则.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此可以用估计总体平均数.
又==,
所以.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
▉考点03 总体取值规律的估计
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图 折线图 扇形图
特 点 一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的. 用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化. 用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景 能清楚地表示每个项目的具体数量,便于相互比较大小. 能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中. 可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
▉考点04 总体百分位数、集中趋势与离散程度的估计
1.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
2.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.具体概念回顾如下:
名称 概念
平 均 数 如果有n个数x1,x2,…,xn,那么就是这组数据的平均数,用表示,即.
中 位 数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众 数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
3.总体离散程度的估计
(1)方差和标准差
假设一组数据是,,,,用表示这组数据的平均数,则我们称为这组数据的方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,总体平均数为,则总体方差
.
②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为,其中出
现的频数为,则总体方差为.
总体标准差:S=.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+∞).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则
标准差为0.反之,标准差为0的样本,其中的数据都相等.
4.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
▉考点05 统计案例
1.课中探究
为了解某公司员工的身体肥胖情况,我们该如何根据数据表写一份该公司员工身体肥胖情况的统计分析报告 该如何分析公司员工胖瘦程度的整体情况并提出控制体重的建议
(1)教学目标
①通过一个完整案例,经历统计学解决问题的过程,在此过程中,进一步学习数据收集和处理的方法、数据直观图表的表示方法和数据统计特征的刻画方法.
②通过实际操作、计算机模拟等活动,积累数据分析的经验,培养数据分析的素养.
(2)教学内容
教学重点:①了解统计报告的组成部分,培养学生数据分析的素养;②体会统计方法的必要性与合理性,正确了解样本和总体的关系.
教学难点:体会统计方法的必要性与合理性,正确了解样本和总体的关系.
2.背景与数据
近年来,我国肥胖人群的规模急速增长,肥胖人群有很大的心血管安全隐患.目前,国际上常用身体质量指数(Body Mass Index,缩写BMI)来衡量人体胖瘦程度以及是否健康,其计算公式是
中国成人的BMI数值标准为:BMI<18.5为偏瘦;18.5≤BMI<23.9为正常;24≤BMI<27.9为偏胖;BMI≥28为肥胖.
3.任务与要求
根据上面的数据,写一份该公司员工肥胖情况的统计分析报告.要求:
(1)选择合适的图表展示数据;
(2)比较男、女员工在肥胖状况上的差异;
(3)分析公司员工胖瘦程度的整体情况;
(4)提出控制体重的建议.
4.统计报告的主要组成部分
(1)标题
(2)前言
简单交代调查的目的、方法、范围等背景情况,使读者了解调查的基本情况.
(3)主题
展示数据分析的全过程:首先要明确所关心的问题是什么,说明数据蕴含的信息;根据数据分析的需要,说明如何选择合适的图标描述和表达数据;从样本数据中提取能刻画其特征的量,如均值、方差等,用于比较男、女员工在肥胖状况上的差异;通过样本估计总体的统计规律,分析公司员工胖瘦程度的整体.
(4)结尾
对主题部分的内容进行概括,结合控制体重的一般方法,提出控制公司员工体重的建议.
▉一.简单随机抽样及其适用条件(共3小题)
1.经过简单随机抽样获得的样本数据为x1,x2, ,xn,且数据x1,x2, ,xn的平均数为,方差为s2,则下列说法正确的是( )
A.若数据x1,x2, ,xn,方差s2=0,则所有的数据xi(i=1,2, ,n)都为0
B.若数据x1,x2, ,xn,的平均数为3,则yi=2xi+1(i=1,2, ,n)的平均数为6
C.若数据x1,x2, ,xn,的方差为s2=3,则yi=2xi+1(i=1,2, ,n)的方差为12
D.若数据x1,x2, ,xn,的25%分位数为90,则可以估计总体中有至少有75%的数据不大于90
2.下列情况适合用抽样调查的是( )
A.调查某化工厂周围5个村庄是否受到污染
B.调查某批次汽车的抗撞击能力
C.调查某班学生的身高情况
D.学校招聘,对应聘人员进行面试
3.一个总体中共有10个个体,用简单随机抽样的方法从中抽取一个样本容量为3的样本,则某一个特定个体被抽到的概率为( )
A. B. C. D.
▉二.抽签法简单随机抽样及其步骤(共2小题)
4.某校高一共有10个班,编号1至10,某项调查要从中抽取三个班作为样本,现用抽签法抽取样本,每次抽取一个号码,共抽3次,设五班第一次被抽到的可能性为a,第二次被抽到的可能性为b,则( )
A.a,b B.a,b
C.a,b D.a,b
5.下列抽样试验中,适合用抽签法的是( )
A.从某厂生产的5000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验
D.从某厂生产的5000件产品中抽取10件进行质量检验
▉三.随机数法简单随机抽样及其步骤(共3小题)
6.某中学高一年级有400人,高二年级有320人,高三年级有280人,若用随机数法在该中学抽取容量为n的样本,每人被抽到的可能性都为0.2,则n等于( )
A.80 B.160 C.200 D.280
7.下列说法错误的是( )
A.调查一个班级学生每周的体育锻炼时间适合用全面调查
B.实现简单随机抽样的常用方法有抽签法和随机数法
C.简单随机抽样是等概率抽样
D.为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生进行调查分析.在这个问题中,被抽取的200名学生是样本量
8.利用计算机产生[0,1]之间的均匀随机数a1=rand,经过下列的哪种变换能得到[﹣2,3]之间的均匀随机数( )
A.a=a1 5﹣2 B.a=a1 2﹣3 C.a=a1 3﹣2 D.a=a1 2﹣5
▉四.分层随机抽样及其适用条件(共2小题)
9.从一个含有N个个体的总体中抽取一容量为n的样本,当选取抽签法、随机数法和分层随机抽样三种不同方法时,总体中每个个体被抽中的概率分别为p1,p2,p3,三者关系可能是( )
A.p1=p2<p3 B.p1=p2=p3 C.p1=p3<p2 D.p2=p3<p1
10.某校高三年级有810名学生,其中男生有450名,女生有360名,按比例分层随机抽样的方法抽取一个容量为72的样本,则抽取男生和女生的人数分别为( )
A.40,32 B.42,30 C.44,28 D.46,26
▉五.普查与抽样(共3小题)
11.在以下调查中,适合用全面调查的是( )
A.了解一个班级学生的身高情况
B.了解一批水稻种子的发芽率
C.调查某城市居民的食品消费结构
D.调查某批次汽车的抗撞击能力
12.为了了解高一年级学生的视力情况,特别是近视率问题,抽查了其中100名同学的视力情况.在这个过程中,100名同学的视力情况(数据)是( )
A.总体 B.个体
C.总体的一个样本 D.样本容量
13.在以下调查中,适合用全面调查的是( )
A.调查一个县各村的粮食播种面积
B.调查一批玉米种子的发芽率
C.调查一批炮弹的杀伤半径
D.调查一个水库所有鱼中草鱼所占的比例
▉六.根据统计数据确定极差组距和组数(共2小题)
14.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )
A.10组 B.9组 C.8组 D.7组
15.为了解某年级女生的身高情况,从中抽出20名进行测量,结果如下:(单位:cm)
149 159 142 160 156 163 145 150 148 151
156 144 148 149 153 143 168 168 152 155
在列样本频率分布表的过程中,如果设组距为4cm,那么组数为( )
A.4 B.5 C.6 D.7
▉七.画频率分布直方图(共3小题)
(多选)16.某市为最大限度的吸引“高精尖缺”人才,向全球“招贤纳士”,推进了人才引入落户政策.随着人口增多,对住房要求也随之而来,而选择购买商品房时,住户对商品房的户型结构越来越重视,因此某商品房调查机构随机抽取n名市民,针对其居住的户型结构和满意度进行了调查,如图1调查的所有市民中四居室共200户,所占比例为,二居室住户占.如图2是用分层抽样的方法从所有调查的市民的满意中,抽取10%的调查结果绘制成的统计图,则下列说法错误的是( )
A.样本容量为60
B.样本中三居室住户共抽取了25户
C.根据样本可估计对四居室满意的住户有70户
D.样本中对三居室满意的有15户
17.某校高二年级的600名学生参加一次科普知识竞赛,然后随机抽取50名学生的成绩进行统计分析.
分组 频数 频率
[50,60) 5
[60,70) 10
[70,80) 15
[80,90) 15
[90,100) 5
合计 50
(1)完成频率分布表;
(2)根据上述数据画出频率分布直方图;
(3)估计这次竞赛成绩在80分以上的学生人数是多少?
(4)估计这次竞赛中成绩的众数,中位数,平均数分别是多少?
18.某班50名同学参加数学测验,成绩的分组及各组的频数如下:
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100),8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图.
▉八.频率分布直方图的应用(共2小题)
19.某地教育局为了解“双减”政策的落实情况,在辖区内初一年级在校学生中抽取了100名学生,调查了他们课下做作业的时间,得到如图所示的频率分布直方图,则下列结论不正确的是( )
A.该地初一年级学生做作业的时间超过3小时的概率估计为35%
B.估计该地初一年级有一半以上的学生做作业的时间超过2小时
C.估计该地初一年级学生做作业的时间的众数为2.25小时
D.估计该地初一年级有一半以上的学生做作业的时间在2小时至3小时之间
20.为了加深师生对党史的了解,激发广大师生知史爱党、知史爱国的热情,某校举办了“学党史、育文化”暨“喜迎党的二十大”党史知识竞赛,并将1000名师生的竞赛成绩(满分100分,成绩取整数)整理成如图所示的频率分布直方图,则下列说法不正确的是( )
A.a的值为0.005
B.估计这组数据的众数为75
C.估计成绩低于60分的有250人
D.估计这组数据的第85百分位数为85
▉九.平均数(共2小题)
21.已知互不相等的一组数x1,x2,x3,x4,x5,x6,x7,x8的平均数为x8,方差为,若x1,x2,x3,x4,x5,x6,x7的方差为,则( )
A.
B.
C.
D.与的大小关系不确定
22.下列说法正确的是( )
A.数据1,8,3,5,6的第60百分位数是5
B.若一组样本数据4,6,7,8,9,a的平均数为7,则a=7
C.用分层随机抽样时,个体数最多的层里的个体被抽到的概率最大
D.若x1,x2, ,x10的标准差为4,则﹣2x1+3,﹣2x2+3,﹣2x3+3,…,﹣2x10+3的标准差是8
▉十.中位数(共2小题)
23.某中学举办迎国庆歌咏比赛,邀请了七位评委,对一个选手打分后,得到一组互不相等的数据x1,x2,x3,x4,x5,x6,x7,去掉其中最高分与最低分得到的数据与原始数据一定相同的是( )
A.平均分 B.极差 C.标准差 D.中位数
24.已知一组样本数据为“2,2,3,5,6,7,8”,该样本数据的中位数是( )
A.6 B.5 C.3 D.2
▉十一.众数(共2小题)
25.某校举行“勇士杯”学生篮球比赛,统计高一年级部分班级的得分数据如下:
班级 1 2 3 4 5 6 7 8
得分 28 34 34 30 26 28 28 32
则下列说法正确的是( )
A.得分的众数为34
B.得分的中位数为28
C.得分的75%分位数为33
D.得分的极差为6
26.某校运动会,一位射击运动员10次射击射中的环数依次为:7,7,10,9,7,6,9,10,7,8.则下列说法错误的是( )
A.这组数据的平均数为8
B.这组数据的众数为7
C.这组数据的极差为4
D.这组数据的第80百分位数为9
▉十二.方差(共2小题)
27.已知样本容量为5的样本平均数为3,方差为,将数据9加入原样本得到样本容量为6的新样本,若新样本的平均数为,方差为s2,则( )
A. B. C. D.
28.已知x1,x2,…,xn的方差为3,则2x1+1,2x2+1,…,2xn+1的方差为( )
A.6 B.7 C.12 D.18
▉十三.极差(共2小题)
29.已知一组样本数据8,11,9,7,a,5的极差为6,则a的取值范围是( )
A.[5,11] B.{5,11} C.{5} D.[6,17]
(多选)52.气象台预报嘉兴市5月份气候适宜,温度波动幅度较小,比较适合户外运动,其中2024年5月9日至5月15日7天内的当日最高温度(单位℃)分别为:24,28,23,25,26,26,29,则以下说法正确的是( )
A.该组数据的极差为6
B.该组数据的众数为26
C.该组数据的中位数为25.5
D.该组数据的第70百分位数为26
30.为了解夏季高温天气的变化情况,某气象部门记录了某地区连续10天的日平均气温(单位:℃),其数据分别为30,32,29,34,31,36,33,38,35,37,则该地区这10天日平均气温的极差是 ℃.
▉十四.统计图表获取信息(共3小题)
31.如图所示,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成不规则形态,图(3)形成“右拖尾”形态,根据所给图形作出以下判断,正确的是( )
A.图(1)中平均数>中位数=众数
B.图(2)中众数>平均数
C.图(3)中众数<中位数<平均数
D.图(3)中众数<平均数<中位数
32.在统计学中,月度同比是指本月份和上一年同月份相比较的增长率,月度环比是指本月份和上一个月份相比较的增长率.如图是国家统计局发布的2023年全国居民消费价格月度涨跌幅度折线图,则下列说法正确的是( )
A.2023年2月至6月居民的消费价格持续下降
B.2023年7月居民消费价格高于2022年同期
C.2023年4月居民消费价格环比上涨0.1%,同比下降0.1%
D.2023年8月的居民消费价格是全年最高的
33.莎士比亚说“书籍是全人类的营养品”.在这个充满变化的时代,书籍始终是我们最可靠的伙伴.阅读不仅能够丰富你的知识,更能塑造你的品格,成为你成长道路上最珍贵的礼物.下图是国家图书馆在2024年1月到7月外借图书量(单位:册次)的统计图:
下列说法正确的是( )
A.这七个月外借图书量的中位数是12867
B.这组数据的第80百分位数是10079
C.1月,2月,3月这三个月外借图书量的方差比2月,3月,4月这三个月外借图书量的方差大
D.1月,2月,3月,4月这四个月外借图书量的平均数比2月,3月,4月,5月这四个月外借图书量的平均数小
▉十五.条形统计图(共2小题)
34.2023年4月,国内猪肉、鸡蛋、鲜果、禽肉、粮食、食用油、鲜菜价格同比(与去年同期相比)的变化情况如图所示,则下列说法正确的是( )
A.猪肉、鸡蛋、鲜果、禽肉、粮食、食用油这6种食品中,食用油价格同比涨幅最小
B.猪肉价格同比涨幅超过禽肉价格同比涨幅的5倍
C.去年4月鲜菜价格要比今年4月低
D.这7种食品价格同比涨幅的平均值超过7%
(多选)35.(多选)为了解某企业员工的学习情况,对该企业员工进行问卷调查,已知他们的得分都处在A,B,C,D四个区间内,根据调查结果得到下面的统计图.已知该企业男员工占,则下列结论错误的是( )
A.男、女员工得分在A区间的占比相同
B.在各得分区间男员工的人数都多于女员工的人数
C.得分在C区间的员工最多
D.得分在D区间的员工占总人数的19%
▉十六.折线统计图(共2小题)
36.如图为近一年我国商品零售总额和餐饮收入总额同比增速情况折线图,根据该图,下列结论正确的是( )
(注:同比,指当前的数据与上一年同期进行比对;环比,指当前数据与上个月的数据进行比对.)
A.2024年1~2月份,商品零售总额同比增长9.2%
B.2023年3~12月份,餐饮收入总额同比都降低
C.2023年6 10月份,商品零售总额同比都增加
D.2023年12月,餐饮收入总额环比增速为﹣14.1%
37.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
▉十七.扇形统计图(共2小题)
38.已知某市某居民小区户主人数和户主对户型结构的满意率分别如图①和②所示,为了解该小区户主对户型结构的满意程度,用按比例分配的分层随机抽样的方法抽取20%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A.160;12 B.120,12 C.160,9 D.120,9
39.我国在2024年的全国发电装机容量为33.5亿千瓦,包括水电、火电、核电、风电、太阳能发电,其占比如图所示,根据此扇形图,下面说法正确的是( )
A.2024年我国太阳能发电装机容量部分的扇形圆心角小于90°
B.2024年我国火电发电装机容量超过15亿千瓦
C.2024年我国火电发电装机容量超过新能源(太阳能、风电、核电)的发电装机容量
D.若2025年核电规模要达到2024年全国发电装机容量规模的11.8%,则还要再建设的核电的发电装机容量为3.35亿千瓦