专题9.3 用样本估计总体(重难点题型精讲)
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初
中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图 折线图 扇形图
特 点 一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的. 用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化. 用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景 能清楚地表示每个项目的具体数量,便于相互比较大小. 能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中. 可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
3.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个
值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第(i+1)项数据的平均数.
4.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度
刻画了一组数据的集中趋势.具体概念回顾如下:
名称 概念
平 均 数 如果有n个数x1,x2,…,xn,那么(x1+x2+…+xn)就是这组数据的平均数,用表示,即=(x1+x2+…+xn).
中 位 数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众 数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
5.总体离散程度的估计
(1)方差和标准差
假设一组数据是,,,,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,,,,总体平均数为,则总体方差=
.
②加权式:如果总体的N个变量值中,不同的值共有k(kN)个,不妨记为,,,,其中出
现的频数为(i=1,2,,k),则总体方差为=.
总体标准差:S=.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则
标准差为0.反之,标准差为0的样本,其中的数据都相等.
6.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【题型1 频率分布直方图的相关计算问题】
【方法点拨】
由频率分布直方图进行相关计算时,需掌握下列关系式:
(1)小长方形的面积=组距×=频率;
(2)各小长方形的面积之和等于1;
(3)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
【例1】(2023春·天津滨海新·高三开学考试)随着若卡塔尔世界杯的举办,全民对足球的热爱程度有所提高,组委会在某场比赛结束后,随机抽取了若干名球迷对足球“喜爱度”进行调查评分,把喜爱程度较高的按年龄分成5组,其中第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图,已知第一组与第二组共有32人,第三组中女性球迷有4人,则第三组中男性球迷人数为( )
A.16 B.18 C.20 D.24
【解题思路】由已知可求出第一组与第二组的频率之和,进而得到样本容量.然后根据第三小组的频率,即可求出第三小组的人数,得出答案.
【解答过程】由题意结合频率分布直方图可得,第一组与第二组的频率之和为,第三组频率为.
因为第一组与第二组共有32人,所以样本容量,
所以,第三组人数为,所以第三组中男性球迷人数为.
故选:C.
【变式1-1】(2023春·天津和平·高三开学考试)某单位组织全体员工登录某网络培训平台进行学习并统计积分,得到频率分布直方图如图所示,已知学习积分在(单位:万分)的人数是60人,并且学习积分超过2万分的员工可获得“学习达人”称号,则该单位可以获得该称号的员工人数为( )
A.15 B.16 C.30 D.32
【解题思路】根据学习积分在的频率及人数,故可得全体员工的人数,再根据在的频率即可求解.
【解答过程】学习积分在的频率为,学习积分在的频率为,
因为学习积分在(单位:万分)的人数是60人,
所以全体员工的人数为人,
所以该单位可以获得该称号的员工人数为人.
故选:A.
【变式1-2】(2023·全国·高一专题练习)如图是一学校期末考试中某班物理成绩的频率分布直方图,数据的分组依次为、、、、、,若成绩不低于70分的人数比成绩低于70分的人数多4人,则该班的学生人数为( )
A.45 B.50 C.55 D.60
【解题思路】根据频率分布直方图求出的值,即得解.
【解答过程】解:由题得
由题得低于70分的频率为,
所以不低于70分的频率为,
设该班的学生人数为,则,
所以.
故选:B.
【变式1-3】(2023春·天津·高三期末)为倡导“节能减排,低碳生活”的理念,某社区对家庭的人均月用电量情况进行了调查,通过抽样,获得了某社区100个家庭的人均月用电量(单位:千瓦时),将数据按照分成6组,制成了如图所示的频率分布直方图.若该社区有3000个家庭,估计全社区人均月用电量低于80千瓦时的家庭数为( )
A.300 B.450 C.480 D.600
【解题思路】根据给定的频率分布直方图,求出人均月用电量低于80千瓦时的频率即可计算作答.
【解答过程】由频率分布直方图知,人均月用电量低于80千瓦时的频率为,
而该社区有3000个家庭,所以全社区人均月用电量低于80千瓦时的家庭数约为.
故选:D.
【题型2 统计图的综合应用问题】
【方法点拨】
条形图可以直观地表示各个项目的具体数量,扇形图能够清晰地显示各个项目占总体的百分比,折线图可
以清楚地看到数据变动趋势,解决统计类问题时常需将若干种统计图结合,不能孤立分开.
【例2】(2023春·四川成都·高三开学考试)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法错误的是( ).
A.57周岁以上参保人数最少
B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐
D.31周岁以上的人群约占参保人群80%
【解题思路】根据扇形图、散点图、频率图对选项进行分析,从而确定正确答案.
【解答过程】A选项,57周岁以上参保人数所占比例是,是最少的,A选项正确.
B选项,“18~30周岁人群参保平均费用”比“57周岁以上人群参保平均费用”的一半还多,
而18~30周岁人群参保人数所占比例是57周岁以上参保人数所占比例的两倍,
所以57周岁以上参保人群参保总费用最少,B选项错误.
C选项,C险种参保比例,是最多的,所以C选项正确.
D选项,31周岁以上的人群约占参保人群,D选项正确.
故选:B.
【变式2-1】(2023·全国·高一专题练习)世界人口变化情况的三幅统计图如图所示.
下列结论中错误的是( )
A.从折线图能看出世界人口的总量随着年份的增加而增加
B.2050年亚洲人口比其他各洲人口的总和还要多
C.1957年到2050年各洲中北美洲人口增长速度最慢
D.2050年南美洲及大洋洲人口之和与欧洲人口基本持平
【解题思路】结合图像逐一辨析即可.
【解答过程】由折线图可以看出世界人口的总量随着年份的增加而增加,故A正确:
由扇形统计图可知2050年亚洲人口比其他各洲人口的总和还要多,故B正确:
由条形统计图可知2050年欧洲人口与南美洲及大洋洲人口之和基本持平,故D正确:
三幅统计图并不能得到各个洲人口增长速度的快慢,故C错误.
故选:C.
【变式2-2】(2022·山西运城·统考模拟预测)2021年,我国各地落实粮食生产责任和耕地保护制度,加大粮食生产扶持力度,支持复垦撂荒地,连续两年实现增长.我国2020年与2021年粮食产量种类分布及占比统计图如图所示,则下列说法不正确的是( )
A.我国2020年的粮食总产量约为13390亿斤
B.我国2021年豆类产量比2020年减产明显,下降了约14.2%
C.我国2021年的各类粮食产量中,增长量最大的是玉米
D.我国2021年的各类粮食产量中,同2020年相比,所占比例下降的只有豆类
【解题思路】对于A:只需要将即可判断;对于B:2021年豆类产量比2020年减少 (亿斤),下降率为 即可判断;对于C:分别计算出各类粮食产量增长或减少的量即可判断;对于D:分别计算出各类粮食产量增长或减少的量即可判断
【解答过程】由题得我国2020年的粮食总产量为(亿斤).A正确;
我国2021年豆类产量比2020年豆类产量下降了,B正确;
我国2021年类粮食产量中,只有豆类产量下降,而稻谷增长了(亿斤),小麦增长了(亿斤),玉米增长了(亿斤),薯类增长了(亿斤),其他增长了(亿斤),由此可得增长量最大的是玉米.C正确;
小麦,玉米,其他所长比例均是上升,薯类所占比例不变,豆类,稻谷所占比例均下降,所以D错误,
故选:D.
【变式2-3】(2023·全国·高二专题练习)某保险公司推出了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.现对5个险种参保客户进行抽样调查,得出如下的统计图:
用样本估计总体,以下四个选项错误的是( )
A.30~41周岁参保人数最多
B.随着年龄的增长,人均参保费用越来越多
C.54周岁以下的参保人数约占总参保人数的8%
D.定期寿险最受参保人青睐
【解题思路】根据所给的统计表与统计图逐个选项分析即可
【解答过程】由扇形图可知,31~41周岁的参保人数最多,故选项A正确;
由折线图可知,随着年龄的增长人均参保费用越来越多,故选项B正确;
由扇形图可知,54周岁以下的参保人数约占总参保人数的92%,故选项C错误;
由柱状图可知,丁险种参保比例最高,故选项D正确.
故选:C.
【题型3 百分位数的求解】
【方法点拨】
根据计算一组数据的第p百分位数的步骤,结合具体问题,进行求解即可.
【例3】(2023·山东临沂·统考一模)某工厂随机抽取名工人,对他们某天生产的产品件数进行统计,数据如下表,则该组数据的第百分位数是( )
件数 7 8 9 10 11
人数 3 7 5 4 1
A. B. C. D.
【解题思路】根据百分位数的求法求解即可.
【解答过程】抽取的工人总数为,,
那么第百分位数是所有数据从小到大排序的第项与第项数据的平均数,
第项与第项数据分别为,
所以第百分位数是,
故选:C.
【变式3-1】(2023·全国·高一专题练习)某校从高一新生中随机抽取了一个容量为10的身高样本,数据(单位:cm)从小到大排序如下:158,165,165,167,168,169,x,172,173,175,若样本数据的第60百分位数是170,则x=( )
A.169 B.170 C.171 D.172
【解题思路】根据百分位数的定义求第60百分位数,由条件列方程可得.
【解答过程】因为样本容量为10,且样本数据从小到大排序如下:
158,165,165,167,168,169,x,172,173,175,
又,
所以第60百分位数为,由已知,
所以,
故选:C.
【变式3-2】(2023·全国·高一专题练习)一组数据如下:10,11,12,13,14,15,16,17,18,19,20,则该组数据的第30百分位数是( )
A.12 B.12.5 C.13 D.13.5
【解题思路】根据百分位数的定义,直接计算可得答案.
【解答过程】根据题意得,该组数据有11个数,且已经从小到大排列,则该组数据的第30百分位数是,所以取第4个数13,
故选:C.
【变式3-3】(2023·全国·高一专题练习)《中国居民膳食指南(2022)》数据显示,6岁至17岁儿童青少年超重肥胖率高达19.0%.为了解某地中学生的体重情况,某机构从该地中学生中随机抽取100名学生,测量他们的体重(单位:千克),根据测量数据,按分成六组,得到的频率分布直方图如图所示.根据调查的数据,估计该地中学生体重的第75百分位数是( )
A.55 B.57.25 C.58.75 D.60
【解题思路】确定第75百分位数在内,直接根据百分位数的概念计算得到答案.
【解答过程】因为,
所以该地中学生体重的第75百分位数在内,
设第75百分位数为m,则,解得.
故选:C.
【题型4 众数、中位数、平均数的应用】
【方法点拨】
中位数、众数分别反映了一组数据的“中等水平”、“多数水平”,平均数反映了数据的平均水平,我们需根
据实际需要选择使用.
【例4】(2023·全国·高一专题练习)某企业有1000名职工,现按照总体的10%抽取样本,通过分层抽样得到如下年收入表:
年收入(元) 50万 15万 8万 4万 3万 1.2万
人数 1 6 15 55 20 3
某次工资上调中,只提高了最低收入,即从年收入1.2万元提高到2万元,其他职工的收入不变,则下列关于本企业职工年收入的说法中正确的是 ( )
A.平均数和众数都提高了 B.平均数和中位数都提高了
C.平均数不变,中位数提高了 D.中位数和众数不变,平均数提高了
【解题思路】首先说明平均数提高了,再说明中位数和众数没有改变.
【解答过程】解:由于提高了最低收入,即从年收入1.2万元提高到2万元,其他职工的收入不变,所以平均数提高了.
提高最低收入后,有1人年收入50万,6个人年收入15万,15个人年收入8万,55个人年收入4万,20个人年收入3万,3个人年收入2万,所以众数还是4万,中位数还是4万,众数和中位数没有变化.
故选:D.
【变式4-1】(2023·全国·高三专题练习)某篮球运动员练习罚篮,共20组,每组50次,每组命中球数如下表:
命中球数 46 47 48 49 50
频数 2 4 4 6 4
则这组数据的中位数和众数分别为( )
A.48,4 B.48.5,4 C.48,49 D.48.5,49
【解题思路】根据中位数和众数的定义即可求解.
【解答过程】数据总个数为20个,
因此中位数是第10个与第11个数据的中位数,即,
众数为出现最多的数据,即数据49(出现6次),
故选:D.
【变式4-2】(2023·全国·高一专题练习)经团委统计,某校申请“志愿服务之星”的10名同学在本学期的志愿服务时长(单位:小时)分别为26、25、23、24、29、25、32、25、24、23,记这一组数据的平均数为,上四分位数为,众数为,则( )
A. B. C. D.
【解题思路】直接算出中位数,平均数,众数即可.
【解答过程】将10个数据由小到大排列:23,23,24,24,25,25,25,26,29,32,则平均数;
上四分位数为第75百分位数,
因为,故上四分位数为第8个数,;
25出现3次,最多,众数.
所以,
故选:A.
【变式4-3】(2023·青海海东·统考一模)某电子厂质检员从、两条生产线上各随机抽取件产品进行质检,测得该产品的某一质量指数如下:;.若该产品的这一质量指数在内,则该产品质量为优等品,则( )
A.样本中生产线生产的优等品和生产线生产的优等品的数量相同
B.样本中生产线生产的产品和生产线生产的产品的这一质量指数的平均值相同
C.样本中生产线生产的产品和生产线生产的产品的这一质量指数的极差相同
D.样本中生产线生产的产品和生产线生产的产品的这一质量指数的中位数相同
【解题思路】利用优等品对产品质量指数的要求可判断A选项;利用平均数的定义可判断B选项;利用极差的定义可判断C选项;利用中位数的定义可判断D选项.
【解答过程】对于A选项,样本中生产线生产的产品中,优等品有件,生产线生产的产品中,优等品有件,A错;
对于B选项,样本中生产线生产的产品中的质量指数的平均数为,
生产线生产的产品中的质量指数的平均数为,B错;
对于C选项,样本中生产线生产的产品中的质量指数的极差为,
生产线生产的产品中的质量指数的极差为,C错;
对于D选项,样本中、生产线生产的产品中的质量指数的中位数均为,D对.
故选:D.
【题型5 方差、标准差的求解及应用】
【方法点拨】
根据方差、标准差的概念和计算公式,进行求解即可.
【例5】(2023春·山西·高三阶段练习)现有甲、乙两组数据,每组数据均由六个数组成,其中甲组数据的平均数为,方差为,乙组数据的平均数为,方差为.若将这两组数据混合成一组,则新的一组数据的方差为( )
A. B. C. D.
【解题思路】利用平均数和方差公式可求得新数据的方差.
【解答过程】设甲组数据分别为、、、,乙组数据分别为、、、,
甲组数据的平均数为,可得,方差为,可得,
乙组数据的平均数为,可得,方差为,可得,
混合后,新数据的平均数为,
方差为
.
故选:D.
【变式5-1】(2022·高一单元测试)期末考试后,高二某班50名学生物理成绩的平均分为85,方差为8.2,则下列四个数中不可能是该班物理成绩的是( )
A.60 B.78 C.85 D.100
【解题思路】利用方差的定义、计算公式进行判断.
【解答过程】根据题意,平均数,方差,所以,若存在,则,则方差必然大于8.2,不符合题意,所以60不可能是所有成绩中的一个数据.又,,.故B,C,D错误.
故选:A.
【变式5-2】(2023·全国·高一专题练习)设有n个样本,,…,,其标准差是,另有n个样本,,…,,且,其标准差为,则下列关系中正确的是( )
A. B.
C. D.
【解题思路】根据标准差的计算公式分别表示,由此判断两者关系.
【解答过程】设样本,,…,的平均数为,样本,,…,的平均数为,则
,
,
,
,
所以,故,
故选:B.
【变式5-3】(2023·内蒙古·校联考模拟预测)某校举行校园歌手大赛,5名参赛选手的得分分别是9,8.7,9.3,x,y.已知这5名参赛选手的得分的平均数为9,方差为0.1,则( )
A.0.5 B.0.6 C.0.7 D.0.8
【解题思路】先由平均数和方差分别得到和的值,再整体代入计算的值即可.
【解答过程】因为平均数为,
所以.
因为方差为
所以,
所以,
又因为,
所以,
所以,
所以.
故选:D.
【题型6 频率分布直方图中集中趋势参数的计算】
【方法点拨】
(1)平均数:用每个小矩形底边中点的横坐标与小矩形的面积(即该小组的频率)的乘积之和近似代替平均数.
(2)中位数:根据中位数左边和右边的直方图的面积相等列式求中位数.
(3)众数:可以用最高小矩形底边中点的横坐标来近似代替众数.
【例6】(2022秋·辽宁辽阳·高一期末)“天宫课堂”是为发挥中国空间站的综合效益,推出的首个太空科普教育品牌.”天宫课堂”是结合载人飞行任务,贯穿中国空间站建造和在轨运营系列化推出的,将由中国航天员担任“太空教师”,以青少年为主要对象,采取天地协同互动方式开展.2022年10月12日15时40分,“天宫课堂”第三课在中国空间站开讲.学校针对这次直播课,举办了”天宫课堂”知识竞赛,有100名学生代表参加了竞赛,竞赛后对这100名学生的成绩(满分100分)进行统计,将数据分为[60,70),[70,80),[80,90),[90,100]这4组,画出如图所示的频率分布直方图.
(1)求频率分布直方图中m的值;
(2)估计这100名学生竞赛成绩的平均数(同一组中的数据用该组区间的中点值作为代表);
(3)若该校准备对本次知识竞赛成绩较好的40%的学生进行嘉奖,试问被嘉奖的学生的分数不低于多少?
【解题思路】(1)利用频率组距直方图各个小长方形的面积之和为进行计算;
(2)根据直方图数据和平均数的计算公式进行计算求解;
(3)根据题意,从高分往低分统计,计算出小长方形的面积之和为时即可.
【解答过程】(1)由图可得,解得
(2)估计这100名学生竞赛成绩的平均数.
(3)设被嘉奖的学生的分数不低于,
因为第四组的频率为,第三组的频率为,
所以,所以,得.
【变式6-1】(2022秋·内蒙古赤峰·高二期末)某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并购买一定数量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:,,后得到如图所示的频率分布直方图.
(1)求在这40名读书者中年龄分布在的人数;
(2)求这40名读书者的年龄的平均数和中位数(同一组中的数据用该组区间中点值为代表).
【解题思路】(1)由图计算得年龄在的频率为,乘以人数即可;
(2)直接利用平均数公式即可计算出平均数,设中位数为,得到关于的方程,解出即可.
【解答过程】(1)由频率分布直方图知,年龄在的频率为
,
故这40名读书者中年龄分布在的人数为.
(2)这40名读书者年龄的平均数为
,
设中位数为,则
,
解得,故这40名读书者年龄的中位数为55.
【变式6-2】(2022秋·宁夏银川·高一期末)2021年根据移动通信协会监测,某校全体教师通讯费用(单位:元)如图所示,数据分组依次为[20,40),[40,60),[60,80),[80,100].
(1)估计该校教师话费的80%分位数和中位数;
(2)估计该校教师通讯费用的众数和平均数.
【解题思路】(1)找出给定百分位数所对应的频率,在频率分布直方图中找到其对应的横坐标;中位数就是频率分布直方图面积的一半所对应的横坐标.
(2)众数指频率分布直方图中最高矩形的底边中点的横坐标;平均数是频率分布直方图每组数值的中间值乘以频率后相加.
【解答过程】(1)该校教师话费在80元以下的频率为:,
该校教师话费在[80,100]的频率为0.3,因此,该校教师话费的80%分位数在[80,100]内.
由.可以估计该校教师话费的80%分位数为.
设中位数为X:,所以X=70.
(2)该校教师通讯费用的众数为70;
平均数为:.
【变式6-3】(2022秋·云南楚雄·高二阶段练习)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260), [260,280),[280,300]分组的频率分布直方图如图:
(1)求直方图中的的值
(2)估计月平均用电量的众数和中位数,第80百分位数.
(3)从月平均用电量在[220,240),[240,260),[260,280),[280,300]内的四组用户中,用分层抽样的方法抽取户居民,求从月平均用电量在[220,240)内的用户中应抽取多少户?
【解题思路】(1)由各组数据频率之和即所有矩形面积之和为1可得答案;
(2)由直方图中最高矩形底边的中点得众数,在频率分布直方图中,中位数左边和右边直方图面积相等、第80百分位数左边面积占总面积的,据此可得答案;
(3)利用频率估计月平均用电量为的居民在四组中所占比例,即可得答案.
【解答过程】(1)因直方图中,各组数据频率之和为所有矩形面积之和为1,
则,
得.
(2)月平均用电量的众数是=230.
因前3个矩形面积之和为.
前4个矩形面积之和为.
则中位数在内,设为,则,得,即中位数为224.
因为前4个矩形面积之和为,前5个矩形面积之和为,则第80百分位数在[240,260)内,
设第80百分位数为,则,解得,即第80百分位数约为253.33.
(3)月平均用电量为的居民对应的频率为:.
又由(2)分析可知,月平均用电量为的四组居民对应频率之和为:.
则应抽取居民的户数为:.专题9.3 用样本估计总体(重难点题型精讲)
1.频率分布直方图
(1)频率分布表与频率分布直方图的意义
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初
中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
有时,我们更关心各个小组的数据在样本容量中所占比例的大小,所以选择频率分布表和频率分布直方图来整理和表示数据.
(2)频率分布表与频率分布直方图的制作步骤
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
第一步,求极差
极差为一组数据中最大值与最小值的差.
第二步,决定组距与组数
第三步,将数据分组
通常对组内数据取左闭右开区间,最后一组数据取闭区间.
第四步,列频率分布表
计算各小组的频率,作出频率分布表.
第五步,画频率分布直方图
画图时,以横轴表示分组,纵轴(小长方形的高度)表示.
2.其他几类常用统计图——条形图、折线图、扇形图
条形图 折线图 扇形图
特 点 一般地,条形图中,一条轴上显示的是所关注的数据类型,另一条轴上对应的是数量、个数或者比例,条形图中每一长方形都是等宽的. 用一个单位长度表示一定的数量,用折线的起伏表示数量的增减变化. 用整个圆表示总体,扇形图中,每一个扇形的圆心角以及弧长,都与这一部分表示的数据大小成正比.
作用及选用情景 能清楚地表示每个项目的具体数量,便于相互比较大小. 能清楚地看出数量增减变化的情况及各部分数量的多少.常用来表示随时间变化的数据,当然,也可以用在其他合适的情形中. 可以形象地表示出各部分数据在全部数据中所占的比例情况.
图例
3.总体百分位数的估计
(1)概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个
值,且至少有(100-p)%的数据大于或等于这个值.
(2)求解步骤
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p
百分位数为第i项与第(i+1)项数据的平均数.
4.总体集中趋势的估计
在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度
刻画了一组数据的集中趋势.具体概念回顾如下:
名称 概念
平 均 数 如果有n个数x1,x2,…,xn,那么(x1+x2+…+xn)就是这组数据的平均数,用表示,即=(x1+x2+…+xn).
中 位 数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
众 数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)称为这组数据的众数.
5.总体离散程度的估计
(1)方差和标准差
假设一组数据是,,,,用表示这组数据的平均数,则我们称为这组数据的
方差.有时为了计算方差的方便,我们还把方差写成的形式.
我们对方差开平方,取它的算数平方根,称为这组数据的标准差.
(2)总体(样本)方差和总体标准差
①一般式:如果总体中所有个体的变量值分别为,,,,总体平均数为,则总体方差=
.
②加权式:如果总体的N个变量值中,不同的值共有k(kN)个,不妨记为,,,,其中出
现的频数为(i=1,2,,k),则总体方差为=.
总体标准差:S=.
(3)标准差与方差的统计意义
①标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
②在刻画数据的分散程度上,方差与标准差是一样的,但在解决实际问题时,一般多采用标准差.
③标准差(方差)的取值范围为[0,+).若样本数据都相等,表明数据没有波动幅度,数据没有离散性,则
标准差为0.反之,标准差为0的样本,其中的数据都相等.
6.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
【题型1 频率分布直方图的相关计算问题】
【方法点拨】
由频率分布直方图进行相关计算时,需掌握下列关系式:
(1)小长方形的面积=组距×=频率;
(2)各小长方形的面积之和等于1;
(3)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
【例1】(2023春·天津滨海新·高三开学考试)随着若卡塔尔世界杯的举办,全民对足球的热爱程度有所提高,组委会在某场比赛结束后,随机抽取了若干名球迷对足球“喜爱度”进行调查评分,把喜爱程度较高的按年龄分成5组,其中第一组:,第二组:,第三组:,第四组:,第五组:,得到如图所示的频率分布直方图,已知第一组与第二组共有32人,第三组中女性球迷有4人,则第三组中男性球迷人数为( )
A.16 B.18 C.20 D.24
【变式1-1】(2023春·天津和平·高三开学考试)某单位组织全体员工登录某网络培训平台进行学习并统计积分,得到频率分布直方图如图所示,已知学习积分在(单位:万分)的人数是60人,并且学习积分超过2万分的员工可获得“学习达人”称号,则该单位可以获得该称号的员工人数为( )
A.15 B.16 C.30 D.32
【变式1-2】(2023·全国·高一专题练习)如图是一学校期末考试中某班物理成绩的频率分布直方图,数据的分组依次为、、、、、,若成绩不低于70分的人数比成绩低于70分的人数多4人,则该班的学生人数为( )
A.45 B.50 C.55 D.60
【变式1-3】(2023春·天津·高三期末)为倡导“节能减排,低碳生活”的理念,某社区对家庭的人均月用电量情况进行了调查,通过抽样,获得了某社区100个家庭的人均月用电量(单位:千瓦时),将数据按照分成6组,制成了如图所示的频率分布直方图.若该社区有3000个家庭,估计全社区人均月用电量低于80千瓦时的家庭数为( )
A.300 B.450 C.480 D.600
【题型2 统计图的综合应用问题】
【方法点拨】
条形图可以直观地表示各个项目的具体数量,扇形图能够清晰地显示各个项目占总体的百分比,折线图可
以清楚地看到数据变动趋势,解决统计类问题时常需将若干种统计图结合,不能孤立分开.
【例2】(2023春·四川成都·高三开学考试)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法错误的是( ).
A.57周岁以上参保人数最少
B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐
D.31周岁以上的人群约占参保人群80%
【变式2-1】(2023·全国·高一专题练习)世界人口变化情况的三幅统计图如图所示.
下列结论中错误的是( )
A.从折线图能看出世界人口的总量随着年份的增加而增加
B.2050年亚洲人口比其他各洲人口的总和还要多
C.1957年到2050年各洲中北美洲人口增长速度最慢
D.2050年南美洲及大洋洲人口之和与欧洲人口基本持平
【变式2-2】(2022·山西运城·统考模拟预测)2021年,我国各地落实粮食生产责任和耕地保护制度,加大粮食生产扶持力度,支持复垦撂荒地,连续两年实现增长.我国2020年与2021年粮食产量种类分布及占比统计图如图所示,则下列说法不正确的是( )
A.我国2020年的粮食总产量约为13390亿斤
B.我国2021年豆类产量比2020年减产明显,下降了约14.2%
C.我国2021年的各类粮食产量中,增长量最大的是玉米
D.我国2021年的各类粮食产量中,同2020年相比,所占比例下降的只有豆类
【变式2-3】(2023·全国·高二专题练习)某保险公司推出了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.现对5个险种参保客户进行抽样调查,得出如下的统计图:
用样本估计总体,以下四个选项错误的是( )
A.30~41周岁参保人数最多
B.随着年龄的增长,人均参保费用越来越多
C.54周岁以下的参保人数约占总参保人数的8%
D.定期寿险最受参保人青睐
【题型3 百分位数的求解】
【方法点拨】
根据计算一组数据的第p百分位数的步骤,结合具体问题,进行求解即可.
【例3】(2023·山东临沂·统考一模)某工厂随机抽取名工人,对他们某天生产的产品件数进行统计,数据如下表,则该组数据的第百分位数是( )
件数 7 8 9 10 11
人数 3 7 5 4 1
A. B. C. D.
【变式3-1】(2023·全国·高一专题练习)某校从高一新生中随机抽取了一个容量为10的身高样本,数据(单位:cm)从小到大排序如下:158,165,165,167,168,169,x,172,173,175,若样本数据的第60百分位数是170,则x=( )
A.169 B.170 C.171 D.172
【变式3-2】(2023·全国·高一专题练习)一组数据如下:10,11,12,13,14,15,16,17,18,19,20,则该组数据的第30百分位数是( )
A.12 B.12.5 C.13 D.13.5
【变式3-3】(2023·全国·高一专题练习)《中国居民膳食指南(2022)》数据显示,6岁至17岁儿童青少年超重肥胖率高达19.0%.为了解某地中学生的体重情况,某机构从该地中学生中随机抽取100名学生,测量他们的体重(单位:千克),根据测量数据,按分成六组,得到的频率分布直方图如图所示.根据调查的数据,估计该地中学生体重的第75百分位数是( )
A.55 B.57.25 C.58.75 D.60
【题型4 众数、中位数、平均数的应用】
【方法点拨】
中位数、众数分别反映了一组数据的“中等水平”、“多数水平”,平均数反映了数据的平均水平,我们需根
据实际需要选择使用.
【例4】(2023·全国·高一专题练习)某企业有1000名职工,现按照总体的10%抽取样本,通过分层抽样得到如下年收入表:
年收入(元) 50万 15万 8万 4万 3万 1.2万
人数 1 6 15 55 20 3
某次工资上调中,只提高了最低收入,即从年收入1.2万元提高到2万元,其他职工的收入不变,则下列关于本企业职工年收入的说法中正确的是 ( )
A.平均数和众数都提高了 B.平均数和中位数都提高了
C.平均数不变,中位数提高了 D.中位数和众数不变,平均数提高了
【变式4-1】(2023·全国·高三专题练习)某篮球运动员练习罚篮,共20组,每组50次,每组命中球数如下表:
命中球数 46 47 48 49 50
频数 2 4 4 6 4
则这组数据的中位数和众数分别为( )
A.48,4 B.48.5,4 C.48,49 D.48.5,49
【变式4-2】(2023·全国·高一专题练习)经团委统计,某校申请“志愿服务之星”的10名同学在本学期的志愿服务时长(单位:小时)分别为26、25、23、24、29、25、32、25、24、23,记这一组数据的平均数为,上四分位数为,众数为,则( )
A. B. C. D.
【变式4-3】(2023·青海海东·统考一模)某电子厂质检员从、两条生产线上各随机抽取件产品进行质检,测得该产品的某一质量指数如下:;.若该产品的这一质量指数在内,则该产品质量为优等品,则( )
A.样本中生产线生产的优等品和生产线生产的优等品的数量相同
B.样本中生产线生产的产品和生产线生产的产品的这一质量指数的平均值相同
C.样本中生产线生产的产品和生产线生产的产品的这一质量指数的极差相同
D.样本中生产线生产的产品和生产线生产的产品的这一质量指数的中位数相同
【题型5 方差、标准差的求解及应用】
【方法点拨】
根据方差、标准差的概念和计算公式,进行求解即可.
【例5】(2023春·山西·高三阶段练习)现有甲、乙两组数据,每组数据均由六个数组成,其中甲组数据的平均数为,方差为,乙组数据的平均数为,方差为.若将这两组数据混合成一组,则新的一组数据的方差为( )
A. B. C. D.
【变式5-1】(2022·高一单元测试)期末考试后,高二某班50名学生物理成绩的平均分为85,方差为8.2,则下列四个数中不可能是该班物理成绩的是( )
A.60 B.78 C.85 D.100
【变式5-2】(2023·全国·高一专题练习)设有n个样本,,…,,其标准差是,另有n个样本,,…,,且,其标准差为,则下列关系中正确的是( )
A. B.
C. D.
【变式5-3】(2023·内蒙古·校联考模拟预测)某校举行校园歌手大赛,5名参赛选手的得分分别是9,8.7,9.3,x,y.已知这5名参赛选手的得分的平均数为9,方差为0.1,则( )
A.0.5 B.0.6 C.0.7 D.0.8
【题型6 频率分布直方图中集中趋势参数的计算】
【方法点拨】
(1)平均数:用每个小矩形底边中点的横坐标与小矩形的面积(即该小组的频率)的乘积之和近似代替平均数.
(2)中位数:根据中位数左边和右边的直方图的面积相等列式求中位数.
(3)众数:可以用最高小矩形底边中点的横坐标来近似代替众数.
【例6】(2022秋·辽宁辽阳·高一期末)“天宫课堂”是为发挥中国空间站的综合效益,推出的首个太空科普教育品牌.”天宫课堂”是结合载人飞行任务,贯穿中国空间站建造和在轨运营系列化推出的,将由中国航天员担任“太空教师”,以青少年为主要对象,采取天地协同互动方式开展.2022年10月12日15时40分,“天宫课堂”第三课在中国空间站开讲.学校针对这次直播课,举办了”天宫课堂”知识竞赛,有100名学生代表参加了竞赛,竞赛后对这100名学生的成绩(满分100分)进行统计,将数据分为[60,70),[70,80),[80,90),[90,100]这4组,画出如图所示的频率分布直方图.
(1)求频率分布直方图中m的值;
(2)估计这100名学生竞赛成绩的平均数(同一组中的数据用该组区间的中点值作为代表);
(3)若该校准备对本次知识竞赛成绩较好的40%的学生进行嘉奖,试问被嘉奖的学生的分数不低于多少?
【变式6-1】(2022秋·内蒙古赤峰·高二期末)某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并购买一定数量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:,,后得到如图所示的频率分布直方图.
(1)求在这40名读书者中年龄分布在的人数;
(2)求这40名读书者的年龄的平均数和中位数(同一组中的数据用该组区间中点值为代表).
【变式6-2】(2022秋·宁夏银川·高一期末)2021年根据移动通信协会监测,某校全体教师通讯费用(单位:元)如图所示,数据分组依次为[20,40),[40,60),[60,80),[80,100].
(1)估计该校教师话费的80%分位数和中位数;
(2)估计该校教师通讯费用的众数和平均数.
【变式6-3】(2022秋·云南楚雄·高二阶段练习)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260), [260,280),[280,300]分组的频率分布直方图如图:
(1)求直方图中的的值
(2)估计月平均用电量的众数和中位数,第80百分位数.
(3)从月平均用电量在[220,240),[240,260),[260,280),[280,300]内的四组用户中,用分层抽样的方法抽取户居民,求从月平均用电量在[220,240)内的用户中应抽取多少户?