第二节用样本估计总体--第三节统计案例 公司员工的肥胖情况调查分析 
知识点1频率分布表 
1.作频率分布直方图的步骤: 
(1)求极差(一组数据中最大值与最小值的差) 
决定组距与组数 
决定定组距与组数 
组距是指每个小组的两个端点之间的距离。数据分组的组数与数据的个数有关,一股数据的个数越多,所分组数也越多、当样本容量现不超过10时.常分成5~12组为方便起见,一般取等长组距,并并且组距应力求“取整”。 
(3)将数据分组 
通常对组内数值所在区间取左闭右开区间,最后一组取闭区间. 
(4)列频率分布表 
统计各组数据的频数,计算频率.填人表格中,完成频率分布表. 
(5)画频率分布直方图 
画图时,以横轴表示分组,纵轴(小长方形的高表示频率与组距的比值. 
2.对频率分布直方图的理解 
频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,每个小长方形的面积=组距x=频率,所以各小长方形的面积的总和等于1. 
知识点2 平均数、中位数以及众数 
众数 
在一组数据中,出现次数最多的数据叫做这组数据的众数 
中位数 
将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数叫做这组数据的中位数 
在频率分布直方图中,中位数左边和右边的直方图的面积相等 
平均数 
样本数据的算术平均数 
方法归纳 
利用频率分布直方图求众数、中位数与平均数 
利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中: 
(1)最高的小长方形底边中点的横坐标即是众数; 
(2)中位数左边和右边的小长方形的面积和是相等的; 
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. 
知识点3 统计图表 
常见的统计图表有条形统计图、扇形统计图、折线统计图. 
1,条形图 
定义:用一个单位长度表示一定的数量关系,根据数量的多少画成长短不同的条形,条形的宽度必须保持一致,然后把这些条形排列起来,这样的统计图称为条形图. 
(2)特点 
①条形图可以形象地比较各种数据之间的数量关系. 
②条形图中,一条轴上显示的是所关注的数据类型,另-条轴上对应的是数量、个数或者比例,条形图中每一矩形都是等宽的. 
扇形图 
(1)定义:用整个圆代替总体,圆中的各个扇形分别代表总体中的不同部分,扇形的大小反映部分 
占总体的百分比的大小,这样的统计图称为扇形图. 
(2)特点:扇形图可以形象地表示出各部分数据在全部数据中所占的比例情况,扇形图中,每一个扇形的圆心角以及弧长都与这一部分表示的数据大小成正比, 
3.折线图 
(1)定义:用一个单位长度表示一定的数据,根据数量的多少描出各点,然后用线段顺次把各点连接起来,这样的统计图称为折线图. 
(2):)特点:折线图既可以表示出项目的具体数量,又能清楚地反时决数据的变化情况. 
 例题1.2021年4月11日,10名“湖湘工匠年度人物”完成公示,准备接受湖南省政府表彰.大力弘扬工匠精神在我省蔚然成风.衡阳市某变电器材有限公司为监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取10个零件,测量其内径尺寸(单位:).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的内径尺寸服从正态分布. 
(1)假设生产状态正常,记X表示某一天内抽取的10个零件中其内径尺寸在之外的零件数,求及X的数学期望; 
(2)该公司某天正常工作的一条生产线数据记录的茎叶图如图所示: 
①计算这一天生产线上生产的零件内径尺寸的平均值与标准差; 
②为了带动相关产业发展,该公司帮扶衡阳市内另一家企业安装这条生产线并试生产了5个零件,测量其内径分别为(单位:):96,102,108,113,117,试问此条生产线是否需要进一步调试,请说明理由. 
参考数据:,. 
【答案】(1);;(2)①;;②需进一步调试;理由见解析. 
【详解】 
(1)由题意, 
, 
, 
∴P(或), 
∴(或), 
由题意可知. 
(2)①由茎叶图可得10个数据为:96,97,99,99,102,102,103,104,105,113 
则平均值. 
, 
由参考数据可得. 
②安装的该生产线需要进一步调试,理由如下: 
由①可知,若生产线正常工作,则X服从正态分布, 
则, 
可知零件落在之内的概率为0.9974,落在之外的概率为0.0026, 
而, 
由原则可知生产线异常,需进一步调试. 
例题2.依托碳减排,中国发现了新的经济增长点,并实现经济增长引擎的转换,让中国成为全球最具潜力的“碳减排”市场,据统计,2019年全球某100个国家的碳排放减少量(单位:亿吨)数据分组如下表: 
减少量:亿吨 国家个数 频率 
 
 
 
 
 
 
 
 
 
 
 
 
合计 
 
(1)求的值,并求碳排放减少量不小于亿吨的概率; 
(2)在统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计这个国家碳排放减少量的平均值(结果精确到). 
(参考数据:) 
【答案】(1),,碳排放减少量不小于亿吨的概率为;(2)亿吨. 
【详解】 
(1)由题意可得:, 
, 
碳排放减少量不少于亿吨的概率为. 
(2), 
估计这个国家碳排放减少量的平均值为亿吨. 
例题3.2020年是脱贫攻坚的决胜之年,某棉花种植基地在技术人员的帮扶下,棉花产量和质量均有大幅度的提升,已知该棉花种植基地今年产量为2000吨,技术人员随机抽取了2吨棉花,测量其马克隆值(棉花的马克隆值是反映棉花纤维细度与成熟度的综合指标,是棉纤维重要的内在质量指标之一,与棉花价格关系密切),得到如下分布表: 
马克隆值 
 
 
 
 
 
 
 
 
重量(吨) 0.08 0.12 0.24 0.32 0.64 
 0.12 0.06 0.02 
(1)求的值,并补全频率分布直方图; 
(2)根据频率分布直方图,估计样本的马克隆值的众数及中位数; 
(3)根据马克隆值可将棉花分为,,三个等级,不同等级的棉花价格如下表所示: 
马克隆值 
 或 3.4以下 
级别 
 
 
价格(万元/吨) 1.5 1.4 1.3 
用样本估计总体,估计该棉花种植基地今年的总产值. 
【答案】(1),频率分布图答案见解析;(2)众数,中位数为;(3)(万元). 
【详解】 
解:(1)由分布表知, 
, 
解得 
在直方图中对应的频率/组据值为,补全频率分布图如下, 
(2)由频率分布直方图知,马克隆值落在区间内的频率最大,故众数, 
因为, 
, 
所以中位数在区间内,中位数为. 
(3)2吨样本的产值为 
,估算棉花种植基地今年的总产值为:(万元). 
例题4.某工厂有工人1000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),现用分层抽样方法(按A类,B类分二层)从该工厂的工人中共抽取100名工人,调查他们的生产能力(生产能力指一天加工的零件数). 
(1)A类工人和B类工人各抽取多少人? 
(2)将A类工人和B类工人的抽查结果分别绘制成频率分布直方图(如图1和图2). 
①就生产能力而言,A类工人中个体间的差异程度与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论) 
②分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数(同一组中的数据用该组区间的中点值作代表). 
【答案】(1)25人,75人;(2)①B类工人中个体间的差异程度更小;②平均数的估计值分别为123,133.8和131.1. 
【详解】 
(1)A类工人中应抽取:人,B类工人中应抽取:人. 
(2)①从直方图可以判断:B类工人中个体间的差异程度更小. 
②, 
, 
, 
A类工人生产能力的平均数,B类工人生产能力的平均数以及全工厂工人生产能力的平均数的估计值分别为123,133.8和131.1 
例题5.为了推进分级诊疗,实现“基层首诊?双向转诊?急慢分治?上下联动”的诊疗模式,某城市自2020年起全面推行家庭医生签约服务.已知该城市居民约为1000万,从0岁到100岁的居民年龄结构的频率分布直方图如图1所示.为了解各年龄段居民签约家庭医生的情况,现调查了1000名年满18周岁的居民,各年龄段被访者签约率如图2所示. 
 1.某市要实行新的用电制度,在实行新的用电制度之前,电部门统计了200户居民的月用电数据,绘成如图所示的频率分布直方图.新的用电制度规定:每户每用电量不超过80千瓦时,则按相对较低的价格收费;若超过80千瓦时,则超出部分按相对较高的价格收费,这样会使平均每户节省超出部分电的50%. 
(1)在 , , , , , 六个用电段上,确定用户最多的用电段上的用户数; 
(2)如果该市有60万户居民,估计实行新的用电制度后,该市全体居民每月节约的电量(注:同一组数据用该区间的中点值作代表) 
2.某单位为了了解退休职工的生活情况,对50名退休职工做了一次问卷调查(满分100分),并从中随机抽取了10名退休职工的问卷,得分情况统计如下: 
分数 77 79 81 84 88 92 93 
人数 1 1 1 3 2 1 1 
试回答以下问题: 
(1)求抽取的10名退休职工问卷得分的均值x和方差 ; 
(2)10名退休职工问卷得分在 与 之间有多少人?这些人占10名退休职工的百分比为多少? 
(3)若用样本估计总体,则50名退休职工中问卷得分在 之间的人数大约为多少? 
3.为检査学生学习传染病防控知识的成效,某校高一年级部对本年级1500名同学进行了传染病防控知识检测,并从中随机抽取了300份答卷,按得分区间 , ,…, , 分别统计,绘制成频率分布直方图如下. 
(1)估计高一年级传染病防控知识测试得分的中位数(结果精确到个位); 
(2)根据频率分布直方图,按各分数段的人数的比例,从得分在区间 和 的学生中任选7人,并从这7人中随机选3人作传染病预防知识宣传演讲,求这3人中至少有一人得分在区间 内的概率. 
4.某公司新上一条生产线,为保证新的生产线正常工作,需对该生产线进行检测,现从该生产线上随机抽取100件产品,测量产品数据,用统计方法得到样本的平均数 ,标准差 ,绘制如图所示的频率分布直方图,以频率值作为概率估值. 
(1)从该生产线加工的产品中任意抽取一件,记其数据为 ,依据以下不等式评判( 表示对应事件的概率) 
① 
② 
③ 
评判规则为:若至少满足以上两个不等式,则生产状况为优,无需检修;否则需检修生产线,试判断该生产线是否需要检修; 
(2)将数据不在 内的产品视为次品,从该生产线加工的产品中任意抽取2件,次品数记为 ,求 的分布列与数学期望 . 
5.为了解某市公益志愿者的年龄分布情况,有关部门通过随机抽样,得到如图1的频率分布直方图. 
(1)求a的值,并估计该市公益志愿者年龄的平均数(同一组中的数据用该组区间的中点值作代表); 
(2)根据世界卫生组织确定新的年龄分段,青年是指年龄15~44岁的年轻人.据统计,该市人口约为300万人,其中公益志愿者约占总人口的40%.试根据直方图估计该市青年公益志愿者的人数. 
答案解析 
一、解答题 
1.【答案】 (1)解:由频率分布直方图,可算得各组数据对应的频率及频数,如下表: 
分组 
频率 0.04 0.12 0.24 0.30 0.25 0.05 
频数 8 24 48 60 50 10 
由频率分布表可知:用户最多的用电段为 ,用户数为60 
(2)解:由(1)可知,月用电量在 内的140户居民在新的用电制度实行前后平均每月用电量不变,节约电量为0千瓦时; 
月用电量在 内的50户居民,平均每户月用电为90千瓦时,超出部分为10千瓦时,实行新的用电制度后,平均每户每月节电 千瓦时,50户每月共节电 千瓦时; 
月用电量在 内的10户居民,平均每户月用电为110千瓦时,超出部分为30千瓦时,实行新的用电制度后,平均每户每月节电 千瓦时,10户每月共节电 千瓦时. 
故这200户居民每月共节电 千瓦时. 
用样本估计总体,得该市全体居民每月节约电量约为 千瓦时. 
【解析】【分析】(1)由频率分布直方图可计算得到各组数据对应的频率和频数,由此可得结果; 
 (2)由(1)可计算出200户居民节省的电量总数,利用样本估计总体的方法计算可得结果。 
2.【答案】 (1)解: , 
(2)解:由(1)知, ,从而 , 
于是10名职工问卷得分在 与 之间有6人,所占百分比为60%. 
(3)解:由(2)可知,50名退休职工中问卷调查得分在 之间的大约有 人. 
【解析】【分析】(1)求得10人成绩和可得均值,再由方差公式计算出方差;(2)由(1)得 ,观察表格数据可得结论;(3)用(2)中百分比乘以总人数50可得. 
3.【答案】 (1)解:设中位数估计值为 ,根据频率分布直方图得, 
 , 
解得 . 
∴高一年级传染病防控知识测试得分中位数的估计值为75. 
(2)解:根据频率分布直方图得,得分在区间 和 的频率分别为0.25,0.1,其比例为 , 
∴所选的7人中,得分在 的有5人,得分在 的有2人. 
∴从7人中随机选3人,至少有一人得分在区间 上的概率为 
【解析】【分析】(1)根据频率分布直方图可判断中位数在 内,若设中位数估计值为 ,则有 ,从而可求得结果;(2)根据频率分布直方图得,所选的7人中,得分在 的有5人,得分在 的有2人,从而可求出3人中至少有一人得分在区间 内的概率. 
4.【答案】 (1)解:由题意知 ,由频率分布直方图得: 
 
 
 不满足至少两个不等式,该生产线需检修 
(2)解:由(1)知: 
任取一件是次品的概率为: 
任取两件产品得到次品数 的可能值为:0,1,2 
则 
 
 
 ? 的分布列为: 
 0 1 2 
 
 ? 
(或 ) 
【解析】【分析】(1)根据频率分布直方图得出X落在 上的概率,从而得出结论;(2)根据题意, 的可能值为:0,1,2,分别求出对应的概率即可. 
5.【答案】 (1)解:∵ ,∴ 
该市公益志愿者的平均年龄: 
 
(2)解:由频率分布直方图可得年龄15~44岁的频率为: , 
∴估计该市青年公益志愿者的人数为: (万) 
【解析】【分析】(1)利用频率和为 计算出 的值,再根据每组数据的组中值乘以频率并将结果相加即可得到平均数;(2)先计算青年公益志愿者的频率,然后利用公益志愿者总人数乘以对应的频率即可. 
(1)估计该城市年龄在50岁以上且已签约家庭医生的居民人数; 
(2)据统计,该城市被访者的签约率约为44%.为把该城市年满18周岁居民的签约率提高到55%以上,应着重提高图2中哪个年龄段的签约率?并根据已有数据陈述理由. 
【答案】(1)万;(2)应着重提高30-50这个年龄段的签约率,理由见解析. 
【详解】 
(1)该城市年龄在50-60岁的签约人数为:万; 
在60-70岁的签约人数为:万; 
在70-80岁的签约人数为:万; 
在80岁以上的签约人数为:万; 
故该城市年龄在50岁以上且已签约家庭医生的居民人数为:万; 
(2)年龄在10-20岁的人数为:万; 
年龄在20-30岁的人数为:万. 
所以,年龄在18-30岁的人数大于180万,小于230万,签约率为30.3%; 
年龄在30-50岁的人数为万,签约率为37.1%. 
年龄在50岁以上的人数为:万,签约率超过55%,上升空间不大. 
故由以上数据可知这个城市在30-50岁这个年龄段的人数为370万,基数较其他年龄段是最大的,且签约率非常低,所以为把该地区满18周岁居民的签约率提高到以上,应着重提高30-50这个年龄段的签约率.