9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
【学习目标】
1.结合实际问题,理解频率分布表、频率分布直方图的特点及差异,体会频率分布直方图在统计中的重要作用.
2.能够在不同情境中,体会合理使用频率分布直方图的重要性.
3.结合具体实例,认识样本与总体的关系,逐步建立用样本估计总体的思想,尝试运用统计语言描述总体的特征.
◆ 知识点一 总体取值规律的估计
选择频率分布表和 来整理和表示数据,进而估计总体的取值规律.
◆ 知识点二 画频率分布直方图的步骤
(1)求极差:极差为一组数据中 与 的差.
(2)决定组距与组数:当样本量不超过100时,常分成 组.为方便起见,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组:分组时,第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值,分组区间一般是“前闭后开”.
(4)列频率分布表:可以分四列,分组、频数累计、频数、 .
其中频数合计应是样本量,频率合计是 .
(5)画频率分布直方图:横轴表示分组,纵轴表示.
小长方形的面积=组距×= ,各小长方形的面积的总和等于1.
【诊断分析】 1.判断下列说法的正误.(正确的打“√”,错误的打“×”)
(1)频率分布直方图中小长方形的高表示该组中的数据在样本观测数据中出现的频率与组距的比值.( )
(2)频率分布直方图中小长方形的面积表示该组的数据个数. ( )
(3)频率分布直方图中所有小长方形的面积之和为1. ( )
(4)画频率分布直方图时,分组越多越好. ( )
2.一个容量为32的样本,已知某组样本的频率为0.125,则该组样本的频数为 .
◆ 探究点一 频率分布直方图的绘制
例1 一个农技站为了了解某种麦穗生长长度的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表,绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.
变式 《国家体质健康标准》的测试类别分为身体形态、身体机能、身体素质三大类,其中身体形态类的项目包括身高、体重.在针对某校学生体质健康的抽样检测中,检测组对参与检测的女生的身高(单位:cm)数据进行整理后列出了如下频率分布表:
分组 频数 频率
[149.5,153.5) 2 0.04
[153.5,157.5) 10 0.2
[157.5,161.5) 20 0.4
[161.5,165.5) 14 0.28
[165.5,169.5] a b
合计 M N
(1)求出表中a,b,M,N所表示的值;
(2)画出频率分布直方图;
(3)估计身高小于161.5 cm的女生占全部女生人数的百分比.
[素养小结]
绘制频率分布直方图时应注意的问题:
(1)在列出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是先确定“一个恰当的单位长度”(没有统一规定),然后以各组的“”所占的比例来定高.
(2)数据要合理分组,组距要恰当选取,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本量,频率之和为1.
◆ 探究点二 频率分布直方图的应用
例2 从参加环保知识竞赛的1200名学生中抽出60名,将其成绩(均为整数,单位:分)整理后画出的频率分布直方图如图所示,观察图形,回答下列问题:
(1)[79.5,89.5)这一组的频数、频率分别是多少
(2)估计这次环保知识竞赛的及格率(60分及以上为及格).
(3)若准备取成绩最好的300名学生发奖,则估计获奖学生的最低成绩约为多少分
变式 (1)某市通过统计50个大型社区产生的日均垃圾量(单位:吨),绘制了如图所示的频率分布直方图,数据的分组依次为[4,6),[6,8),[8,10),[10,12),[12,14),[14,16),[16,18].为了实施垃圾分类回收,某部门决定将日均垃圾量不少于14吨的社区划定为试点社区,则样本中的试点社区个数是( )
A.4 B.10 C.19 D.40
(2)某研究小组调查了某城市100户居民的月平均用电量(单位:度),发现这100户居民的月平均用电量均在[160,300]内,将统计数据分成7组:[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300],并绘制成如图所示的频率分布直方图.
①求频率分布直方图中x的值,并估计这100户居民中,月平均用电量不低于220度的有多少户
②从月平均用电量在[220,240),[240,260),[260,280),[280,300]内的四组居民中,用比例分配的分层随机抽样的方法抽取11户居民,则应从月平均用电量在[220,240)内的居民中抽取多少户
[素养小结]
频率分布直方图的性质:
(1)因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)样本量=.
9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
【课前预习】
知识点一
频率分布直方图
知识点二
(1)最大值 最小值 (2)5~12 (4)频率 1 (5)频率
诊断分析
1.(1)√ (2)× (3)√ (4)× [解析] (2)频率分布直方图中小长方形的面积表示该组的频率.
(4)组数越多,组距越小,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
2.4 [解析] 已知样本容量为32,某组样本的频率为0.125,并且频率=,所以该组样本的频数为0.125×32=4.
【课中探究】
探究点一
例1 解:(1)求极差:7.4-4.0=3.4.
(2)决定组距与组数:若取组距为0.3,由≈11.3可知,分为12组较合适,所以取组距为0.3,组数为12.
(3)将数据分组:将数据以组距0.3分为12组:[3.95,4.25),[4.25,4.55),[4.55,4.85),…,[7.25,7.55].
(4)列频率分布表:
分组 频数 频率
[3.95,4.25) 1 0.01
[4.25,4.55) 1 0.01
[4.55,4.85) 2 0.02
[4.85,5.15) 5 0.05
[5.15,5.45) 11 0.11
[5.45,5.75) 15 0.15
[5.75,6.05) 28 0.28
[6.05,6.35) 13 0.13
[6.35,6.65) 11 0.11
[6.65,6.95) 10 0.10
[6.95,7.25) 2 0.02
[7.25,7.55] 1 0.01
合计 100 1.00
(5)绘制频率分布直方图如图所示.
从表中看到,样本数据落在[5.75,6.35)内的频率是0.28+0.13=0.41,于是可以估计在这块试验田里长度在5.75~6.35 cm之间的麦穗占41%.
变式 解:(1)由频率分布表得M==50,∴a=50-2-10-20-14=4.易知N=1,∴b=1-0.04-0.2-0.4-0.28=0.08.
(2)由题意知组距为4,则可画出频率分布直方图如图所示.
(3)由频率分布表可知,身高小于161.5 cm的女生在样本中出现的频率为0.04+0.2+0.4=0.64,所以估计身高小于161.5 cm的女生占全部女生人数的64%.
探究点二
例2 解:(1)[79.5,89.5)这一组的频率为0.025×10=0.25,频数为60×0.25=15.
(2)估计这次环保知识竞赛的及格率为(0.015+0.030+0.025+0.005)×10=0.75=75%.
(3)由频率分布直方图估计:这1200名学生中成绩在[79.5,99.5)内的人数为(0.025+0.005)×10×1200=360,其中成绩在[79.5,89.5)内的人数为0.025×10×1200=300,成绩在[89.5,99.5)内的人数为0.005×10×1200=60,因此成绩在[79.5,89.5)内的学生只有240名获奖,故获奖学生的最低成绩为×10+79.5≈82(分).
综上,若准备取成绩最好的300名学生发奖,则估计获奖学生的最低成绩约为82分.
变式 (1)B [解析] 由频率分布直方图可知,日均垃圾量不少于14吨的频率为(0.06+0.04)×2=0.2,故样本中的试点社区个数是0.2×50=10.故选B.
(2)解:①由题意得(0.002+0.002 5+0.005+x+0.009 5+0.011+0.012 5)×20=1,解得x=0.007 5.
估计这100户居民中,月平均用电量在[220,240)内的有0.012 5×20×100=25(户),月平均用电量在[240,260)内的有0.007 5×20×100=15(户),月平均用电量在[260,280)内的有0.005×20×100=10(户),月平均用电量在[280,300]内的有0.002 5×20×100=5(户),
所以估计这100户居民中,月平均用电量不低于220度的有25+15+10+5=55(户).
②由题意得,应从月平均用电量在[220,240)内的居民中抽取11×=5(户).第2课时 统计图中的样本数据的分布
【学习目标】
1.结合实际问题,理解扇形图、折线图的特点及差异.
2.能够在不同情境中,选择恰当的统计图表对数据进行可视化描述,体会合理使用其他统计图的重要性.
3.结合具体实例,认识样本与总体的关系,逐步建立用样本估计总体的思想,尝试运用统计语言描述总体的特征.
◆ 知识点 其他统计图
统计图 主要应用
扇形图 直观描述各类数据占总数的比例
条形图和直方图 直观描述不同类别或分组数据的频数和频率
折线图 描述数据随时间的变化趋势
【诊断分析】 有直方图、条形图、折线图、扇形图四种统计图,选择适当的统计图填空.
某饮料是由水、白砂糖、香精、赖氨酸等多种物质混合而成的,最能直观地表示出这种饮料各成分含量百分比的统计图是 ;反映某种股票的涨跌情况应选择的统计图是 .
◆ 探究点一 折线图与扇形图
例1 如图是根据某市3月1日至3月10日的最低气温(单位:℃)绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3月1日至3月10日最低气温(单位:℃)的扇形统计图.
变式 (1)雨季来临,为了反映某市6,7月份各水位监测点的实时监测和记录以及变化趋势,最适合使用的统计图是 ( )
A.折线图 B.条形图
C.扇形图 D.频率分布直方图
(2)某企业对目前销售的A,B,C,D四种产品进行改造升级,经过改造升级后,企业营收实现翻一番,现统计了该企业改造升级前后四种产品的营收占比,得到如图所示的扇形图.
下列说法正确的是 ( )
A.产品A升级后的营收是升级前的2倍
B.产品升级后,产品B的营收不变
C.产品升级后,产品C的营收减少
D.产品升级前后,产品B,D的营收总和占总营收的比例不变
[素养小结]
折线统计图的读图方法:
(1)读折线统计图时,首先要清楚直角坐标系中横、纵坐标表示的意义,其次要明确图中的数量及其单位.
(2)在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况;从陡峭程度上,可分析数据间相对增长、下降的幅度.
◆ 探究点二 统计图的应用
例2 (1)某商户收集并整理了2023年1月到8月线上和线下收入(单位:万元)的数据,并绘制出如图所示的折线图,则下列说法错误的是 ( )
A.该商户这8个月中,收入最高的是7月
B.该商户这8个月的线上总收入低于线下总收入
C.该商户这8个月中,线上、线下收入相差最小的是7月
D.该商户这8个月中,月收入不少于17万元的频率是
(2)(多选题)某企业不断自主创新提升技术水平,积极调整企业旗下的甲、乙、丙、丁、戊5种系列产品的结构比例,近年来取得了显著效果.据悉该企业2023年5种系列产品的年总收入是2021年的2倍,其中5种系列产品的年总收入构成比例如图所示,则下列说法正确的是 ( )
A.2023年甲系列产品的收入比2021年多
B.2023年乙和丙系列产品的收入之和比2021年的年总收入还多
C.2023年丁系列产品的收入是2021年丁系列产品收入的
D.2023年戊系列产品的收入是2021年戊系列产品收入的2倍
变式 (1)某统计机构对1000名拥有汽车的人进行了调查,对得到的数据进行整理并制成如图所示的统计图,下列说法正确的是 ( )
A.这1000人中,40~45岁之间的人数最多
B.这1000人中,40~55岁之间的人群每年购买车险的总费用,比18~30岁之间和55岁以上人群购买车险的总费用之和还要多
C.这1000人中,55岁以上的人群每年购买车险的总费用最少
D.这1000人中,30岁以上的人数为720
(2)(多选题)某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险.各种保险按相关约定进行参保与理赔.该保险公司对5个险种的参保客户(假设每位客户只参保一个险种)进行抽样调查,得出如图所示的统计图,根据统计图,以下四个选项中说法正确的有 ( )
A.54周岁及以上客户人数最多
B.18~29周岁客户参保总费用最少
C.丁险种更受客户青睐
D.30周岁及以上的客户占参保客户的80%
[素养小结]
扇形统计图中,用整个圆的面积代表全部数据,圆内的各个扇形面积的大小反映了部分数据占全部数据的百分比的大小.扇形统计图能清楚地表示各部分数据在全部数据中所占的百分比.
第2课时 统计图中的样本数据的分布
【课前预习】
知识点
诊断分析
扇形图 折线图
【课中探究】
探究点一
解:由题图知,该市3月1日至3月10日的最低气温(单位:℃)的情况如下表:
日期 1 2 3 4 5 6 7 8 9 10
最低气温(℃) -3 -2 0 -1 1 2 0 -1 2 2
其中最低气温为-3 ℃的有1天,占10%;最低气温为-2 ℃的有1天,占10%;最低气温为-1 ℃的有2天,占20%;最低气温为0 ℃的有2天,占20%;最低气温为1 ℃的有1天,占10%;最低气温为2 ℃的有3天,占30%.作出扇形统计图如图所示.
变式 (1)A (2)D [解析] (1)根据统计图的特点知,要反映某市6,7月份各水位监测点的实时监测和记录以及变化趋势,最适合使用的统计图是折线图.
(2)不妨设产品升级前的企业营收为1,则产品升级后的企业营收为2,故产品A升级前的营收为10%×1=0.1,升级后的营收为20%×2=0.4,即产品A升级后的营收是升级前的4倍,A错误;产品B升级前的营收为20%×1=0.2,升级后的营收为20%×2=0.4,即产品升级后,产品B的营收增多,B错误;产品C升级前的营收为50%×1=0.5,升级后的营收为40%×2=0.8,即产品升级后,产品C的营收增多,C错误;产品升级前,产品B,D的营收总和占总营收的40%,产品升级后,产品B,D的营收总和也占总营收的40%,故产品升级前后,产品B,D的营收总和占总营收的比例不变,D正确.故选D.
探究点二
例2 (1)B (2)ABD [解析] (1)对于A,该商户1月到8月的收入依次为16万元、13.5万元、16万元、17万元、17万元、16万元、20万元、17.5万元,所以该商户这8个月中,收入最高的是7月,故A中说法正确;对于B,该商户这8个月的线上总收入为72万元,线下总收入为61万元,所以该商户这8个月的线上总收入高于线下总收入,故B中说法错误;对于C,根据折线图可知,该商户这8个月中,线上、线下收入相差最小的是7月,故C中说法正确;对于D,该商户这8个月中,月收入不少于17万元的有4个月,频率是,故D中说法正确.故选B.
(2)对于A,2023年甲系列产品的收入占年总收入的20%,2021年甲系列产品的收入占年总收入的30%,而该企业2023年5种系列产品的年总收入是2021年的2倍,所以2023年甲系列产品的收入比2021年多,故A正确;对于B,2023年乙和丙系列产品的收入之和占年总收入的55%,而该企业2023年5种系列产品的年总收入是2021年的2倍,所以2023年乙和丙系列产品的收入之和比2021年的年总收入还多,故B正确;对于C,2023年丁系列产品的收入占年总收入的5%,2021年丁系列产品的收入占年总收入的20%,而该企业2023年5种系列产品的年总收入是2021年的2倍,所以2023年丁系列产品的收入是2021年丁系列产品收入的,故C错误;对于D,2023年戊系列产品的收入占年总收入的20%,2021年戊系列产品的收入占年总收入的20%,而该企业2023年5种系列产品的年总收入是2021年的2倍,所以2023年戊系列产品的收入是2021年戊系列产品收入的2倍,故D正确.故选ABD.
变式 (1)B (2)CD [解析] (1)对于A,题图中并没有细分到40~45岁,所以无法得出这1000人中,40~45岁之间的人数最多,故A错误;对于B,这1000人中,40~55岁之间的人群每年购买车险的总费用为1000×40%×3900=1 560 000(元),18~30岁之间的人群每年购买车险的总费用为1000×18%×2800=504 000(元), 55岁以上的人群每年购买车险的总费用为1000×17%×3100=527 000(元),而1 560 000>527 000+504 000,故B正确;对于C,由B可知,这1000人中,55岁以上的人群每年购买车险的总费用,比18~30岁之间的人群每年购买车险的总费用多,故C错误;对于D,由1000×(1-18%)=820知,这1000人中,30岁以上的人数为820,故D错误.故选B.
(2)对于A,观察参保人数比例扇形图可知,54周岁及以上客户人数占比为8%,是最少的,故A错误;对于B,折线统计图显示了人均参保费用,但参保人数比例不同,易知18~29周岁客户参保总费用不是最少的,故B错误;对于C,由参保险种比例统计图可知,丁险种参保比例最高,故C正确;对于D,18~29周岁的客户占参保客户的20%,所以30周岁及以上的客户占参保客户的80%,故D正确.故选CD.