9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
【课前预习】
知识点一
频率分布直方图
知识点二
(1)最大值 最小值 (2)5~12 (4)频率 1 (5)频率
诊断分析
1.(1)√ (2)× (3)√ (4)× [解析] (2)频率分布直方图中小长方形的面积表示该组的频率.
(4)组数越多,组距越小,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
2.4 [解析] 已知样本容量为32,某组样本的频率为0.125,并且频率=,所以该组样本的频数为0.125×32=4.
【课中探究】
探究点一
例1 解:(1)求极差:7.4-4.0=3.4.
(2)决定组距与组数:若取组距为0.3,由≈11.3可知,分为12组较合适,所以取组距为0.3,组数为12.
(3)将数据分组:将数据以组距0.3分为12组:[3.95,4.25),[4.25,4.55),[4.55,4.85),…,[7.25,7.55].
(4)列频率分布表:
分组 频数 频率
[3.95,4.25) 1 0.01
[4.25,4.55) 1 0.01
[4.55,4.85) 2 0.02
[4.85,5.15) 5 0.05
[5.15,5.45) 11 0.11
[5.45,5.75) 15 0.15
[5.75,6.05) 28 0.28
[6.05,6.35) 13 0.13
[6.35,6.65) 11 0.11
[6.65,6.95) 10 0.10
[6.95,7.25) 2 0.02
[7.25,7.55] 1 0.01
合计 100 1.00
(5)绘制频率分布直方图如图所示.
从表中看到,样本数据落在[5.75,6.35)内的频率是0.28+0.13=0.41,于是可以估计在这块试验田里长度在5.75~6.35 cm之间的麦穗占41%.
变式 解:(1)由频率分布表得M==50,∴a=50-2-10-20-14=4.易知N=1,∴b=1-0.04-0.2-0.4-0.28=0.08.
(2)由题意知组距为4,则可画出频率分布直方图如图所示.
(3)由频率分布表可知,身高小于161.5 cm的女生在样本中出现的频率为0.04+0.2+0.4=0.64,所以估计身高小于161.5 cm的女生占全部女生人数的64%.
探究点二
例2 解:(1)[79.5,89.5)这一组的频率为0.025×10=0.25,频数为60×0.25=15.
(2)估计这次环保知识竞赛的及格率为(0.015+0.030+0.025+0.005)×10=0.75=75%.
(3)由频率分布直方图估计:这1200名学生中成绩在[79.5,99.5)内的人数为(0.025+0.005)×10×1200=360,其中成绩在[79.5,89.5)内的人数为0.025×10×1200=300,成绩在[89.5,99.5)内的人数为0.005×10×1200=60,因此成绩在[79.5,89.5)内的学生只有240名获奖,故获奖学生的最低成绩为×10+79.5≈82(分).
综上,若准备取成绩最好的300名学生发奖,则估计获奖学生的最低成绩约为82分.
变式 (1)B [解析] 由频率分布直方图可知,日均垃圾量不少于14吨的频率为(0.06+0.04)×2=0.2,故样本中的试点社区个数是0.2×50=10.故选B.
(2)解:①由题意得(0.002+0.002 5+0.005+x+0.009 5+0.011+0.012 5)×20=1,解得x=0.007 5.
估计这100户居民中,月平均用电量在[220,240)内的有0.012 5×20×100=25(户),月平均用电量在[240,260)内的有0.007 5×20×100=15(户),月平均用电量在[260,280)内的有0.005×20×100=10(户),月平均用电量在[280,300]内的有0.002 5×20×100=5(户),
所以估计这100户居民中,月平均用电量不低于220度的有25+15+10+5=55(户).
②由题意得,应从月平均用电量在[220,240)内的居民中抽取11×=5(户).(共88张PPT)
9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
探究点一 频率分布直方图的绘制
探究点二 频率分布直方图的应用
【学习目标】
1.结合实际问题,理解频率分布表、频率分布直方图的特点及差
异,体会频率分布直方图在统计中的重要作用.
2.能够在不同情境中,体会合理使用频率分布直方图的重要性.
3.结合具体实例,认识样本与总体的关系,逐步建立用样本估计总
体的思想,尝试运用统计语言描述总体的特征.
知识点一 总体取值规律的估计
选择频率分布表和________________来整理和表示数据,进而估计
总体的取值规律.
频率分布直方图
知识点二 画频率分布直方图的步骤
(1)求极差:极差为一组数据中________与________的差.
(2)决定组距与组数:当样本量不超过100时,常分成_______组.为
方便起见,一般取等长组距,并且组距应力求“取整”.
最大值
最小值
(3)将数据分组:分组时,第一组的左端点略小于数据中的最小值,
最后一组的右端点略大于数据中的最大值,分组区间一般是“前闭后开”.
(4)列频率分布表:可以分四列,分组、频数累计、频数、______.
其中频数合计应是样本量,频率合计是___.
频率
1
(5)画频率分布直方图:横轴表示分组,纵轴表示 .
小长方形的面积组距 ______,各小长方形的面积的总和等
于1.
频率
【诊断分析】
1.判断下列说法的正误.(正确的打“√”,错误的打“×”)
(1)频率分布直方图中小长方形的高表示该组中的数据在样本观测
数据中出现的频率与组距的比值.( )
√
(2)频率分布直方图中小长方形的面积表示该组的数据个数.( )
×
[解析] 频率分布直方图中小长方形的面积表示该组的频率.
(3)频率分布直方图中所有小长方形的面积之和为1.( )
√
(4)画频率分布直方图时,分组越多越好.( )
×
[解析] 组数越多,组距越小,保留了较多的原始数据信息,但由于
小长方形较多,有时图形会变得非常不规则,不容易从中看出总体
数据的分布特点.
2.一个容量为32的样本,已知某组样本的频率为 ,则该组样本
的频数为___.
4
[解析] 已知样本容量为32,某组样本的频率为 ,并且频率
,所以该组样本的频数为 .
探究点一 频率分布直方图的绘制
例1 一个农技站为了了解某种麦穗生长长度的分布情况,在一块试
验田里抽取了100株麦穗,量得长度如下(单位: ):
根据上面的数据列出频率分布表,绘制出频率分布直方图,并估计
在这块试验田里长度在 之间的麦穗所占的百分比.
解: (1)求极差: .
(2)决定组距与组数:若取组距为,由 可知,分为12
组较合适,所以取组距为 ,组数为12.
(3)将数据分组:将数据以组距0.3分为12组: ,
,, , .
(4)列频率分布表:
分组 频数 频率
1 0.01
1 0.01
2 0.02
5 0.05
11 0.11
15 0.15
28 0.28
分组 频数 频率
13 0.13
11 0.11
10 0.10
2 0.02
1 0.01
合计 100 1.00
续表
(5)绘制频率分布直方图如图所示.
从表中看到,样本数据落在 内的频率是
,于是可以估计在这块试验田里长度在
之间的麦穗占 .
变式 《国家体质健康标准》的测试类别分为身体形态、身体机能、
身体素质三大类,其中身体形态类的项目包括身高、体重.在针对某
校学生体质健康的抽样检测中,检测组对参与检测的女生的身高
(单位: )数据进行整理后列出了如下频率分布表:
分组 频数 频率
2 0.04
10 0.2
20 0.4
14 0.28
合计
(1)求出表中,,, 所表示的值;
解:由频率分布表得, .
易知, .
(2)画出频率分布直方图;
解:由题意知组距为4,则可画出频率分布直方图如图所示.
(3)估计身高小于 的女生占全部女生人数的百分比.
解:由频率分布表可知,身高小于 的女生在样本中出现的频率
为,所以估计身高小于 的女生占全部
女生人数的 .
[素养小结]
绘制频率分布直方图时应注意的问题:
(1)在列出频率分布表后,画频率分布直方图的关键就是确定小矩
形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致
的,合理的定高方法是先确定“一个恰当的单位长度”(没有统一规
定),然后以各组的“ ”所占的比例来定高.
(2)数据要合理分组,组距要恰当选取,在频率分布直方图中,各
个小长方形的面积等于各组的频率,小长方形的高与频数成正比,
各组频数之和等于样本量,频率之和为1.
探究点二 频率分布直方图的应用
例2 从参加环保知识竞赛的1200名学生中抽
出60名,将其成绩(均为整数,单位:分)
整理后画出的频率分布直方图如图所示,观
察图形,回答下列问题:
(1) 这一组的频数、频率分别
是多少?
解: 这一组的频率为
,
频数为 .
(2)估计这次环保知识竞赛的及格率
(60分及以上为及格).
解:估计这次环保知识竞赛的及格率为
.
(3)若准备取成绩最好的300名学生发奖,则估计获奖学生的最低
成绩约为多少分?
解:由频率分布直方图估计:这1200名学生中成绩
在 内的人数为
,
其中成绩在内的人数为,
成绩在 内的人数为,
因此成绩在 内的学生只有240名获奖,故获奖学生的最低
成绩为 (分).
综上,若准备取成绩最好的300名学生发奖,则估计获奖学生的最低成
绩约为82分.
变式(1) 某市通过统计50个大
型社区产生的日均垃圾量
(单位:吨),绘制了如图所示
的频率分布直方图,数据的分组
A.4 B.10 C.19 D.40
依次为,,, .为了实施
垃圾分类回收,某部门决定将日均垃圾量不少于14吨的社区划定为试点
社区,则样本中的试点社区个数是( )
√
[解析] 由频率分布直方图可知,日均垃圾量不少于14吨的频率为
,故样本中的试点社区个数是 .故
选B.
(2)某研究小组调查了某城市100户居民的月平均用电量
(单位:度),发现这100户居民的月平均用电量均在 内,
将统计数据分成7组:,,, ,
,, ,并绘制成如图所示的频率分布直方图.
①求频率分布直方图中 的值,并估计这100户居民中,月平均用电
量不低于220度的有多少户?
解:由题意得
,
解得 .
估计这100户居民中,
月平均用电量在 内的有 (户),
月平均用电量在 内的有 (户),
月平 均用电量在 内的有 (户),
月平均用电量在 内的有 (户),
所以估计这100户居民中,月平均用电量不低于220度的有 (户).
②从月平均用电量在,,, 内的
四组居民中,用比例分配的分层随机抽样的方法抽取11户居民,则
应从月平均用电量在 内的居民中抽取多少户?
解:由题意得,应从月平均用电
量在 内的居民中抽取
(户).
[素养小结]
频率分布直方图的性质:
(1)因为小矩形的面积组距 频率,所以各小矩形的面积
表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了
数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)样本量 .
1.对频率分布直方图的理解
(1)图中每个小长方形的面积表示相应各组的频率,即小长方形的面
积组距 频率,这样频率分布直方图就以面积的形式反映了
数据落在各个小组上的频率的大小.
(2)在频率分布直方图中,各小长方形的面积的总和等于1.
(3)同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的直
方图的形状也不一样,不同的形状给人不同的印象,这种印象有时会影
响我们对总体的判断.
(4)频率分布表能使我们清楚地知道数据分布在各个小组的个数,而
频率分布直方图则是从各个小组中数据的个数在样本量中所占比例
大小的角度来表示数据分布的规律,它可以使我们看到整个样本数据
的频率分布.
2.频率分布表、频率分布直方图的特征
总体分布情况可以通过样本分布情况来估计,频率分布是总体分布
的一种近似,频率分布表和频率分布直方图有以下特征:
(1)频率分布表中的数字和频率分布直方图的形状都与分组数有关,
分组数的变化引起频率分布表和频率分布直方图的结构变化.
(2)随机性,频率分布表和频率分布直方图由样本决定,因此它们
会随着样本的改变而改变.
(3)规律性,若固定分组数,随着样本量的增加,频率分布表中各
个小组的频率均会稳定在某个值的附近,从而频率分布直方图中的
各个小长方形的高度也会稳定在特定的值上.
3.说明:(1)当频率分布直方图的组数少、组距大时,容易从中看
出数据整体的分布特点,但由于无法看出每组内的数据分布情况,
损失了较多的原始数据信息.
(2)当频率分布直方图的组数多、组距小时,保留了较多的原始数
据信息,但由于小长方形较多,有时图形会变得非常不规则,不容
易从中看出总体数据的分布特点.
频率分布表与频率分布直方图
1.用表格整理数据可改变数据的组织方式,提供数据解释.
2.作图有利于从数据中抽取信息,用图形传递信息.
根据上面的数据,回答下列问题:
(1)这次测验成绩的最高分和最低分分别是多少
解:这次测验成绩的最低分是32分,最高分是97分.
例1 某中学从高一年级随机抽取50名学生进行智力测验,其成绩如下
(单位:分):
48 64 52 86 71 48 64 41 86 79
71 68 82 84 68 64 62 68 81 57
90 52 74 73 56 78 47 66 55 64
56 88 69 40 73 97 68 56 67 59
70 52 79 44 55 69 62 58 32 58
(2)将区间 平均分成7个小区间,试列出这50名学生智力测
验成绩的频率分布表,进而画出频率分布直方图.
解:根据题意,列出样本的频率分布表如下:
分组 频数 频率
1 0.02
6 0.12
12 0.24
14 0.28
分组 频数 频率
9 0.18
6 0.12
2 0.04
合计 50 1.00
续表
频率分布直方图如图所示.
(3)分析频率分布直方图,你能得出什么结论
解:从频率分布直方图可以看出,这50名学生的智力测验成绩大体上
呈两头低、中间高,左右基本对称的规律,说明这50名学生中智力特别
好或特别差的占极少数,而智力一般的占多数,这是一种最常见的分布.
例2 为了让学生了解环保知识,增强环保意识,某中学举办了一次
环保知识竞赛,共有900名学生参加了这次竞赛.为了了解本次竞赛的
成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100
分)进行统计.请你根据尚未完成并有局部污损的频率分布表和频数
分布直方图(如图所示),解答下列问题:
分组 频数 频率
4 0.08
0.16
10
16 0.32
合计 50
(1)补全频率分布表和频数分布直方图;
解:易知样本容量为50,故第二组的频数为 ,第三组
的频率为 ,
第五组的频数为,频率为 ,
补全频率分布表如下:
分组 频数 频率
4 0.08
8 0.16
10 0.20
16 0.32
12 0.24
合计 50 1.00
补全频数分布直方图如图.
解:估计成绩在 内的学生人数占内的学生人数的 ,
因为成绩在内的频率为 ,所以估计成绩在 内的频率
为0.1.
估计成绩在内的学生人数占内的学生人数的 ,
因为成绩在内的频率为,所以估计成绩在 内的频率
为0.16.所以估计成绩在内的频率为 ,
又因为有900名学生参加了这次竞赛,
所以估计该校获得二等奖的学生人数为 .
(2)若成绩在 内的学生获得二等奖,估计该校获得二等奖的
学生人数.
练习册
一、选择题
1.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,
9,12,9,10,11,12,11,则它们的极差是( )
A.5 B.6 C.7 D.8
[解析] 由题知样本数据的最大值为13,最小值为6,故极差为
.
√
2.为了解某年级女生的身高情况,从中随机抽出20人进行测量,结果
如下(单位: ):
149 159 142 160 156 163 145 150 148 151
156 144 148 149 153 143 168 168 152 155
在根据样本数据画频率分布直方图的过程中,如果组距设为4,那么
组数为( )
A.4 B.5 C.6 D.7
[解析] 由极差为,组距为4,可得 ,则组数
为7.故选D.
√
3.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,
9,12,9,10,11,12,11,那么频率为0.2的区间是( )
A. B. C. D.
√
[解析] 样本数据共有20个.根据选项,可分为4组,各组的频数和频率如
下表所示:
分组 频数 频率
2 0.1
6 0.3
8 0.4
4 0.2
合计 20 1.0
从表中可以看出频率为0.2的区间是 ,故选D.
4.在样本频率分布直方图中,共有5个小长方形,已知中间小长方形
的面积是其余4个小长方形面积之和的 ,且中间一组的频数为10,
则这个样本的样本容量是( )
A.20 B.30 C.40 D.50
[解析] 所有小长方形的面积和为1,因为中间小长方形的面积是其余
4个小长方形面积之和的,所以中间小长方形的面积为 ,即频率为
,又中间一组的频数为10,所以样本容量为40,故选C.
√
5.[2024·唐山五校联考]2023年7月28日,第31届世界大学
生夏季运动会在四川成都开幕,这是继2001年北京大运
会、2011年深圳大运会之后,中国大陆第三次举办世界
大学生夏季运动会,在成都大运会中,中国代表团取得
了骄人的成绩.为向 大学生普及大运会的相关知识,
某高校组织了 “大运会知识竞赛”,并从中随机抽取了200名学生的成绩(满分
100分)进行统计,成绩均在内,将其分成5组:,
, ,并整理得到如图所示的频率分布直方图,则在被
抽取的学生中,成绩落在区间 内的人数为( )
A.20 B.40 C.60 D.80
√
[解析] 在频率分布直方图中,设 对应的
小矩形的高为 ,则可得
,
解得,所以成绩落在区间 内的
人数为 .故选C.
6.学校为了解新课程标准提升阅读
要求对学生阅读兴趣的影响情况,
随机抽取了100名学生进行调
查.根据调查结果绘制学生周末
阅读时间的频率分布直方图如图
A.估计该校有一半学生为阅读霸 B.该校只有50名学生不喜欢阅读
C.该校只有50名学生喜欢阅读 D.估计该校有50名学生为阅读霸
所示.将阅读时间不低于30分钟的观众称为“阅读霸”,则下列结论正确
的是( )
√
[解析] 根据频率分布直方图可列下表:
阅读时间(分钟)
抽样人数 10 18 22 25 20 5
抽取的100名学生中有50名为阅读霸,
据此可估计该校有一半学生为阅读霸.
故选A.
7.某校将举办秋季体育文化节,为了
解该校学生的身体状况,抽取部分男
生和女生的体重(单位: ),将男
生体重数据整理后,作出了频率分布
直方图如图,已知图中从左到右前三
个小组的频率之比为 ,第二小
组的频数为13,若全校男、女生的人
A.100 B.80 C.45 D.32
数之比为 ,则全校抽取的学生人数为( )
√
[解析] 设体重在内的频率为 ,则
,
解得,
第二小组的频率为
第二小组的频数为13, 抽取的男生人数为 ,
又全校男、女生的人数之比为,
全校抽取的学生人数为 .故选A.
8.(多选题)为弘扬中华民族优秀传统文化,某学校学生会要了解本
校高一年级1000名学生课余时间参加传统文化活动的情况,随机抽
取50名学生进行调查,将数据分组整理后,列表如下:
参加场数 0 1 2 3 4 5 6 7
参加人数占调查 人数的百分比
下列说法不正确的是( )
A.在高一年级学生中,估计参加活动次数是3的学生人数为360
B.在高一年级学生中,估计参加活动次数是2或4的学生人数为480
C.在高一年级学生中,估计参加活动次数不高于2的学生人数为280
D.在高一年级学生中,估计参加活动次数不低于4的学生人数为360
√
√
√
[解析] 对于A,在高一年级学生中,估计参加活动次数是3的学生人
数为 ,A中说法不正确;
对于B,在高一年级学生中估计参加活动次数是2或4的学生人数为
,B中说法不正确;
对于C,在高一年级学生中,估计参加活动次数不高于2的学生人数为
,C中说法不正确;
对于D,在高一年级学生中,估计参加活动次数不低于4的学生人数
为 ,D中说法正确.故选 .
9.(多选题)统计某校 名学生的某次数学同步练习成绩
(满分150分),根据成绩(单位:分)依次分成六组:
,,, ,
得到频率分布直方图如图所示.若成绩不低于140分的人数为110,则
下列说法正确的是( )
A.
B.
C.成绩在100分以下的人数为60
D.成绩在区间 内的人数占一大半
√
√
[解析] 对于A,由题图可知 ,
解得 ,故A正确;
对于B,因为成绩不低于140分的频率为
,所以 ,故B错误;
对于C,因为成绩在100分以下的频率为 ,
所以成绩在100分以下的人数为 ,故C正确;
对于D,成绩在区间内的频率为
,人数占一小半,故D错误.故选 .
二、填空题
10.一个样本量为 的样本,将其观测数据分成若干组,已知甲组的频数
和频率分别为36和,则_____,频率为的乙组的频数 ____.
144
24
[解析] 由题意得,所以,同理 ,解得
.
11.在某一时期内,一条河流某处的年最高水位在各个范围内的频率
如下表:
年最高水位范围(米)
频率 0.1 0.28 0.38 0.16 0.08
若年最高水位低于14米时为“安全水位”,则出现“安全水位”的频率
是_____.
0.76
[解析] 由表可得,出现“安全水位”的频率是 .
12.为了解某校高三年级学生的视力情
况,随机地抽查了该校100名高三年
级学生的视力情况,得到频率分布直
方图如图所示.由于不慎将部分数据
丢失,但知道前4组的频数之比为
,后6组的频数每组比前一
78
组都少5,设最大频率为,则 的值为 ____,视力在4.6到5.0之间的学生
人数为,则 的值为____.
[解析] 设第1组的频数为 ,则前4组的频数分别
为,,,,后5组的频数分别为 ,
,,, ,
由题意得
,
解得,故 , .
三、解答题
13.某幼儿园根据部分同年龄段女童的身高
数据绘制了频率分布直方图,其中身高
(单位:厘米)的变化范围是 ,
样本数据分组为,, ,
, .
(1)求 的值;
解:由题意得 ,解得
.
(2)若样本中身高低于100厘米的人数是36,求样本量;
解:样本中身高低于100厘米的频率为 ,故
样本量为 .
(3)求样本中身高位于 内的人数.
解:样本中身高位于 内的频率为
,所以样本中身高位于
内的人数为 .
14.某市2022年4月1日至4月30日对空气质量指数的监测数据如下
(主要污染物为可吸入颗粒物) ,76,70,56,81,91,92,91,75,81,88,6
7,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.按
, , 进行分组.
(1)作出频率分布表.
解:作出频率分布表如下表:
分组 频数 频率
2
1
4
6
分组 频数 频率
10
5
2
合计 30 1
续表
(2)作出频率分布直方图.
解:作出频率分布直方图如图所示.
(3)根据国家标准,空气质量指数在 之间时,空气质量为优;
空气质量指数在 之间时,空气质量为良;空气质量指数在
之间时,空气质量为轻度污染;空气质量指数在
之间时,空气质量为中度污染.请你依据所给数据和上述标准,对该
市的空气质量作出一个简短评价.
解:该市一个月中的空气质量有2天处于优的水平,占当月天数的 ,
有26天处于良的水平,占当月天数的 ,所以处于优或良的天数为
28,占当月天数的 .说明该市空气质量基本良好.
15.某农业科研机构对所在地区的大棚西红柿的新、旧培育方法的产
量进行对比,各抽取100个相同规模的大棚,统计各大棚的产量
(单位:百千克),其频率分布直方图分别如图①和图②所示,据
此判断以下说法错误的是( )
①
②
A.采取了新的培育方法后,大棚西红柿的产量有了明显的变化
B.采取了新的培育方法后,大棚西红柿的平均产量有所提高
C.采取了新的培育方法后,大棚西红柿的产量更加稳定了
D.新、旧培育方法对大棚西红柿的产量影响不大
√
[解析] 采取了新的培育方法后,大棚西红柿的产量有了明显的变化,
故A中说法正确;
采取了新的培育方法后,大棚西红柿的平均产量有所提高,故B中说
法正确;
采取了新的培育方法后,大棚西红柿的产量更加稳定了,故C中说法
正确;
新、旧培育方法对大棚西红柿的产量影响较大,故D中说法错误.
故选D.
16.为进一步推进农村经济结构调整,某村举办水果观光采摘节,并
推出配套的乡村游项目,现统计了4月份100名游客购买水果的情况,
得到如图所示的频率分布直方图.
(1)若将购买金额不低于80元的游客称为“水果达人”,现用比例分
配的分层随机抽样的方法从样本的“水果达人”中抽取5人,求这5人
中消费金额不低于100元的人数.
解:样本中“水果达人”的频率为 ,
样本中“水果达人”的人数为 .
由题图可知,消费金额在与内的人数之比为 ,
其中消费金额不低于100元的人数为 ,
抽取的5人中消费金额不低于100元的人数为 .
(2)为吸引游客,该村特推出两种促销方案:
方案一:每满80元可立减8元;
方案二:金额超过50元但又不超过80元的部分打9折,金额超过80元
但又不超过100元的部分打8折,金额超过100元的部分打7折.
若水果的价格为11元/,某游客要购买 ,应该选择哪种方案?
解:依题意得,该游客要购买原价为110元的水果,
若选择方案一,则需支付 (元),
若选择方案二,则需支付
(元),
应该选择方案二.9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
【学习目标】
1.结合实际问题,理解频率分布表、频率分布直方图的特点及差异,体会频率分布直方图在统计中的重要作用.
2.能够在不同情境中,体会合理使用频率分布直方图的重要性.
3.结合具体实例,认识样本与总体的关系,逐步建立用样本估计总体的思想,尝试运用统计语言描述总体的特征.
◆ 知识点一 总体取值规律的估计
选择频率分布表和 来整理和表示数据,进而估计总体的取值规律.
◆ 知识点二 画频率分布直方图的步骤
(1)求极差:极差为一组数据中 与 的差.
(2)决定组距与组数:当样本量不超过100时,常分成 组.为方便起见,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组:分组时,第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值,分组区间一般是“前闭后开”.
(4)列频率分布表:可以分四列,分组、频数累计、频数、 .
其中频数合计应是样本量,频率合计是 .
(5)画频率分布直方图:横轴表示分组,纵轴表示.
小长方形的面积=组距×= ,各小长方形的面积的总和等于1.
【诊断分析】 1.判断下列说法的正误.(正确的打“√”,错误的打“×”)
(1)频率分布直方图中小长方形的高表示该组中的数据在样本观测数据中出现的频率与组距的比值.( )
(2)频率分布直方图中小长方形的面积表示该组的数据个数. ( )
(3)频率分布直方图中所有小长方形的面积之和为1. ( )
(4)画频率分布直方图时,分组越多越好. ( )
2.一个容量为32的样本,已知某组样本的频率为0.125,则该组样本的频数为 .
◆ 探究点一 频率分布直方图的绘制
例1 一个农技站为了了解某种麦穗生长长度的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表,绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.
变式 《国家体质健康标准》的测试类别分为身体形态、身体机能、身体素质三大类,其中身体形态类的项目包括身高、体重.在针对某校学生体质健康的抽样检测中,检测组对参与检测的女生的身高(单位:cm)数据进行整理后列出了如下频率分布表:
分组 频数 频率
[149.5,153.5) 2 0.04
[153.5,157.5) 10 0.2
[157.5,161.5) 20 0.4
[161.5,165.5) 14 0.28
[165.5,169.5] a b
合计 M N
(1)求出表中a,b,M,N所表示的值;
(2)画出频率分布直方图;
(3)估计身高小于161.5 cm的女生占全部女生人数的百分比.
[素养小结]
绘制频率分布直方图时应注意的问题:
(1)在列出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是先确定“一个恰当的单位长度”(没有统一规定),然后以各组的“”所占的比例来定高.
(2)数据要合理分组,组距要恰当选取,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本量,频率之和为1.
◆ 探究点二 频率分布直方图的应用
例2 从参加环保知识竞赛的1200名学生中抽出60名,将其成绩(均为整数,单位:分)整理后画出的频率分布直方图如图所示,观察图形,回答下列问题:
(1)[79.5,89.5)这一组的频数、频率分别是多少
(2)估计这次环保知识竞赛的及格率(60分及以上为及格).
(3)若准备取成绩最好的300名学生发奖,则估计获奖学生的最低成绩约为多少分
变式 (1)某市通过统计50个大型社区产生的日均垃圾量(单位:吨),绘制了如图所示的频率分布直方图,数据的分组依次为[4,6),[6,8),[8,10),[10,12),[12,14),[14,16),[16,18].为了实施垃圾分类回收,某部门决定将日均垃圾量不少于14吨的社区划定为试点社区,则样本中的试点社区个数是( )
A.4 B.10 C.19 D.40
(2)某研究小组调查了某城市100户居民的月平均用电量(单位:度),发现这100户居民的月平均用电量均在[160,300]内,将统计数据分成7组:[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300],并绘制成如图所示的频率分布直方图.
①求频率分布直方图中x的值,并估计这100户居民中,月平均用电量不低于220度的有多少户
②从月平均用电量在[220,240),[240,260),[260,280),[280,300]内的四组居民中,用比例分配的分层随机抽样的方法抽取11户居民,则应从月平均用电量在[220,240)内的居民中抽取多少户
[素养小结]
频率分布直方图的性质:
(1)因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)样本量=.9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
1.C [解析] 由题知样本数据的最大值为13,最小值为6,故极差为13-6=7.
2.D [解析] 由极差为168-142=26,组距为4,可得=6.5,则组数为7.故选D.
3.D [解析] 样本数据共有20个.根据选项,可分为4组,各组的频数和频率如下表所示:
分组 频数 频率
[5.5,7.5) 2 0.1
[7.5,9.5) 6 0.3
[9.5,11.5) 8 0.4
[11.5,13.5] 4 0.2
合计 20 1.0
从表中可以看出频率为0.2的区间是[11.5,13.5],故选D.
4.C [解析] 所有小长方形的面积和为1,因为中间小长方形的面积是其余4个小长方形面积之和的,所以中间小长方形的面积为,即频率为0.25,又中间一组的频数为10,所以样本容量为40,故选C.
5.C [解析] 在频率分布直方图中,设[80,90)对应的小矩形的高为a,则可得(0.005+a+0.04+0.015+0.01)×10=1,解得a=0.03,所以成绩落在区间[80,90)内的人数为200×0.03×10=60.故选C.
6.A [解析] 根据频率分布直方图可列下表:
阅读时间(分钟) [0,10) [10,20) [20,30) [30,40) [40,50) [50,60]
抽样人数 10 18 22 25 20 5
抽取的100名学生中有50名为阅读霸,据此可估计该校有一半学生为阅读霸.故选A.
7.A [解析] 设体重在[50,55)内的频率为k,则k+2k+3k+(0.037 5+0.012 5)×5=1,解得k=0.125,∴第二小组的频率为2k=0.25.∵第二小组的频数为13,∴抽取的男生人数为=52,又全校男、女生的人数之比为13∶12,∴全校抽取的学生人数为52×=100.故选A.
8.ABC [解析] 对于A,在高一年级学生中,估计参加活动次数是3的学生人数为1000×0.26=260,A中说法不正确;对于B,在高一年级学生中估计参加活动次数是2或4的学生人数为1000×(0.2+0.18)=380,B中说法不正确;对于C,在高一年级学生中,估计参加活动次数不高于2的学生人数为1000×(0.08+0.1+0.2)=380,C中说法不正确;对于D,在高一年级学生中,估计参加活动次数不低于4的学生人数为1000×(0.18+0.12+0.04+0.02)=360,D中说法正确.故选ABC.
9.AC [解析] 对于A,由题图可知10×(m+0.020+0.016+0.016+0.011+0.006)=1,解得m=0.031,故A正确;对于B,因为成绩不低于140分的频率为0.011×10=0.11,所以n==1000,故B错误;对于C,因为成绩在100分以下的频率为0.006×10=0.06,所以成绩在100分以下的人数为1000×0.06=60,故C正确;对于D,成绩在区间[120,140)内的频率为0.031×10+0.016×10=0.47<0.5,人数占一小半,故D错误.故选AC.
10.144 24 [解析] 由题意得=,所以n=36×4=144,同理=,解得x=24.
11.0.76 [解析] 由表可得,出现“安全水位”的频率是0.1+0.28+0.38=0.76.
12. 78 [解析] 设第1组的频数为x,则前4组的频数分别为x,3x,9x,27x,后5组的频数分别为27x-5,27x-10,27x-15,27x-20,27x-25,由题意得x+3x+9x+27x+(27x-5)+(27x-10)+(27x-15)+(27x-20)+(27x-25)=100,解得x=1,故a=,b=27+22+17+12=78.
13.解:(1)由题意得(0.050+0.100+0.150+0.125+x)×2=1,解得x=0.075.
(2)样本中身高低于100厘米的频率为(0.050+0.100)×2=0.3,故样本量为=120.
(3)样本中身高位于[98,104)内的频率为(0.100+0.150+0.125)×2=0.75,所以样本中身高位于[98,104)内的人数为0.75×120=90.
14.解:(1)作出频率分布表如下表:
分组 频数 频率
[41,51) 2
[51,61) 1
[61,71) 4
[71,81) 6
[81,91) 10
[91,101) 5
[101,111] 2
合计 30 1
(2)作出频率分布直方图如图所示.
(3)该市一个月中的空气质量有2天处于优的水平,占当月天数的,有26天处于良的水平,占当月天数的,所以处于优或良的天数为28,占当月天数的.说明该市空气质量基本良好.
15.D [解析] 采取了新的培育方法后,大棚西红柿的产量有了明显的变化,故A中说法正确;采取了新的培育方法后,大棚西红柿的平均产量有所提高,故B中说法正确;采取了新的培育方法后,大棚西红柿的产量更加稳定了,故C中说法正确;新、旧培育方法对大棚西红柿的产量影响较大,故D中说法错误.故选D.
16.解:(1)样本中“水果达人”的频率为(0.007 5+0.005)×20=0.25,
∴样本中“水果达人”的人数为100×0.25=25.
由题图可知,消费金额在[80,100)与[100,120]内的人数之比为3∶2,其中消费金额不低于100元的人数为25×=10,
∴抽取的5人中消费金额不低于100元的人数为5×=2.
(2)依题意得,该游客要购买原价为110元的水果,
若选择方案一,则需支付(80-8)+30=102(元),
若选择方案二,则需支付50+(80-50)×0.9+(100-80)×0.8+(110-100)×0.7=100(元),
∴应该选择方案二.9.2 用样本估计总体
9.2.1 总体取值规律的估计
第1课时 频率分布表和频率分布直方图
一、选择题
1.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,9,12,9,10,11,12,11,则它们的极差是 ( )
A.5 B.6
C.7 D.8
2.为了解某年级女生的身高情况,从中随机抽出20人进行测量,结果如下(单位: cm):
149 159 142 160 156 163 145 150 148 151
156 144 148 149 153 143 168 168 152 155
在根据样本数据画频率分布直方图的过程中,如果组距设为4,那么组数为 ( )
A.4 B.5
C.6 D.7
3.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,9,12,9,10,11,12,11,那么频率为0.2的区间是 ( )
A.[5.5,7.5) B.[7.5,9.5)
C.[9.5,11.5) D.[11.5,13.5]
4.在样本频率分布直方图中,共有5个小长方形,已知中间小长方形的面积是其余4个小长方形面积之和的,且中间一组的频数为10,则这个样本的样本容量是 ( )
A.20 B.30 C.40 D.50
5.[2024·唐山五校联考] 2023年7月28日,第31届世界大学生夏季运动会在四川成都开幕,这是继2001年北京大运会、2011年深圳大运会之后,中国大陆第三次举办世界大学生夏季运动会,在成都大运会中,中国代表团取得了骄人的成绩.为向大学生普及大运会的相关知识,某高校组织了“大运会知识竞赛”,并从中随机抽取了200名学生的成绩(满分100分)进行统计,成绩均在[50,100]内,将其分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],并整理得到如图所示的频率分布直方图,则在被抽取的学生中,成绩落在区间[80,90)内的人数为 ( )
A.20 B.40
C.60 D.80
6.学校为了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示.将阅读时间不低于30分钟的观众称为“阅读霸”,则下列结论正确的是 ( )
A.估计该校有一半学生为阅读霸
B.该校只有50名学生不喜欢阅读
C.该校只有50名学生喜欢阅读
D.估计该校有50名学生为阅读霸
7.某校将举办秋季体育文化节,为了解该校学生的身体状况,抽取部分男生和女生的体重(单位:kg),将男生体重数据整理后,作出了频率分布直方图如图,已知图中从左到右前三个小组的频率之比为1∶2∶3,第二小组的频数为13,若全校男、女生的人数之比为13∶12,则全校抽取的学生人数为 ( )
A.100 B.80
C.45 D.32
8.(多选题)为弘扬中华民族优秀传统文化,某学校学生会要了解本校高一年级1000名学生课余时间参加传统文化活动的情况,随机抽取50名学生进行调查,将数据分组整理后,列表如下:
参加场数 0 1 2 3 4 5 6 7
参加人数占调查 人数的百分比 8% 10% 20% 26% 18% 12% 4% 2%
下列说法不正确的是 ( )
A.在高一年级学生中,估计参加活动次数是3的学生人数为360
B.在高一年级学生中,估计参加活动次数是2或4的学生人数为480
C.在高一年级学生中,估计参加活动次数不高于2的学生人数为280
D.在高一年级学生中,估计参加活动次数不低于4的学生人数为360
9.(多选题)统计某校n名学生的某次数学同步练习成绩(满分150分),根据成绩(单位:分)依次分成六组:[90,100),[100,110),[110,120),[120,130),[130,140),[140,150],得到频率分布直方图如图所示.若成绩不低于140分的人数为110,则下列说法正确的是 ( )
A.m=0.031
B.n=800
C.成绩在100分以下的人数为60
D.成绩在区间[120,140)内的人数占一大半
二、填空题
10.一个样本量为n的样本,将其观测数据分成若干组,已知甲组的频数和频率分别为36和,则n= ,频率为的乙组的频数x= .
11.在某一时期内,一条河流某处的年最高水位在各个范围内的频率如下表:
年最高水位 范围(米) <10 [10,12) [12,14) [14,16) ≥16
频率 0.1 0.28 0.38 0.16 0.08
若年最高水位低于14米时为“安全水位”,则出现“安全水位”的频率是 .
12.为了解某校高三年级学生的视力情况,随机地抽查了该校100名高三年级学生的视力情况,得到频率分布直方图如图所示.由于不慎将部分数据丢失,但知道前4组的频数之比为1∶3∶9∶27,后6组的频数每组比前一组都少5,设最大频率为a,则a的值为 ,视力在4.6到5.0之间的学生人数为b,则b的值为 .
三、解答题
13.某幼儿园根据部分同年龄段女童的身高数据绘制了频率分布直方图,其中身高(单位:厘米)的变化范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106].
(1)求x的值;
(2)若样本中身高低于100厘米的人数是36,求样本量;
(3)求样本中身高位于[98,104)内的人数.
14.某市2022年4月1日至4月30日对空气质量指数的监测数据如下(主要污染物为可吸入颗粒物):61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.按[41,51),[51,61),…,[101,111]进行分组.
(1)作出频率分布表.
(2)作出频率分布直方图.
(3)根据国家标准,空气质量指数在0~50之间时,空气质量为优;空气质量指数在51~100之间时,空气质量为良;空气质量指数在101~150之间时,空气质量为轻度污染;空气质量指数在151~200之间时,空气质量为中度污染.请你依据所给数据和上述标准,对该市的空气质量作出一个简短评价.
15.某农业科研机构对所在地区的大棚西红柿的新、旧培育方法的产量进行对比,各抽取100个相同规模的大棚,统计各大棚的产量(单位:百千克),其频率分布直方图分别如图①和图②所示,据此判断以下说法错误的是 ( )
①
②
A.采取了新的培育方法后,大棚西红柿的产量有了明显的变化
B.采取了新的培育方法后,大棚西红柿的平均产量有所提高
C.采取了新的培育方法后,大棚西红柿的产量更加稳定了
D.新、旧培育方法对大棚西红柿的产量影响不大
16.为进一步推进农村经济结构调整,某村举办水果观光采摘节,并推出配套的乡村游项目,现统计了4月份100名游客购买水果的情况,得到如图所示的频率分布直方图.
(1)若将购买金额不低于80元的游客称为“水果达人”,现用比例分配的分层随机抽样的方法从样本的“水果达人”中抽取5人,求这5人中消费金额不低于100元的人数.
(2)为吸引游客,该村特推出两种促销方案:
方案一:每满80元可立减8元;
方案二:金额超过50元但又不超过80元的部分打9折,金额超过80元但又不超过100元的部分打8折,金额超过100元的部分打7折.
若水果的价格为11元/kg,某游客要购买10 kg,应该选择哪种方案