2. 2.1 用样本的频率分布估计总体分布
【教学目标】
1. 通过实例体会分布的意义和作用;
2. 在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图;
3. 通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计。
【教学重难点】
教学重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图
教学难点:w能通过样本的频率分布估计总体的分布
教学过程:
【复习回顾】
说一说简单随机抽样、系统抽样、分层抽样各自的特点、操作步骤和适用的范围。
类 别
共同点
各自特点
联 系
适用范围
简单随机
抽样
(1)抽样过程中每个个体被抽到的可能性相等
(2)每次抽出个体后不再将它放回,即不放回抽样
从总体中逐个抽取
总体个数较少
系统抽样
将总体均分成几部 分,按预先制定的规则在各部分抽取
在起始部分样时采用简随机抽样
总体个数较多
分层抽样
将总体分成几层,分层进行抽取
分层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
【引入】
在统计中,为了考察一个总体的情况,通常是从总体中抽取一个样本,用样本的有关情况去估计总体的相应情况。这种估计大体分为两类,一类是用样本频率分布估计总体分布,一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。下面我们先通过案例来介绍总体分布的估计。
【新知探究】
我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?你认为,为了了较为合理地确定出这个标准,需要做哪些工作?
为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等。因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况。(见课本表2-1)
分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式
下面我们学习的频率分布表和频率分布图,则是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律。可以让我们更清楚的看到整个样本数据的频率分布情况。
一、频率分布直方图
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。其一般步骤为:
(1)计算一组数据中最大值与最小值的差,即求极差
(2)决定组距与组数,
(3)将数据分组
(4)列频率分布表
(5)画频率分布直方图
以课本制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图。
频率分布直方图的特征:
(1)从频率分布直方图可以清楚的看出数据分布的总体趋势。
(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
思考探究:
(1)在频率分布直方图中,各小长方形的面积表示什么?它们的总和是多少?
(2)同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断,分别以0.1和1为组距重新作图,然后谈谈你对图的印象?
(3)如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-1和频率分布直方图2.2-1,(见课本)你能对制定月用水量标准提出建议吗?
二、频率分布折线图、总体密度曲线
1.频率分布折线图的定义:
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
2.总体密度曲线的定义:
在样本频率分布直方图中,随着样本容量的增加,所分组数的增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。(见课本)
思考探究:
(1)对于任何一个总体,它的密度曲线是不是一定存在?为什么?
(2)对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什么?
答:实际上,尽管有些总体密度曲线是客观存在的,但一般很难想函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确。
三.茎叶图
1.茎叶图的概念:
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。(见课本例子)
2.茎叶图的特征:
(1)用茎叶图表示数据的优点:一是既可以看出样本的分布情况又能看到原始数据;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。
【例题精析】
例1、下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)画出频率分布折线图;
(4)估计身高小于134cm的人数占总人数的百分比.。
分析:根据样本频率分布表、频率分布直方图的一般步骤解题。
解:(1)样本频率分布表如下:
(2、3)其频率分布直方图如下:
(4)由样本频率分布表可知身高小于134cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm的人数占总人数的19%.
变式训练:
为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.
第二小组的频率是多少?样本容量是多少?
若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。
分析:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。
解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,
因此第二小组的频率为:
由频率=,得
(2)由图可估计该学校高一学生的达标率
约为
(3)由已知可得各小组的频数依次为6,12,
51,45,27,9,所以前三组的频数之
和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。
例2、从两个班中各随机的抽取10名学生,他们的数学成绩如下:
甲班:76,74,82,96,66,76,78,72,52,68
乙班:86,84,62,76,78,92,82,74,88,85
画出茎叶图并分析两个班学生的数学学习情况。
解析:
由茎叶图可知,乙班的成绩较好,而且较稳定。
【课堂小结】
1、制作频率分布直方图分几个步骤?各步骤需要注意哪些问题?
2、频率分布直方图和茎叶图相比有什么特点?
答:1、步骤:
(1)计算一组数据中最大值与最小值的差,即求极差
(2)决定组距与组数,(组距是人为决定的)
(3)将数据分组
(4)列频率分布表(必须包括分组、频数、频率三部分)
(5)画频率分布直方图(注意纵坐标表示什么,各小长方形是连在一起的)
3、频率分布直方图无法看到原始数据,而茎叶图能看出原始数据;但频率分布直方图所体现的内容比茎叶图多。
【书面作业】导学案课后练习与提高
【板书设计】
2.2.1 用样本的频率分布估计总体分布
课前预习学案
一、预习目标:在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图;
二、预习内容:阅读课本~
三.完成下列问题:
1. 一般用频率分布直方图反映样本的频率分布。其一般步骤有哪些? 频率分布直方图的特征是什么?
2.茎叶图的特征是什么?
课内探究学案
学习目标
1. 通过实例体会分布的意义和作用;
2. 在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图;
3. 通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计。
重点:会列频率分布表,画频率分布直方图、频率折线图和茎叶图
难点:能通过样本的频率分布估计总体的分布
学习过程
【复习回顾】
说一说简单随机抽样、系统抽样、分层抽样各自的特点、操作步骤和适用的范围。
类 别
共同点
各自特点
联 系
适用范围
简单随机
抽样
(1)抽样过程中每个个体被抽到的可能性相等
(2)每次抽出个体后不再将它放回,即不放回抽样
从总体中逐个抽取
总体个数较少
系统抽样
将总体均分成几部 分,按预先制定的规则在各部分抽取
在起始部分样时采用简随机抽样
总体个数较多
分层抽样
将总体分成几层,分层进行抽取
分层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
【新知探究】
我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?你认为,为了了较为合理地确定出这个标准,需要做哪些工作?
【自主学习】
一、频率分布直方图
1.频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。其一般步骤为:
2.以课本制定居民用水标准问题为例,经过以上几个步骤画出频率分布直方图。
3.频率分布直方图的特征:
思考探究:
(1)在频率分布直方图中,各小长方形的面积表示什么?它们的总和是多少?
(2)同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断,分别以0.1和1为组距重新作图,然后谈谈你对图的印象?
(3)如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-1和频率分布直方图2.2-1,(见课本)你能对制定月用水量标准提出建议吗?
二、频率分布折线图、总体密度曲线
1.频率分布折线图的定义:
2.总体密度曲线的定义:
在样本频率分布直方图中,随着样本容量的增加,所分组数的增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。(见课本)
思考探究:
(1)对于任何一个总体,它的密度曲线是不是一定存在?为什么?
(2)对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什么?
三.茎叶图
1.茎叶图的概念:
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。(见课本例子)
2.茎叶图的特征:
典型例题
例1、下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)画出频率分布折线图;
(4)估计身高小于134cm的人数占总人数的百分比.。
变式训练:
为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.
第二小组的频率是多少?样本容量是多少?
若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。
例2、从两个班中各随机的抽取10名学生,他们的数学成绩如下:
甲班:76,74,82,96,66,76,78,72,52,68
乙班:86,84,62,76,78,92,82,74,88,85
画出茎叶图并分析两个班学生的数学学习情况。
当堂检测
1.为了解一批数据在各个范围内所占的比例大小,将这批数据分组,落在各个小组里的
数据个数叫做 ( )
A、频数 B、样本容量 C、频率 D、频数累计
2.在频率分布直方图中,各个小长方形的面积表示 ( )
A、落在相应各组的数据的频数 B、相应各组的频率
C、该样本所分成的组数 D、该样本的容量
3.列样本频率分布表时,决定组数的正确方法是 ( )
A、任意确定 B、一般分为5—12组
C、由组距和组数决定 D、根据经验法则,灵活掌握
4.一个容量为n的样本,分成若干组,已知某组的频数和频率分别为40,0、125,则n的值为( )
A、640 B、320 C、240 D、160
5.为考察某种皮鞋的各种尺码的销售情况,以某天销售40双皮鞋为一个样本,把它按尺码分成5组,第3组的频率为0、25,第1,2,4组的频率分别为6,7,9,若第5组表示的是40—42码的皮鞋,则售出的200双皮鞋中含40—42码的皮鞋为( )
A、50 B、40 C、20 D、30
6.一个容量为20 的样本数据,分组后组距与频数如下:
(10,20],2;(20,30],3;(30,40],4;(40,50],4;(60,70],2。则样本在区间(-,50]上的频率是( )
A、5% B、25% C、50% D、70%
7.将一批数据分成5组列出频率分布表,其中第1组的频率是0、1,第4组与 第5组的频率之和是0、3,那么第2组与第3组的频率之和是 。
反思总结
课后练习与提高
1.从一群学生中收取一个一定容量的样本对他们的学习成绩进行分析,前三组是不超过80分的人,其频数之和为20人,其频率之和(又称累积频率)为0、4,则所抽取的样本的容量是 ( )
A、100 B、80 C、40 D、50
2.下列叙述中正确的是 ( )
A、从频率分布表可以看出样本数据对于平均数的波动大小
B、频数是指落在各个小组内的数据
C、每小组的频数与样本容量之比是这个小组的频率
D、组数是样本平均数除以组距
3.有一个数据为50的样本数据分组,以及各组的频数如下,根据累积频率分布,估计小于30的数据大约占多少( )
[12、5,15、5),3;[15、5,18、5),8;[18、5,21、5),9;[21、5,24、5),11;[24、5,27、5),10;[30、5,33、5),4
A、10% B、92% C、5% D、30%
4.在抽查某产品尺寸的过程中,将其尺寸分成若干组,[a,b]是其中一组,抽查出的个体数在该组上的频率为m,该组上的直方图的高是h,则,[a-b]等于( )
A、hm B、 C、 D、 与m,h无关
5.已知一个样本75,71,73,75,77,79,75,78,80,79,76,74,75,77,76,72,74,75,76,78。在列频率分布表时,如果组距取为2,那么应分成 组,第一组的分点应是 — ,74、5—76、5这组的频数应为 ,频率应为 。
6.在求频率分布时,把数据分为5组,若已知其中的前四组频率分别为0、1,0、3,0、3,0、1,则第五组的频率是 ,这五组的频数之比为 。
7.为了检测某种产品的质量,抽取了一个容量为100的样本,数据的分组及频率如下表:
分组
频数
频率
[10、75,10、85)
3
[10、85,10、95)
9
[10、95,11、05)
13
[11、05,11、15)
16
[11、15,11、25)
26
[11、25,11、35)
20
[11、35,11、45)
7
[11、45,11、55)
4
[11、55,11、65)
2
合计
100
完成上面的频率分布表;
根据上表画出频率分布直方图;
根据上表和图,估计数据落在[10、95,11、35)范围内的概率约是多少?
数据小于11、20的概率约是多少?
课件29张PPT。2-2-1用样本的频率分布估计总体分布
一、选择题
1.下列关于频率分布直方图的说法正确的是( )
A.直方图的高表示取某数的频率
B.直方图的高表示该组上的个体在样本中出现的频率
C.直方图的高表示取某组上的个体在样本中出现的频数与组距的比值
D.直方图的高表示取该组上的个体在样本中出现的频率与组距的比值
[答案] D
[解析] 要注意频率直方图的特点.在直方图中,纵轴(矩形的高)表示频率与组距的比值,其相应组距上的频率等于该组距上的矩形的面积.
[点评] 注意区别直方图与条形图.
2.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )
A.10组 B.9组
C.8组 D.7组
[答案] B
[解析] 根据列频率分布表的步骤,==8.9.所以分为9组较为恰当.
3.容量为100的样本数据,按从小到大的顺序分为8组,如下表:
组号
1
2
3
4
5
6
7
8
频数
10
13
x
14
15
13
12
9
第三组的频数和频率分别是( )
A.14和0.14 B.0.14和14
C.和0.14 D.和
[答案] A
[解析] 第三组的频数为100-(10+13+14+15+13+12+9)=14,频率为=0.14,故选A.[来源:学科网]
4.在频率分布直方图中,中位数两侧的面积和所占比例为( )
A.1:3 B.2:1
C.1:1 D.不确定
[答案] C
[解析] 因为频率分布直方图中面积是频率,中位数左右两边的频数是相等的,所以频数一定的情况下,频数同时除以组距也是相等的,即频率是相等的,所以面积比为1?1.
5.根据《中华人民共和国道路交通安全法》规定:车辆驾驶员血液酒精浓度在20~80 mg/100 mL(不含80)之间,属于酒后驾车;血液酒精浓度在80 mg/100 mL(含80)以上时,属醉酒驾车.据有关报道,2009年8月15日至8月28日,某地区查处酒后驾车和醉酒驾车共500人,如图是对这500人血液中酒精含量进行检测所得结果的频率分布直方图,则属于醉酒驾车的人数约为( )
A.25 B.50
C.75 D.100
[答案] C
[解析] 醉酒驾车的人血液酒精浓度在80 mg/100 mL(含80)以上,在频率分布直方图中可知酒精含量在80 mg/100 mL(含80)以上的频率为(0.01+0.005)×10=0.15,则属于醉酒驾车的人数约为0.15×500=75人.
6.某雷达测速区规定:凡车速大于或等于70 km/h的汽车视为“超速”,并将受到处罚,如图是某路段的一个检测点对300辆汽车的车速进行检测所得结果的频率分布直方图,则从图中可得出将被处罚的汽车数为( )
A.30辆 B.40辆
C.60辆 D.80辆
[答案] C
[解析] 车速大于或等于70 km/h的汽车数为0.02×10×300=60(辆),故选C.
7.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg),得到频率分布直方图如下:根据下图可得这100名学生中体重在[56.5,64.5)的学生人数是( )
A.20 B.30
C.40 D.50
[答案] C
[解析] 由频率分布直方图知体重在[56.5,64.5]的人数为(0.03+0.05×2+0.07)×2×100=40
8.某超市连锁店统计了城市甲、乙的各16台自动售货机在中午12?00至13?00间的销售金额,并用茎叶图表示如图.则有( )
A.甲城销售额多,乙城不够稳定
B.甲城销售额多,乙城稳定
C.乙城销售额多,甲城稳定
D.乙城销售额多,甲城不够稳定
[答案] D
[解析] 十位数字是3、4、5时乙明显多于甲,估计乙销售额多,甲的数字过于分散,不够稳定,故选D.
9.根据《中华人民共和国道路交通完全法》规定:车辆驾驶员血液酒精浓度在20~80 mg/100 mL(不含80)之间,属于酒后驾车,处暂扣一个月以上三个月以下驾驶证,并处200元以上500元以下罚款;血液酒精浓度在80 mg/100 mL(含80)以上时,属醉酒驾车,处十五日以下拘留和暂扣三个月以上六个月以下驾驶证,并处500元以上2000元以下罚款.据《福州晚报》报道,2011年6月15日至6月30日,全市查处酒后驾车和醉酒驾车共2480人,如图是对这2480人血液中酒精含量进行检测所得结果的频率分布直方图,则属于酒后驾车的人数约为( )
A.372 B.1 984
C.2 108 D.2 480
[答案] C
[解析] 由频率分布直方图得酒后驾车的频率为(0.015+0.02×2+0.015+0.01+0.05)×10=0.85,所以属于酒后驾车的人数2480×0.85=2108.
10.为了了解某校高三学生的视力情况,随机抽查了该校100名高三学生的视力情况,得到频率分布直方图如下图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54
C.48 D.27
[答案] B
[解析] 前三级人数为100-62=38,第三组人数为38-(1.1+0.5)×0.1×100=22,则a=22+0.32×100=54.
二、填空题
11.今年5月海淀区教育网开通了网上教学,某校高一年级(8)班班主任为了了解学生上网学习时间,对本班40名学生某天上网学习时间进行了调查,将数据(取整数)整理后,绘制出如图所示频率分布直方图,已知从左到右各个小组的频率分别是0.15,0.25,0.35,0.20,0.05,则根据直方图所提供的信息,这一天上网学习时间在100~119分钟之间的学生人数是________人,如果只用这40名学生这一天上网学习时间作为样本去推断该校高一年级全体学生该天的上网学习时间,这样推断是否合理?________(填“合理”或“不合理”)
[答案] 14 不合理
[解析] 由频数=样本容量×频率=40×0.35=14(人)
因为该样本的选取只在高一(8)班,不具有代表性,所以这样推断不合理.
12.青年歌手大奖赛共有10名选手参赛,并请了7名评委.如图所示的茎叶图是7名评委给参加最后决赛的两位选手甲、乙评定的成绩,去掉一个最高分和一个最低分后,甲、乙选手剩余数据的平均成绩分别为________、________.
[答案] 84.2分 85分
[解析] 甲的成绩去掉一个最高分92分和一个最低分75分后,甲的剩余数据的平均成绩为84.2分;乙的成绩去掉一个最高分93分和一个最低分79分后,乙的剩余数据的平均成绩为85分.
13.某小学为了解学生数学课程的学习情况,在3000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图,3000名学生在该次数学考试中成绩小于60分的学生数是________.
[答案] 600
[解析] 在该次数学考试中成绩小于60分的共有3组,频率之和为0.02+0.06+0.12=0.2,所以在该次数学考试中成绩小于60分的学生数大约为3 000×0.2=600.
14.图1是某工厂2010年9月份10个车间产量统计条形图,条形图从左到右表示各车间的产量依次记为A1,A2,…,A10(如A3表示3号车间的产量为950件).图2是统计图1中产量在一定范围内车间个数的一个算法流程图.那么运行该算法流程后输出的结果是________.
[答案] 4
[解析] 通过算法流程图可知,它的功能是统计产量超过950件的车间数,所以通过条形统计图可知产量超过950件的车间数为4个,所以最后输出的结果是4.
三、解答题
15.一个农技站为了考察某种麦穗长的分布情况,在一块试验地里抽取了100个麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表、绘出频率分布直方图,并估计长度在5.75~6.05 cm之间的麦穗在这批麦穗中所占的百分比.
[分析] 依据步骤画出频率分布直方图;用样本中的百分比(即频率)来估计长度在5.75~6.05 cm之间的麦穗在这批麦穗中所占的百分比.
[解析] 步骤是:
(1)计算极差,7.4-4.0=3.4(cm).
(2)决定组距与组数.
若取组距约为0.3 cm,由于=11,需分成12组,组数合适.于是取定组距为0.3 cm,组数为12.
(3)将数据分组.
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点.哪么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55.
(4)列频率分布表.
对各个小组作频数累计,然后数频数,算频率,列频率分布表.如下表所示:
分组
频数累计
频数
频率
3.94~4.25
1
0.01
4.25~4.55
1
0.01
4.55~4.85
2
0.02
4.85~5.15
正
5
0.05
5.15~5.45
正正
11
0.11
5.45~5.75
正正正
15
0.15
5.75~6.05
正正正正正
28
0.28
6.05~6.35
正正[来源:学科网ZXXK]
13
0.13
6.35~6.65
正正
11
0.11
6.65~6.95
正正
10
0.10
6.95~7.25
2
0.02
7.25~7.55
1
0.01
合计
100
1.00
(5)画频率分布直方图,如图所示.
从表中看到,样本数据落在5.75~6.05之间的频率是0.28,于是可以估计,在这块地里,长度在5.75~6.05 cm之间的麦穗约占28%.
[点评] 本题画频率分布直方图时,小长方形的高易错用该组的频率的大小来表示.其原因是不清楚频率分布直方图纵轴的意义.由于画频率分布直方图的步骤比较繁琐,因此在实际操作的过程中要有足够的耐心.
16.为了调查甲、乙两个网站受欢迎的程度,随机选取了14天,统计上午8?00~10?00间各自的点击量,得如图所示的茎叶图,根据茎叶图回答下列问题.
(1)甲、乙两个网站点击量的极差分别是多少?
(2)甲网站点击量在[10,40]间的频率是多少?
(3)甲、乙两网站哪个更受欢迎?并说明理由.
[解析] (1)甲网站的极差为:73-8=65,乙网站的极差为:71-5=66.
(2)=≈0.286.
(3)甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方,从数据的分布情况来看,甲网站更受欢迎.
17.某电视台为宣传本省,随机对本省内15~65岁的人群抽取了n人,回答问题“本省内著名旅游景点有哪些”统计结果如图表所示.
组号
分组
回答正确
的人数
回答正确的人数
占本组的频率
第1组
[15,25)
a
0.5
第2组
[25,35)
18
x
第3组
[35,45)[来源:学科网]
b
0.9
第4组
[45,55)
9
0.36
第5组
[55,65]
3
y
(1)分别求出a,b,x,y的值;
(2)从第2,3,4组回答正确的人中用分层抽样的方法抽取6人,求第2,3,4组每组各抽取多少人?
[解析] (1)由频率表中第4组数据可知,第4组总人数为=25,再结合频率分布直方图可知
n==100,
∴a=100×0.01×10×0.5=5,
b=100×0.03×10×0.9=27,
x==0.9,y==0.2.
(2)第2,3,4组回答正确的共有54人.
∴利用分层抽样在54人中抽取6人,每组分别抽取的人数为:第2组:×6=2(人);第3组:×6=3(人);第4组:×6=1(人).
18.有关部门从甲、乙两个城市所有的自动售货机中随机抽取了16台,记录上上午8?00~11?00之间各自的销售情况(单位:元)
甲:18,8,10,43,5,30,10,22,6,27,25,58,14,18,30,41;
乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23.
试用两种不同的方式分别表示上面的数据,并简要说明各自的优点.
[解析] 方法一:从题目中的数不易直接看出各自的分布情况,为此,我们将以上数据用条形统计图表示.如图:
[来源:Zxxk.Com]
方法二:茎叶图如图,两竖线中间的数字表示甲、乙销售额的十位数,两边的数字表示甲、乙销售额的个位数.
从方法一可以看出条形统计图能直观地反映数据分布的大致情况,并且能够清晰地表示出各个区间的具体数目;从方法二可以看出,用茎叶图表示有关数据,对数据的记录和表示都带来方便.
2.2用样本估计总体(一)
知识探究(一):频率分布表
【问题】 我国是世界上严重缺水的国家 之一,城市缺水问题较为突出,某市政 府为了节约生活用水,计划在本市试行 居民 生活用水定额管理,即确定一个居 民月用水量标准a,用水量不超过a的部 分按平价收费,超出a的部分按议价收费. 通过抽样调查,获得100位居民2007年的 月均用水量如下表(单位:t):
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么? 0.2~4.3
思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组? (4.3-0.2)÷0.5=8.2
思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?[0,0.5),[0.5,1),[1,1.5),…,[4,4.5].
思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?
思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?
用样本的频率分布估计总体分布.
思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?
88%的居民月用水量在3t以下,可建议取a=3.
思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?
分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的.
思考8:对样本数据进行分组,其组数是由哪些因素确定的?
思考9:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.
思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?
第一步,求极差.
第二步,决定组距与组数.
第三步,确定分点,将数据分组.
第四步,列频率分布表.
知识探究(二):频率分布直方图
思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:
思考2:
频率分布直方图中
小长方形的面积表示什么?小长方形的面积表示该组的频率.
所有小长方形的面积和=?所有小长方形的面积和=1.
思考3:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?
(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;
(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;
(3)居民月均用水量的分布有一定的对称性等.
思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布
直方图的作图步骤如何?
第一步,画平面直角坐标系.
第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.
第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.
课堂练习
1. 有一个容量为50的样本数据的分组及各组的频数如下:
[12.5, 15.5) 3 [24.5, 27.5) 10
[15.5, 18.5) 8 [27.5, 30.5) 5
[18.5, 21.5) 9 [30.5, 33.5) 4
[21.5, 24.5) 11
⑴列出样本的频率分布表和画出频率分布直方图;
⑵根据样本的频率分布估计,小于30.5的数据约占多少?
2.(2006年全国卷II)一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000](元)月收入段应抽出 25 人
3.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为,成绩大于等于15秒且小于17秒的学生人数为,则从频率分布直方图中可分析出和分别为( A )
A.0.9,35 B.0.9,45
C.0.1,35 D.0.1,45
4. ( 2006年重庆卷)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:
根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是 ( C)
(A)20 (B)30 (C)40 (D)50
5.(广东文7、艺术理6)下面左图是某县参加2007年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为A1、A2、…、A10(如A2表示身高(单位:cm)(150,155)内的学生人数).右图是统计左图中身高在一定范围内学生人数的一个算法流程图.现要统计身高在160~180cm(含160cm,不含180cm)的学生人数,那么在流程图中的判断框内应填写的条件是(B)
A.i<9 B. i<8 C. i<7 D. i<6
6.为了解某校高三学生的视力情况,随机地抽查了该
校100名高三学生的视力情况,得到频率分布直方图,
如右,由于不慎将部分数据丢失,但知道前4组的频
数成等比数列,后6组的频数成等差数列,设最大频
率为a,视力在4.6到5.0之间的学生数为b,则a, b
的值分别为( A )
A.0,27,78 B.0,27,83
C.2.7,78 D.2.7,83
小结作业
1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律.我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.
2.频率分布表和频率分布直方图,是对相同数据的两种不同表达方式.用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况.通过作图既可以从数据中提取信息,又可以利用图形传递信息.
3.样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况.
作业:《习案》作业十八
2.2用样本估计总体(二)
频率分布直线图和茎线图
问题提出:
列出一组样本数据的频率分布表可以分哪几个步骤进行?
第一步,求极差.
第二步,决定组距与组数.
第三步,确定分点,将数据分组.
第四步,统计频数,计算频率,制成表格.
频率分布直方图是在平面直角坐标系中画若干个依次相邻的小长方形,这些小长方形的宽、高和面积在数量上分别表示什么?
3. 我们可以用样本数据的频率分布表和频率分布直方图估计总体的频率分布,当总体中的个体数较多或较少时,统计中用什么方法提取样本数据的相关信息,我们将进一步作些探究.
频率分布折线图和茎叶图
探究1:频率分布折线图与总体密度曲线
思考1:在城市居民月均用水量样本数据的频率分布直方图中,各组数据的平均值大致是哪些数?
思考2:在频率分布直方图中,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为频率分布折线图. 你认为频率分布折线图能大致反映样本数据的频率分布吗?
思考3:当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?
思考4:在上述背景下,相应的频率分布折线图越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.那么图中阴影部分的面积有何实际意义?
思考5:当总体中的个体数比较少或样本数据不密集时,是否存在总体密度曲线?为什么?
不存在,因为组距不能任意缩小
思考6:对于一个总体,能否通过样本数据准确地画出总体密度曲线?
探究1:茎叶图
频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.
【问题】 某赛季甲、乙两名篮球运动员每场 比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16, 33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
思考1:你能理解这个图是如何记录这些数据的吗?你能通过该图说明哪个运动员的发挥更稳定吗?
思考2:在统计中,上图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪些数,“叶”指的是哪些数?
思考3:对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,4.3,2.7,3.1,3.5,用茎叶图如何表示?
思考4:一般地,画出一组样本数据的茎叶图的步骤如何?
第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;
第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;
第三步,将各个数据的叶按大小次序写在茎右(左)侧.
思考5:用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点?
(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.
思考6:比较茎叶图和频率分布表,茎叶图中“茎”和“叶”的数目分别与频率分布表中哪些数目相当?
思考7:对任意一组样本数据,是否都适合用茎叶图表示?为什么?
不适合样本容量很大或茎、叶不分明的样本数据.
例. 甲、乙两人数学成绩的茎叶图如下.
(1)求出这两名同学的数学成绩的平均数、中位数;
(2)比较两名同学的成绩,谈谈看法.
练习
1. 为了了解高一学生的体能情况,某校随机抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出了频率分布直方图.图中从左到右各小长方形的面积之比为2:4:17:15:9:3,第二小组的频数为12.
(1)第二小组的频率是多少?
(2)样本容量是多少?
(3)若次数在110以上(含110次)为达
标,试估计该校全体高一学生的达标率约
是多少?
2. 某班级共有学生54人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本.已知2号,28号,41号同学在样本中,那么样本中还有一个同学的学号是 .
3. 在抽取某产品的尺寸过程中,将其尺寸分成若干组,[a,b]是其中一组,抽查出的个体数在该组上的频率为m,该组上的直方图的高为h,则| a-b |等于
4. 在一个样本的频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形和的 ,且样本容量为160,则中间一组的频数为 ( )
A. 32 B. 0.2 C. 40 D. 0.25
作业:《习案》作业十九
课件60张PPT。2.2 用样本估计总体第一课时 频率分布表和
频率分布直方图知识探究(一):频率分布表 【问题】 我国是世界上严重缺水的国家
之一,城市缺水问题较为突出,某市政
府为了节约生活用水,计划在本市试行
居民 生活用水定额管理,即确定一个居
民月用水量标准a,用水量不超过a的部
分按平价收费,超出a的部分按议价收费.
通过抽样调查,获得100位居民2007年的
月均用水量如下表(单位:t):知识探究(一):频率分布表 3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2知识探究(一):频率分布表 思考1:上述100个数据中的最大值和最小
值分别是什么?由此说明样本数据的变化
范围是什么?知识探究(一):频率分布表 思考1:上述100个数据中的最大值和最小
值分别是什么?由此说明样本数据的变化
范围是什么?0.2~4.3知识探究(一):频率分布表 思考1:上述100个数据中的最大值和最小
值分别是什么?由此说明样本数据的变化
范围是什么?思考2:样本数据中的最大值和最小值的
差称为极差.如果将上述100个数据按组距
为0.5进行分组,那么这些数据共分为多
少组? 0.2~4.3知识探究(一):频率分布表 思考1:上述100个数据中的最大值和最小
值分别是什么?由此说明样本数据的变化
范围是什么?思考2:样本数据中的最大值和最小值的
差称为极差.如果将上述100个数据按组距
为0.5进行分组,那么这些数据共分为多
少组? 0.2~4.3(4.3-0.2)÷0.5=8.2知识探究(一):频率分布表 思考3:以组距为0.5进行分组,上述100个
数据共分为9组,各组数据的取值范围可以
如何设定?知识探究(一):频率分布表 思考3:以组距为0.5进行分组,上述100个
数据共分为9组,各组数据的取值范围可以
如何设定?[0,0.5),[0.5,1),[1,1.5),
…,[4,4.5].知识探究(一):频率分布表 思考4:如何统计上述100个数据在各组中
的频数?如何计算样本数据在各组中的频
率?你能将这些数据用表格反映出来吗?知识探究(一):频率分布表 知识探究(一):频率分布表 知识探究(一):频率分布表 思考5:上表称为样本数据的频率分布表,
由此可以推测该市全体居民月均用水量分
布的大致情况,给市政府确定居民月用水
量标准提供参考依据,这里体现了一种什
么统计思想?知识探究(一):频率分布表 思考5:上表称为样本数据的频率分布表,
由此可以推测该市全体居民月均用水量分
布的大致情况,给市政府确定居民月用水
量标准提供参考依据,这里体现了一种什
么统计思想?用样本的频率分布估计总体分布.知识探究(一):频率分布表 思考6:如果市政府希望85%左右的居民每
月的用水量不超过标准,根据上述频率分
布表,你对制定居民月用水量标准(即a的
取值)有何建议?知识探究(一):频率分布表 思考6:如果市政府希望85%左右的居民每
月的用水量不超过标准,根据上述频率分
布表,你对制定居民月用水量标准(即a的
取值)有何建议? 88%的居民月用水量在3t以下,可建
议取a=3. 知识探究(一):频率分布表 思考7:在实际中,取a=3t一定能保证85%
以上的居民用水不超标吗?哪些环节可能
会导致结论出现偏差?知识探究(一):频率分布表 思考7:在实际中,取a=3t一定能保证85%
以上的居民用水不超标吗?哪些环节可能
会导致结论出现偏差? 分组时,组距的大小可能会导致结论
出现偏差,实践中,对统计结论是需要进
行评价的. 知识探究(一):频率分布表 思考8:对样本数据进行分组,其组数是由
哪些因素确定的?知识探究(一):频率分布表 思考8:对样本数据进行分组,其组数是由
哪些因素确定的?思考9:对样本数据进行分组,组距的确定
没有固定的标准,组数太多或太少,都会
影响我们了解数据的分布情况.数据分组的
组数与样本容量有关,一般样本容量越大,
所分组数越多. 知识探究(一):频率分布表 思考10:一般地,列出一组样本数据的频
率分布表可以分哪几个步骤进行?知识探究(一):频率分布表 思考10:一般地,列出一组样本数据的频
率分布表可以分哪几个步骤进行?第一步,求极差.知识探究(一):频率分布表 思考10:一般地,列出一组样本数据的频
率分布表可以分哪几个步骤进行?第一步,求极差.第二步,决定组距与组数.知识探究(一):频率分布表 思考10:一般地,列出一组样本数据的频
率分布表可以分哪几个步骤进行?第一步,求极差.第二步,决定组距与组数.第三步,确定分点,将数据分组.知识探究(一):频率分布表 思考10:一般地,列出一组样本数据的频
率分布表可以分哪几个步骤进行?第一步,求极差.第二步,决定组距与组数.第三步,确定分点,将数据分组.第四步,列频率分布表.知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考1:为了直观反映样本数据在各组中的
分布情况,我们将上述频率分布表中的有
关信息用下面的图形表示: 月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O知识探究(二):频率分布直方图 思考2:频率分布直方图中小长方形的面积表示什么?所有小长方形的面积和=?知识探究(二):频率分布直方图 思考2:频率分布直方图中小长方形的面积表示什么?所有小长方形的面积和=?小长方形的面积表示该组的频率.知识探究(二):频率分布直方图 思考2:频率分布直方图中小长方形的面积表示什么?所有小长方形的面积和=?小长方形的面积表示该组的频率.所有小长方形的面积和=1.知识探究(二):频率分布直方图 思考3:频率分布直方图非常直观地表明了样本
数据的分布情况,使我们能够看到频率分布表中
看不太清楚的数据模式,但原始数据不能在图中
表示出来.你能根据上述频率分布直方图指出居民
月均用水量的一些数据特点吗?知识探究(二):频率分布直方图 知识探究(二):频率分布直方图 (1)居民月均用水量的分布是“山峰”状的,而且
是“单峰”的;知识探究(二):频率分布直方图 (1)居民月均用水量的分布是“山峰”状的,而且
是“单峰”的;(2)大部分居民的月均用水量集中在一个中间值
附近,只有少数居民的月均用水量很多或很少;知识探究(二):频率分布直方图 (1)居民月均用水量的分布是“山峰”状的,而且
是“单峰”的;(2)大部分居民的月均用水量集中在一个中间值
附近,只有少数居民的月均用水量很多或很少;(3)居民月均用水量的分布有一定的对称性等.知识探究(二):频率分布直方图 思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布
直方图的作图步骤如何?知识探究(二):频率分布直方图 思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布
直方图的作图步骤如何? 第一步,画平面直角坐标系. 知识探究(二):频率分布直方图 思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布
直方图的作图步骤如何? 第一步,画平面直角坐标系. 第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.知识探究(二):频率分布直方图 思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布
直方图的作图步骤如何? 第一步,画平面直角坐标系. 第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.课堂练习 1. 有一个容量为50的样本数据的分组
及各组的频数如下:
[12.5, 15.5) 3 [24.5, 27.5) 10
[15.5, 18.5) 8 [27.5, 30.5) 5
[18.5, 21.5) 9 [30.5, 33.5) 4
[21.5, 24.5) 11
⑴列出样本的频率分布表和画出频率
分布直方图;
⑵根据样本的频率分布估计,小于30.5
的数据约占多少? 课堂练习2.(2006年全国卷II)一个社会调查机构就某地居民
的月收入调查了10 000人,并根据所得数据画了样
本的频率分布直方图(如下图).为了分析居民的收入
与年龄、学历、职业等方面的关系,要从这10 000
人中再用分层抽样方法抽出100人作进一步调查,
则在[2500,3000](元)月收入段应抽出_______人.0.00010.00020.00030.00040.00051000 1500 2000 2500 3000 3500 4000月收入(元)频率/组距课堂练习2.(2006年全国卷II)一个社会调查机构就某地居民
的月收入调查了10 000人,并根据所得数据画了样
本的频率分布直方图(如下图).为了分析居民的收入
与年龄、学历、职业等方面的关系,要从这10 000
人中再用分层抽样方法抽出100人作进一步调查,
则在[2500,3000](元)月收入段应抽出_______人.0.00010.00020.00030.00040.0005月收入(元)频率/组距251000 1500 2000 2500 3000 3500 4000课堂练习3.某班50名学生在一次百米测试中,成绩全部介于13
秒与19秒之间,将测试结果按如下方式分成六组:第
一组,成绩大于等于13秒且小于14秒;第二组,成绩
大于等于14秒且小于15秒;……
第六组,成绩大于等于18秒且小
于等于19秒.右图是按上述分组
方法得到的频率分布直方图.设
成绩小于17秒的学生人数占全班
总人数的百分比为x,成绩大于等
于15秒且小于17秒的学生人数为y,
则从频率分布直方图中可分析出x
和y分别为( )A.0.9,35 B.0.9,45
C.0.1,35 D.0.1,45课堂练习3.某班50名学生在一次百米测试中,成绩全部介于13
秒与19秒之间,将测试结果按如下方式分成六组:第
一组,成绩大于等于13秒且小于14秒;第二组,成绩
大于等于14秒且小于15秒;……
第六组,成绩大于等于18秒且小
于等于19秒.右图是按上述分组
方法得到的频率分布直方图.设
成绩小于17秒的学生人数占全班
总人数的百分比为x,成绩大于等
于15秒且小于17秒的学生人数为y,
则从频率分布直方图中可分析出x
和y分别为( )A.0.9,35 B.0.9,45
C.0.1,35 D.0.1,45A课堂练习4. (2006年重庆卷)为了了解某地区高三学生的
身体发育情况,抽查了该地区100名年龄为17.5
岁-18岁的男生体重(kg) ,得到频率分布直方图
如下:根据上图可得这100名学生中体重在[56.5,64.5]的
学生人数是( )
A. 20 B. 30 C. 40 D. 500.030.050.0754.5 58.5 62.5 66.5 70.5 74.5 课堂练习4. (2006年重庆卷)为了了解某地区高三学生的
身体发育情况,抽查了该地区100名年龄为17.5
岁-18岁的男生体重(kg) ,得到频率分布直方图
如下:根据上图可得这100名学生中体重在[56.5,64.5]的
学生人数是( )
A. 20 B. 30 C. 40 D. 50C0.030.050.0754.5 58.5 62.5 66.5 70.5 74.5 课堂练习5.(广东文7、艺术理6)下面左图是某县参加2007年高考的学生
身高条形统计图,从左到右的各条形表示的学生人数依次记为
A1、A2、…、A10(如A2表示身高(单位:cm)(150,155)内的学生
人数).右图是统计左图中身高在一定范围内学生人数的一个算
法流程图.现要统计身高在160~180cm(含160cm,不含180cm)的
学生人数,那么在流程图中的判断框内应填写的条件是( )
A.i<9 B. i<8 C. i<7 D. i<6输入A1,A2,…,Ana=0
i=4输出s是否开始结束课堂练习5.(广东文7、艺术理6)下面左图是某县参加2007年高考的学生
身高条形统计图,从左到右的各条形表示的学生人数依次记为
A1、A2、…、A10(如A2表示身高(单位:cm)(150,155)内的学生
人数).右图是统计左图中身高在一定范围内学生人数的一个算
法流程图.现要统计身高在160~180cm(含160cm,不含180cm)的
学生人数,那么在流程图中的判断框内应填写的条件是( )
A.i<9 B. i<8 C. i<7 D. i<6B输入A1,A2,…,Ana=0
i=4输出s是否开始结束6.为了解某校高三学生的视力情况,随机地抽
查了该校100名高三学生的视力情况,得到频率
分布直方图,如右,由于不慎将部分数据丢失,
但知道前4组的频数成等比数列,后6组的频数成
等差数列,设最大频率为a,视力在4.6到5.0之间
的学生数为b,则a, b的值分别为( )课堂练习A. 0.27,78
B. 0.27,83
C. 2.7,78
D. 2.7,836.为了解某校高三学生的视力情况,随机地抽
查了该校100名高三学生的视力情况,得到频率
分布直方图,如右,由于不慎将部分数据丢失,
但知道前4组的频数成等比数列,后6组的频数成
等差数列,设最大频率为a,视力在4.6到5.0之间
的学生数为b,则a, b的值分别为( )课堂练习A. 0.27,78
B. 0.27,83
C. 2.7,78
D. 2.7,83A作业:
《习案》作业十八课件42张PPT。2.2 用样本估计总体第二课时 频率分布
折线图和茎叶图月均用水量/t频率
组距0.5
0.4
0.3
0.2
0.10.5 1 1.5 2 2.5 3 3.5 4 4.5 O【问题】 某赛季甲、乙两名篮球运动员每场
比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16,
33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.【问题】 某赛季甲、乙两名篮球运动员每场
比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16,
33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39. 甲运动员得分:13,51,23,8,26,38,16,
33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.0123480 50 5 71 1 531. 下面是甲、乙两名运动员某赛季一些场次得分
的茎叶图:
(1)甲、乙两名运动员的最高得分各是多少?
(2)哪名运动员的成绩好一些?作业:
《习案》作业十九2.2.1 用样本的频率分布估计总体分布
课时目标 1.理解用样本的频率分布估计总体分布的方法.2.会列频率分布表,画频率分布直方图、频率分布折线图、茎叶图.3.能够利用图形解决实际问题.
1.用样本估计总体的两种情况
(1)用样本的____________估计总体的分布.
(2)用样本的____________估计总体的数字特征.
2.数据分析的基本方法
(1)借助于图形
分析数据的一种基本方法是用图将它们画出来,此法可以达到两个目的,一是从数据中____________,二是利用图形________信息.
(2)借助于表格
分析数据的另一方法是用紧凑的________改变数据的排列方式,此法是通过改变数据的____________,为我们提供解释数据的新方式.
3.频率分布直方图
在频率分布直方图中,纵轴表示____________,数据落在各小组内的频率用________________来表示,各小长方形的面积的总和等于____.
4.频率分布折线图和总体密度曲线
(1)频率分布折线图
连接频率分布直方图中各小长方形__________,就得到了频率分布折线图.
(2)总体密度曲线
随着样本容量的增加,作图时所分的____增加,组距减小,相应的频率分布折线图就会越来越接近于一条________,统计中称之为总体密度曲线,它反映了总体在各个范围内取值的百分比.
5.茎叶图
(1)适用范围:
当样本数据较少时,用茎叶图表示数据的效果较好.
(2)优点:它不但可以____________,而且可以__________,给数据的记录和表示都带来方便.
(3)缺点:
当样本数据______时,枝叶就会很长,茎叶图就显得不太方便.
一、选择题
1.下列说法不正确的是( )
A.频率分布直方图中每个小矩形的高就是该组的频率
B.频率分布直方图中各个小矩形的面积之和等于1
C.频率分布直方图中各个小矩形的宽一样大
D.频率分布折线图是依次连接频率分布直方图的每个小矩形上端中点得到的
2.一个容量为100的样本,其数据的分组与各组的频数如下:
组别
(0,10]
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
(60,70]
频数
12
13
24
15
16
13
7
则样本数据落在(10,40]上的频率为( )
A.0.13 B.0.39 C.0.52 D.0.64
3.100辆汽车通过某一段公路时的时速的频率分布直方图如下图所示,则时速在[60,70)的汽车大约有( )
A.30辆 B.40辆
C.60辆 D.80辆
4.如图是总体密度曲线,下列说法正确的是( )
A.组距越大,频率分布折线图越接近于它
B.样本容量越小,频率分布折线图越接近于它
C.阴影部分的面积代表总体在(a,b)内取值的百分比
D.阴影部分的平均高度代表总体在(a,b)内取值的百分比
5.一个容量为35的样本数据,分组后,组距与频数如下:[5,10),5个;[10,15),12个;[15,20),7个;[20,25),5个;[25,30),4个;[30,35),2个.则样本在区间[20,+∞)上的频率为( )
A.20% B.69%
C.31% D.27%
6.某工厂对一批产品进行了抽样检测.右图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )
A.90 B.75 C.60 D.45
题 号
1
2
3
4
5
6
答 案
二、填空题
7.将容量为n的样本中的数据分成6组,绘制频率分布直方图.若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n=________.
8.在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________.
9.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a,b)是其中的一组,抽查出的个体在各组上的频率为m,该组上直方图的高为h,则|a-b|=________.
三、解答题
10.抽查100袋洗衣粉,测得它们的重量如下(单位:g):
494 498 493 505 496 492 485 483 508
511 495 494 483 485 511 493 505 488
501 491 493 509 509 512 484 509 510
495 497 498 504 498 483 510 503 497
502 511 497 500 493 509 510 493 491
497 515 503 515 518 510 514 509 499
493 499 509 492 505 489 494 501 509
498 502 500 508 491 509 509 499 495
493 509 496 509 505 499 486 491 492
496 499 508 485 498 496 495 496 505
499 505 496 501 510 496 487 511 501
496
(1)列出样本的频率分布表:
(2)画出频率分布直方图,频率分布折线图;
(3)估计重量在[494.5,506.5]g的频率以及重量不足500 g的频率.
能力提升
11.在某电脑杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17
在某报纸的一篇文章中,每个句子的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22
(1)将这两组数据用茎叶图表示;
(2)将这两组数据进行比较分析,你会得到什么结论?
12.某市2010年4月1日-4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,
95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.
(1)完成频率分布表.
(2)作出频率分布直方图.
(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.
请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.
绘制频率分布直方图的具体步骤:①求极差:找出一组数据中的最大值和最小值,最大值与最小值的差是极差(正值).②确定组距与组数:组数与样本容量有关,当样本容量不超过100时,按照数据的多少,常分成5~12组;组距的选择力求“取整”,组数=.③将数据分组:将数据分成互不相交的组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.④列频率分布表:一般分“分组”、“频数累计”、“频数”、“频率”四列,最后一行是合计.注意频数的合计是样本容量,频率的合计是1.⑤绘制频率分布直方图:根据频率分布表绘制频率分布直方图,其中纵轴表示频率与组距的比值,其相应组距上的频率等于该组距上的矩形的面积,即每个矩形的面积=组距×=频率.这样频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小,各小矩形的面积的总和等于1.
答案: 2.2.1 用样本的频率分布估计总体分布
知识梳理
1.(1)频率分布 (2)数字特征 2.(1)提取信息 传递 (2)表格 构成形式 3.频率/组距 小长方形的面积 1 4.(1)上端的中点 (2)组数 光滑曲线
5.(2)保留所有信息 随时记录 (3)较多
作业设计
1.A
2.C [样本数据落在(10,40]上的频数为13+24+15=52,故其频率为=0.52.]
3.B [时速在[60,70)的汽车的频率为:
0.04×(70-60)=0.4,
又因汽车的总辆数为100,
所以时速在[60,70)的汽车大约有0.4×100=40(辆).]
4.C
5.C [由题意,样本中落在[20,+∞)上的频数为5+4+2=11,∴在区间[20,+∞)上的频率为≈0.31.]
6.A [∵样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,
∴样本总数为=120.
∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,
∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.]
7.60
解析 ∵n·=27,
∴n=60.
8.45,46
解析 由茎叶图及中位数的概念可知
x甲中=45,x乙中=46.
9.
解析 =h,故|a-b|=组距==.
10.解 (1)在样本数据中,最大值是518,最小值是483,它们相差35,若取组距为4,由于=8,要分9组,组数合适,于是决定取组距为4 g,分9组,使分点比数据多一位小数,且把第一组起点稍微减小一点,得分组如下:
[482.5,486.5),[486.5,490.5),…,[514.5,518.5).
列出频率分布表:
分组
个数累计
频数
频率
累积频率
[482.5,486.5)
正
8
0.08
0.08
[486.5,490.5)
3
0.03
0.11
[490.5,494.5)
正正正
17
0.17
0.28
[494.5,498.5)
正正正正-
21
0.21
0.49
[498.5,502.5)
正正
14
0.14
0.63
[502.5,506.5)
正
9
0.09
0.72
[506.5,510.5)
正正正
19
0.19
0.91
[510.5,514.5)
正-
6
0.06
0.97
[514.5,518.5]
3
0.03
1.00
合计
100
1.00
(2)频率分布直方图与频率分布折线图如图.
(3)重量在[494.5,506.5]g的频率为:0.21+0.14+0.09=0.44.
设重量不足500 g的频率为b,根据频率分布表,
≈,故b≈0.55.因此重量不足500 g的频率约为0.55.
11.解 (1)
(2)电脑杂志上每个句子的字数集中在10~30之间;而报纸上每个句子的字数集中在20~40之间.还可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少.说明电脑杂志作为科普读物需要通俗易懂、简明.
12.解 (1)频率分布表:
分组
频数
频率
[41,51)
2
[51,61)
1
[61,71)
4
[71,81)
6
[81,91)
10
[91,101)
5
[101,111]
2
(2)频率分布直方图如图所示.
(3)答对下述两条中的一条即可:
①该市有一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数为28,占当月天数的.说明该市空气质量基本良好.
②轻微污染有2天,占当月天数的;污染指数在80以上的接近轻微污染的天数15,加上处于轻微污染的天数2,占当月天数的,超过50%;说明该市空气质量有待进一步改善.