2.2.3 茎叶图
案例探究
某赛季甲、乙两名运动员每场得分的原始记录如下:
甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
试利用茎叶图分析一下甲、乙两名运动员谁发挥的比较稳定?
思路分析:本题如果用频率分布表或频率分布直方图来估计,就很难达到预期的效果,因此我们就选择统计中的另一种表示数据的图——茎叶图来表示.用茎叶图表示,顾名思义,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.用中间的数字来表示得分的十位数,旁边的数字分别表示两个人得分的个位数.?
解:由作茎叶图的方法,得到如下图所示的茎叶图:
甲
乙
86
4
38
6
3
1
012345
2
54
51
1
6
6
7
94
90
探究:在样本数据较少时,用茎叶图表示数据的效果较好.它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.但当数据较多时,茎叶图就显的不太方便了.因为每一个数据都要在图中占据一个空间,如果数据很多,枝叶就会很长了.特别是当数据是3位数时也不够方便.另外还可以看出茎叶图既可以分析单组数据,也可以对两组数据进行比较.
结论:从上图可以看出,茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况.比如,乙运动员的得分基本上是对称的,集中程度高(在30多分),中位数是36;甲运动员的得分除一个特殊得分(51)外,也大致对称,中位数是26.由此可以清楚的看出,乙运动员的发挥比较稳定,总体得分比甲好.
自学导引
1.什么叫做茎叶图?
2.作茎叶图的方法是什么?
疑难剖析
【例1】
在某电脑杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,
19,36,27,14,25,15,22,11,24,27,17.
在某报纸的一篇文章中,每个句子所含的字的个数如下:
27,39,33,24,19,32,41,33,27,35,12,
36,41,27,13,22,23,18,46,32,22
(1)将这两组数据用茎叶图表示;
(2)将这两组数据进行比较分析,你能得到什么结论?
思路分析:本题考察学生的应用茎叶图分析数据的能力,可根据画茎叶图的一般步骤来进行:以十位数为茎,个位数为叶.
解:(1)由题意以十位数为茎,个位数为叶作如下图所示茎叶图
电脑杂志
报纸文章
9
8
7
7
5
5
4
1
08
7
7
7
6
5
4
4
3
2
06
1
1234
2
3
8
92
2
3
4
7
7
72
2
3
3
5
6
91
1
6
(2)由以上茎叶图和数据可以看出,电脑杂志上每个句子的字数集中在10
~
30之间,中位数为22.5;而报纸上每个句子的字数集中在20
~
40之间,中位数为27.还可以看出电脑杂志上每个句子的平均字数比报纸文章每个句子的平均字数要少,说明电脑杂志作为科普读物需要通俗易懂、简明.
拓展迁移
【拓展点1】某中学高二(2)班A、B两名同学自高中以来每场数学考试成绩情况如下:
A的得分:95,81,75,91,86,89,71,65,76,88,94,110,107;
B的得分:83,86,93,99,88,103,98,114,98,79,101.
画出两个人数学成绩茎叶图,请根据茎叶图对两人的成绩进行分析比较.
思路分析:用中间的数字表示两位同学得分的十位数和百位数,两边的数字分别表示两人每场数学成绩的个位数.
解:A、B两人数学成绩的茎叶图如下图:
A
B
56
5
19
8
6
15
4
170
67891011
93
6
83
8
8
91
34
容易看出A的中位数为88,B的中位数为98,B的成绩较好.
【拓展点2】下面是某班学生的父母的年龄的茎叶图,试比较这些同学的父母的平均年龄.
父亲年龄
母亲年龄
8
85
4
3
2
1
1
08
7
7
5
4
2
11
3456
5
6
8
9
90
2
3
3
4
4
4
6
7
8
9
91
2
2
3
5
76
思路分析:根据茎叶图上的原始数据可以分析数字特征,对两组数据加以比较,从而作出大致估计.
解析:由茎叶图可知父亲年龄的分布主要集中在40~
60之间,平均年龄大约在48左右;而母亲的年龄分布大致对称,平均年龄大约在45岁左右.可见父亲的平均年龄比母亲的要大.2.2.1
频率分布表
庖丁巧解牛
知识·巧学
一、样本的频率分布概念
当总体很大或不便获得总体的频率时,可以用样本的频率分布估计总体的频率分布.根据所抽取样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值情况),就叫做样本的频率分布.
二、样本频率分布表的编制方法
为了能直观地显示样本的频率分布情况,通常我们会将样本的容量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,这样的表就叫样本频率分布表.
编制频率分布表的步骤:
(1)求极差(也称求全距,即一组数据的最大值与最小值的差).
(2)决定组距与组数(组距的选择应力求“取整”,如果极差不利于取整即不能被组数整除,可适当增大极差,如在左右各增加适当的范围).
(3)决定分点,将数据分组(分组时常对各组数值取左闭右开区间,最后一组取闭区间).
(4)登记频数、计算频率列出频率分布表(频率=频数/样本容量).
联想发散
组距和组数的确定没有固定的标准,将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来,组数太多或太少都会影响了解数据的分布情况.分组的组数与样本容量有关,一般样本容量越大,所分组数越多.根据样本容量的大小,通常将数据分成5—12组.组数的“取舍”不依据四舍五入,而是当不是整数时,组数=[]+1.
组距为1.0,极差为4.1,则组数===4.1,也就是说组数为5.
如果数据比较多,人工无法迅速处理时,在求极差和计算频数时可借助于计算机很方便地进行.频率分布表排除了抽样造成的误差,精确地反映了总体取值的频率分布规律(总体分布).
三、样本频率分布与总体分布的关系
1.样本中某数据的频数和样本容量的比,就是该数据的频率.所有数据的频率分布变化规律叫做样本频率分布.
2.总体取值的可能性分布规律叫做总体可能性分布,简称总体分布,由于总体取值分布通常不易知道,因此往往是从总体中抽取一个样本,用样本的频率分布去估计总体分布.
3.样本频率分布是随着样本容量的增大更加接近总体分布,也就是说,样本的容量越大,这种估计就越精确.
4.对于样本,只读频率,不能跟总体的可能性混淆,若样本的容量越大,则频率越接近于可能性.
四、随机变量与总体分布的联系
1.学习有关总体分布的知识,要注意把总体分布的概念与随机变量联系起来.比如,对于多次重复抛掷某一硬币的实验来说,每次抛掷硬币的结果,既可以看成是从很多这种试验结果组成的总体中抽取的一个个体值,还可以看成是在同一随机试验下相应的随机变量所取的一个值.
2.将总体与随机变量沟通后,总体分布也就是相应的随机变量的可能性分布,这样我们就可以利用可能性的理论来研究统计问题,由此可以看到可能性论与统计学之间的有机联系.
典题·热题
知识点一
样本的频率分布概念
例1
一个容量为n的样本分成若干组,已知某组的频数和频率分别为30和0.25,则n等于(
)
A.750
B.120
C.240
D.150
思路解析:某一组的频率等于该组的频数与样本容量的比.由于30/n=0.25,所以n=120.
答案:B
方法归纳
本题考查各组频率的计算方法,以便制作出频率分布表.
例2
一个容量为20的样本数据,分组后组距与频数如下:[10,20)2个,[20,30)
3个,[30,40)
4个,[40,50)
5个,[50,60)
4个,[60,70)
2个,则样本在区间(-∞,50)上的频率为(
)
A.5%
B.25%
C.50%
D.70%
思路解析:小于50的频数共有14个,因此频率为14/20=70%.
答案:D
方法归纳
根据总体分布的估计中的频率分布表,可以得出样本数据小于某一值的频率叫做累积频率.频率分布与累积频率分布从不同的角度反映了一组数据的分布情况,起着相互补充的作用.
知识点二
样本频率分布表的编制方法
例3
下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位:cm):
区间界限
[122,126)
[126,130)
[130,134)
[134,138)
[138,142)
人数
5
8
10
22
33
区间界限
[142,146)
[146,150)
[150,154)
[154,158)
人数
20
11
6
5
(1)列出样本频率分布表;
(2)估计身高小于134
cm的人数占总人数的百分比.
思路分析:根据样本频率分布表、频率分布直方图的一般步骤解题.
解:(1)样本频率分布表如下:
分组
频数
频率
[122,126)
5
0.04
[126,130)
8
0.07
[130,134)
10
0.08
[134,138)
22
0.18
[138,142)
33
0.28
[142,146)
20
0.17
[146,150)
11
0.09
[150,154)
6
0.05
[154,158)
5
0.04
合计
120
1
(2)由样本频率分布表可知身高小于134
cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134
cm的人数占总人数的19%.
方法归纳
累积频率分布反映了一组数据在某一个范围上的分布情况,对考查总体分布起着补充的作用,在实际应用中是重要的一个考查项目.
问题·探究
交流讨论探究
问题
用样本估计总体时会有误差吗?如果有,怎样尽量减少误差呢?
探究过程:学生甲:我觉得用样本估计总体的时候,由于样本毕竟不是总体,所以用样本来估计总体一般来说是有误差的,区别只是误差的大小而已.当样本的选取合理、具有代表性的时候误差就很小.
学生乙:结合实例说明用样本估计总体时会有误差,如在全国范围内的民意测验中,如果民意测验者走进大学校园里去访问1
000名大学生,对他们进行民意调查,他们所组成的样本将不会公平地代表全国的民意,这是因为大学生选民的比例很小,而且是一个有倾向性的团体,不能代表全体选民,这样的不公平就使得样本估计总体的误差比较大,这就是样本的选取不合理造成的.
学生丙:为了减少误差,在条件允许的情况下,适当地增大样本容量也是一个提高结果准确性的不错的办法.
探究结论:用样本估计总体时会有误差,为了减少误差,除了计算要求准确外,最关键的是样本的选取一定要合理,让它能最大程度地代表总体.2.2.1 频率分布表
案例探究
我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了节约用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为要较合理地确定出这个标准,需要做哪些工作?
很明显,如果标准太高,会影响居民的日常生活;如果标准太低,则不利于节水.为了确定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.
由于城市住户较多,通常采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况,假设通过抽样方式我们获得了100位居民某年的月均用水量(单位:t):
3.1
2.5
2.0
2.0
1.5
1.0
1.6
1.8
1.9
1.6
3.4
2.6
2.2
2.2
1.5
1.2
0.2
0.4
0.3
0.4
3.2
2.7
2.3
2.1
1.6
1.2
3.7
1.5
0.5
3.8
3.3
2.8
2.3
2.2
1.7
1.3
3.6
1.7
0.6
4.1
3.2
2.9
2.4
2.3
1.8
1.4
3.5
1.9
0.8
4.3
3.0
2.9
2.4
2.4
1.9
1.3
1.4
1.8
0.7
2.0
2.5
2.8
2.3
2.3
1.8
1.3
1.3
1.6
0.9
2.3
2.6
2.7
2.4
2.1
1.7
1.4
1.2
1.5
0.5
2.4
2.5
2.6
2.3
2.1
1.6
1.0
1.0
1.7
0.8
2.4
2.8
2.5
2.2
2.0
1.5
1.0
1.2
1.8
0.6
2.2
上面这些数据能告诉我们什么呢?
分析:该数据中最小值是0.2
t,最大值是4.3
t,它们相差4.1,其他在0.2
t~4.3
t之间.可取区间[0,4.5],并将此区间分成9个小区间,每个区间长度为0.5,再统计每个区间内的频数并计算相应的频率.我们将整个取值区间的长度称为全距,分成的区间的长度称为组距.
解:(1)在全部数据中找出最小值0.2和最大值4.3,则两者之差为4.1(称为极差),确定全距为4.5,决定以组距0.5将区间[0,4.5]分成9组(为了方便组距应力求取整);组数=极差/组距=4.1/0.5=8.2,所以组数取9(取进位).
(2)从第一组[0,0.5)开始,分别统计各组中的频数,再计算各组的频率,并将结果填入下表:
分组
频数累计
频数
频率
[0,0.5)
4
4
0.04
[0.5,1)
12
8
0.08
[1,1.5)
27
15
0.15
[1.5,2)
49
22
0.22
[2,2.5)
74
25
0.25
[2.5,3)
88
14
0.14
[3,3.5)
94
6
0.06
[3.5,4)
98
4
0.04
[4,4.5]
100
2
0.02
合计
100
1
结论:从上面所作频率分布表中,我们可以看到月均用水量在区间[2,2.5)内的居民最多,在[1.5,2)内的次之,大部分居民的月均用水量都在[1,3)之间.且可以计算出大约有88%的居民月均用水量在3吨以下,因此,居民月均用水量标准定为3吨是市政府可以考虑的一个标准.
注:在画频率分布表时,除最右边的区间是闭区间外,其他均为左闭右开区间,称区间的左端点为下组限,右端点为上组限.此处采用下组限在内,上组限不在内的分组方法.
自学导引
1.什么叫做频率分布表?
答案:
我们把反映总体频率分布的表格称为频率分布表.
2.给定一组数据如何作出它们的频率分布表?
答案:一般地,作频率分布表的步骤如下:
(1)求全距,决定组数和组距,组距=全距/组数;
(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
(3)登记频数,计算频率,列出频率分布表.
3.什么叫做全距和组距?组距等于什么?
答案:我们将整个取值区间的长度称为全距,所分成的区间的长度称为组距;
组距=全距/组数.
4.在制作频率分布表时,分的组数过多或过少各有何利弊?
答案:分组过多或过少都不好.分组过多给制作频率分布表带来困难.过少虽减少了作表步骤,但不能很好地反映总体.一般样本容量越大,所分组数应越多.当样本容量不超过100时,按照数据的多少,常分成5至12组.
5.一个容量为n的样本分成若干组,已知某组的频数和频率分别是30和0.25,则n=120.
6.将100个数据分成8个组,其中有一组是9个数据,那么该组的频数是9,频率是0.09
(频率=频数/样本容量).
疑难剖析
【例1】
为了解某地区高三学生的身体发育情况,当地教育机构抽查了本地区内100名年龄为17.5~18岁的男生的体重情况,结果如下(单位:kg):
56.5
69.5
65
61.5
64.5
66.5
64
64.5
76
58.5
72
73.5
56
67
70
57.5
65.5
68
71
75
62
68.5
62.5
66
59.5
63.5
64.5
67.5
73
68
55
72
66.5
74
63
60
55.5
70
64.5
58
64
70.5
57
62.5
65
69
71.5
73
62
58
76
71
66
63.5
56
59.5
63.5
65
70
74.5
68.5
64
55.5
72.5
66.5
68
76
57.5
60
71.5
57
69.5
74
64.5
59
61.5
67
68
63.5
58
59
65.5
62.5
69.5
72
64.5
75.5
68.5
64
62
65.5
58.5
67.5
70.5
65
66
66.5
70
63
59.5
试根据上述数据画出样本的频率分布表.
思路分析:此题容量较大,先要对所给数据进行分析,找到最大值与最小值以确定全距,再分组作出频率分布表.
解:按照下列步骤获得样本的频率分布.
(1)求最大值与最小值的差(即全距).
在上述数据中,最大值是76,最小值是55,它们的差(又称为极差)是76-55=21,所得的差告诉我们,这组数据的变动范围有多大.
(2)确定组距与组数.
如果将组距定为2,那么由21÷2=10.5,组数为11,这个组数是合适的.于是组距为2,组数为11.
(3)决定分点.
根据本例中数据的特点,第1小组的起点可取为54.5,第1小组的终点可取为56.5.为了避免一个数据既是起点,又是终点从而造成重复计算,我们规定分组的区间是“左闭右开”的.这样,所得到的分组是[54.5,56.5),[56.5,58.5),…,[74.5,76.5).
(4)列频率分布表
分组
频数累计
频数
频率
[54.5,56.5)
5
5
0.05
[56.5,58.5)
12
7
0.07
[58.5,60.5)
21
9
0.09
[60.5,62.5)
26
5
0.05
[62.5,64.5)
39
13
0.13
[64.5,66.5)
55
16
0.16
[66.5,68.5)
67
12
0.12
[68.5,70.5)
78
11
0.11
[70.5,72.5)
87
9
0.09
[72.5,74.5)
93
6
0.06
[74.5,76.5)
100
7
0.07
合计
100
1.00
【例2】
为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品13件,次品4件.
试列出样本的频率分布表.
思路分析:由于总体中的个体取不同数值很少,只有四种:一级品、二级品、三级品和次品,可分别记为1,2,3和4.所以所取样本的不同数值及其相应的频率可用频率分布表表示,并根据频率分布表估计总体分布.
解:把一级品、二级品、三级品和次品,分别记为1,2,3和4,由题意列样本的频率分布表为:
产品
频数
频率
一级品(记为1)
5
0.17
二级品(记为2)
8
0.27
三级品(记为3)
13
0.43
次品(记为4)
4
0.13
【例3】
有一容量为50的样本,数据的分组及各组的频数如下:
[10,15)
4,[15,20)
5,[20,25)
10,[25,30)
11,[30,35)
9,[35,40)
8,[40,45)
3
请列出所给样本的频率分布表.
思路分析:本题考查样本的频率分布表的画法以及用样本频率分布估计总体分布.由于是连续型总体,所以对样本分成7组,组距为5,从而可用频率分布表表示样本的频率分布,并估计总体分布.
解:
样本的频率分布表为:
分组
频数
频率
[10,15)
4
0.08
[15,20)
5
0.10
[20,25)
10
0.20
[25,30)
11
0.22
[30,35)
9
0.18
[35,40)
8
0.16
[40,45)
3
0.06
拓展迁移
【拓展点】
下面列出43位美国历届总统(从1789年的华盛顿到2001年的小布什)的就任年龄:
57 61 57 57 58 57 61 54
68
51 49 64 50 48 65 52 56 46
54 49 51 47 55 55 54 42 51
56 55 51 54 51 60 62 43 55
56 61 52 69 64 46 54
(1)根据以上数据以5为组距画出相应的频率分布表.
(2)根据以上数据以4为组距画出相应的频率分布表.
解析:(1)以5为组距列频率分布表如下:
年龄分组
频数
频率
频率/组距
[40,45)
2
0.046
5
0.009
[45,50)
6
0.139
5
0.027
9
[50,55)
13
0.302
3
0.060
5
[55,60)
12
0.279
1
0.055
8
[60,65)
7
0.162
8
0.032
6
[65,70]
3
0.069
8
0.014
0
(2)(略)方法步骤与(1)相类似.(请同学们自己独立完成)2.2.2 频率分布直方图与折线图
案例探究
在上一节的案例探究中,作出样本的频率分布直方图,再根据直方图解决用水量标准问题.
分析:作出它的频率分布直方图,就能够方便的找出一个合适的标准,从而解决用水量标准问题!
解:画频率分布直方图.建立平面直角坐标系,以横轴表示月均用水量,纵坐标表示频率/组距,就得到了这组数据的频率分布直方图,如下图所示:
探究:
1.
一般地,作频率分布直方图的方法为:
把横轴分为若干段,每一段对应一个组的组距.然后以这些线段为边作矩形,矩形的高等于该组的频率/组距,这样得出的一系列的矩形,每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图.
2.容易知道,频率分布直方图是以面积的形式反映了数据在各个小组的频率的大小,并且可看出在频率分布直方图中,各小长方形的面积总和等于1.
3.频率分布直方图比频率分布表更直观形象地反映了样本的分布规律.一般来说,样本容量越大,这种估计就越精确.
4.如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为样本的频率分布折线图.
5.频率折线图的优点是它反映了数据的变化趋势.如果将样本取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线.
结论:从上面所作的频率分布直方图中,我们可以看到,月均用水量在区间[2,2.5)内的居民最多,在[1.5,2)内的次之,大部分居民的月均用水量都在[1,3)之间.且可以计算出大约有88%的居民月均用水量在3吨以下,因此,居民月均用水量标准定为3吨是市政府可以考虑的一个标准.
自学导引
1.什么叫做频率分布直方图?作频率分布直方图的一般方法是什么?
答案:我们可以利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图,简称频率直方图.一般地,作频率分布直方图的方法为:
以数据的单位为横轴单位,以频率/组距为纵轴单位.把横轴分成若干段,每一线段对应一个组的组距,然后以此线段为底作一矩形,它的高等于该组的频率/组距,这样得出一系列的矩形,每个矩形的面积恰好是该组上的频率,这些矩形就构成了频率分布直方图.
2.什么叫做频率分布折线图?
答案:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为样本的频率折线图.
3.什么叫做总体分布的密度曲线?它反映了什么?
答案:定义:样本容量取得足够大,分组的组距足够小,相应的频率折线图将趋于一条曲线,这条曲线就叫做总体分布的密度曲线;总体密度曲线反映了总体的变化趋势和总体在各个范围内取值的百分比.
4.在频率分布直方图中,各小长方形的面积总和等于1.(因为各小长方形的面积
=所对应区间的频率,总面积
=
1
)
5.作有关产品尺寸的样本的频率分布直方图时,用横坐标表示样本数据,用纵坐标表示频率/组距,在横坐标上以数据分组的两端点表示的线段为底,在纵坐标上以频率/组距为高作矩形.
6.条形图用高度来表示各组的频率,直方图用面积来表示各组频率.
7.从某校2
100名学生中随机抽取一个30名学生的样本,样本中每个学生用于课外作业的时间(单位:分钟)依次为:75,80,85,65,95,100,70,55,65,75,85,110,120,80,85,80,75,90,90,95,70,60,60,75,90,95,65,75,80,80.该学校的学生中作业时间是一个半小时以上(含一个半小时)的学生有630人,所占频率为0.3.(因为该样本中作业时间超过一个半小时的有9人,则频率=9/30=0.3;所以学生数=总体人数×0.3=2
100×0.3
=630)
疑难剖析
【例1】
为了了解某地区高三学生的身体发育情况,当地教育机构抽查了本地区内100名年龄为17.5~18岁的男生的体重情况,结果如下(单位:kg):
56.5
69.5
65
61.5
64.5
66.5
64
64.5
76
58.5
72
73.5
56
67
70
57.5
65.5
68
71
75
62
68.5
62.5
66
59.5
63.5
64.5
67.5
73
68
55
72
66.5
74
63
60
55.5
70
64.5
58
64
70.5
57
62.5
65
69
71.5
73
62
58
76
71
66
63.5
56
59.5
63.5
65
70
74.5
68.5
64
55.5
72.5
66.5
68
76
57.5
60
71.5
57
69.5
74
64.5
59
61.5
67
68
63.5
58
59
65.5
62.5
69.5
72
64.5
75.5
68.5
64
62
65.5
58.5
67.5
70.5
65
66
66.5
70
63
59.5
试根据上述数据画出样本的频率分布直方图与折线图,并对相应的总体分布作出估计.
思路分析:此题容量较大,首先要对所给数据进行分析,找到最大值与最小值以确定全距,再分组作出频率分布表、频率分布直方图和折线图.
(1)在上节【疑难剖析】例1列出频率分布表的基础上绘制出频率分布直方图如下:
(2)作频率分布折线图
将上述频率分布直方图中各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,这条折线就是所要作的折线图.(如下图所示)
思维启示:由于图中各小长方形的面积等于相应各组的频率,这个矩形的面积的大小反映了数据落在各个小组的频率的大小.在反映样本的频率分布方面,频率分步表比较确切,频率分布直方图比较直观,它们起着相互补充的作用.在得到了样本的频率后,就可以对相应的总体情况作出估计.例如可以估计,体重在(64.5,66.5)kg的学生最多,约占学生总数的16%;体重小于58.5
kg的学生较少,约占12%;等等.
【例2】
为检测某种产品的质量,抽取了一个容量为30的样本,检测结果为一级品5件,二级品8件,三级品13件,次品4件.
(1)画出表示样本频率分布的条形图;
(2)根据条形图,估计此种产品为二级品或三级品所占的百分比约是多少?
思路分析:由于总体中的个体取不同数值很少,只有四种:一级品、二级品、三级品和次品,可分别记为1,2,3和4.所以所取样本的不同数值及其相应的频率可用条形图表示,并根据频率分布条形图估计总体分布.
(1)在【疑难剖析】例2列出频率分布表的基础上画样本频率分布的条形图为
(2)此种产品为二级品或三级品所占的百分比约是0.27+0.43=0.70=70%.
思维启示:频率分布表在数量表示上比较确切,而频率分布条形图比较直观,两者相互补充,使我们对数据的频率分布情况了解得更加清楚.特别应引起同学们注意的是条形图与直方图画法的区别.
【例3】
有一容量为50的样本,数据的分组及各组的频数如下:
[10,15)
4,[15,20)
5,[20,25)
10,[25,30)
11,[30,35)
9,
[35,40)
8,[40,45)
3
(1)画出频率分布直方图;
(2)估计总体中,个体分布在[20,35)之内的约占总体的百分之几?
思路分析:本题考查样本的频率分布直方图的画法以及用样本频率分布估计总体分布.由于是连续型总体,从而可用频率分布直方图表示样本的频率分布,并估计总体分布.
(1)在上一节【疑难剖析】例3列出频率分布表的基础上画频率分布直方图为
(3)由频率分布表知数据落在[20,35)范围内的频率为0.20+0.22+0.18=0.60,总体中,个体分布在[20,35)之内的约占总体的60%.
点评:频率分布直方图是用小矩形的面积表示该区间内取值的频率,所有小矩形的面积之和等于1.
思维启示:用样本的频率分布估计总体分布,分以下两种情况:
1.当总体中的个体取不同数值很少时,用频率分布表列出几个不同数值的频率,用相应的条形图的高来表示取各个值的频率;
2.当总体中的个体取不同数值很多、甚至无限时,用频率分布表列出各个不同区间内取值的频率,用相应的直方图的面积来表示在各个区间内取值的频率.
【例4】
200辆汽车经过某一段公路的时速的频率分布直方图如图所示,则时速在[50,60)的汽车大约有.
思路分析:本题考查学生逆向思维能力,再现由频率分布直方图对总体进行估计,从频率分布直方图上找出所要求的信息.
解:由于图中的纵坐标是频率除以组距,所以小矩形的面积就是对应本部分区间的频率,于是在[50,60)内的车辆大约有:(60-50)×0.03×200=60辆.
思维启示:直方图中第二个小矩形的面积约等于总体中的个体落在区间[50,60)内的百分比.
拓展迁移
【拓展点】下面列出43位美国历届总统(从1789年的华盛顿到2001年的小布什)的就任年龄:
57 61 57 57 58 57 61 54 68
51 49 64 50 48 65 52 56 46
54 49 51 47 55 55 54 42 51
56 55 51 54 51 60 62 43 55
56 61 52 69 64 46 54
(1)以5为组距画出相应的频率分布直方图和折线图,并用自己的语言描述一下历届美国总统就任年龄的分布情况.
(2)以4为组距画出相应的频率分布直方图和折线图,并用自己的语言描述一下历届美国总统就任年龄的分布情况.
(3)两次所做的频率分布直方图及折线图相同吗?试分别估计就任年龄在55岁以下的频率,并与实际频率作比较.
解析:(1)以5为组距列频率分布表如下:
年龄分组
频数
频率
频率/组距
[40,45)
2
0.046
5
0.009
[45,50)
6
0.139
5
0.027
9
[50,55)
13
0.302
3
0.060
5
[55,60)
12
0.279
1
0.055
8
[60,65)
7
0.162
8
0.032
6
[65,70]
3
0.069
8
0.014
0
画频率分布直方图:
(2)历届总统的就任年龄90%集中在45~65之间.(图略)
(3)两次所作频率分布直方图及折线图有所不同.以5为组距的分析方案,就任年龄在55岁以下的频率为0.488
3;以4为组距的分析方案,就任年龄在55岁以下的频率为≈0.3721.2.2.2
频率分布直方图与折线图
庖丁巧解牛
知识·巧学
一、关于频率分布直方图的概念
由于频率分布表数字较多,阅读困难,为了将频率分布表中的结果直观形象地表示出来,我们通常画频率分布直方图.画图时,应以横轴表示分组,纵轴表示频率与组距的比值.以每个组距为底,以各频率除以组距的商为高,分别画成矩形,这样得到的直方图就是频率分布直方图.
二、关于频率分布直方图的绘制方法
频率分布直方图是在频率分布表的基础上绘制而成的,它的前期工作就是准确列出频率分布表,然后在平面直角坐标系中画出频率分布直方图,具体步骤如下:
(1)求极差,即计算最大值与最小值的差.
(2)决定组距和组数.
组距与组数的确定没有固定标准,需要尝试、选择,力求有合适的组数,以能把数据的规律较清楚地呈现为准.太多或太少都不好,不利对数据规律的发现.组数应与样本的容量有关,样本容量越大组数越多.
(3)决定分点,将数据分组.分组时,通常规定分组的区间是“左闭右开”的,避免数据被重复计算.
(4)列频率分布表.一般分“分组”“频数”“频率”三列,最后一行是“合计”.
注意频数的合计应是样本容量,频率合计应是1.
(5)画频率分布直方图.
建立直角坐标系,图中横轴为分组,图中的纵轴表示“频率/组距”.
各组数据以小长方形表示,其中,小长方形的宽为组距,小长方形的高=,频率==组距×=小长方体的面积.
各小长方形的面积总和为1.
由此可以看出,直方图中的各小长方形的面积表示相应的各组的频率.这样频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小.
误区警示
直方图中小长方形的高并不表示各组数据的频率,而是频率与组距之比,小长方形的面积才是各组数据的频率.
辨析比较
频率分布表在数量表示上比较确切,但不够直观、形象,分析数据的总体态势不太方便,频率分布直方图形象、直观,与频率分布表相比较,频率直方图能直观地表明数据的分布形状,但原始数据不能在图中表示,说明直方图丢失了一些信息.从频率分布直方图可以清楚地看出数据分布的总体态势,但是从直方图本身得不出原始的数据内容.
三、频率分布折线图与总体密度曲线
1.频率分布折线图
把频率分布直方图各个长方形上边的中点用连线连接起来,就得到频率分布折线图.
为了方便看图,一般习惯于把频率分布折线图画成与横轴相连,所以折线图在横轴上的左右两个端点没有实际意义.
2.总体密度曲线
如果样本容量越大,那么所分组数就越多,图中表示的频率分布就越接近总体在各小组内所取值的个数与总数比值的大小,如果样本容量不断增大,那么分组的组距就不断缩小,频率分布直方图就越来越接近总体的分布,频率分布折线图就变成了一条光滑曲线y=f(x),这条光滑曲线就叫总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内的取值规律,它能给我们提供更加精细的信息,是研究个体分布规律的重要依据.
典题·热题
知识点一
有关频率分布直方图的基本概念
例1
已知图2-2-1是容量为100的样本的频率分布直方图,试根据图形中的数据填空:
图2-2-1
(1)样本数据落在[10,14]内的频率是__________;
(2)样本数据落在[6,10]内的频数是__________;
(3)样本数据落在[2,6]内的频率是__________;
(4)样本数据落在[14,18]内的频率是__________.
思路解析:在直方图里用面积表示频率.
(1)0.09×4=0.36.
(2)0.08×4=0.32,0.32×100=32.
(3)0.02×4=0.08.
(4)1-0.36-0.32-0.08=0.24.
答案:(1)0.36
(2)32
(3)0.08
(4)0.24
误区警示
本题应注意两点:(1)①直方图是用面积表示频率;②在直方图中,所有矩形的面积之和等于1.(2)频率分布条形图:与直方图不同的是纵轴表示的是频率.
例2
连续抛掷一个骰子120次,得到1,2,3,4,5,6点的次数各为18,19,21,22,20,20.
(1)试列出样本的频率分布表;
(2)列出频率分布条形图;
(3)估计抛掷不足4点的机率.
思路分析:由于取值可按一定次序一一列出,可以用频率分布表或频率分布条形图分析样本.
解:(1)频率分布表如下:
点数
频数
频率
1
18
0.15
2
19
0.158
3
21
0.175
4
22
0.183
5
20
0.167
6
20
0.167
合计
120
1.000
(2)频率分布条形图如图2-2-2.
图2-2-2
(3)抛掷点数不足4点的机率是0.15+0.158+0.175=0.483.
巧解提示
(1)频率分布条形图是用条形高度来表示各个值的频率的图形.
(2)本例中总体的不同取值很少,可一一列举,通常称离散型总体.
知识点二
绘制频率分布条形图
例3
为了了解某地区高三学生的身体发育情况,抽查了地区内100名年龄为17.5岁—18岁的男生的体重情况,结果如下:(单位:kg)
56.5
69.5
65
61.5
64.5
66.5
64
64.5
76
58.5
72
73.5
56
67
70
57.5
65.5
68
71
75
62
68.5
62.5
66
59.5
63.5
64.5
67.5
73
68
55
72
66.5
74
63
60
55.5
70
64.5
58
64
70.5
57
62.5
65
69
71.5
73
62
58
76
71
66
63.5
56
59.5
63.5
65
70
74.5
68.5
64
55.5
72.5
66.5
68
76
57.5
60
71.5
57
69.5
74
64.5
59
61.5
67
68
63.5
58
59
65.5
62.5
69.5
72
64.5
75.5
68.5
64
62
65.5
58.5
67.5
70.5
65
66
66.5
70
63
59.5
试根据上述数据画出样本的频率分布直方图,并对相应的总体分布作出估计.
思路分析:按照样本的频率分布直方图的制作方法和步骤.
解:按照下列步骤获得样本的频率分布:
(1)求最大值与最小值的差.
在上述数据中,最大值是76,最小值是55,它们的差(又称为极差)是76-55=21所得的差告诉我们,这组数据的变动范围有多大.
(2)确定组距与组数.
如果将组距定为2,那么由21÷2=10.5得组数为11,这个组数是合适的.于是组距为2,组数为11.
(3)决定分点.
根据本例中数据的特点,第1小组的起点可取为54.5,第1小组的终点可取为56.5,为了避免一个数据既是起点,又是终点从而造成重复计算,我们规定分组的区间是“左闭右开”的.这样,所得到的分组是[54.5,56.5),[56.5,58.5),…,[74.5,76.5).
(4)列频率分布表.
频率分布表
分组
频数
频率
[54.5,56.5)
2
0.02
[56.5,58.5)
6
0.06
[58.5,60.5)
10
0.10
[60.5,62.5)
10
0.10
[62.5,64.5)
14
0.14
[64.5,66.5)
16
0.16
[66.5,68.5)
13
0.13
[68.5,70.5)
11
0.11
[70.5,72.5)
8
0.08
[72.5,74.5)
7
0.07
[74.5,76.5)
3
0.03
合计
100
1.00
(5)绘制频率分布直方图.
频率分布直方图如图2-2-3所示.
图2-2-3
由于图中各小长方形的面积等于相应各组的频率,这个图形的面积的形式反映了数据落在各个小组的频率的大小.在反映样本的频率分布方面,频率分布表比较确切,频率分布直方图比较直观,它们起着相互补充的作用.在得到了样本的频率后,就可以对相应的总体情况作出估计.例如可以估计体重在[64.5,66.5)
kg的学生最多,约占学生总数的16%;体重小于58.5
kg的学生较少,约占8%等等.
方法归纳
1.一般地,列频率分布表的步骤如下:
(1)求全距,决定组数和组距,组距=全距/组数;
(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
(3)登记频数,计算频率,列出频率分布表.
2.一般地,画频率分布直方图方法如下:
把横轴分为若干段,每一段对应一组的组距,然后以线段为底,作一矩形,它的高等于该组的频率/组距,作出一系列的矩形;每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图.
问题·探究
思维发散探究
问题
我们在生活中经常用到频率分布表、频率分布直方图、频数分布直方图、频率折线图等等,请结合如下的数据说明它们各自有什么样的特点和联系.
从规定尺寸为25.40
mm的一堆产品中任取100件,测得它们的实际尺寸如下:
25.39
25.36
25.34
25.42
25.45
25.38
25.39
25.42
25.47
25.35
25.41
25.43
25.44
25.48
25.45
25.43
25.46
25.40
25.51
25.45
25.40
25.39
25.41
25.36
25.38
25.31
25.56
25.43
25.40
25.38
25.37
25.44
25.33
25.46
25.40
25.49
25.34
25.42
25.50
25.37
25.35
25.32
25.45
25.40
25.27
25.43
25.54
25.39
25.45
25.43
25.40
25.43
25.44
25.41
25.53
25.37
25.38
25.24
25.44
25.40
25.36
25.42
25.39
25.46
25.38
25.35
25.31
25.34
25.40
25.36
25.41
25.32
25.38
25.42
25.40
25.33
25.37
25.41
25.49
25.35
25.47
25.34
25.30
25.39
25.36
25.46
25.29
25.40
25.37
25.33
25.40
25.35
25.41
25.37
25.47
25.39
25.42
25.47
25.38
25.39
探究思路:这些方法都可以表示样本的分布情况,它们各有各的优点,我们就可以结合实例分别绘制这些图表来体会它们之间的区别与联系.
探究过程:方法一:绘制频率分布表
频数指出现的次数,频率指出现的次数与样本容量的比值.这个图就是频率分布表,它能直观地体现出样本中数量指标在某一个区间内的个体出现的次数及相应的频率.用这种方法来描述样本的分布,相对来说数据比较准确.
分组
频数
频率
[25.235,25.265)
1
0.01
[25.265,25.295)
2
0.02
[25.295,25.325)
5
0.05
[25.325,25.355)
12
0.12
[25.355,25.385)
18
0.18
[25.385,25.415)
25
0.25
[25.415,25.445)
16
0.16
[25.445,25.475)
13
0.13
[25.475,25.505)
4
0.04
[25.505,25.535)
2
0.02
[25.535,25.565)
2
0.02
合计
100
1.00
方法二:频数分布直方图
图2-2-4就是频数分布直方图,事实上它是把频率分布表中的一部分(频数那一部分)画出了直方图而已,它的横轴是产品尺寸(也就是某一指标),纵轴是出现的次数即频数.这种方法将枯燥的数据形象化地表现为图形,其最大的特点就是直观,可以很容易发现数据的整体趋势.
图2-2-4
方法三:频率分布直方图
图2-2-5就是频率分布图,从作图的过程可以知道在图2-2-4中,每个小矩形的宽度为Vxi(分组的宽度),高为(其中fi为第i个区间范围内的频率),小矩形的面积恰为相应的频率fi,通常我们称这样的图形为频率分布直方图,图的纵坐标为频率与组距的比值,横轴为研究对象的某一指标(在本图中指的是产品尺寸).
从图2-2-5中可以得到产品的尺寸落在各个尺寸区间的频率的大小,这个频率的值就是该产品尺寸区间所对应的频率直方图的面积,图2-2-5中所有小矩形的面积之和,也就是产品尺寸落在各个尺寸区间内的频率之和,等于1.由刚才分析可知,在样本的频率分布图中,随着样本容量的不断扩大,其分布越来越接近总体分布,当样本容量无限加大,而组距无限缩小时,频率分布直方图的上方将演变成一条光滑的曲线.
图2-2-5
它与频数分布直方图的区别在于纵坐标的意义不同,在频数分布直方图中,纵坐标表示的是频率,而在频率分布直方图中,纵坐标表示的是频率与组距的比值,这样就使得每个小矩形的面积正好等于相应组的频率,应用起来很方便.
方法四:频率折线图
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连结各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图.不难发现,折线与横轴所围成的面积也是1,因此,当样本容量比较大时,我们还可以用频率折线图来估计总体的分布情况,如图2-2-6.
图2-2-6