(共23张PPT)
第十章
数据的收集、
整理与描述
10.2
直方图
我们学习了条形图、折线图、扇形图等描述数据的方法,下面介绍另一种常用来描述数据的统计图——直方图.
问题
为了参加全校各年级之间的广播体操比赛,七年级准备从63名同学中挑选身高相差不多的40名同学参加比赛.为此收集到这63名同学的身高(单位:cm)如下:
158
158
160
168
159
159
151
158
159
168
158
154
158
154
169
158
158
158
159
167
170
153
160
160
159
159
160
149
163
163
162
172
161
153
156
162
162
163
157
162
162
161
157
157
164
155
156
165
166
156
154
166
164
165
156
157
153
165
159
157
155
164
156
选择身高在哪个范围的同学参加呢?
为了使选取的参赛选手身高比较整齐,需要知道数据(身高)的分布情况,即在哪些身高范围的同学比较多,而哪些身高范围的同学比较少.为此可以通过对这些数据适当分组来进行整理.
1.计算最大值与最小值的差
在上面的数据中,最小值是149,最大值是172,最大值与最小值的差是23,说明身高的变化范围是23.
2.决定组距和组数
把所有数据分成若干组,每个小组的两个端点之间的距离(组内数据的取值范围)称为组距.根据问题的需要,各组的组距可以相同或不同.本问题中我们作等距分组,即令各组的组距相同.
如果从最小值起每隔3作为一组,那么由于
所以要将数据分成
8
组:149
≤
x
<
152,152
≤
x
<
155,…,170
≤
x
<
173.这里组数和组距分别为
8
和
3.
组距和组数的确定没有固定的标准,要凭借经验和所研究的具体问题来决定.将一批数据分组,一般数据越多分的组数也越多,当数据在
100
个以内时,按照数据的多少,常分成
5
~
12
组.
你能举出其他分组的例子吗?
3.列频数分布表
对落在各个小组内的数据进行累计,得到各个小组内的数据的个数(叫做频数(frequency)).整理可得下面的频数分布表:
频数分布表
身高分组
划记
频数
149
≤
x
<
152
2
152
≤
x
<
155
正
6
155
≤
x
<
158
正正
12
158
≤
x
<
161
正正正
19
161
≤
x
<
164
正正
10
164
≤
x
<
167
正
8
167
≤
x
<
170
4
170
≤
x
<
173
2
从表中可以看出,身高在155
≤
x
<
158,158
≤
x
<
161,161
≤
x
<
164
三组的人数最多,一共有12+19+10=41(人).
因此可以从身高在
155cm
至
164cm(不含
164cm)的同学中挑选参加比赛的同学.
上面对数据进行分组时,组距取
3,把数据分成
8
组.如果组距取
2
或
4,那么数据分成几个组?这样能否选出需要的
40
名同学呢?
探
究
4.画频数分布直方图
如图,为了更直观形象地看出频数分布的情况,可以根据上表画出频数分布直方图(histogram).
在图中,横轴表示身高,纵轴表示频数与组距的比值.容易看出,
小长方形面积
=
组距
×
=
频数.
可见,频数分布直方图是以小长方形的面积来反映数据落在各个小组内的频数的大小,小长方形的高是频数与组距的比值.
等距分组时,各小长方形的面积(频数)与高的比是常数(组距).因此,画等距分组的频数分布直方图时,为画图与看图方便,通常直接用小长方形的高表示频数.如下图:
例
为了考察某种大麦穗长的分布情况,在一块试验田里抽取了100个麦穗,量得它们的长度如下表(单位:cm):
6.5
6.4
6.7
5.8
5.9
5.9
5.2
4.0
5.4
4.6
5.8
5.5
6.0
6.5
5.1
6.5
5.3
5.9
5.5
5.8
6.2
5.4
5.0
5.0
6.8
6.0
5.0
5.7
6.0
5.5
6.8
6.0
6.3
5.5
5.0
6.3
5.2
6.0
7.0
6.4
6.4
5.8
5.9
5.7
6.8
6.6
6.0
6.4
5.7
7.4
6.0
5.4
6.5
6.0
6.8
5.8
6.3
6.0
6.3
5.6
5.3
6.4
5.7
6.7
6.2
5.6
6.0
6.7
6.7
6.0
5.5
6.2
6.1
5.3
6.2
6.8
6.6
4.7
5.7
5.7
5.8
5.3
7.0
6.0
6.0
5.9
5.4
6.0
5.2
6.0
6.3
5.7
6.8
6.1
4.5
5.6
6.3
6.0
5.8
6.3
列出样本的频数分布表,画出频数分布直方图.
解:(1)计算最大值与最小值的差.
在样本数据中,最大值是
7.4,最小值是
4.0,它们的差是
7.4
-
4.0
=
3.4.
(2)决定组距与组数.
在本例中,最大值与最小值的差是
3.4.如果取组距为0.3,那么由于
可分成
12
组,组数适合,于是取组距为
0.3,组数为
12.
(3)列频数分布表.
分组
划记
频数
4.0
≤
x
<
4.3
1
4.3
≤
x
<
4.6
1
4.6
≤
x
<
4.9
2
4.9
≤
x
<
5.2
正
5
5.2
≤
x
<
5.5
正正
11
5.5
≤
x
<
5.8
正正正
15
5.8
≤
x
<
6.1
正正正正正
28
6.1
≤
x
<
6.4
正正
13
6.4
≤
x
<
6.7
正正
11
6.7
≤
x
<
7.0
正正
10
7.0
≤
x
<
7.3
2
7.3
≤
x
<
7.6
1
合计
100
(4)画频数分布直方图.
从以上图表看到,麦穗长度大部分落在
5.2
cm
至
7.0
cm之间,其他区域较少.长度在
5.8
≤
x
<
6.1范围内的麦穗根数最多,有
28
根;而长度在
4.0
≤
x
<
4.3,4.3
≤
x
<
4.6,4.6
≤
x
<
4.9,7.0
≤
x
<
7.3,7.3
≤
x
<
7.6
范围内的麦穗根数很少,总共只有
7
根.
下面数据是截至2010年费尔兹奖得主获奖时的年龄:
29
39
35
33
39
28
33
35
31
31
37
32
38
36
31
39
32
38
37
34
29
34
38
32
35
36
33
29
32
35
36
37
39
38
40
38
37
39
38
34
33
40
36
36
37
40
31
38
38
40
40
37
课内练习
请根据下面不同的分组方法列出频数分布表,画出频数分布直方图,比较哪一种分组能更好地说明费尔兹奖得主获奖时的年龄分布:
(1)组距是
2,各组是
28
≤
x
<
30,30
≤
x
<
32,…;
(2)组距是
5,各组是
25
≤
x
<
30,30
≤
x
<
35,…;
(3)组距是
10,各组是
20
≤
x
<
30,30
≤
x
<
40,….
费尔兹奖是国际上享有崇高声誉
的一个数学奖项,每
4
年评选一次,
主要授予年轻的数学家.美籍华人
丘成桐(1949年出生)于1982年获
费尔兹奖.