(共24张PPT)
要进行数据收集、整理、分析、研究、处理等。
抽样
根据这些数据你能得出用水量其他信息吗?
很难从数字中看出相关信息了!
分析数据的基本方法:
作图:从数据中提取信息;利用图形传递信息。
列表:改变数据构成形式,提供解释数据的新方式。
在初中我们已经学习了处理方式频数分布表和频数分布图
频数分布表和频数分布图可以使我们能够清楚的知道数据分布在各个小组的个数。
频率分布表和频率分布图则是从各个小组数据在样本容量中所占比例的大小的角度,来表示数据分布的规律,它可以使我们看到整个样本数据的频率分布情况。
1、求极差(即一组数据中最大值与最小值的差)
知道这组数据的变动范围4.3-0.2=4.1
2、决定组距与组数(将数据分组)
3、 将数据分组(8.2取整,分为9组)
除不尽时,组数为(取整+1)
画频率分布直方图的步骤
组距与组数的选择
如对60个学生的身高统计,数据在146cm--170cm之间. 极差为24
如果取组距为3厘米 ,要将数据分成8组;如果取组距为2厘米,要分成12组,因为当数据个数接近100时,组数接近12,而这里的数据个数是60,因此分成8组更合适些,于是取定组距为3厘米,组数为8.
频率分布表:
在这个表格之中,你得到了哪些信息?
4、列出频率分布表(通常要合作完成读数,记录)
频率分布直方图如下:
5、画出频率分布直方图。
频率分布直方图如下:
所有小长方形的面积总和=?
小长方形的面积=对应分组的频率
各组频率之和为1所以面积为1
频率分布直方图如下:
月均用水量最多的在那个区间?
频率分布直方图如下:
请大家阅读第68页,直方图有那些优点和缺点?
请同学们尝试以组距为1重新作出频率分布图.
一、求极差,即数据中最大值与最小值的差
二、决定组距与组数 :组距=极差/组数
三、分组,通常对组内数值所在区间,
取左闭右开区间 , 最后一组取闭区间
四、登记频数,计算频率,列出频率分布表
画一组数据的频率分布直方图,可以按以下的步骤进行:
五、画出频率分布直方图(纵轴表示频率/组距)
巩固要点:
其中频率分布直方图的作图步骤
第一步,画平面直角坐标系.
第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.
第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.
巩固要点:
例1.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.
应用举例:
0.06
0.06
8
0.14
0.16
16
0.21
0.51
0.18
18
0.16
0.85
10
0.95
0.05
5
分组 频数 频率 频率累计
[12,15) 6
[15,18) 0.08
[18,21) 0.30
[21,24) 21
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36] 1.00
合计 100 1.00
例2
某个容量为100的样本的频率分布直方图如右,则在区间[4,5)上的数据的频数为 .
练 习
1.有一个容量为50的样本数据的分组的频数如下:
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少?
解:组距为3
分组 频数 频率 频率/ 组距
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
0.06
0.16
0.18
0.22
0.20
0.10
0.08
0.020
0.053
0.060
0.073
0.067
0.033
0.027
频率分布直方图如下:
0.010
0.020
0.030
0.040
0.050
12.5
15.5
0.060
0.070
2. 某地区为了了解知识分子的年龄结构,
随机抽样50名,其年龄分别如下:
42,38,29,36,41,43,54,43,34,44,
40,59,39,42,44,50,37,44,45,29,
48,45,53,48,37,28,46,50,37,44,
42,39,51,52,62,47,59,46,45,67,
53,49,65,47,54,63,57,43,46,58.
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计年龄在32~52岁的知识分子所占的比例约是多少.
(1)极差为67-28=39,取组距为5,分为8组.
分 组 频数 频率
[27,32) 3 0.06
[32,37) 3 0.06
[37,42) 9 0.18
[42,47) 16 0.32
[47,52) 7 0.14
[52,57) 5 0.10
[57,62) 4 0.08
[62,67) 3 0.06
合 计 50 1.00
样本频率分布表:
(2)样本频率分布直方图:
(3)因为0.06+0.18+0.32+0.14=0.7, 故年龄在32~52岁的知识分子约占70%.(共33张PPT)
2.2用样本估计总体
复习回顾
1、什么是简单随机抽样?什么样的总体适宜简单随机抽样?
2、什么是系统抽样?什么样的总体适宜 系统抽样?
3、什么是分层抽样?什么样的总体适宜分层抽样?
样本分析好了就可以对总体做出相应的估计。
这种估计一般分成两种,一种是用样本的频率分布估计总体的分布,
另一种是用样本数字特征估计总体的数字特征
今天我们来学习第一种
2.2.1用样本的频率分布
估计总体分布
我国是世界上严重缺水的国家之一,
城市缺水问题较为突出。
2000年全国主要城市中缺水情况排在前10位的城市
引例
探究:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a的部分按平价收费,超过a的部分按议价收费。
①如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?
②为了较合理地确定这个标准,你认为需要做哪些工作?
根据这些数据你能得出用水量其他信息吗?
我们很难从随意记录下来的数据中直接看出规律,为此,我们需要对统计数据进行整理和分析。
分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式.
下面我们来学习频率分布表和频率分布直方图
思考?图形或表格有什么优点?
作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式。
1.求极差(即一组数据中最大值与最小值的差) 知道这组数据的变动范围4.3-0.2=4.1
2.决定组距与组数(将数据分组)
3.将数据分组(8.2取整,分为9组)
画频率分布直方图的步骤
4.列频率分布表.(学生填写频率/组距一栏)
5.画频率分布直方图
1.求极差:
步骤:
2.决定组距与组数:
组数=
4.3 - 0.2 = 4.1
3.将数据分组
[0,0.5 ),[0.5,1 ),…,[4,4.5]
画频率分布直方图
以组距为0.5将数据分组时,可以分成以下9组:
4.列频率分布表
100位居民月均用水量的频率分布表
小长方形的面积=?
5.画频率分布直方图
其相应组距上的频率等于该组距上长方形的面积.
一般地,作频率分布直方图的方法为:
把横轴分成若干段,每一段对应一个组的组距,以此线段为底作矩形,高等于该组的频率/组距, 这样得到一系列矩形,每一个矩形的面积恰好是该组上的频率,这些矩形构成了频率分布直方图.
小长方形的面积总和=?
由频率分布直方图得
提出问题
各小长方形的面积的总和等于1.
月均用水量最多的在那个区间?
请大家阅读第68页,直方图有那些优点和缺点?
频率分布直方图的特征:
(1)优点:直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式。
(2)缺点:直方图丢失了一些信息。例如,原始数据不能在图中表示出来。
探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以1和0.1为组距重新作图,然后谈谈你对图的印象.
已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是( )
A. 5.5~7.5 B. 7.5~9.5 C. 9.5~11.5 D. 11.5~13.5
D
练习1:
分组 频数 频率
5.5~7.5 2 0.1
7.5~9.5 6 0.3
9.5~11.5 8 0.4
11.5~13.5 4 0.2
合计 20 1.0
练习2:有一个容量为50的样本数据的分组的频数如下:
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少?
解:组距为3
分组 频数 频率 频率/ 组距
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
0.06
0.16
0.18
0.22
0.20
0.10
0.08
0.020
0.053
0.060
0.073
0.067
0.033
0.027
频率分布直方图如下:
0.010
0.020
0.030
0.040
0.050
12.5
15.5
0.060
0.070
频率分布直方图
提出问题
思考?如果当地政府希望使 85% 以上的居民每月的用水量不超出标准,根据频率分表和频率分布直方图,你能对制定月用水量标准提出建议吗?
阅读P68页思考下面文字
*
频率分布直方图如下:
连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图
*
当样本容量无限增大,分组的组距无限缩小,相应的频率分布折线图就会无限接近一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
*
用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。
总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.
总体密度曲线
可以用样本的频率分布折线图得到准确的总体密度曲线吗?
阅读P69页下面一段话
*
茎叶图
情境:某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:
(1)甲运动员得分:
13 ,51, 23, 8, 26, 38, 16, 33, 14, 28, 39
(2)乙运动员得分:
49, 24, 12, 31, 50, 31, 44, 36, 15, 37, 25, 36, 39
问题:如何有条理地列出这些数据,分析该运动员的整体水平及发挥的稳定程度?
*
茎叶图
甲
乙
0
1
2
3
4
5
2 5
5 4
1 6 1 6 7 9
4 9
0
8
4 6 3
6 8
3 8 9
1
(1)甲运动员得分:
13 ,51, 23, 8, 26,
38, 16, 33, 14, 28, 39
(2)乙运动员得分:
49, 24, 12, 31, 50, 31,44,
36, 15, 37, 25, 36, 39
*
一般地:当数据是一位和两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出。(也可以没有大小顺序)
1.茎叶图的概念:
*
2.茎叶图的特征:
1)用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示; (2)茎叶图只便于表示两位(或一位)有效数字的数据,对位数多的数据不太容易操作;而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰; (3)茎叶图对重复出现的数据要重复记录,不能遗漏.
*
制作茎叶图的方法是:
1:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.(也可以没有大小顺序)
茎叶图的制作方法
注意:在制作茎叶图时,重复出现的数据要重复记录,不能遗漏,特别是“叶”部分;同一数据出现几次,就要在图中体现几次.
2:数据是由整数部分和小数部分组成时,可以把整数部分作为茎,小数部分作为叶。
*
用茎叶图表示数据有两个突出的优点:
一.是所有的信息都可以从这个茎叶图
上得到;
二.是茎叶图便于记录和表示.
用茎叶图表示数据有一个突出的缺点:
茎叶图的缺点是其分析只是粗略的,对差异不大的两组数据不易分析;表示三位数以上的数据时不够方便.
由茎叶图如何分析甲、乙的水平呢?
参考P70页茎叶图下面一段话
1 频率分布表
频率分布直方图
2 总体密度曲线
3 茎叶图
练习p71 3(共37张PPT)
*
*
复习回顾
1、什么是简单随机抽样?什么样的总体适宜简单随机抽样?
2、什么是系统抽样?什么样的总体适宜 系统抽样?
3、什么是分层抽样?什么样的总体适宜分层抽样?
*
通过图、表、计算来分析样本数据,找出数据中的规律,就可以对总体作出相应的估计.
这种估计一般分成两种: ①是用样本的频率分布估计总体的分布. ②是用样本的数字特征(如平均数、标准差 等)估计总体的数字特征.
用样本去估计总体,是研究统计问题的一个基本思想.
初中时我们学习过样本的频率分布,包括频数、频率的概念,频率分布表和频率分布直方图的制作.
*
频率分布
样本中所有数据(或数据组)的频数和样本容量的比,叫做该数据的频率.
频率分布的表示形式有:
①样本频率分布表
②样本频率分布条形图
③样本频率分布直方图
所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.
*
我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水
一、探究
定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.那么①标准a定为多少比较合理呢? ②为了较合理地确定这个标准,你认为需要做哪些工作?
2000年全国主要城市中缺水情况排在前10位的城市
*
100位居民2007年的月均用水量(单位:t)
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
*
1.求极差(即一组数据中最大值与最小值的差) 知道这组数据的变动范围4.3-0.2=4.1
2.决定组距与组数(将数据分组)
3.将数据分组(分为9组)
二、画频率分布直方图的步骤
4.列出频率分布表.(学生填写频率/组距一栏)
5.画出频率分布直方图
*
1.求极差:
步骤:
2.决定组距与组数:
组数=
4.3 - 0.2 = 4.1
3.将数据分组
[0,0.5 ),[0.5,1 ),…,[4,4.5]
*
第四步: 列频率分布表.
组距=0.5
0.04
0.08
0.08
0.16
0.3
0.15
0.44
0.22
0.25
0.5
1
2.00
0.02
0.04
0.04
0.08
0.1
0.3
0.15
0.05
分组 频数 频率 频率/组距
[0-0.5) 4
[0.5-1) 8
[1-1.5) 15
[1.5-2) 22
[2-2.5) 25
[2.5-3) 15
[3-3.5) 5
[3.5-4) 4
[4-4.5) 2
合计 100
*
小长方形的面积=?
5.画频率分布直方图
其相应组上的频率等于该组上长方形的面积.
*
把横轴分成若干段,每一段对应一个组的组距,以此线段为底作矩形,高等于该组的频率/组距, 这样得到一系列矩形,每一个矩形的面积恰好是该组上的频率,这些矩形构成了频率分布直方图.
作频率分布直方图的方法为:
归纳:
*
1、小长方形的面积总和=?
三、频率分布直方图再认识
*
2、月均用水量最多的在那个区间?
*
如果当地政府希望使 85% 以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?
拓展思考:
*
3、请大家阅读第68页,直方图有那些优点和缺点?
*
(1)从频率分布直方图可以清楚的看出数据分布的总体趋势.
(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.
频率分布直方图的特征:
*
同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以1和0.1为组距重新作图,然后谈谈你对图的印象.
五、探究:
*
1、已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是( )
5.5~7.5 B. 7.5~9.5
C. 9.5~11.5 D. 11.5~13.5
D
六、课堂训练
分组 频数 频率
5.5~7.5 2 0.1
7.5~9.5 6 0.3
9.5~11.5 8 0.4
11.5~13.5 4 0.2
合计 20 1.0
*
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少?
2:有一个容量为50的样本数据的分组的频数如下:
*
解:(1)组距为3,列频率分布表
分组 频数 频率 频率/ 组距
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
0.06
0.16
0.18
0.22
0.20
0.10
0.08
0.020
0.053
0.060
0.073
0.067
0.033
0.027
*
(2)画频率分布直方图:
0.010
0.020
0.030
0.040
0.050
12.5
15.5
0.060
0.070
根据频率分布直方图估计,
数据落在[15.5, 24.5)的百分
比是多少?
*
频率分布直方图如下:
1、连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图
二、频率分布折线图
*
2、利用样本频率分布对总体分布进行相应估计
(3)当样本容量无限增大,组数增加,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线——总体密度曲线。
(2)样本容量越大,这种估计越精确。
(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?
*
月均用水量/t
a
b
(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。
3、总体密度曲线
*
用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。
反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.
总体密度曲线
*
某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:
(1)甲运动员得分:
13,51,23,8,26,38,16,33,14,28,39
(1)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39
三、茎叶图
*
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图
*
例: 甲乙两人比赛得分记录如下:
甲:13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39
乙:49, 24, 12, 31, 50, 31, 44, 36, 15, 37, 25, 36, 39
用茎叶图表示两人成绩,说明哪一个成绩好.
甲 乙
0
1
2
3
4
5
2, 5
5, 4
1, 6, 1, 6, 7, 9
4, 9
0
8
4, 6, 3
3, 6, 8
3, 8, 9
1
叶 茎 叶
(二). 茎叶图 (一种被用来表示数据的图)
中间的 数字表示得分的十位数字。旁边的数字分别表示两个人得分的个位数。
*
画茎叶图的步骤:
第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;
第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;
第三步,将各个数据的叶按大小次序写在茎右(左)侧.
*
茎
叶
10111213
7 8
0 2 2 2 3 6 6 6 7 7 8
0 0 1 2 2 3 4 4 6 6 7 8 8
0 2 3 4
练习:P71,3
*
你认为茎叶图有哪些优点?
(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.
对任意一组样本数据,是否都适合用茎叶图表示?为什么?
不适合样本容量很大或茎、叶不分明的样本数据.
思考:
*
最小值= ,最大值= ,可取区间[ ]
并分成 个小区间,每个小区间的长度为
113
87,113
6
5
87
*
4.一个容量为32的样本,已知某组样本的频率为0.125,那么该组样本的频数为( )
A.2 B.4 C.6 D.8
5.在用样本频率估计总体分布的过程中,下列说法正确的是( )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
B
C
*
D
6.一个容量为20的样本数据,分组后组距与频数如下:(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2。则样本在区间(10,50]上的频率为( )
A.5% B.25% C.50% D.70%
*
1.求极差(即一组数据中最大值与最小值的差)
2.决定组距与组数
3.将数据分组
画频率分布直方图的步骤
4.列出频率分布表.
5.画出频率分布直方图
四、课堂小结
*
1.用样本的频率分布估计总体分布,当总体中的个体数取值很少时,可用茎叶图估计总体分布;当总体中的个体数取值较多时,可将样本数据适当分组,用频率分布表或频率分布直方图估计总体分布.
2.总体密度曲线可看成是函数的图象,对一
些特殊的密度曲线,其函数解析式是可求的.
3.茎叶图中数据的茎和叶的划分,可根据样本数据的特点灵活决定.
*
4、比较:
图形 优点 缺点
频率分布
直方图 1)易表示大量数据
2)直观地表明分布地 情况 丢失一些信息
茎叶图
1)无信息损失2)随时记录方便记录和表示 只能处理样本容量较小数据