(共50张PPT)
2.2.1用样本的频率分布
估计总体分布
频数:
在总体(或样本)中,某个个体出现的次数叫做这个个体的频数。
频率:
某个个体的频数与总体(或样本)中所含个体的数量的比叫做这个个体的频率。
性质:
在总体(或样本)中,各个个体的频率之和等于1。
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
通过抽样我们得到了100户居民的某年的月平均用水量
为了确定一个比较合理的标准a,必须先了解全市居民的日常用水量的分布情况。
通过抽样调查了解居民的用水情况。
列频数分布表和画频数分布直方图
1.求极差:
步骤:
4.3 - 0.2 = 4.1
2.决定组距与组数:
组数=
4.1
0.5
= 8.2
组距
极差
=
3.将数据分组
[0,0.5 ),[0.5,1 ),…,[4,4.5]
列频数分布表和画频数分布直方图
步骤:
分组 频数累计(划记) 频数
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频数累计(划记)
正
正正正
正正正正丅
正正正正正
正正
正
丅
频数
4
8
15
22
25
14
6
4
2
100
4.画频数分布表
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频数(个)
月平均用水量(t)
27
24
21
18
16
13
9
6
3
0
5.画频数分布直方图
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
频率
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
频率/组距
0.08
0.16
0.3
0.44
0.5
0.28
0.12
0.08
0.04
4.列频率分布表
频率/组距
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
5.画频率分布直方图
思考:各小长方形的面积之和等于多少?
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
频率/组距
频率/组距
0.08
0.16
0.3
0.44
0.50
0.28
0.12
0.08
0.04
问题5 总结画频率分布直方图的操作步骤
1.求极差,即数据中最大值与最小值的差
2.决定组距与组数 组数=极差/组距
3.将数据分组, 通常对组内数值所在区间,取左闭右开区间 , 最后一组取闭区间
4.登记频数,计算频率和频率/组距 , 列出频率分布表
5.画出频率分布直方图(纵轴表示频率/组距)
同样一组数据,如果组距不同,得到的图的形状也会不同。
影响组数与组距的因素
因素1:样本容量的大小;
因素2:原始数据的精细程度;
当样本容量不超过100时,常分成5~12组。这是由统计经验获得的。
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
思考:如果当地政府希望使85%以上的居民每月的
用水量不超出标准,根据频率分布表和频率分布直
方图,你能对制定月用水量标准提出建议吗?
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
分析:月用水量在3 t以上的居民所占的比例为6%
+4%+2%=12%,即大约有12%的居民月用水量在3t以
上,88%的居民月用水量在3t以下. 因此,居民月
用水量标准定为3t是一个可以考虑的标准.
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
想一想:你认为3t这个标准一定能够保证85%以
上的居民用水不超标吗?如果不一定,那么哪些
环节可能会导致结论的差别?
所得到的结论的统计意义
3t这个标准一定能保证85%以上的居民用水不超标吗?
不一定!
原因1、样本只是总体的代表,并且具有随机性,不同的样本所得到的频率分布表和直方图是不同的。
原因2、明年的用水情况与今年不可能完全一样,但应该大致一样。
所得到的结论的统计意义
一般的,统计得到的结果,是对于总体较为合理的估计或预测,但其误差应该控制在合理的范围之内。
也正因为这样,统计结果的好坏,往往需要进一步的评价,或通过理论方法的检验,或通过实际应用的检验。
频率分布表和频率分布直方图在带给我们许多新的信息的同时,也丢失了一些信息,如原始数据不能在分布表和直方图中很好地体现出来。
频率分布直方图的优缺点是什么?
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
思考:上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?
假如增至10000呢?
分析:样本容量越大,这种估计越精确。但随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线.
频率
组距
产品
尺寸
(mm)
a
b
当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近一条光滑曲线——总体密度曲线.
区间 在总体内取值的概率
总体密度曲线
总体密度曲线
用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。
总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.
总体密度曲线
思考:对于一个总体,如果存在总体密度曲线,这条曲线是否惟一?
频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.
由于样本是随机的,不同的样本得到的不同频率分布折线图;即使对与同一样本,不同的分组情况得到的也不同频率分布折线图。频率分布折线图是随着样本容量和分组情况变化而变化的。
1、某赛季甲、乙两名篮球运动员每场比赛得分的原始记录为:
甲运动员的得分:13 51 23 8 26 38 16 33 14 28 39
乙运动员的得分:49 24 12 31 50 31 44 36 15 37 25 36 39
我们可以画出茎叶图,也就是中间的数表示十位数,旁边的数表示两个人得分的个位数,就象一棵树的茎与叶子一样,能更直观地看出这两个人的得分情况。
例题:
茎叶图
甲
乙
0
1
2
3
4
5
2 5
5 4
1 6 1 6 7 9
4 9
0
8
4 6 3
6 8
3 8 9
1
1、某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:
(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39
(2)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39
茎叶图
叶就是从茎的旁边生长出来的数,表示得分的个位数。
茎是指中间的一列数,表示得分的十位数
画茎叶图的步骤:
1.将每个数据分为茎(高位)和叶(低位)两部分,在此例中,茎为十位上的数字,叶为个位上的数字。
2.将最小茎和最大茎之间的数按大小次序排成一列。
3.将各个数据的叶按读数次序(或按大小次序)写在其茎的左(右)侧。
茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。
从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。
在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。
报纸 随堂练习 1,2
报纸 随堂练习 3
报纸 随堂练习 4
报纸 随堂练习 5
分组 频数 频率 累计频率
[12,15) 6
[15,18) 0.08
[18,21) 0.30
[21,24) 21
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 0.08
[18,21) 0.30
[21,24) 21
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 0.30
[21,24) 21
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 16 0.16 0.30
[21,24) 21
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 16 0.16 0.30
[21,24) 21 0.21 0.51
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 16 0.16 0.30
[21,24) 21 0.21 0.51
[24,27) 18 0.18 0.69
[27,30) 16
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 16 0.16 0.30
[21,24) 21 0.21 0.51
[24,27) 18 0.18 0.69
[27,30) 16 0.16 0.85
[30,33) 0.10
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 16 0.16 0.30
[21,24) 21 0.21 0.51
[24,27) 18 0.18 0.69
[27,30) 16 0.16 0.85
[30,33) 10 0.10 0.95
[33,36) 1.00
合计 100 1.00
分组 频数 频率 累计频率
[12,15) 6 0.06 0.06
[15,18) 8 0.08 0.14
[18,21) 16 0.16 0.30
[21,24) 21 0.21 0.51
[24,27) 18 0.18 0.69
[27,30) 16 0.16 0.85
[30,33) 10 0.10 0.95
[33,36) 5 0.05 1.00
合计 100 1.00
创新 课后智能测评 3,2
创新 课后智能测评 1
创新 课后智能测评 5
创新 课后智能测评 6(5班)
创新 课后智能测评 6(5班)