2.2用样本估计总体
复习回顾
1、什么是简单随机抽样?什么样的总体适宜简单随机抽样?
2、什么是系统抽样?什么样的总体适宜 系统抽样?
3、什么是分层抽样?什么样的总体适宜分层抽样?
抽样是统计的第一步,接下来就要对样本进行分析
通过图、表、计算来分析样本数据,找出数据中的规律,就可以对总体作出相应的估计.
这种估计一般分成两种: ①是用样本的频率分布估计总体的分布. ②是用样本的数字特征(如平均数、标准差 等)估计总体的数字特征.
用样本去估计总体,是研究统计问题的一个基本思想.
初中时我们学习过样本的频率分布,包括频数、频率的概念,频率分布表和频率分布直方图的制作.
2.2.1用样本的频率分布
估计总体分布
探究:我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理的确定出这个标准,需要做那些工作?
2000年全国主要城市中缺水情况排在前10位的城市
某市100名居民的月均用水量(单位:t)
3.1
2.5
2.0
2.0
1.5
1.0
1.6
1.8
1.9
1.6
3.4
2.6
2.2
2.2
1.5
1.2
0.2
0.4
0.3
0.4
3.2
2.7
2.3
2.1
1.6
1.2
3.7
1.5
0.5
3.8
3.3
2.8
2.3
2.2
1.7
1.3
3.6
1.7
0.6
4.1
3.2
2.9
2.4
2.3
1.8
1.4
3.5
1.9
0.8
4.3
3.0
2.9
2.4
2.4
1.9
1.3
1.4
1.8
0.7
2.0
2.5
2.8
2.3
2.3
1.8
1.3
1.3
1.6
0.9
2.3
2.6
2.7
2.4
2.1
1.7
1.4
1.2
1.5
0.5
2.4
2.5
2.6
2.3
2.1
1.6
1.0
1.0
1.7
0.8
2.4
2.8
2.5
2.2
2.0
1.5
1.0
1.2
1.8
0.6
2.2
将一批数据按要求分为若干组,各组内的数据的个数,叫做该组数据的频数,各个小组数据在样本容量中所占的比例的大小,叫做该组数据的频率。
为了解数据分布的规律,可利用频率分布表和频率分布图来分析,
具体做法如下:
1.求极差(即一组数据中最大值和最小值的差)
例如, 4.3-0.2=4.1,
这说明这些数据的变化范围大小是4.1t。
2.决定组距和组数
例如,若取组距为0.5,则
故可将数据分成9组。
(设k=极差÷组距,若k为整数,则组数=k,
若k不是整数,组数=k+1)
分组
频数
频率
[0,0.5)
4
0.04
[0.5,1)
8
0.08
[1,1.5)
15
0.15
[1.5,2)
22
0.22
[2,2.5)
25
0.25
[2.5,3)
14
0.14
[3,3.5)
6
0.06
[3.5,4)
4
0.04
[4,4.5]
2
0.02
合计
100
1.00
4.列频率分布表:
3.将数据分组
以组距0.5将数据分组如下:
[0,0.5), [0.5,1),……,[4,4.5 ].
(频数=样本数据落在各小组内的个数,
频率=频数÷样本容量)
5.画频率分布直方图
用横轴表示月均用水量,纵轴表示频率与组距的比值,以
每个组距为底,以频率除以组距的商为高,分别画出矩形,这
样得到的直方图就是频率分布直方图。
思考:小矩形的面积与哪些量有关?如何表示?
频率分布直方图
0
0.1
0.2
0.3
0.4
0.5
0.6
0-0.5
0.5-1
1-1.5
1.5-2
2-2.5
2.5-3
3-3.5
3.5-4
4-4.5
用水量范围
频率/组距
频率分布直方图
0
0.1
0.2
0.3
0.4
0.5
0.6
0-0.5
0.5-1
1-1.5
1.5-2
2-2.5
2.5-3
3-3.5
3.5-4
4-4.5
用水量范围
频率/组距
横轴表示:月均用水量,纵轴表示:频率/组距
小长方形的面积=组距*(频率/组距)=频率
各小长方形的面积总和等于1
频率分布折线图
连接频率分布直方图中各个小长方形上端的中点,频率分布折线图
随着样本容量的增加,作图时所分的组数也会增加,相应的频率折线图会越来越接近于一条光滑的曲线,统计学中称这条光滑的曲线为总体密度曲线.
总体密度曲线
统计中称这条光滑曲线为总体密度曲线,它反映了总体在各个范围内取值的百分比.
阴影部分的面积表示总体在区间(a,b)内取值的百分比.
练习: P71 第1题
课本 P71 练习1
1.求极差(即一组数据中最大值与最小值的差)
364.41-362.51=1.90说明样本数据的变化范围大小是1.90cm)
2.决定组距与组数
取组距为0.4cm,那么组数=极差÷组距=1.90÷0.4=4.75因此可以将数据分成5组,即组距为0.4,组数为5
3.将数据分组
[362.51,362.91), [362.91,363.31), [363.31,363.71), [363.71,364.11), [364.11,364.51]
分组
频数
频率
[362.51,362.91)
[362.91,363.31)
[363.31,363.71)
[363.71,364.11)
[364.11,364.51)
8
17
33
16
6
0.10
0.2125
0.4125
0.20
0.075
合计
80
1.00
5.画频率分布直方图
4.列频率分布表
小结:
频率分布直方图
应用
步骤
1.求极差
2.决定组距与组数
3.将数据分组
4.列频率分布表
5.画频率分布直方图
茎叶图
甲乙两名篮球运动员每场比赛得分的原始记录如下:
甲得分:13,51,23,8,26,38,16,33,14,28,39
乙得分:49,24,12,31,50,31,44,36,15,37,25,36,39
0
1
2
3
4
5
甲
乙
3
4
6
8
3
6
9
3
8
8
1
2
5
5
4
1
6
1
6
7
9
4
9
0
样本数据的茎叶图的步骤:
第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;
第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在中间;
第三步,将各个数据的叶按大小次序写在茎右(左)侧.
茎叶图
甲乙两名篮球运动员每场比赛得分的原始记录如下:
甲得分:13,51,23,8,26,38,16,33,14,28,39
乙得分:49,24,12,31,50,31,44,36,15,37,25,36,39
0
1
2
3
4
5
甲
乙
3
4
6
8
3
6
9
3
8
8
1
2
5
5
4
1
6
1
6
7
9
4
9
0
怎样求甲、乙的中位数?
例题:某市对上、下班交通情况做抽样调查,上、下班时间各抽
取了12辆机动车行使时速如下:(单位:km/h)
上班时间:30 33 18 27 32 40 26 28 21 28 35 20
下班时间:27 19 32 29 36 29 30 22 25 16 17 30
用茎叶图表示上面的样本数据,并求出上下班样本数据的中位数。
解:依题意,茎叶图如下
上班
下班
8 1 6 7 9
8 8 7 3 1 0 2 2 5 7 9 9
5 3 2 0 3 0 0 2 6
0 4
思考:对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,4.3,2.7,3.1,3.5,用茎叶图如何表示?
01234
8
0 5
0 5 7
1 1 5
3
茎
叶
练习: P71 第3题
作业布置:
P81 第1题第(1)
第2题(写出五步骤)
已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是( )
A. 5.5~7.5 B. 7.5~9.5 C. 9.5~11.5 D. 11.5~13.5
分组
频数
频率
5.5~7.5
2
0.1
7.5~9.5
6
0.3
9.5~11.5
8
0.4
11.5~13.5
4
0.2
合计
20
1.0
D
巩固练习1:
2. 有一个容量为的样本数据,分组后各组的频数如下: (12.5,15.5],3; (15.5,18.5],8;
(18.5,21.5],9; (21.5,24.5], 11; (24.5,27.5],10;
(27.5,30.5],4. 由此估计,不大于27.5的数据约为总体的 ( )
A.91% B.92%
C.95% D.30%
A
3. 一个容量为20的样本数据,数据的分组及各组的频数如下:
(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2.
则样本在区间(-∞,50)上的频率为 ( )
A.0.5 B.0.7 C.0.25 D.0.05
B