(共36张PPT)
2022
第九章统计
9.2.1总体取值规律的估计
目录
CONTENTS
01
知识回顾
03
其他统计图表
02
总体取值规律的估计
04
课堂总结
01
知识回顾
1. 获取数据的途径有哪些?
01
普查、抽查、问卷
调查
02
新药是否有效
实验
03
降水量、地震预测
观察
04
中国统计摘要
查询
02
总体取值规律的估计
思考
实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律,所以需要根据问题的背景特点,选择合适统计图表对数据进行整理和直观描述.
进而获得样本的规律,并利用样本的规律估计总体的规律,解决相应的实际问题.
那么我们一起来看一个问题:
问题: 我国是世界上严重缺水的国家之一,城市缺水问题较为突出. 某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费,如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作
每户居民月均用水量标准如果定得太低,会影响很多居民的日常生活;
如果标准太高,则不利于节水、为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民用户所占的比例情况.
在时间、经费允许的情况下,我们可以通过全面调查获得过去一年全市所有居民用户的月均用水量数据,进而得到月均用水量在不同范围内的居民用户所占的比例.
但由于全市居民很多,通常采用抽样调查的方式,通过分析样本观测数据,来估计全市居民用户月均用水量的分布情况.
思考:在刚刚问题中,总体和个体分别是什么?调查的变量又是什么?
总体是该市的全体居民用户,个体是每户居民用户,
调查的变量是居民用户的月均用水量
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位: t):
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.61 3.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.02 4.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
如果将这组数据按从小到大排序, 发现这组数据的最小值是1.3t, 最大值是28.0t, 其他在1.3t和28.0t之间. 为了更深入地挖掘数据蕴含的信息,需要对数据作进一步的整理与分析.
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.
在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民占全市居民用户的比例,所以选择频率分布表和频率分布直方图在整理和表示数据.
思考:什么是频数?什么是频率?如何画频率分布表和频率分布直方图?
频数:在总体(或样本)中,某个个体出现的次数叫做这个个体的频数.
频率:某个个体的频数与总体(或样本)中所含个体的数量的比叫做这个个体的频率.
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
①求极差;
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
最大值与最小值的差.
28.0-1.3=26.7,样本观测数据的变化范围是26.7t.
组数太多或太少都会影响我们了解数据的分布情况.
数据分组的组数与数据的个数有关, 一般数据的个数越多, 所分组数也越多.
当样本容量不超过100时,常分成5~12组.
为了方便,一般取等长组距,并且组距应力求“取整”.
分组时可以先确定组距,也可以先确定组数.
如果取组距为3,则极差/组距=26.7/3=8.9,即可以将数据分为9组,
这也说明这个组距是比较合适的.
1. 求极差:
2. 决定组距与组数:
由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据
中的最小值,最后一组的右端点略大于数据中的最大值.
例如:可取区间[1.2, 28.2],按如下方式把样本观测数据以组距为3分为9组:
[1.2,4.2), [4.2,7.2), ···, [25.2,28.2].
3. 将数据分组:
4. 列频率分布表: 计算各小组的频率
例如:第一小组的频率是:第一组频数/样本容量=23/100=0.23.
由此方法作出频率分布表.
频率分布表
分组 频数累计 频数 频率
[1.2, 4.2)
[4.2, 7.2)
[7.2, 10.2)
[10.2, 13.2)
[13.2, 16.2)
[16.2, 19.2)
[19.2, 22.2)
[22.2, 25.2)
[25.2, 28.2]
合计
正
23
32
13
9
9
5
3
4
2
100
0.23
0.32
0.13
0.09
0.09
0.05
0.03
0.04
0.02
1
正正正正
正
正
正正
正正正正正正
根据频率分布表可以得到如下的频率分布直方图.
在频率分布直方图中,横轴表示月均用水量,
纵轴表示频率/组距 (3),
这样得到的直方图就是频率分布直方图。
5. 画频率分布直方图:
频率分布直方图
月均用水量/t
频率/组距
0.02
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0
0.04
0.06
0.08
0.1
0.12
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
所有小长方形的面积之和=1
注:1.频率分布直方图以面积的形式反映了数据落在各个小组的频率的大小.
2.频率分布直方图的纵轴是频率/组距,而频数分布直方图的纵轴是频数.
思考: 观察上述频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能发现居民用户月均用水量的那些分布规律?你能给出适当的语言描述吗?
从频率分布表中可以看出,样本观测数据落在各个小组的比例大小.
区间[4.2, 7.2)内的用户最多,
区间[1.2, 4.2)内的次之,
超过16.2的各区间内数据所占比例较小.
思考: 观察上述频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能发现居民用户月均用水量的那些分布规律?你能给出适当的语言描述吗?
从频率分布直方图可以看出,样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”.
这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在[1.2, 7.2)最为集中,少数用户居民的月均用水量偏多,
而且随着月均用水量的增加,居民用户数呈现降低趋势.
思考: 分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直方图. 观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?
容易看出数据整体的分布特点,
损失了较多的原始数据信息;
保留了较多的原始数据信息,
不容易从中看出总体数据的分布特点。
9次和12次.
(2) 区间[20,30)内的通话次数 少于区间[15,20)内的通话次数.
典例:(3)胡晓统计了他爸爸9月的手机通话明细清单,发现他爸爸该月共通话60次. 胡晓按每次通话时间长短进行分组(每组为左闭右开的区间),画出了频率分布直方图.
(1) 通话时长在区间[15,20),[20,30) 内的次数分别为多少
(2) 区间[20, 30)上的小长方形高度低于[15, 20)上的小长方形的高度,说明什么
03
其他统计图表
思考:我们还可以用哪些统计图对上述数据作出直观的描述?
①扇形图主要用于直观描述各类数据占总数的比例;
②条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
③折线图主要用于描述数据随时间的变化趋势.
A
课堂总结
3. 其他统计图表
2. 频率分布表和频率分布直方图
1. 总体取值规律的估计
THANKS
感谢观看