(共23张PPT)
第九章 统计
9.2 用样本估计总体
9.2.1 总体取值规律的估计
(第一课时)
一
二
三
学习目标
了解频率分布直方图及相关概念
会画频率分布直方图。
会用样本的频率分布估计总体分布
学习目标
新课导入
“二战”期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里.然而统计学家沃德力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机很难有机会返航,而这部分数据被忽略了.事实证明,沃德是正确的.
沃德在分析问题的时候,能够做到不被表面现象所迷惑,在获取数据之后,通过数据分析,找出数据中蕴含的信息,进而得到正确的统计分析结果.
复习引入
随机抽样的基本抽样方法
简单随机抽样
分层随机抽样
前面研究了两种抽样方法来收集数据,还知道了一些常见的获取数据的途径。
数据收集后,我们需要从中寻找数据中蕴含的信息,以使我们能通过样本的规律估计总体的规律,进而解决相应的实际问题。
但由于实际问题中数据多而杂乱,往往无法从原始数据中发现规律,所以要根据问题的背景特点,选择合适的统计图表对数据进行整理和直观描述。在此基础上,通过数据分析找到数据中蕴含的信息,就可以利用这些信息来解决实际问题了。
下面我们讨论的是对随机抽样获取的数据的处理方法。
新知探究
问题1 我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.
如果希望确定一个比较合理的标准,以使大部分居民用水的水费支出不受影响,你认为需要做哪些工作?
确定一个较为合理的用水标准a
确定调查方式:普查还是抽查?
①全面调查(普查):时间,经费允许
②抽样调查:
总体:
个体:
变量:
该市的全体居民用户
每户居民用户
居民用户的均用水量
标准定太低——不利于节水,标准定太高——不利于民生
新知探究
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t):
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.4 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
追问1 从这组数据我们能发现什么信息呢?
如果将这组数据按从小到大排序, 发现这组数据的最小值是1.3t, 最大值是28.0t, 其他在1.3t和28.0t之间. 为了更深入地挖掘数据蕴含的信息,需要对数据作进一步的整理与分析.
新知探究
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.
在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.
在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民占全市居民用户的比例,所以选择频率分布表和频率分布直方图在整理和表示数据.
追问2 什么是频数?什么是频率?如何画频率分布表和频率分布直方图?
频数:在总体(或样本)中,某个个体出现的次数叫做这个个体的频数.
频率:某个个体的频数与总体(或样本)中所含个体的数量的比叫做这个个体的频率.
与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
①求极差; ②决定组距与组数; ③将数据分组;
④列频率分布表; ⑤画频率分布直方图.
接下来我们具体分析如何制作频率分布表、画频率分布直方图.
新知探究:频率分布表和频率分布直方图
1. 求极差:
极差为一组数据中最大值与最小值的差.
28.0 -1.3=26.7
这说明样本观测的数据变化范围是26.7t.
2. 决定组距与组数:
组距:每个小组的两个端点之间的距离。
①数据的个数越多,所分的组数也越多.当样本量不超过100时,常分成5—12组.
②一般取等长组距,且组距应力求“取整”.(也可以不等距)
③分组时可以先确定组距,也可以先确定组数.
即可以将数据分成9组,这也说明这个组距是比较合适的 .
如果取组距为3,则
新知探究
3. 将数据分组:
由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值.
例如,可以取区间为[1.2, 28.2],按如下方式把样本观测数据以组距为3分为9组:
[1.2,4.2),[4.2,7.2), ···, [25.2,28.2].
通常区间取左闭右开,最后一组取闭区间
计算各小组的频率,
分组 频数累计 频数 频率
[1.2, 4.2)
[4.2, 7.2)
[7.2, 10.2)
[10.2, 13.2)
[13.2, 16.2)
[16.2, 19.2)
[19.2, 22.2)
[22.2, 25.2)
[25.2, 28.2]
合计
正
23
32
13
9
9
5
3
4
2
100
0.23
0.32
0.13
0.09
0.09
0.05
0.03
0.04
0.02
1
正正正正
正
正
正正
正正正正正正
新知探究
4. 列频率分布表
例如第一小组的频率是
由此方法作出频率分布表
追问:从表中你能找到恒定不变的数据吗?
频率之和为1
新知探究
5. 画频率分布直方图
根据频率分布表可以得到如右的频率分布直方图.
频率/组距实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度。
小长方形的面积=组距× =频率
各小长方形的面积和为1
新知探究
追问4 频率分布直方图与频数分布直方图有什么区别?
频率分布直方图的纵轴是频率/组距,而频数分布直方图的纵轴是频数.
频率分布直方图把样本数据落在各小组的比例大小直观,更有利于我们从整体上把握数据分布的特点。
归纳小结
画频率分布直方图的步骤:
(1)求极差(即一组数据中最大值与最小值的差)
(2)决定组距与组数(将数据分组)
(3)将数据分组
(4)列出频率分布表.(填写频率/组距一栏)
(5)画出频率分布直方图.
组距:指每个小组的两个端点的距离,
组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组.
新知探究
问题2 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?
(2)从频率分布直方图能直观地表明数据分布的形状和总体趋势.可以看出,数据的分布不对称,图形左边高、右边低,右边有一个较长的“尾巴”。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在[1.2,7.2)最为集中,少数用户居民的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.
(1)从频率分布表中可以看出,样本观测数据落在各个小组的比例大小.
例如,月均用水量在区间[4.2,7.2)内的居民用户最多,在区间[1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等.
需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解.
新知探究
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律.
根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域.
这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的.
新知探究:不同的分组情况对直方图呈现数据分布规律的影响
问题3 分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直方图.观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?
从上图可以看出,同一组数据,组数不同,得到的直方图形状也不尽相同.
组数少、组距大:易看出数据整体的分布特点,无法看出每组内的数据分布情况,损失了较多的原始数据信息;
组数多、组距小:保留较多原始数据信息;但小长方形较多,有时图形会变得不规则,不容易从中看出总体分布特点;直方图会依赖样本数据,稳定性差.
新知探究
从上述分析可见,当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息;
当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点。
同时,对于同一组数据,因为组距、组数不同而得到不同形状的直方图,会给人以不同的频率分布印象,这种印象有时会影响人们对总体的判断.
因此,我们要注意积累数据分组、合理使用图表的经验.
问题4 根据上图你能发现组数少与组数大各有什么优缺点?
典例解析
例 为加强对中学生实践创新能力和团队精神的培养,促进教育教学改革,某市教育局将举办全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解学生的成绩情况,从中抽取了50名学生的成绩(得分均为整数,满分为100分)进行统计,得到以下频率分布表:
分组 频数 频率
0.26
15
18 0.36
合计 50
(1)求a,b,c,d,e的值;
[解析] 根据题意,知
成绩在 内的频数 ,
成绩在 内的频数 ,
成绩在 内的频率 ,
成绩在 内的频率 ,
频率之和 .
典例解析
例 为加强对中学生实践创新能力和团队精神的培养,促进教育教学改革,某市教育局将举办全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解学生的成绩情况,从中抽取了50名学生的成绩(得分均为整数,满分为100分)进行统计,得到以下频率分布表:
分组 频数 频率
0.26
15
18 0.36
合计 50
(2) 画出频率分布直方图.
[解析] 作出频率分布直方图,如图所示.
巩固练习
课本P198
1. 从某小区抽取100户居民用户进行月用电量调查,发现他们的用电量都在50~350 kW h之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1) 直方图中x的值为________;
(2) 在被调查的用户中,用电量落在区间[100,250) 内的户数为_____.
70
0.0044
巩固练习
课本P198
2.如图,胡晓统计了他爸爸9月的手机通话明细清单,发现他爸爸该月共通话60次. 胡晓按每次通话时间长短进行分组(每组为左闭右开的区间),画出了频率分布直方图.
(1) 通话时长在区间[15,20),[20,30) 内的次数分别为多少
(2) 区间[20, 30)上的小长方形高度低于[15, 20)上的小长方形的高度,说明什么
解:(1) 通话时长在区间[15,20),[20,30)内的次数分别为9次和12次.
(2) 区间[20,30)内的通话次数 少于区间[15,20内的通话次数.
课堂小结
一、画频率分布直方图的步骤:
1. 求极差:即数据中最大值与最小值的差;
2. 决定组距和组数:组数=极差/组距;
注意:①一般样本容量越大,所分组数越多;
②为方便起见,组距的选择应力求“取整”;
③当样本容量不超过100时,按照数据的多少,通常分成5~12组.
3. 将数据分组:通常对组内数值所在区间,取左闭右开区间 , 最后一组取闭区间;
4. 登记频数, 计算频率和频率/组距 , 列频率分布表:一般分四列:分组、频数累计、频数、频率,最后一行是合计.其中频率合计应是样本容量,频率合计是1.
5. 画频率分布直方图:画图时,应以横轴表示分组,纵轴表示频率/组距.其相应组距上的频率等于该组上的小长方形的面积.
课堂小结
1、 频率分布直方图中:小长方形的高=频率/组距
小长方形的面积=该组的频率.
这样,频率分布直方图以面积的形式反映了数据落在各个小组的频率的大小
4、在频率分布直方图中,数据落在各组的频率之比等于相应矩形的面积
之比,也等于各矩形的高度之比。
2、所有小长方形的面积和等于1,即频率之和为1;
二、频率分布直方图的特点: