(共33张PPT)
前面研究学习了三种抽样收集数据,数据收集后,必须从中寻找包含的信息,以使我们能追求样本的估计总体,但是由于数据多而杂,所以需要通过一定的方法去分析。
可以通过表、图、计算方法来分析。
我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。
如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?你认为,为了了较为合理地确定出这个标准,需要做哪些工作?
为了制定一个较为合理的标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等。因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况。
假设我们通过抽样,得到100为居民月用水量,如下:
100位居民的月均用水量(单位:t)
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
上面的数字能告诉我们什么呢
很容易发现的是一个居民月均用水量的最小值是0.2t,最大值是4.3t。其他值在0.2—4.3t之间。除此之外,很难从随意记录下来的数据中直接看出规律。
为此,我们需要对统计数据进行整理和分析。
知识要点
频率分布直方图
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。
画频率分布直方图的一般步骤为:
(1)计算一组数据中最大值与最小值的差,
即求极差;
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图。
(1)求极差
因为用水最小值为0.2t,最大值为4.3t
所以:4.3-0.2=4.1
说明样本数据的变化范围是4.1t。
将上述抽样的100户居民月用水量,画出频率分布直方图。
解:
(2)决定组距与组数
数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多。当样本容量不超过100时,按照数据的多少,常分成5—12组。
为了方便起见,组距的选择应力求“取整”。在本问题中,如果取组距为0.5(t),那么
组数=极差/组距=4.1/0.5=8.2
因此可将数据分成9组,这个组数是较合适的,于是去组距为0.5.组数为9。
(3)将数据分组
以组距为0.5将数据分组时,可以分成以下9组:
[0,0.5),[0.5,1),…,[4,4.5)。
(4)列频率分布表
按照组距为0.5将数据分组,分成以下9组:
[0,0.5),[0.5,1),…,[4,4.5). 图如下:
100位居民月均用水量的频率分布表
频数等于样本数,频率恒为1
(5)画频率分布直方图
频率分布直方图的特征:
从频率分布直方图可以清楚的看出数据分布的总体趋势。
从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
特征
知识要点
频率分布折线图
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。
总体密度曲线的定义
茎叶图
数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。
茎叶图的特征 :
1. 用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
2. 茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。
特征
1.频率分布直方图的概念
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。
2.频率分布折线图的概念
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图。
1(2019四川)设矩形的长为a,宽为b,其比满足
这种矩形给人以美感,称为黄金矩形,黄金矩形常应用用于工艺品设计中,下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:
甲批次:0.598 0.625 0.628 0.595 0.639
乙批次:0.618 0.613 0.592 0.622 0.620
根据上述两个样品来估计两个批次的总体平均数,与标准值0.618比较,正确结论是( )
A.甲批次的总体平均数与标准值更接近
B.乙批次的总体平均数与标准值跟接近
C.两个批次总体平均数与标准值接近程度相同
D.两个批次总体平均数与标准值接近程度不能确定
A
解析:
本题考查平均数的求法,用样本估计总体,经计算甲、乙批次的总体平均数
知甲批次的总体平均数与标准值0.618更接近。
2(2019湖北)下图是样本容量为200的频率分布直方图。
根据样本的频率分布直方图估计,样本数据落在[6,10]内的频数为_______,数据落在[2,10)内的概率约为_____。
64
0.4
解析:
本题考查频率分布直方图,样本数据落在[6,10)内的频数为0.08×(10-6)×200=64.样本数据落在[2,10)内的概率约为(0.02+0.08) ×4=0.4。
1.下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)
(1)列出样本频率分布表﹔
(2)一画出频率分布直方图;
(3)估计身高小于134cm的人数占总人数的百分比。
解:(1)样本频率分布表如下:
前面的过程省略!
(2)其频率分布直方图如下:
0.04+0.07+0.08=0.19,
所以我们估计身高小于134cm的人数占总人数的19%。
(3)由样本频率分布表可知身高小于134cm 的男孩出现的频率为:
2.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12。
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估
计该学校全体高一学生的达标率是多少?
(3)在这次测试中,学生跳绳次数的中位数落在
哪个小组内?请说明理由。
在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。
(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:
解:
又因为频率=频数/ 样本容量
所以
(2)由图可估计该学校高一学生的达标率约为
(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。