9.2 用样本估计总体
要求:综合材料内容及含义,选好角度,确定立意,明确文体,自拟题目,不得套作,不得抄袭。不少于800字。
二战期间,为了加强对战机的防护,英美军方调查了作战后的幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家沃德力排众议,指出更应该注意弹痕少的位置,因为这些部位受到重创的飞机,很难有机会返航,而这部分数据被忽略了。事实证明,沃德是正确的。
——2018全国二卷语文作文
新课导入——一个统计小故事
这位统计学家在分析问题的时候,能够做到不被表面现象所迷惑,在获取数据之后,选择合适的工具对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据中蕴含的信息,进而得到了正确的统计分析结果。
下面我们讨论对随机抽样获取的数据的处理方法。
前面研究学习了两种抽样来收集数据,数据收集后,必须从中寻找包含的信息,以使我们能通过样本的规律估计总体的规律,解决相应的实际问题。
但由于数据多而杂,所以需要通过一定的方法去处理数据。可以通过表、图、计算方法来分析数据,进而对总体做出相应的估计。
引例 我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。
如果希望确定一个比较合理的标准,以使大部分居民用水的水费支出不受影响,你认为需要做哪些工作?
为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民所占的比例情况。
①全面调查(普查):时间,经费允许
②抽样调查:
总体:该市的全体居民用户
个体:每户居民用户
调查的变量:居民用户的均用水量。
假设通过随机抽样,获得了100户居民用户的月均用水量数据:(单位:t)
从这组数据我们能发现什么信息呢?
容易发现:这组数据的最小值时1.3t,最大值是28.0t,其它值在1.3t~28.0t之间. 除此之外,很难从随意记录下来的数据中直接看出规律.
为此,我们需要对数据进行整理和分析.
分析数据的基本方法:
1.用图将它们画出来: 提取信息、传递信息.
2.用表格: 用紧凑的表格改变数据的排列形式,提供解释数据的新方式.
初中我们曾经学过频数分布图和频数分布表,这使我们能够清楚地知道数据分布在各个小组的个数.
频数:在统计学中,将样本按照一定的方法分成若干组,每组内含有这个样本的个体的数目叫做频数
频数分布图
{5C22544A-7EE6-4342-B048-85BDC9FD1C3A}身高x
频数
频率
146≤x<150
2
0.0625
150≤x<154
3
0.09375
154≤x<158
6
0.1875
158≤x<162
12
0.375
162≤x<166
7
0.21875
166≤x<170
2
0.0625
频数分布表
频率:样本中某个组的频数和样本容量的比,叫做该数据的频率
因此使用频率分布表和频率分布直方图
在此实际问题中,我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例
从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律. 它可以使我们看到整个样本数据的频率分布情况.
频率分布是指一个样本的各个小组的数据在各个小范围所占比例的大小,一般用频率分布直方图反映样本的频率分布.
画频率分布直方图的一般步骤为:
① 求极差
② 决定组距和组数
③ 将数据分组
④ 列频率分布表
⑤ 画频率分布直方图
新课讲授
探究1 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
非负数
(1)求极差.
极差为一组数据中最大值与最小值的差.
样本观测数据的最大值为28.0t,最小值为1.3t,所以极差为:28.0-1.3=26.7
这说明样本观测的数据变化范围是26.7t.
它反映了一组数据的最大幅度,对极端值敏感
描述数据的离散程度
探究1 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
(2)决定组距与组数.
极差、组距、组数之间的关系:
组距是指每个小组的两个端点之间的距离.
组距与组数的确定没有固定的标准,数据的分组可以是等距的,也可以是不等距的,为方便起见,往往按等距分组.
注:y=[x]为取整函数,表示不超过x的最大整数.
探究1 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
(2)决定组距与组数.
若取组距为3,则
即可将数据分为9组;
组数与数据的个数有关(样本容量)
①样本容量越大,分组越多;
②样本容量不超过100时,常分成5~12组,
思考1:这样分组合理吗?
思考2:组距为4时分几组?
可以将数据分成7组.
由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值. 例如:可以取区间为[1.2,28.2],按如下方式把样本数据以组距3分成9组:
[1.2,4.2),[4.2,7.2),...,[25.2,28.2]
探究1 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
(3)将数据分组.
通常对组内数据所在区间:左闭右开,最后一组取闭区间.
统计频数,计算各小组的频率,作出频率分布表.
探究1 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
(4)列频率分布表.
频率之和为1
频率分布表一般分五列
1、“分组”,2、“频数累计(可省),
3、“频数”,4、“频率”,
5、“频率/组距” 最后一行是合计
频率/组距
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
探究1 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
(5)画频率分布直方图.
横轴表示月均用水量
小长方形的面积=组距× =频率
各小长方形的面积和为1
纵轴表示
频率/组距实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度。
(1)求极差(即一组数据中最大值与最小值的差)
(2)决定组距与组数(将数据分组)
(3)将数据分组
方法小结:画频率分布直方图的一般步骤为:
(4)列出频率分布表.(填写频率/组距一栏)
(5)画出频率分布直方图.
组距:指每个小组的两个端点的距离,
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组.
(2)从频率分布直方图能直观地表明数据分布的形状和总体趋势.可以看出,数据的分布不对称,图形左边高、右边低,右边有一个较长的“尾巴”。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在[1.2,7.2)最为集中,少数用户居民的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势。
观察 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?
(1)从频率分布表中可以看出,样本观测数据落在各个小组的比例大小。
例如,月均用水量在区间[4.2,7.2)内的居民用户最多,在区间[1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等。
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律。根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域。
这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的。
需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解。
探究2 分别以3和27为组数,对数据进行等距分组,画出100户居民月均用水量的频率分布直方图,你发现不同的组数对直方图呈现数据分布规律有什么影响?
组数少、组距大:易看出数据整体的分布特点,无法看出每组内的数据分布情况,损失了较多的原始数据信息;
组数多、组距小:保留较多原始数据信息;但小长方形较多,有时图形会变得不规则,不容易从中看出总体分布特点;直方图会依赖样本数据,稳定性差.
探究2 分别以3和27为组数,对数据进行等距分组,画出100户居民月均用水量的频率分布直方图,你发现不同的组数对直方图呈现数据分布规律有什么影响?
1. 知识辨析
(1)在频率分布直方图中得不到原始的数据内容,把数据表示成直方图后,有的具体数据信息就被抹掉了.
(2)在频率分布直方图中,纵轴可以用频率来表示.
(3)在频率分布直方图中,各小长方形的面积为1.
(4)在频率分布直方图中,各小长方形的面积之比等于各组频率之比.
练习巩固
√
√
×
×
面积和为1
2. 一个容量为32的样本,已知某组样本的频率为0.125,那么该组样本的频数为( )
A.2 B.4 C.6 D.8
3. 一个样本的容量为72,分成5组,已知第一、五组的频数都为8,第二、四组频率都为????????,则第三组的频数为( )
A.16 B.20 C.24 D.36
?
练习巩固
4. 为了解某地高一学生的身体发育情况,抽查了该地区100名年龄在14-15岁的男生体重(kg),得到频率分布直方图如下:
很据上图可得这100名学生中体重在[56.5,64.5]的学生人数是( )
A.20 B.30 C.40 D.50
练习巩固
5. 从某小区抽取100户居民进行月用电量调查,发现他们的用电量都在50~350kw .h之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1)直方图中x的值为____________.
(2)在被调查的用户中,用电量落在区间[100,250)内的户数为__·
练习巩固
画频率分布直方图的步骤
(1)求极差:极差是一组数据中_______与_______的差.
(2)决定组距与组数:当样本容量不超过100时,常分成_______组,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组.
(4)列频率分布表:一般分四列,即分组、_______、频数、_______.其中频数合计应是样本容量,频率合计是_______.
(5)画频率分布直方图:横轴表示样本数据,纵轴表示_______.
(小长方形的面积=组距×_______=_______,各小长方形的面积和等于_______)
最大值
最小值
5~12
频数累计
频率
1
频率
1