(共25张PPT)
要求:综合材料内容及含义,选好角度,确定立意,明确文体,自拟题目,不得套作,不得抄袭。不少于800字。
二战期间,为了加强对战机的防护,英美军方调查了作战后的幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家沃德力排众议,指出更应该注意弹痕少的位置,因为这些部位受到重创的飞机,很难有机会返航,而这部分数据被忽略了。事实证明,沃德是正确的。
——2018全国二卷语文作文
统计学家沃德在分析问题的时候,能够做到不被表面现象所迷惑,在获取数据之后,选择合适的工具对数据进行整理和直观描述,在此基础上,通过数据分析,找出数据中蕴含的信息,进而得到了正确的统计分析结果.
前面一节研究学习了两种抽样来收集数据,数据收集后,必须从中寻找包含的信息,以使我们能通过样本的规律估计总体的规律,解决相应的实际问题.
但由于数据多而杂,所以需要通过一定的方法去处理数据.可以通过表、图、计算方法来分析数据,进而对总体做出相应的估计.
问: 我们在初中学过哪些统计图?
条形图
折线图
扇形图
直方图
下面我们讨论对随机抽样获取的数据的处理方法.
9.2.1 总体取值规律的估计1
引例 我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.
如果希望确定一个比较合理的标准,以使大部分居民用水的水费支出不受影响,你认为需要做哪些工作?
为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民所占的比例情况.
①全面调查(普查):时间,经费允许
②抽样调查:
总体:该市的全体居民用户
个体:每户居民用户
调查的变量:居民用户的均用水量.
假设通过随机抽样,获得了100户居民用户的月均用水量数据:(单位:t)
问题1 从这组数据我们能发现什么信息呢?
这组数据的最小值时1.3t,最大值是28.0t,其它值在1.3t~28.0t之间. 除此之外,很难从记录下来的数据中直接看出规律.
为此,我们需要对数据进行整理和分析.
分析数据的基本方法:
1.用图将它们画出来: 提取信息、传递信息.
2.用表格: 用紧凑的表格改变数据的排列形式,提供解释数据的新方式.
初中我们学过频数分布图和频数分布表,这使我们能够清楚地知道数据分布在各个小组的个数.
频数:在统计学中,将样本按照一定的方法分成若干组,每组内含有这个样本的个体的数目叫做频数
问题2 什么是频数?什么是频率?如何画频数分布表和频数分布直方图?
频率:样本中某个组的频数和样本容量的比,叫做该数据的频率
因此使用频率分布表和频率分布直方图
在实施阶梯式水价制度这个实际问题中,我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例
从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布的规律. 它可以使我们看到整个样本数据的频率分布情况.
频率分布是指一个样本的各个小组的数据在各个小范围所占比例的大小,一般用频率分布直方图反映样本的频率分布.
回顾初中频数分布直方图作法:
①求极差;
②决定组距与组数;
③将数据分组;
④列频数分布表;
⑤画频数直方图.
探究 根据上述抽样的100户居民月均用水量,画出频率分布直方图.
非负数
(1)求极差:
极差为一组数据中最大值与最小值的差.
这说明样本观测的数据变化范围是26.7t.
它反映了一组数据的最大幅度,对极端值敏感
描述数据的离散程度
28.0 -1.3=26.7
极差
(2)决定组距与组数:
极差、组距、组数之间的关系:
组距是指每个小组的两个端点之间的距离.
组距与组数的确定没有固定的标准,数据的分组可以是等距的,也可以是不等距的,为方便起见,往往按等距分组.
若取组距为3,则
即可将数据分为9组;
组数一般与数据的个数有关(样本容量)
问题3 组距为4时分几组
可以将数据分成7组.
①样本容量越大,分组越多;
②样本容量不超过100时,常分成5~12组,
由于组距为3,9个组距的长度超过极差,我们可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值. 例如:可以取区间为[1.2,28.2],按如下方式把样本数据以组距3分成9组:
[1.2,4.2),[4.2,7.2),...,[25.2,28.2]
(3)将数据分组:
通常对组内数据所在区间:左闭右开,最后一组取闭区间.
统计频数,计算各小组的频率,作出频率分布表.
(4)列频率分布表:
分组 频数累计 频数 频率
[1.2,4.2) 正正正正 23
[4.2,7.2) 正正正正正正 32
[7.2,10.2) 正正 13
[10.2,13.2) 正 9
[13.2,16.2) 正 9
[16.2,19.2) 正 5
[19.2,22.2) 3
[22.2,25.2) 4
[25.2,28.2] 2
合计
100
0.32
0.13
0.09
0.09
0.05
0.03
0.04
0.02
1.00
0.23
(5)画频率分布直方图:
月平均用水量/t
0.12
0.1
0.08
0.06
0.04
0.02
0
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
0.077
频率/组距
分组 频率 频率 / 组距
[1.2,4.2) 0.23 0.077
[4.2,7.2) 0.32 0.107
[7.2,10.2) 0.13 0.043
[10.2,13.2) 0.09 0.030
[13.2,16.2) 0.09 0.030
[16.2,19.2) 0.05 0.017
[19.2,22.2) 0.03 0.010
[22.2,25.2) 0.04 0.013
[25.2,28.2] 0.02 0.007
思考:频率分布直方图中各小长方形的面积表示什么?各小长方形的面积总和为多少?
小长方形的面积=
组距X
组距
频率
=频率
所以各小长方形的面积表示相应各组的频率.
各小长方形的面积总和为1.
月平均用水量/t
0.12
0.1
0.08
0.06
0.04
0.02
0
1.2 4.2 7.2 10.2 13.2 16.2 19.2 22.2 25.2 28.2
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
0.077
频率/组距
(1)求极差(即一组数据中最大值与最小值的差)
(2)决定组距与组数(将数据分组)
(3)将数据分组
画频率分布直方图的一般步骤为:
(4)列出频率分布表.
(5)画出频率分布直方图.
组距:指每个小组的两个端点的距离,
组数:将数据分组,当数据在100个以内时, 按数据多少常分5-12组.
(2)从频率分布直方图能直观地表明数据分布的形状和总体趋势.可以看出,数据的分布不对称,图形左边高、右边低,右边有一个较长的“尾巴”。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在[1.2,7.2)最为集中,少数用户居民的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.
问题4 观察频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?
(1)从频率分布表中可以看出,样本观测数据落在各个小组的比例大小.
例如,月均用水量在区间[4.2,7.2)内的居民用户最多,在区间[1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等.
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律。根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域.
需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解.
这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的.
问题5 分别以3和27为组数,对数据进行等距分组,画出100户居民月均用水量的频率分布直方图,你发现不同的组数对直方图呈现数据分布规律有什么影响?
组数少、组距大:易看出数据整体的分布特点,无法看出每组内的数据分布情况,损失了较多的原始数据信息;
组数多、组距小:保留较多原始数据信息;但小长方形较多,有时图形会变得不规则,不容易从中看出总体分布特点;直方图会依赖样本数据,稳定性差.
解:由已知数据可得极差为69-42=27.
[41.5, 45.5), [45.5, 49.5), ···, [65.5, 69.5].
选取组距为4,由于 故可将数据分为7组,即
列出频率分布表:
根据频率分布表画出频率分布直方图和频率分布折线图如图所示.
1. 从某小区抽取100户居民用户进行月用电量调查,发现他们的用电量都在50~350 kW h之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1) 直方图中x的值为________;
(2) 在被调查的用户中,用电量落在区间[100,250) 内的户数为_____.
练习
70
0.0044
作业
1.本节练习册
2.预习教材下一节内容。