(共20张PPT)
总体取值规律的估计
安徽淮南第四中学
2021.5
考点
学习目标
核心素养
频率分布表、频率分布直方图
会画一组数据的频率分布表、频率分布直方图
直观想象、
数据分析
用样本估计总体
会用频率分布表、频率分布直方图、条形图、扇形图、折线图等对总体进行估计
直观想象、
数据分析
收集数据是为了寻找数据中蕴含的信息。因为实际问题中数据多而杂乱,往往无法直接从原始数据中发现规律,所以需要根据问题的背景特点,选择合适的统计图表对数据进行整理和直接描述。在此基础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息来解决实际问题了。
问题1:我国是世界上严重缺水的国家之一,城市缺水问题较为突出。某市政府为了节约生活用水,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望确定一个比较合理的标准,以使大部分居民用水的水费支出不受影响,你认为需要做那些工作?
为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民所占的比例情况。
9.0
13.6
14.9
5.9
4.0
7.1
6.4
5.4
19.4
2.0
2.2
8.6
13.8
5.4
10.2
4.9
6.8
14.0
2.0
10.5
2.1
5.7
5.1
61.8
6.0
11.1
1.3
11.2
7.7
4.9
2.3
10.0
16.7
12.0
12.4
7.8
5.2
13.6
2.6
22.4
3.6
7.1
8.8
25.6
3.2
18.3
5.1
2.0
3.0
12.0
22.2
10.0
5.5
2.0
24.3
9.9
3.6
5.6
4.4
7.9
5.1
24.5
6.4
7.5
4.7
20.5
5.5
15.7
2.6
5.7
5.5
6.0
16.0
2.4
9.5
3.7
17.0
3.8
4.1
2.3
5.3
7.8
8.1
4.3
13.3
6.8
1.3
7.0
4.9
1.8
7.1
28.0
10.2
13.8
17.9
10.1
5.5
4.6
3.2
21.6
假设通过随机抽样,获得了100户居民用户的月均用水量数据:(单位:t)
将一批数据按要求分为若干组,各组内的数据的个数,叫做该组数据的频数,各个小组数据在样本容量中所占的比例的大小,叫做该组数据的频率。
为了解数据分布的规律,可利用频率分布表和频率分布图来分析,具体做法如下:
1、求极差(即一组数据中最大值和最小值的差)
例如,
28-1.3=26.7,这说明这些数据的变化范围大小是26.7t。
2、决定组距和组数
例如,若取组距为3,则
故可将数据分成9组。
注:一般样本容量越大,所分组数就越多,当样本容量不超过100时,按照数据的多少,常分成5~12组。
3、将数据分组:
以组距3将数据分组如下:
[1.2,4.2),
[4.2,7.2),……,[25.2,28.2
]
4、列频率分布表:
分组
频数
频率
[1.2,4.2)
23
0.23
[4.2,7.2)
32
0.32
[7.2,10.2)
13
0.13
[10.2,13.2)
9
0.09
[13.2,16.2)
9
0.09
[16.2,19.2)
5
0.05
[19.2,22.2)
3
0.03
[22.2,25.2)
4
0.04
[25.2,28.2]
2
0.02
合计
100
1.00
5、画频率分布直方图
用横轴表示月均用水量,纵轴表示频率与组距的比值,以每个组距为底,以频率除以组距的商为高,分别画出矩形,这样得到的直方图就是频率分布直方图。
月均用水量/t
频率/组距
0
1.2
4.2
7.2
10.2
13.2
16.2
19.2
22.2
25.2
28.2
0.02
0.04
0.06
0.08
0.1
0.12
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
在这里,我们发现,纵轴实际上就是频率分布直方图中各小长方形的高,它反映了各组样本观测数据的疏密程度。
因为小长方形面积=组距×(频率/组距)=频率,所以各小长方形的面积表示相应各组的频率。
频率分布直方图以面积的形式反映了
数据落在各个小组的频率的大小
在频率分布直方图中,各小长方形的面积的综合等于1,即样本数据
落在整个区间的频率为1.
思考一:频率分布直方图与频数分布直方图有什么区别?
频率分布直方图的纵轴是频率/组距,而频数分布直方图的纵轴是频数
思考二:观察上述频率分布表和频率分布直方图,你觉得这组数据中蕴含了哪些有用的信息?你能发现居民用户月均用水量的那些分布规律?你能给出适当的语言描述吗?
从频率分布表中可以看出,样本观测数据落在各个小组的比例大小。
例如,月均用水量在区间[4.2,7.2)内的居民用户最多,在区间[1.2,4.2)内的次之,而月均用水量超过16.2的各区间内数据所占比例较小,等等。
从频率分布直方图可以看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”。这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在[1.2,7.2)最为集中,少数用户居民的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势。
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律。
根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域。
这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的。
需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,
但这一误差一般不会影响我们对总体分布情况的大致了解。
为了实际操作方便,组距的选择应结合级差尽量“取整”,例如级差约为1,组距可以选择0.1的整数倍,比如以0.1或0.2为组距;极差约为10,组距可以选择1的整数倍,比如以1或2为组距;极差约为100,组距可以选择10的整数倍,比如以10或20为组距.
分点的确定:若数据为整数,则分点数据减去0.5;若数据是小数点后有一位数字的数,则分点数据减去0.05,以此类推.
分组时,通常对组内数值所在的区间取左闭右开区间,最后一组取闭区间.
其他统计图表
条形统计图
用单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按照一定的顺序排列起来,这样的统计图称为条形统计图.
优点:条形统计图不但可以直观的反映数据分布的大致情况,还可以清晰地表示出各个区间的具体数目,易于比较数据间的差别.
缺点:会损失数据的部分信息,且不能明确显示部分与整体
的关系.
折线统计图
建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应点,然后用直线段顺次连接相应点,得到一条折线,用这条折线.表示样本数据情况,这种表达和分析数据的统计图叫做折线统计图.
优点:折线统计图不但可以表示数量的多少,还可以通过折线的起伏清楚直观地表示数量的增减变化情况.
缺点:折线统计图不能直观反映数据的分布情况,且不适合总体分布较多的情况
扇形统计图
扇形统计图中用整个圆面积代表总体,圆内的各个扇形分别代表总体中
的不同部分,扇形面积的大小反映所表示的那部分占总体的百分比的大小.
优点:扇形统计图可以很清楚的表示各部分与总体之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比
缺点:会损失数据的部分信息,且不能明确显示部分与整体的关系.
1.如图是某班50名学生期中考试数学成绩的频率分布直方图,其中成绩分组区间是[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x的值为( )
A.0.120
B.0.180
C.0.012
D.0.018
40
50
60
70
成绩
频率/组距
80
90
100
0.006
0.010
0.054
x
2.一个频率分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,则估计样本在[40,50)、[50,60)内的数据个数共有(
)
A.14
B.15
C.16
D.17
分组
频数
[10,20)
[20,30)
[30,40)
3
4
5
由题意可知,样本在[20,60)的数据个数为30×0.8=24,样本在[20,40)的数据个数为4+5=9,因此,样本在[40,50)、[50,60)内的数据个数为24-9=15
3.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小矩形的高度为________;
(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为_____.
20
25
30
35
年龄
频率/组距
40
45
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
(1)设[25,30)年龄组对应小矩形的高度为h,则5(0.01+h+0.07+0.06+0.02)=1,h=0.04.(2)志愿者年龄在[25,35)的频率为5(0.04+0.07)=0.55,故志愿者年龄在[25,35)的人数约为0.55×800=440.
4.交通指数是交通拥堵指数的简称,是综合反映道路网畅通或拥堵的概念,记交通指数为T.其范围为[0,10],分别有五个级别:T∈[0,2)畅通,T∈[2,4)基本畅通;T∈[4,6)轻度拥堵;T∈[6,8)中度拥堵;T∈[8,10]严重拥堵,晚高峰时段(T≥2),从某市交通指挥中心选取了市区20个交通路段,依据其交通指数数据绘制的部分直方图如图所示.
(1)请补全直方图,并求出轻度拥堵、中度拥堵、严重拥堵路段各有多少个?
(2)用分层抽样的方法从交通指数在[4,6),[6,8),[8,10]的路段中共抽取6个路段,求依次抽取的三个级别路段的个数;
2
3
4
5
交通指数
频率/组距
6
7
8
9
10
0
0.05
0.1
0.2
0.25
由直方图:(0.1+0.2)×1×20=6个,(0.25+0.2)×1×20=9个,(0.1+0.05)×1×20=3个,
∴这20个路段种轻度拥堵,中度拥堵,严重拥堵的路段分别是6个,9个,3个.
交通指数在[4,6),[6,8),[8,10]的路段中分别抽取的个数为2,3,1