9.2.1 总体取值规律的估计 课件(共42张PPT)

文档属性

名称 9.2.1 总体取值规律的估计 课件(共42张PPT)
格式 zip
文件大小 3.9MB
资源类型 试卷
版本资源 人教A版(2019)
科目 数学
更新时间 2021-06-01 11:32:25

图片预览

文档简介

(共42张PPT)
09人教A版
必修二
7.1复数的概念
9.2
用样本估计总体
9.2.1
总体取值规律的估计
收集数据是为了寻找数据中蕴含的信息.因为实际问题中数据多而且杂乱,往往无法直接从原始数据中发现规律,所以需要根据问题的背景特点,选择合适的统计图表对数据进行整理和直观描述.在此基础上,通过数据分析,找出数据中蕴含的信息,就可以用这些信息来解决实际问题了.
下面我们讨论对随机抽样获取的数据的处理方法.
面对一个统计问题,在随机抽样获得观测数据的基础上,需要根据数据分析的需要,选择适当的统计图表描述和表示数据,获得样本的规律,并利用样本的规律估计总体的规律,解决相应的实际问题请看下面的问题.
问题1
我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了减少水资源的浪费,计划对居民生活用水费用实施阶梯式水价制度,即确定一户居民月均用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望确定一个比较合理的标准,以使大部分居民用户的水费支出不受影响,你认为需要做哪些工作?
每户居民月均用水量标准如果定得太低,会影响很多居民的日常生活;如果标准太高,则不利于节水.为了确定一个较为合理的用水标准,必须先了解在全市所有居民用户中,月用水量在不同范围内的居民用户所占的比例情况.
如果经费、时间等条件允许,我们可以通过全面调查获得过去一年全市所有居民用户的月均用水量数据,进而得到月均用水量在不同范围内的居民用户所占的比例.由于全市居民用户很多,通常采用抽样调查的方式,通过分析样本观测数据,来估计全市居民用户月均用水量的分布情况.
在这个问题中,总体是该市的全体居民用户,个体是每户居民用户,调查的变量是居民用户的月均用水量.
假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t):
9.0
13.6
14.9
5.9
4.0
7.1
6.4
5.4
19.4
2.0
2.2
8.6
13.8
5.4
10.2
4.9
6.8
14.0
2.0
10.5
2.1
5.7
5.1
16.8
6.0
11.1
1.3
11.2
7.7
4.9
2.3
10.0
16.7
12.0
12.4
7.8
5.2
13.6
2.6
22.4
3.6
7.1
8.8
25.6
3.2
18.3
5.1
2.0
3.0
12.0
22.2
10.8
5.5
2.0
24.3
9.9
3.6
5.6
4.4
7.9
5.1
24.5
6.4
7.5
4.7
20.5
5.5
15.7
2.6
5.7
5.5
6.0
16.0
2.4
9.5
3.7
17.0
3.8
4.1
2.3
5.3
7.8
8.1
4.3
13.3
6.8
1.3
7.0
4.9
1.8
7.1
28.0
10.2
13.8
17.9
10.1
5.5
4.6
3.2
21.6
从这组数据我们能发现什么信息呢?如果将这组数据从小到大排序,容易发现,这组数据的最小值是
1.3
t,最大值是28.0
t,其他在1.3
t至28.0
t
之间.
为了更深入地挖掘数据蕴含的信息,需要对数据作进一步的整理与分析.
为了探索一组数据的取值规律,一般先要用表格对数据进行整理,或者用图将数据直观表示出来.在初中,我们曾用频数分布表和频数分布图来整理和表示这种数值型数据,由此能使我们清楚地知道数据分布在各个小组的个数.在这个实际问题中,因为我们更关心月均用水量在不同范围内的居民用户占全市居民用户的比例,所以选择频率分布表
(frequency
distribution
table)
和频率分布直方图(frequency
distribution
histogram)
来整理和表示数据,与画频数分布直方图类似,我们可以按以下步骤制作频率分布表、画频率分布直方图.
用表格整理数据是通过改变数据的组织方式,为数据的解释提供新方式.用图表示数据不仅有利于从数据中提取信息,还可以利用图形传递信息.
2.决定组距与组数
合适的组距与组数对发现数据分布规律有重要意义.组数太多或太少,都会影响我们了解数据的分布情况.组距与组数的确定没有固定的标准,常常需要一个尝试和选择的过程.数据分组的组数与数据的个数有关,一般数据的个数越多,所分组数也越多当样本容量不超过100时,常分成
5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
数据分组可以是等距的,也可以是不等距的,
要根据数据的特点而定.有时为了方便,往往按等距分组,或者除了第一和最后的两段,其他各段按等距分组.

9.
2-1
5.画频率分布直方图
根据表
9.2-1
可以得到如图
9.2-1
所示的频率分布直方图.
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
频率分布直方图与频数分布直方图有什么区别?
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小.容易知道,在频率分布直方图中,各小长方形的面积的总和等于1,即样本数据落在整个区间的频率为1.
利用统计软件,可以快速、准确地画出频率分布直方图,频率分布直方图把样本数据落在各小组的比例大小直观化,更有利于我们从整体上把据数据分布的特点.
观察表
9.
2-1
和图
9.
2-1,你觉得这组数据中蕴含了哪些有用的信息?你能从图表中发现居民用户月均用水量的哪些分布规律?你能给出适当的语言描述吗?
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
从频率分布直方图9.2-1
容易看出,居民用户月均用水量的样本观测数据的分布是不对称的,图形的左边高、右边低,右边有一个较长的“尾巴”.这表明大部分居民用户的月均用水量集中在一个较低值区域,尤其在区间[1.2,
7.2)最为集中,少数居民用户的月均用水量偏多,而且随着月均用水量的增加,居民用户数呈现降低趋势.
有了样本观测数据的频率分布,我们可以用它估计总体的取值规律.根据100户居民用户的月均用水量的频率分布,可以推测该市全体居民用户月均用水量也会有类似的分布,即大部分居民用户月均用水量集中在较低值区域.这使我们确定用水量标准时,可以定一个合适的值,以达到既不影响大多数居民用户的水费支出,又能节水的目的.需要注意的是,由于样本的随机性,这种估计可能会存在一定误差,但这一误差一般不会影响我们对总体分布情况的大致了解.
(1)“组数为3”
探究
分别以3和27为组数,对数据进行等距分组,画出100户居民用户月均用水量的频率分布直分图(图
9.2-2)
.观察图形,你发现不同的组数对于直方图呈现数据分布规律有什么影响?
(2)“组数为27”
从图9.2-2
中可以看出,同一组数据,组数不同
,得到的直方图形状也不尽相同.图9.
2-2
(1)中直方图的组数少、组距大,从图中容易看出,数据分布的整体规律是随着月均用水量的增加,居民用户数的频率在降低,而且月均用水量在区间[l.2,10.
2)内的
居民用户数的频率,远大于在另两个区间[10.2,19.
2)和[19.2,28.
2]内的频率,这说明大部分居民用户的月均用水量都少于10.2
t.图9.2-2
(2)中直方图的组数多、
组距小,从图中可以看出,数据主要集中在低值区,尤其在区间[5.2,6.2)内最为集中.从总体上看,随着月均用水量的增加,居民用户数的频率呈现下降趋势,但存在个别区间频率变大或者缺失的现象.
从上述分析可见,当频率分布直方图的组数少、
组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
这里我们再次指出,对于同一组数据,因为组距、组数不同而得到不同形状的直方图,会给人以不同的频率分布印象,这种印象有时会影响人们对总体的判断.因此,我们要注意积累数据分组、合理使用图表的经验.
练习(第197页)
1.从某小区抽取100
户居民用户进行月用电量调查,发现他们的用电量都在50~350
kW?
h之间,
进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
(1)
直方图中x的值为

(2)
在被调查的用户中,用电量落在区间[100,
250)内的户数为

70
2.如图,胡晓统计了他爸爸9月的手机通话明细清单,发现他爸爸该月共通话60
次.胡晓按每次通话时间长短进行分组(每组为左闭右开的区间),画出了频率分布直方图.
3.请班上每位同学估计一下自己平均每天的课外学习时间(单位:
min),然后统计数据,作出全班同学课外学习时间的频率分布直方图.能否由这个频率分布直方图估计出你们学校全体学生课外学习时间的分布情况?可以用它来估计你所在地区(城市、乡镇或村庄)全体学生课外学习时间的分布情况吗?为什么?
除频率分布直方图外,我们在初中还学习过条形图、扇形图、折线图、频数分布直方图等.不同的统计图在表示数据上有不同的特点.例如,扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.不同的统计图适用的数据类型也不同.例如,条形图适用于描述离散型的数据,直方图适用描述连续型数据等.因此,在解决问题的过程中,要根据实际问题的特点,选择恰当的统计图对数据进行可视化描述,以使我们能通过图形直观地发现样本数据的分布情况,进而估计总体的分布规律.
例1
已知某市
2015
年全年空气质量等级如表9.2-2
所示.
空气质量等级(空气质量指数AQI)
频数
频率
优(AQI≤50)
83
22.8%
良(50121
33.2%
轻度污染(10068
18.6%
中度污染(15049
13.4%
重度污染(20030
8.2%
严重污染(AQI>300)
14
3.8%
合计
365
100%
表9.2—2
2016年5月和6月的空气质量指数如下:
5月
240
80
56
53
92
126
45
87
56
60
191
62
55
58
56
53
89
90
125
124
103
81
89
44
34
53
79
81
62
116
88
6月
63
92
110
122
102
116
81
163
158
76
33
102
65
53
38
55
52
76
99
127
120
80
108
33
35
73
82
90
146
95
选择合适的统计图描述数据,并回答下列问题:
(1)
分析该市
2016

6
月的空气质量情况.
解:(1)根据该市
2016

6月的空气质量指数和空气质量等级分级标准,可以画出该市这个月的不同空气质量等级的频数与频率分布表(表9.
2-3).
空气质量等级
合计


轻度污染
中度污染
重度污染
严重污染
天数
4
15
9
2
0
0
30
频率
13.33%
50%
30%
6.67%
0%
0%
100%
从表中可以看出,“优”

良”
的天数达19
天,占了整月的
63.
33%,没有出现
“重度污染”和“严重污染”.
我们可以用条形图和扇形图对数据作出直观的描述,如图9.2-3
和图9.2-4.
从条形图中可以看出,在前三个等级的占绝大多数,空气质昼等级为“良”的天数最多,后三个等级的天数很少.从扇形图中可以看出,空气质量为“良”的天数占了总天数的一半,大约有三分之二为
“优”“良”,大多数是“良”和
“轻度污染".因此,整体上6月的空气质量不错.
图9.2-3
图9.2-4
空气质量等级
我们还可以用折线图展示空气质量指数随时间的变化情况,如图
9.
2-5.
容易发现,6月的空气质量指数在100附近波动.
(2)
比较该市
2016

5
月和
6
月的空气质量,哪个月的空气质量较好?
(2)根据该市
2016

5
月的空气质量指数和空气质量分级标准,可以画出该市这个月的不同空气质量等级的频数和频率分布表(表9.
2-4).
空气质量等级
合计


轻度污染
中度污染
重度污染
严重污染
天数
3
21
5
1
1
0
31
频率
10%
68%
16%
3%
3%
0%
100%
为了便于比较,
我们选用复合条形图,将两组数据同时反映到一个条形图上.
通过条形图中柱的高低,
可以更直观地进行两个月的空气质量的比较(图9.
2-6).
由表9.2-4和图9.2-6可以发现,5月空气质量为“优”和“良”的总天数比6月多.所以,从整体上看,5月的空气质量略好于6月,但5月有重度污染,而6月没有.
(3)
比较该市
2016

6
月与该市
2015
年全年的空气质量,2016

6月的空气质量是否好于去年?
(3)把2016年6月和2015年全年的空气质量进行比较,由于一个月和一年的天数差别很大,所以直接通过频数比较没有意义,应该转化成频率分布进行比较.可以通过二者的空气质量指数的频率分布直方图或空气质量等级的频率分布条形图进行比较(图9.
2-7).
通过图9.2-7可以看出,虽然2016年6月的空气质量为“优”的频率略低于2015
年,但“良”的频率明显高于2015年,而且2016年6月中度以上的污染天气频率明显小于2015年所以从整体上看,2016年
6月的空气质量要好于2015年全年的空气质量.
由此,你能得出“2016年的空气质量比2015年明显改善了”的结论吗?为什么?
练习(第201页)
1.
某市
2016年6月30
天的空气质量指数如下:
35
54
80
86
72
85
58
125
111
53
10
66
46
36
18
25
23
40
60
89
88
54
79
14
16
40
59
67
111
62
你觉得这个月的空气质量如何?请设计适当的频率分布直方图展示这组数据,并结合空气质量分级标准分析数据.
频率分布直方图如图所示:
通过图可以看出,
该市2016年6月空气质量指数在区间[
25,100
)内的天数最多,
在区间[0,25)内的空气质量为优的天数次之,
在区间[100,125]内的天数最少,故6月空气质量总体良好.
2.
统计你们班所有同学的鞋号,选择合适的统计图进行描述,并分析鞋号的分布有什么特点.能用你们班同学鞋号的分布估计你所在学校全体高中学生鞋号的分布吗?估计全国高中学生的鞋号分布呢?