2.2 用样本估计总体

文档属性

名称 2.2 用样本估计总体
格式 zip
文件大小 1.3MB
资源类型 教案
版本资源 人教新课标B版
科目 数学
更新时间 2012-03-05 18:05:22

图片预览

文档简介

(共60张PPT)
2.2.1 用样本的频率分布估计总体分布
我国是世界上严重缺水的国家之一, 城市缺水问题较为突出。
2000年全国主要城市中缺水情况排在前10位的城市
某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a的部分按平价收费,超过a的部分按议价收费.为了使大部分居民的日常生活不受影响,标准a就应该定的比较合理.
为了较合理地确定这个标准,你认为需要做哪些工作?
问题1
问题2 由上表,大家可以得到什么信息?
通过抽样,我们获得了100位居民某年的月平均用 水量(单位:t) ,如下表:
问题3 在初中,我们是用什么方法去整理和分析样本数据的?
列频数分布表和画频数分布直方图
1.求极差:
步骤:
4.3 - 0.2 = 4.1
2.决定组距与组数:
组数=
4.1
0.5
= 8.2
组距
极差
=
3.将数据分组
[0,0.5 ),[0.5,1 ),…,[4,4.5]
列频数分布表和画频数分布直方图
步骤:
分组 频数累计(划记) 频数
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频数累计(划记)

正正正
正正正正丅
正正正正正
正正


频数
4
8
15
22
25
14
6
4
2
100
4.画频数分布表
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频数(个)
月平均用水量(t)
27
24
21
18
16
13
9
6
3
0
5.画频数分布直方图
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频数(个)
月平均用水量(t)
27
24
21
18
16
13
9
6
3
0
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
频率
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
频率/组距
频率/组距
0.08
0.16
0.3
0.44
0.5
0.28
0.12
0.08
0.04
4.列频率分布表
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
5.画频率分布直方图
思考:各小长方形的面积之和等于多少?
分组 频数累计(划记) 频数
[0, 0.5) 4
[0.5, 1) 正 8
[1, 1.5) 正正正 15
[1.5, 2) 正正正正丅 22
[2, 2.5) 正正正正正 25
[2.5, 3) 正正 14
[3, 3.5) 正 6
[3.5, 4) 4
[4, 4.5] 丅 2
合计 100
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
频率/组距
频率/组距
0.08
0.16
0.3
0.44
0.50
0.28
0.12
0.08
0.04
问题5 总结画频率分布直方图的操作步骤
1.求极差,即数据中最大值与最小值的差
2.决定组距与组数 组数=极差/组距
3.将数据分组, 通常对组内数值所在区间,取左闭右开区间 , 最后一组取闭区间
4.登记频数,计算频率和频率/组距 , 列出频率分布表
5.画出频率分布直方图(纵轴表示频率/组距)
问题6 请同学们尝试以另外的组距重新作图.
同样一组数据,如果组距不同,得到的图的形状也会不同。
问题7 如果当地政府希望使80% 以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
问题8 根据你刚才用另外的组距画的频率分布直观图,对制定月用水量标准提出建议,使80% 以上的居民每月的用水量不超出标准.
同样一组数据,如果组距不同,得到的图的形状也会不同。
不同的形状有时会影响我们对总体的判断。
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
分组
[0, 0.5)
[0.5, 1)
[1, 1.5)
[1.5, 2)
[2, 2.5)
[2.5, 3)
[3, 3.5)
[3.5, 4)
[4, 4.5]
合计
频率
0.04
0.08
0.15
0.22
0.25
0.14
0.06
0.04
0.02
1
问题9 你认为3吨这个标准一定能够保证80%以上的居民用水不超标吗?如果不一定,那么哪些环节可能导致结论的差别?
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
问题10 你能从图中分析出样本的哪些信息?
问题11 你认为频率分布直方图的优缺点是什么?
小结:
频率分布直方图
总体分布
步骤
1.求极差
2.决定组距与组数
3.将数据分组
4.列频率分布表
5.画频率分布直方图
频率分布直方图以面积的形式反映了数据落在各个小组的频率的大小.
估计
用样本的数字特征估计
总体的数字特征(第一课时)
一、众数、中位数、平均数
1、众数 在一组数据中,出现次数最多的数据叫做这一组数据的众数。
2、中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。
3、平均数 (1) x = 1/n(x1+x2+……+xn)
(2) x = x’ +a
(3) x = (x1f1+x2f2+……xkfk)/n
练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:
成绩
(单位:米) 1.50 1.60 1.65 1.70 1.75 1.80 1.85 1.90
人数 2 3 2 3 4 1 1 1
分别求这些运动员成绩的众数,中位数与平均数
 解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
  上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;
 这组数据的平均数是
 答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).
二 、 众数、中位数、平均数与频率分布直方图的关系
1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:
频率分布直方图如下:
月均用水量/t
频率
组距
0.10
0.20
0.30
0.40
0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.03t.
频率分布直方图如下:
月均用水量/t
频率
组距
0.10
0.20
0.30
0.40
0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
说明:
2.03这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.
3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. n 个样本数据的平均数由公式:
X=
给出.下图显示了居民月均用水量的平均数: x=1.973
频率分布直方图如下:
月均用水量/t
频率
组距
0.10
0.20
0.30
0.40
0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
三 众数、中位数、平均数的简单应用
例1. 某工厂人员及工资构成如下:
人员 经理 管理人员 高级技工 工人 学徒 合计
周工资 2200 250 220 200 100
人数 1 6 5 10 1 23
合计 2200 1500 1100 2000 100 6900
(1)指出这个问题中周工资的众数、中位数、平均数
(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?
分析:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。
1.数据:1,1,3,3的众数和中位数分别是 ( )
A.1或3,2 B.3,2
C.1或3,1或3 D.3,3
2.频率分布直方图中最高小矩形的中间位置 ( )
所对的数字特征是
A.中位数 B.众数
C.平均数 D.标准差
练习
3.
4.
5.
2.3.1变量之间的相关关系
.
一、新课准备:
请同学们如实填写下表(在空格中打“√” )
好 中 差
你的数学成绩
你的物理成绩
我们可以发现自己的数学成绩和物理成绩存在某种关系。(似乎就是数学好的,物理也好;数学差的,物理也差,但又不全对。)物理成绩和数学成绩是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数学方法。数学成绩的高低对物理成绩的高低是有一定影响的。但决非唯一因素,还有其它因素,如是否喜欢物理,用在物理学习上的时间等等。(总结:不能通过一个人的数学成绩是多少就准确地断定他的物理成绩能达到多少。但这两个变量是有一定关系的,它们之间是一种不确定性的关系。如何通过数学成绩的结果对物理成绩进行合理估计有非常重要的现实意义。)
现实生活中还存在许多相关关系的问题 :
商品销售与广告、粮食生产与施肥量、人体的脂肪量与年龄等等的相关关系.
如何判断两变量之间的相关关系
1、通过收集大量的数据,进行统计,对数据分析,找出其中的规律,对其相关关系作出一定判断.
.2、由于变量之间相关关系的广泛性和不确定性,所以样本数据应较大,和有代表性.才能对它们之间的关系作出正确的判断.
相关关系的概念
两个变量之间的关系可能是确定的关系(如:函数关系),或非确定性关系。当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系。相关关系是一种非确定性关系。
(分析:两个变量→自变量取值一定→因变量带有随机性→相关关系)
巩固练习
P85 1,2题。
2.3.2两变量的线性相关
探究:
.
年龄
脂肪
23
9.5
27
17.8
39
21.2
41
25.9
45
49
27.5
26.3
50
28.2
53
29.6
54
30.2
56
31.4
57
30.8
年龄
脂肪
58
33.5
60
35.2
61
34.6
如上的一组数据,你能分析人体的脂肪含量与年龄
之间有怎样的关系吗?
从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加”
这一规律.而表中各年龄对应的脂肪数是这个年龄
人群的样本平均数.我们也可以对它们作统计图、
表,对这两个变量有一个直观上的印象和判断.
下面我们以年龄为横轴,
脂肪含量为纵轴建立直
角坐标系,作出各个点,
称该图为散点图。
如图:
O
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
5
10
15
20
25
30
35
40
从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成正相关。
但有的两个变量的相关,如下图所示:
如高原含氧量与海拔高度
的相关关系,海平面以上,
海拔高度越高,含氧量越
少。
作出散点图发现,它们散
布在从左上角到右下角的区
域内。又如汽车的载重和汽
车每消耗1升汽油所行使的
平均路程,称它们成负相关.
O
我们再观察它的图像发现这些点大致分布在一条直线附
近,像这样,如果散点图中点的分布从整体上看大致在
一条直线附近,我们就称这两个变量之间具有线性相
关关系,这条直线叫做回归直线,该方程叫回归方程。
那么,我们该怎样来求出这个回归方程?
请同学们展开讨论,能得出哪些具体的方案?
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
.
.方案1、先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的
和最小时,测出它的斜率和截距,得回归
方程。
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
如图 :
.
方案2、在图中选两点作直线,使直线两侧
的点的个数基本相同。
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
方案3、如果多取几对点,确定多条直线,再求出
这些直线的斜率和截距的平均值作为回归
直线的斜率和截距。而得回归方程。 如图
我们还可以找到
更多的方法,但
这些方法都可行
吗 科学吗?
准确吗?怎样的
方法是最好的?
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
我们上面给出的几种方案可靠性都不是很强,
人们经过长期的实践与研究,已经找到了
计算回归方程的斜率与截距的一般公式:
以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫最小二乘法。(参看如书P89)
练习:书P94A组1、3
作业:P94A组2