(共19张PPT)
抽样方法(一)--简单随机抽样
高一数学组
如何用样本情况估计总体情况?
提出总体、个体、样本、样本容量等念。
介绍如何用样本平均数去估计总体平数。
《统计初步》知识框架图:
数理统计所要解决的问题是如何根据样本来推
断总体,第一个问题就是如何采集样本,只有合理科学地采集样本,然后才能作出客观的统计推断。
问题的提出
一个口袋里有6个球,依次逐个取出2个球.
引例:
简单随机抽样
(1)第一次抽取时,其中任意一个球被抽到的概率是多少 第二次抽取时,其中任意一个球被抽到的概率是多少 …
注意以下点:
(1)它要求被抽取样本的总体的个体数有限;
(2)它是从总体中逐个进行抽取;
(3)它是一种不放回抽样;
(4)它是一种等概率抽样。
简单随机抽样是在特定总体中抽取样本,总体中每一个体被抽取的可能性是等同的,而且任何个体之间彼此被抽取的机会是独立的。如果用从个体数为N的总体中抽取一个容量为n的样本,那么每个个体被抽取的概卒等于 .
N
n
一般地,设一个总体的个体数为N,如果通过逐个不放回地抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。
简单随机抽样
1、抽签法(抓阄法)
先将总体中的所有个体(共N个)编号(号码可以从1到N),并把号码写在形状、大小相同的号签上( 号签可以用小球、卡片、纸条等制作),然后将这些号签放在同一个箱子里,进行均匀搅拌。抽签时,每次从中抽出1 个号签,连续抽取n次,就得到一个容量为n的样本。对个体编号时,也可以利用已有的编号。例如学生的学号,座位号等。
抽签法的步骤:
1、把总体中的N个个体编号(从1到N标号);
2、 把号码写在号签上,将号签放在一个容器中搅拌均匀;
3、每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本。
将全班同学按学号编号,制作相应的卡片号签,放入同一个箱子里均匀搅拌,从中抽出15个号签,就相应的15名学生对看足球比赛的喜爱程度(很喜爱、喜爱、一般、不喜爱、很不喜爱 )进行调查。分析并说明整个抽签过程中每个同学被抽到的概率是相等的。
练习:
2、用随机数表法进行抽取
(1)随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是等可能出现的。
(3)用随机数表抽取样本,可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。因此并不是唯一的.
(2)用随机数表进行抽样的步骤:将总体中个体编号;选定开始的数字;获取样本号码。
(4)由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的。
将全班同学按学号编号,制作相应的卡片号签,放入同一个箱子里均匀搅拌,从中抽出15个号签,就相应的15名学生对看足球比赛的喜爱程度(很喜爱、喜爱、一般、不喜爱、很不喜爱)进行调查。
上述问题中抽取样本的方法用随机数表法来进行!
规则1:从104页表中第3行第11列的两位数开始,依次向下读数,到头后再转向它左面的两位数号码,并向上读数,以此下去,直到取足样本。
练习:
规则2:从104页表中第12行第10列的两位数开始,依次向左读数,到头后再转向它下面的两位数号码,并向右读数,以此下去,直到取足样本。
(2)要抽样了解某年参加高考考生的语文考试成绩,我们可以
提出问题
(1)一个礼堂有30排座位,每排有40个座位。一次报告会礼堂坐满了听众。会后为听取意见留下了座位号为20的30名听众进行座谈。这里选用了哪种抽取样本的方法?写出抽取过程。
①按照科目分类:文科、理科、艺术、体育和外语五个层次。
②按照地区分类:大城市、中等城市、城镇、乡镇四个层次。
③按照学校分类:重点、非重点两个层次。
为了了解高一年级12000名学生的数学成绩,需要抽取容量为120的样本,请用合适的方法抽取.
解:(1)对全体学生的数学成绩进行编号:1,2,3……,12000.
(2)分段:由于样本容量与总体容量的 比是1:100,我们将总体平均分为100个部分,其中每一部分包含100个个体.
(3)在第一部分即1号到100号用简单随机抽样,抽取一个号码,比如是50.
(4)以50作为起始数,,然后顺序抽取150,250,350,…..11950.这样就得到容量为100的一个样本.
由于每排的座位有40个,各排每个号码被抽取的概率都是,
第1排被抽取前,其他各排中各号码被抽取概率也是 ,也就是
说被抽取的概率是 ,每排的抽样也是简单随机抽样,因此这种
抽样的方法是系统抽样。
(1)一个礼堂有30排座位,每排有40个座位。一次报告会礼堂坐满了听众。会后为听取意见留下了座位号为20的30名听众进行座谈。这里选用了哪种抽取样本的方法?写出抽取过程。
当总体的个数较多时,采用简单随机抽样太麻烦,这时将总体分成均衡的部分,然后按照预先定出的规则,从每一部分中抽取1个个体,得到所需要的样本,这种抽样称为系统抽样。
2.系统抽样
系统抽样的步骤为:
(1)先将总体中的N个体编号.有时可直接利用个体自身所带的号码.
(2)确定分段间隔k。对编号均衡地分段,
是整数时, ;
不是整数时,从N中剔除一些个体,使得其为整数为止。
(3)第一段用简单随机抽样确定起始号码l。
(4)按照规则抽取样本:l;l+k;l+2k;……l+nk
系统抽样时,将总体中的个体均分后的每一段进行抽样时,采用简单随机抽样;系统抽样每次抽样时,总体中各个个体被抽取的概率也是相等的;如总体的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行。需要说明的是整个抽样过程中每个个体被抽到的概率仍然相等。
例2、一个单位的职工有500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取?
分析:这总体具有某些特征,它可以分成几个不同的部分:不到35岁;35~49岁;50岁以上,把每一部分称为一个层,因此该总体可以分为3个层。由于抽取的样本为100,所以必须确定每一层的比例,在每一个层中实行简单随机抽样。
解:抽取人数与职工总数的比是100:500=1:5,则各年龄段(层)的职工人数依次是125:280:95=25:56:19,然后分别在各年龄段(层)运用简单随机抽样方法抽取。
答:在分层抽样时,不到35岁、35~49岁、50岁以上的三个年龄段分别抽取25人、56人和19人。
分层抽样的实施步骤:
(2)根据总体中的个体数N与样本容量n确定抽样比:k=
(3)确定各层应该抽取的个体数。各层的抽取数之和应等于样本容量。对于不能取整的数,求其近似值。
(4)按(3)中确定的数目在各层中随机抽取个体,合在一起得到容量为n的样本.
(1) 根据已有信息,将总体分成互不相交的层;
(1)分层抽样适用于总体由差异明显的几部分组成的情况,每一部分称为层,在每一层中实行简单随机抽样。这种方法较充分地利用了总体己有信息,是一种实用、操作性强的方法。而且更具代表性。
(2)分层抽样的一个重要问题是总体如何分层,分多少层,这要视具体情况而定。总的原则是:层内样本的差异要小,而层与层之间的差异尽可能地大,否则将失去分层的意义。
注:
分层抽样的抽取步骤:
(1)总体与样本容量确定抽取的比例。
(2)由分层情况,确定各层抽取的样本数。
(3)各层的抽取数之和应等于样本容量。
(4)对于不能取整的数,求其近似值。
4.三种抽样方法的比较(共26张PPT)
统 计
统计的基本思想方法:
用样本估计总体,即通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.
统计的核心问题:
如何根据样本的情况对总体的情况作出一种推断. 这里包括两类问题:
一类是如何从总体中抽取样本
另一类是如何根据对样本的整理、计算、分析, 对总体的情况作出推断.
用样本的有关情况去估计总体的相应情况,
这种估计大体分为两类,一类是用样本频率分
布估计总体分布,一类是用样本的某种数字特
征(例如平均数、方差等)去估计总体的相应
数字特征。
整体介绍:
将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。
频率:每组数据的个数除以全体数据个数的商叫做该组的频率。
根据随机抽取样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。
说明:样本频率分布与总体频率分布 有什么关系?
通过样本的频数分布、频率分布可以
估计总体的频率分布.
如何用样本的频率分布
估计总体分布?
我国是世界上严重缺水的国家之一,
城市缺水问题较为突出。
2000年全国主要城市中缺水情况排在前10位的城市
例1:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a的部分按平价收费,超过a的部分按议价收费。
①如果希望大部分居民的日常生活不受影响,那 么标准a定为多少比较合理呢?
②为了较合理地确定这个标准,你认为需要做
哪些工作?
思考:由上表,大家可以得到什么信息?
通过抽样,我们获得了100位居民某年的月平均用 水量(单位:t) ,如下表:
1.求极差:
步骤:
频率分布直方图
2.决定组距与组数:
组数=
4.3 - 0.2 = 4.1
4.1
0.5
= 8.2
组距
极差
=
3.将数据分组
[0,0.5 ),[0.5,1 ),…,[4,4.5]
4.列频率分布表
100位居民月平均用水量的频率分布表
频率/组距
月平均用水量/t
0.50
0.40
0.30
0.20
0.10
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5
5.画频率分布直方图
探究:
同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。分别以1和0.1为组距重新作图,然后谈谈你对图的印象。
一、求极差,即数据中最大值与最小值的差
二、决定组距与组数 :组距=极差/组数
三、分组,通常对组内数值所在区间,
取左闭右开区间 , 最后一组取闭区间
四、登记频数,计算频率,列出频率分布表
画一组数据的频率分布直方图,可以按以下的步骤进行:
五、画出频率分布直方图(纵轴表示频率/组距)
练 习
1.有一个容量为50的样本数据的分组的频数如下:
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少
解:组距为3
分组 频数 频率 频率/ 组距
[12.5, 15.5) 3
[15.5, 18.5) 8
[18.5, 21.5) 9
[21.5, 24.5) 11
[24.5, 27.5) 10
[27.5, 30.5) 5
[30.5, 33.5) 4
0.06
0.16
0.18
0.22
0.20
0.10
0.08
0.020
0.053
0.060
0.073
0.067
0.033
0.027
频率分布直方图如下:
频率
组距
0.010
0.020
0.030
0.040
0.050
12.5
15.5
0.060
0.070
例2、为了了解一大片经济林的生长情况,随机测量其中的100株的底部周长,得到如下数据表(长度单位:cm):
135 98 102 110 99 121 110 96 100 103
125 97 117 113 110 92 102 109 104 112
109 124 87 131 97 102 123 104 104 128
105 123 111 103 105 92 114 108 104 102
129 126 97 100 115 111 106 117 104 109
111 89 110 121 80 120 121 104 108 118
129 99 90 99 121 123 107 111 91 100
99 101 116 97 102 108 101 95 107 101
102 108 117 99 118 106 119 97 126 108
123 119 98 121 101 113 102 103 104 108
(1)编制频率分布表;(2)绘制频率分布直方图;
(3)估计该片经济林中底部周长小于100cm的树木 约占多 少,周长不小于120cm的树木约占多少。
解:
(1)从表中可以看出:
这组数据的最大值为135,最小值为80,
故极差为55,
可将其分为11组,组距为5。
从第1组[80,85)开始,
将各组的频数、频率和 频率/组距 填入表中
80
85
90
95
135
110
115
120
125
130
100
105
3.已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是 ( )
A. 5.5~7.5 B. 7.5~9.5 C. 9.5~11.5 D. 11.5~13.5
分组 频数 频率 频数累计
5.5~7.5 2 0.1 2
7.5~9.5 6 0.3 8
9.5~11.5 8 0.4 16
11.5~13.5 4 0.2 20
合计 20 1.0
D
4.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.
分组 频数 频率 频率累计
[12,15) 6
[15,18) 0.08
[18,21) 0.30
[21,24) 21
[24,27) 0.69
[27,30) 16
[30,33) 0.10
[33,36] 1.00
合计 100 1.00
课堂小结
编制频率分布直方图的步骤:
①找最大值与最小值。
②决定组距与组数
③决定分点
④登记频数,计算频率,列表,画直方图
说明:(1)确定分点时,使分点比数据多一位小数,并且把第1小组的起点稍微再小一点.
例:已知一个样本,填写下面的频率分布表
7.0 6.6 6.8 7.0 7.2 7.4 7.0 7.3 7.5 7.4
7.3 7.1 7.0 6.9 6.7 7.1 7.2 7.0 6.9 7.1
分 组 频数累计 频数 频率
6.55~6.75
6.75~6.95
6.95~7.15
7.15~7.35
7.35~7.55
合 计
小结:
思考 :
如果当地政府希望使 85% 以上的居民每月的用水量不超出标准,根据频率分布表和频率分布直方图,你能对制定月用水量标准提出建议吗?
频率分布直方图
应用
步骤
1.求极差
2.决定组距与组数
3.将数据分组
4.列频率分布表
5.画频率分布直方图(共17张PPT)
2.2.2 用样本的数字特征估计总体的数字特征
平均数向我们提供了样本数据的重要信息,但是平均有时也会使我们作出对总体的片面判断.因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽的.因此,只有平均数还难以概括样本数据的实际状态.
如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
如果你是教练,你应当如何对这次射击作出评价
如果看两人本次射击的平均成绩,由于
两人射击 的平均成绩是一样的.那么两个人的水平就没有什么差异吗
2.标准差
4
5
6
7
8
9
10
环数
频率
0.1
0.2
0.3
(甲)
4
5
6
7
8
9
10
0.1
0.2
0.3
0.4
环数
频率
(乙)
直观上看,还是有差异的.如:甲成绩比较分散,乙成绩
相对集中(如图示).因此,我们还需要从另外的角度来考察这两组数据.例如:在作统计图,表时提到过的极差.
甲的环数极差=10-4=6
乙的环数极差=9-5=4.
它们在一定程度上表明了样本数据的分散程度,与平均数一起,可以给我们许多关于样本数据的信息.显然,极差对极端值非常敏感,注意到这一点,我们可以得到一种“去掉一个最高分,去掉一个最低分”的统计策略.
考察样本数据的分散程度的大小,最常用的统计量是标准差.
标准差是样本平均数的一种平均距离,一般用s表示.
所谓“平均距离”,其含义可作如下理解:
由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差.
显然,标准差越大,则a越大,数据的离散程度越大; 标准差越小,数据的离散程度越小.
a
一个样本中的个体与平均数之间的距离关系可用下图表示:
考虑一个容量为2的样本:
用计算器可算出甲,乙两人的的成绩的标准差
上面两组数据的离散程度与标准差之间的关系可用图直观地表示出来.
4
5
6
7
8
9
10
由 可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.
例题1:计算下列数据的平均数与标准差并画出下列四组样本数据的直方图,说明它们的异同点.
(1) 5, 5, 5, 5, 5, 5, 5, 5, 5;
(2) 4, 4, 4, 5 , 5, 5, 6, 6, 6;
(3) 3 , 3 , 4 , 4 , 5, 6 , 6, 7 , 7;
(4) 2 , 2 , 2 , 2, 5 , 8 , 8 , 8 , 8 ;
解:四组样本数据的直方图是:
频率
o
1
2
3
4
5
6
7
8
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
S=0.00
(1)
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1
2
3
4
5
6
7
8
频率
o
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
S=1.49
(2)
频率
o
1
2
3
4
5
6
7
8
S=0.82
频率
o
1
2
3
4
5
6
7
8
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
S=2.83
四组数据的平均数都是5.0,标准差分别是 0.00, 0.82, 1.49, 2.83.
虽然它们有相同的平均数,但是它们有不同的标准差,说明数据的分散程度是不一样的.
标准差还可以用于对样本数据的另外一种解释.例如,在关于居民月均用水量的例子中,平均数
标准差s=0.868 ,所以
例2 甲乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm)
甲 25.46, 25.32, 25.45, 25.39, 25.36
25.34, 25.42, 25.45, 25.38, 25.42
25.39, 25.43, 25.39, 25.40, 25.44
25.40, 25.42, 25.35, 25.41, 25.39
乙 25.40, 25.43, 25.44, 25.48, 25.48
25.47, 25.49, 25.49, 25.36, 25.34
25.33, 25.43, 25.43, 25.32, 25.47
25.31, 25.32, 25.32, 25.32, 25.48
从生产的零件内径的尺寸看,谁生产的质量较高
分析:每一个工人生产的所有零件的内径尺寸组成一个总体,
由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.00mm的差异在时质量低,差异小时质量高;当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样比较两人的生产质量只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可.但是这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样体数据,然后比较这两个样本的平均数,标准差,以此作为两个总体之间的估计值.
解:用计算器计算可得:
从样本平均数看,甲生产的零件内径比乙生产的更接近内径标准(25.40mm),但是差异很小;从样本标准差看,由于:
从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与我们抽取的内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本(为什么 ).这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数,标准差等都会发生改变,这就会影响到我们对总体情况的估计.如果样本的的代表性差,那么对总体所作出的估计就会产生偏差;样本没有代表性时,对总体作出错误估计的可能性就非常大.这也正是我们在前面讲随机抽样时反复强调样本代表性的理由.在实际操作中,为了减少错误的发生,条件许可时,通常采取适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.(共26张PPT)
(2)
1、求极差(即一组数据中最大值与最小值的差)
知道这组数据的变动范围4.3-0.2=4.1
2、决定组距与组数(将数据分组)
3、 将数据分组(8.2取整,分为9组)
复习:画频率分布直方图的步骤
4、列出频率分布表.(学生填写频率/组距一栏)
5、画出频率分布直方图。
组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组。
频率分布直方图如下:
月均用水量/t
频率
组距
0.10
0.20
0.30
0.40
0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图
利用样本频分布对总体分布进行相应估计
(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线——总体密度曲线。
(2)样本容量越大,这种估计越精确。
(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?
总体密度曲线
频率
组距
月均用水量/t
a
b
(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。
用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。
总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.
总体密度曲线
茎叶图
某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:
(1)甲运动员得分:
13,51,23,8,26,38,16,33,14,28,39
(1)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39
茎叶图
甲
乙
0
1
2
3
4
5
2 5
5 4
1 6 1 6 7 9
4 9
0
8
4 6 3
6 8
3 8 9
1
叶就是从茎的旁边生长出来的数,表示得分的个位数。
茎是指中间的一列数,表示得分的十位数
茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。
从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。
在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。
第一课时
众数、中位数、平均数
2.2.2 用样本的数字特征估计总体的数字特征
一 众数、中位数、平均数的概念
中数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.
平均数: 一组数据的算术平均数,即
x=
练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:
成绩(单位:米) 1.50 1.60 1.65 1.70 1.75 1.80 1.85 1.90
人数 2 3 2 3 4 1 1 1
分别求这些运动员成绩的众数,中位数与平均数
平均数: 一组数据的算术平均数,即
x=
解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;
这组数据的平均数是
答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米).
二 、 众数、中位数、平均数与频率分布直方图的关系
1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:
频率
组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.03t.
频率
组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
说明:
2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.
3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. n 个样本数据的平均数由公式:
X=
给出.下图显示了居民月均用水量的平均数: x=1.973
频率
组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
三 三种数字特征的优缺点
1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.
2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。
3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。
四 众数、中位数、平均数的简单应用
例 某工厂人员及工资构成如下:
人员 经理 管理人员 高级技工 工人 学徒 合计
周工资 2200 250 220 200 100
人数 1 6 5 10 1 23
合计 2200 1500 1100 2000 100 6900
(1)指出这个问题中周工资的众数、中位数、平均数
(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?
分析:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。
练习:P76
作业:P84 3(共12张PPT)
2.3.2 两个变量的线性关系
.
复习引入:
1、前面我们学习了现实生活中存在许多相关关系:商品销售与广告、粮食生产与施肥量、人体的脂肪量与年龄等等的相关关系.
2、通过收集大量的数据,进行统计,对数据分析,找出其中的规律,对其相关关系作出一定判断.
3、由于变量之间相关关系的广泛性和不确定性,所以样本数据应较大,和有代表性.才能对它们之间的关系作出正确的判断.
探究:
.
年龄
脂肪
23
9.5
27
17.8
39
21.2
41
25.9
45
49
27.5
26.3
50
28.2
53
29.6
54
30.2
56
31.4
57
30.8
年龄
脂肪
58
33.5
60
35.2
61
34.6
如上的一组数据,你能分析人体的脂肪含量与年龄
之间有怎样的关系吗?
从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加” 这一规律.而表中各年龄对应的脂肪数是这个年龄 人群的样本平均数.我们也可以对它们作统计图、 表,对这两个变量有一个直观上的印象和判断.
下面我们以年龄为横轴,脂肪含量为纵轴建立直
角坐标系,作出各个点,称该图为散点图。
如
图:
65
O
20
25
30
35
40
45
50
55
60
年龄
脂肪含量
5
10
15
20
25
30
35
40
年龄越大,体内脂肪含量越高,
点的位置散布在从左下角到
右上角的区域。
称它们成正相关
但有的两个变量的相关,如下图所示:
如高原含氧量与海拔高度
的相关关系,海平面以上,
海拔高度越高,含氧量越
少。
作出散点图发现,它们散
布在从左上角到右下角的区
域内。又如汽车的载重和汽
车每消耗1升汽油所行使的
平均路程,称它们成负相关.
O
我们再观察刚才两个散点图还有什么特征:
这些点大致分布在一条直线附近,
像这样如果散点图中的点分布从整体上看大致在
一条直线附近我们就称这两个变量之间具有线性
相关关系,这条直线叫做回归直线,
这条直线的方程叫做回归方程
那么,我们该怎样来求出这个回归方程?请同学们展开讨论,能得出哪些具体的方案?
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
.
方案1、先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小时,测出它的斜率和截距,得回归方程。
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
如
图
.
方案2、在图中选两点作直线,使直线两侧 的点的个数基本相同。
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
方案3、如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值作为回归直线的斜率和截距。而得回归方程。 如图:
我们还可以找到
更多的方法,但
这些方法都可行
吗 科学吗?
准确吗?怎样的
方法是最好的?
20
25
30
35
40
45
50
55
60
65
年龄
脂肪含量
0
5
10
15
20
25
30
35
40
我们把由一个变量的变化
去推测另一个变量的方法
称为回归方法。
我们上面给出的几种方案可靠性都不是很强,
人们经过长期的实践与研究,已经找到了
计算回归方程的斜率与截距的一般公式:
以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫最小二乘法。(共11张PPT)
2、回归直线方程
(1)回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线。
(2)最小二乘法
A、定义;B、正相关、负相关。
一、复习: 1、散点图
一、相关关系的判断
例1:5个学生的数学和物理成绩如下表:
A B C D E
数学 80 75 70 65 60
物理 70 66 68 64 62
画出散点图,并判断它们是否有相关关系。
解:
数学成绩
由散点图可见,两者之间具有正相关关系。
小结:用Excel作散点图的步骤如下 : (结合软件边讲边练)
(1)进入Excel,在A1,B1分别输入“数学成绩”、“物理成绩”,在A、B列输入相应的数据。
(2)点击图表向导图标,进入对话框,选择“标准类型”中的“XY散点图”,单击“完成”。
(3)选中“数值X轴”,单击右键选中“坐标轴格式”中的“刻度”,把“最小值”、“最大值”、“刻度主要单位”作相应调整,最后按“确定”。y轴方法相同。
二、求线性回归方程
例2:观察两相关变量得如下表:
x -1 -2 -3 -4 -5 5 3 4 2 1
y -9 -7 -5 -3 -1 1 5 3 7 9
求两变量间的回归方程
解1:
列
表
i 1 2 3 4 5 6 7 8 9 10
-1
-9
9
-2
-7
14
-3
-5
15
- 4
-3
12
-5
-1
5
5
1
5
3
5
15
4
3
12
2
7
14
1
9
9
解1:
列
表
i 1 2 3 4 5 6 7 8 9 10
计算得:
-1
-9
9
-2
-7
14
-3
-5
15
- 4
-3
12
-5
-1
5
5
1
5
3
5
15
4
3
12
2
7
14
1
9
9
∴所求回归直线方程为 y=x
^
小结:求线性回归直线方程的步骤:
第一步:列表
第二步:计算
第三步:代入公式计算b,a的值;
第四步:写出直线方程。
例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:
摄氏温度 -5 0 4 7 12 15 19 23 27 31 36
热饮杯数 156 150 132 128 130 116 104 89 93 76 54
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间关系的一
般规律;
(3)求回归方程;
(4)如果某天的气温是 C,预测这天卖出的热饮杯数。
三、利用线性回归方程对总体进行估计
解: (1)散点图
(2)气温与热饮杯数成负相关,即气温越高, 卖出去的热饮杯数越少。
温度
热饮杯数
(3)从散点图可以看出,这些点大致分布在一条直线附近。
Y=-2.352x+147.767
^
(4)当x=2时,y=143.063,因此,这天大约可以卖出143杯热饮。
^