(共103张PPT)
2.2 用样本估计总体
2.2.1-1 用样本的频率分布估计总体分布
2.2.2-3 用样本的数字特征估计总体的数字特征
2.2.1-2 用样本的频率分布估计总体分布
2.2.2-1 用样本的数字特征估计总体的数字特征
2.2.2-2 用样本的数字特征估计总体的数字特征
2.2用样本估计总体
2.2.1 用样本的频率分布估计总体分布(1)
复习
1.随机抽样有哪几种基本的抽样方法?
2.简述三种随机抽样方法的操作步骤.
简单随机抽样、系统抽样、分层抽样.
探究:我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?你认为,为了较为合理地确定出这个标准,需要做哪些工作?
如果标准太高,会影响居民正常生活;如果标准太低,则不利于节水.为了确定一个较为合理的标准,必须先了解全市居民日常用水量分布情况.
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t):
我们很难从随意记录的数据中直接看出规律,为此,我们要对数据进行整理与分析.
分析数据的方法:
1、用图将它们画出来,
2、用紧凑的表格改变数据的排列方式.
目的:一是从数据中提取信息,二是利用图形传递信息.
目的:通过改变数据的构成形式,为我们提供解释数据的新方式.
例如上述100个数据中的最小值和最大值分别是
0.2 4.3
1、求极差(样本数据中的最大值和最小值的差称为极差).
由此说明样本数据的变化范围是
4.3-0.2=4.1
分析数据的具体做法:
2、决定组距与组数.
组距与组数没有固定标准,常常需要一个尝试和选择的过程.将数据分组时组数应力求合适,太多或太少,都会影响我们对数据分布情况的了解.
数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据多少,常分为5-12组.
为方便起见,组距的选择应力求“取整”.
例如将上述100个数据按组距为0.5进行分组,那么这些数据共分为
(4.3-0.2)÷0.5=8.2
所以以组距为0.5进行分组,上述100个数据共分为9组.
设k=极差÷组距,若k为整数,则组数=k,否则,组数=k+1
例如以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?
4、列频率分布表
[0,0.5),[0.5,1),[1,1.5),
…,[4,4.5].
3、将数据进行分组
频数=样本数据落在各小组内的个数,
频率=频数÷样本容量.
分 组 频数累计 频数 频率
[0,0.5) 4 0.04
[0.5,1) 正 8 0.08
[1,1.5) 正 正 正 15 0.15
[1.5,2) 正 正 正 正 22 0.22
[2,2.5) 正 正 正 正 正 25 0.25
[2.5,3) 正 正 14 0.14
[3,3.5) 正 一 6 0.06
[3.5,4) 4 0.04
[4,4.5] 2 0.02
合计 100 1.00
100位居民月均用水量的频率分布表
上表称为样本数据的频率分布表.
为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
5、画频率分布直方图
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
宽度:组距
高度:
频率
组距
上图称为频率分布直方图,其中横轴表示月均用水量,纵轴表示频率/组距. 频率分布直方图中各小长方形的宽度和高度在数量上有何特点?
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
宽度:组距
高度:
频率
组距
频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和为多少?
各小长方形的面积之和=1
小长方形的面积=组距× =频率
频率
组距
用样本的频率分布估计总体的频率分布.
由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?
讨论:频率分布直方图非常直观地表明了样本数据的分布情况,请根据频率分布直方图指出居民月均用水量的一些数据特点.
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
1、居民月均用水量的分布是“山峰”状的,而且是“单峰”的;
3、大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少.
2、居民月均用水量的分布有一定的对称性;
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
现实中,许多数据的分布都是单峰且对称的,如身高、体重、考试成绩、农作物产量、某种特定型产品的各种质量指标、股票价格等.
频率分布直方图的特征:
1.从频率分布直方图可以清楚的看出数据分布的总体趋势.
2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.
总结:频率分布直方图的作图步骤.
第一步,画平面直角坐标系.
第二步,在横轴上均匀标出各组分点,在纵轴上标出频率/组距.
第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形,各小长方形的面积表示相应各组的频率.
探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以0.1和1为组距重新作图,然后谈谈你对图的印象.
小结
4、我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.
3、通过作图既可以从数据中提取信息,又可以利用图形传递信息.
1、什么是频率分布表和频率分布直方图?
2、作频率分布表和频率分布直方图的步骤.
布置作业:
P71练习:1.(1).
P81习题2.2A组:2.
2.2.1 用样本的频率分布估计总体分布(2)
复习
1.频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:
第一步,求极差
第二步,决定组距与组数
第三步,将数据分组
第四步,列频率分布表
第五步,画频率分布直方图
2.频率分布直方图中横轴表示月均用水量,纵轴表示频率/组距.这些小长方形的宽、高和面积在数量上分别表示
3.我们可以用样本数据的频率分布表和频率分布直方图估计总体的频率分布.
组距、频率除以组距、频率.
思考:如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布直方图,你能对制定月用水量标准提出建议吗?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
从图中可以看出,月用水量在3t以上的居民所占的比例为6%+4%+2%=12%,即大约有12%的居民月用水量在3t以上,88%的居民月用水量在3t以下.因此,居民月用水量标准定为3t是一个可以考虑的标准.
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
讨论:3t这个标准一定能够保证85%以上的居民用水不超标吗?如果不一定,那么哪些环节可能会导致结论的差别?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
类似于频数分布折线图,在频率分布直方图中,依次连接各小长方形上端的中点,就得到频率分布折线图.
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
你认为频率分布折线图能大致反映样本数据的频率分布吗?
尝试:当总体中的个体数较多时,抽样时样本容量就不能太小(如抽样调查一个省乃至全国居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
月均用水量/t
频率
组距
a b
O
随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图越来越接近于一条光滑曲线.
月均用水量/t
频率
组距
a b
O
统计中称这条光滑曲线为总体密度曲线.
总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.
月均用水量/t
频率
组距
a b
O
统计中称这条光滑曲线为总体密度曲线.
总体在区间(a,b)内取值的百分比.
图中阴影部分的面积有何实际意义?
当总体中的个体数比较少或样本数据不密集时,不存在总体密度曲线,因为组距不能任意缩小.
思考:对于任何一个总体,它的密度曲线是不是一定存在?为什么?
实际上,尽管存在总体密度曲线,但在实际应用中需要用样本来估计.由于样本是随机的,不同的样本得到的频率分布折线图不同;即便对于同一样本,不同的分组情况得到的频率分布折线图也不同.这条曲线并不惟一,所以不能通过样本数据准确地画出总体密度曲线.
思考:对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什么?
频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.
例:某赛季甲、乙两名篮球运动员每场比赛的得分情况如下: 甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
用茎叶图表示,如下图:
甲
乙
8
4 6 3
3 6 8
3 8 9
1
0
1
2
3
4
5
5
4
6 1 6 7 9
9
0
用茎叶图表示,如下图:
甲
乙
8
4 6 3
3 6 8
3 8 9
1
0
1
2
3
4
5
5
4
6 1 6 7 9
9
0
对比数据与茎叶图,说明茎叶图与数据是怎样对应的.
茎叶图也是表示样本数据分布情况的一种方法.
用茎叶图表示,如下图:
甲
乙
8
4 6 3
3 6 8
3 8 9
1
0
1
2
3
4
5
5
4
6 1 6 7 9
9
0
“茎”指的是中间的一列数,表示得分的十位数; “叶”指的是从茎的旁边生长出来的数,分别表示两人得分的个位数.
用茎叶图表示,如下图:
甲
乙
8
4 6 3
3 6 8
3 8 9
1
0
1
2
3
4
5
5
4
6 1 6 7 9
9
0
你能通过该图说明哪个运动员的发挥更稳定吗?
讨论:画出一组样本数据的茎叶图的步骤如何?
第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;
第二步,茎是中间的一列数,按从小到大的顺序排列;
第三步,将各个数据的叶按大小次序写在茎右(左)侧.
思考:用茎叶图表示数据的分布情况有哪些优点?
(1)所有原始数据都可以从图中得到,没有损失样本信息;
(2)数据可以随时记录、添加或修改.
思考:对任意一组样本数据,是否都适合用茎叶图表示?适合什么情况?
不适合样本容量很大或茎、叶不分明的样本数据.适合样本数据较少的情况.
便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰.
小结
1、总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布 .
2、总体密度曲线可看成是函数的图象,对一些特殊的密度曲线,其函数解析式是可求的.
3、总体的分布分两种情况:当总体中的个体取值很少时,可用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图 .
布置作业:
P71练习:3.
P81习题2.2 A组:
1.(1)(2)(3).
2.2.2 用样本的数字特征估计总体的数字特征(1)
1、对一个未知总体,我们常用样本的频率分布估计总体的分布,其中表示样本数据的频率分布的基本方法有哪些?
复习
频率分布表、频率分布直方图、总体密度曲线、茎叶图
2、它们各自的优缺点,适用范围是什么?
探究:⑴怎样将各个样本数据汇总为一个数值,并使它成为样本数据的“中心点”?
⑵你能否用一个数值来描写样本数据的离散程度?
在初中我们学过众数、中位数和平均数的概念,这些数字都能够为我们提供关于样本数据的特征信息.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
怎样从频率分布直方图中求众数、中位数和平均数?
在初中我们学过众数、中位数和平均数的概念,这些数字都能够为我们提供关于样本数据的特征信息.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
众数:取最高矩形下端中点的横坐标2.25t作为众数的估计值.
它说明,该市的月均用水量为2.25t的居民数比月均用水量为其它值的居民数多,但没告诉
我们多多少.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
在城市居民月均用水量样本数据的频率分布直方图中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,中位数左右两边的直方图面积应该相等.由此可以估计中位数的值.
0.5-0.04-0.08-0.15-0.22=0.01,0.5×0.01÷0.25=0.02,中位数是2.02.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?
0.25,0.75,1.25,1.75,2.25,
2.75,3.25,3.75,4.25.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
0.25,0.75,1.25,1.75,2.25,
2.75,3.25,3.75,4.25.
将频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和,就是样本数据的估值平均数. 由此估计总体的平均数是什么?
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
0.25,0.75,1.25,1.75,2.25,
2.75,3.25,3.75,4.25.
0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25× 0.06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25× 0.06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02.
平均数与中位数相等,是必然还是巧合?
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25× 0.06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02.
2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中的原因吗?
同样从居民月均用水量样本数据可知,该样本的众数是2.3,平均数是1.973,这与我们从样本频率分布直方图得出的结论也有偏差,你能解释一下原因吗?
频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.
在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征,但结论可能会有所偏差.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
下图显示,大部分居民的月均用水量在中部(2.02t左右),但也有少数居民的月均用水量特别高.显然,对这部分居民的用水作出限制是非常合理的.
讨论:众数、中位数、平均数各自的优缺点.
一组数据的中位数一般不受少数几个极端值的影响,并且样本数据收集有个别差错不影响中位数,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点.
众数很容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.
任何一个样本数据的改变都会引起平均数的改变,所以平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
探究:“用数据说话”,是我们经常可以听到的一句话.但是,数据有时候也会被利用.例如,一个企业中,绝大多数是一线的工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入可以达到几十万.
你认为“我们单位的收入水平比别的单位高”这句话应当如何解释?
这句话具有模糊性甚至欺骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.
平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值.
样本数据的极端值不影响中位数和众数;大学毕业生凭工资中位数或众数找单位可能收入较低.
练习:农场种植的甲乙两种水稻,在面积相等的两块稻田中连续六年的年平均产量如下(单位:500g):
哪种水稻的产量比较稳定?
品种 第1年 第2年 第3年 第4年 第5年 第6年
甲 900 920 900 850 910 920
乙 890 960 950 850 860 890
小组合作:假设你是一名交通部门的工作人员,你打算向市长报告国家对本市26个公路项目投资的平均资金数额,其中一条新公路的投资为2000万人民币,另外25个项目的投资是20-100万元.中位数是25万元,平均数是100万元,众数是20万元.你会选择哪一种数字特征来表示国家对每一个项目投资的平均金额?你选择这种数字特征的缺点是什么?请准备一篇发言稿.
小结
1、用样本的数字特征估计总体的数字特征,是指用样本的众数、中位数、平均数等统计数据,估计总体相应的统计数据.
2、样本的众数、中位数、平均数等统计数据各自的含义以及怎样从频率分布表和频率分布直方图中得到这些信息.
布置作业
P79练习:2,3.
2.2.2 用样本的数字特征估计总体的数字特征(2)
比较下列两组数据,你觉得哪一组数据比较稳定?
A组:0、10、5、
B组:4、6、5、
5、5、5、5、5、5、5;
3、7、2、8、1、9、5.
平均数向我们提供了样本数据的重要信息,但是,平均数有时也会使我们作出对总体的片面判断.
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
如果你是教练,你应当如何对这次射击情况作出评价?如果这是一次选拔性考核,你应当如何作出选择?
甲、乙两人本次射击的平均成绩分别为:
甲、乙两人射击的平均成绩是一样的,那么是否两个人的水平就没有什么差异呢?
环数
频率
0.4
0.3
0.2
0.1
4 5 6 7 8 9 10
O
(甲)
环数
频率
0.4
0.3
0.2
0.1
4 5 6 7 8 9 10
O
(乙)
从上面两图来看,还是有差异的.甲的成绩比较分散,乙的成绩相对集中.
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.
观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?
环数
频率
0.4
0.3
0.2
0.1
4 5 6 7 8 9 10
O
(甲)
环数
频率
0.4
0.3
0.2
0.1
4 5 6 7 8 9 10
O
(乙)
在作统计图、表时提到过的极差,甲的极差=10-4=6,乙的极差=9-5=4,他们在一定程度上表明了样本数据的分散程度.
显然,极差对极端值非常敏感.
注意到极差对极端值非常敏感,我们可以得到一种“去掉一个最高分,去掉一个最低分”的统计策略.
考察样本数据的分散程度的大小,最常用的统计量是标准差.
标准差是样本数据到平均数的一种平均距离,一般用s表示.
假设样本数据x1,x2,…,xn, 表示这组数据的平
均数.则xi到 的距离是 (i=1,2,……,n)
于是,样本数据x1,x2,…,xn到 的平均距离是:
由于上式含有绝对值,运算不太方便,因此通常改用下式来计算标准差
于是,样本数据x1,x2,…,xn到 的平均距离是:
标准差
观察标准差的取值范围是什么?标准差为0的样本数据有何特点?
s≥0,标准差为0的样本数据都相等.
标准差
标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围.
考虑一个容量为2的样本:x1,x2(x1在数轴上,怎样表示样本中个体与平均数之间的距离关系?由此说明标准差的大小对数据的离散程度有何影响?
x1
x2
S
s甲=2,s乙 1.095.
平均成绩都是7,计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性.
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
如果你是教练,你应当如何对这次射击情况作出评价?如果这是一次选拔性考核,你应当如何作出选择?
选乙,较稳定
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
用计算器计算运动员甲的成绩的标准差的过程如下:
MODE
SHIFT
CLR
S-VAR
SHIFT
DT
DT
DT
DT
DT
2
1
=
2
=
7
8
7
9
5
DT
DT
DT
DT
DT
4
9
10
7
4
(进入统计计算模式)
(清除统计存储器)
(计算样本标准差)
2
即s甲=2
分数 50 60 70 80 90 100
人数 甲组 2 5 10 13 14 6
乙组 4 4 16 2 12 12
练习1:一次数学竞赛,两组学生成绩统计如下:
已经算得两个组的人平均分都是80分,请根据你所
学过的统计知识,进一步判断这两个组在这次竞赛
中的成绩谁优谁劣,并说明理由.
练习2:画出下列四组样本数据的条形图,说明它们的异同点.
⑴5,5,5,5,5,5,5,5,5;
⑵4,4,4,5,5,5,6,6,6;
⑶3,3,4,4,5,6,6,7,7;
⑷2,2,2,2,5,8,8,8,8.
品种 各试验田每公顷产量 (单位:吨)
甲 7.65 7.50 7.62 7.59 7.65
7.64 7.50 7.40 7.41 7.41
乙 7.55 7.56 7.53 7.44 7.49
7.52 7.58 7.46 7.53 7.49
练习3:农科院对甲、乙两种甜玉米各用10块试验田进行试验,得到两个品种每公顷产量的两种数据:
根据这些数据,应为农科院选择甜玉米种子提出怎样的建议?(使用计算器计算)
3、极差与标准差都能表示一组数据的离散程度,极差表示一组数据的变化范围,标准差表示一组数据的波动大小.
1、标准差的概念.
2、标准差的计算公式.
小结
4、用样本的数字特征估计总体的数字特征,是指用样本的众数、中位数、平均数和标准差等统计数据,估计总体相应的统计数据.
5、在实际应用中,我们常综合样本的多个统计数据,对总体进行估计,为解决问题作出决策.
布置作业
P79练习:1,2,3.
2.2.2 用样本的数字特征估计总体的数字特征(3)
复习
1、如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?
⑴众数:最高矩形下端中点的横坐标.
⑵中位数:直方图面积平分线与横轴交点的横坐标.
⑶平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.
2、对于样本数据x1,x2,…,xn,其标准差如何计算?
3、现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
例1:甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):
甲 :
25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39
乙:
25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48
从生产零件内径的尺寸看,谁生产的零件质量较高?
分析:
1、每一个工人生产的所有零件的内径尺寸组成一个总体.由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.
2、总体的平均数与内径尺寸的差异大时质量低,差异小时质量高.当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样,比较两人的生产质量,只要比较他们所生产的零件所组成的两个总体的平均数与标准差的大小即可.
甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高.
3、甲、乙两个总体的平均数与标准差都是不知道的,我们就根据样本估计总体的思想,用样本的平均数与标准差估计总体的平均数与标准差.
解:用计算器计算可得
从这个例子可以看出,对质量的判断,与所抽取的零件内径(样本数据)直接相关.对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变,这就会影响到我们对总体情况的估计.如果样本的代表性差,那么对总体所作的估计就会产生偏差;样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性.
在实际操作中,为了减少错误的发生,条件许可时,通常采用适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.
标准差的平方s2称为方差:
方差与标准差的测量效果是一致的,但在解决实际问题时,一般多采用标准差.
从数学的角度考虑,人们有时用方差代替标准差,作为测量样本数据的离散度.
例2:已知两组数据:
甲 9.9 10.3 9.8 10.1 10.4 10 9.8 9.7
乙 10.2 10 9.5 10.3 10.5 9.6 9.8 10.1
分别计算这两组数据的方差.
(1)求平均数
解
(2)求方差
例2 已知两组数据:
甲 9.9 10.3 9.8 10.1 10.4 10 9.8 9.7
乙 10.2 10 9.5 10.3 10.5 9.6 9.8 10.1
分别计算这两组数据的方差.
解
(2)求方差
(3)比较方差得出结论
乙组数据比甲组数据波动大.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
标准差还可以用于对样本数据的另外一种解释.
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
对于城市居民月均用水量样本数据,其平均数 ,
标准差s=0.868.
在这100个数据中,
落在区间[ -s, +s ] =[1.105,2.841]外的有:
28个;
月均用水量/t
0.5 1 1.5 2 2.5 3 3.5 4 4.5
频率
组距
0.5
0.4
0.3
0.2
0.1
O
对于城市居民月均用水量样本数据,其平均数 ,
标准差s=0.868.
在这100个数据中,
落在区间[ -2s, +2s ] =[0.237,3.709]外的有:
4个;
也就是说,这个区间几乎包含了所有样本数据.
参考教材P79“阅读与思考”
一般地,对于一个正态总体,数据落在区间
( -s, +s)、( -2s, +2s)、
( -3s, +3s)内的百分比分别为68.3%、
95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用.
小结
(1) 对于一组数据,有时只知道它的平均数还不够,还需要知道它的波动大小;而描述一组数据的波动大小的量不止一种,最常用的是方差和标准差.方差与标准差这两个概念既有联系又有区别.
(2) 求一组数据方差的方法:先求平均数,再利用方差公式求方差;
求一组数据标准差的方法:先求这组数据的方差,然后再求方差的算术平方根.
布置作业:
P82习题2.2 A组:5,6.
B组:1.