(共14张PPT)
1、求极差(即一组数据中最大值与最小值的差)
2、决定组距与组数(将数据分组)
3、 将数据分组
复习:画频率分布直方图的步骤
4、列出频率分布表.
5、画出频率分布直方图。
组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组。
最小值= ,最大值= ,可取区间[ ]
并分成 个小区间,每个小区间的长度为
练习
某电子元件厂生产一批同型号的电子元件,今从中随机地抽取40个测得其电阻值如下:
101
94
103
94
103
90
113
99
107
100
99
100
98
101
99
92
97
102
103
94
99
103
98
107
98
102
110
96
95
106
102
101
105
108
97
102
87
93
97
101
试作出频率分布表:
115
85,115
6
5
87
2、将样本容量为100的数据按从大到小的顺序分为8组如下表:
9
12
13
15
14
14
13
10
频率
8
7
6
5
4
3
2
1
组号
则第三组的频率为( )
A、0.14 B、1/14 C、0.03 D、3/14
3、将一个容量为50的样本数据分组后,组距和频数如下:
[12.5,15.5),3;[15.5,18.5),8;[18.5,21.5),9;[21.5,24.5),11;[24.5,27.5),10;[27.5,30.5),6;[30.5,33.5],3.
则估计小于30的数据大约占总体的( )
A、94% B、6% C、88% D、12%
A
A
4.一个容量为32的样本,已知某组样本的频率为0.125,那么该组样本的频数为( )
A.2 B.4 C.6 D.8
5.在用样本频率估计总体分布的过程中,下列说法正确的是( )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
B
C
7.已知样本10,8,6,10,8,13,11,10,12,7,8,9,11,9,11,12,9,10,11,12,那么频率为0.2的范围是( )
A.5.5-----7.5 B.7.5--------9.5
C.9.5-----11.5 D.11.5-------13.5
D
D
6.一个容量为20的样本数据,分组后组距与频数如下:(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2。则样本在区间(10,50]上的频率为( )
A.5% B.25% C.50% D.70%
频率分布直方图如下:
月均用水量/t
频率
组距
0.10
0.20
0.30
0.40
0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图
利用样本频率分布对总体分布进行相应估计
(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线——总体密度曲线。
(2)样本容量越大,这种估计越精确。
(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?
总体密度曲线
频率
组距
月均用水量/t
a
b
(图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。
用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。
总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.
总体密度曲线
茎叶图
某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:
(1)甲运动员得分:
13,51,23,8,26,38,16,33,14,28,39
(1)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39
茎叶图
甲
乙
0
1
2
3
4
5
2 5
5 4
1 6 1 6 7 9
4 9
0
8
4 6 3
6 8
3 8 9
1
注:中间的 数字表示得分的十位数字。
旁边的数字分别表示两个人得分的个位数。
小结
图形 优点 缺点
频率分布 1)易表示大量数据 丢失一些
直方图
2)直观地表明分布地 情况 信息
1)无信息损失 只能处理样本
茎叶图
2)随时记录方便记录和表示 容量较小数据(共20张PPT)
2.2 用样本估计总体
2.2.2用样本的数字特征估计总体的
数字特征
第一课时
问题提出
1.对一个未知总体,我们常用样本的频率分布估计总体的分布,其中表示样本数据的频率分布的基本方法有哪些?
2.美国NBA在2006——2007年度赛季中,甲、乙两名篮球运动员在随机抽取的12场比赛中的得分情况如下:
甲运动员得分:12,15,20,25,31,31, 36,36,37,39,44,49.
乙运动员得分:8,13,14,16,23,26,
28,38,39,51,31,29.
如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比较依据,即通过样本数据对总体的数字特征进行研究,用样本的数字特征估计总体的数字特征.
甲运动员得分:12,15,20,25,31,31, 36,36,37,39,44,49.
乙运动员得分:8,13,14,16,23,26,
28,38,39,51,31,29.
知识探究(一):众数、中位数和平均数
思考1:在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数?
思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
思考3:在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?
取最高矩形下端中点的横坐标2.25作为众数.
思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
0.5-0.04-0.08-0.15-0.22=0.01,0.5×0.1÷0.25=0.02,中位数是2.02.
思考5:平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?
0.25,0.75,1.25,1.75,2.25,
2.75,3.25,3.75,4.25.
月均用水量/t
频率
组距
0.5
0.4
0.3
0.2
0.1
0.5 1 1.5 2 2.5 3 3.5 4 4.5
O
思考6:根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数. 由此估计总体的平均数是什么?
0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25× 0.06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02.
平均数与中位数相等,是必然还是巧合?
思考7:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?
频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.
注:在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.
思考8:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会额成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?
如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低.
平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值.
这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.
知识探究(二):标准差
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.
思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
甲、乙两人本次射击的平均成绩分别为多少环?
思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?
环数
频率
0.4
0.3
0.2
0.1
4 5 6 7 8 9 10
O
(甲)
环数
频率
0.4
0.3
0.2
0.1
4 5 6 7 8 9 10
O
(乙)
甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.
思考3:对于样本数据x1,x2,…,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?
思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,…,xn的平均数为,则标准差的计算公式是:
那么标准差的取值范围是什么?标准差为0的样本数据有何特点?
s≥0,标准差为0的样本数据都相等.
思考5:对于一个容量为2的样本:x1,
x2(x1在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?
标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围.
知识迁移
s甲=2,s乙=1.095.
计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性.
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
小结作业
1.用样本的数字特征估计总体的数字特征,是指用样本的众数、中位数、平均数和标准差等统计数据,估计总体相应的统计数据.
作业:P79练习:1,2,3.
2.平均数对数据有“取齐”的作用,代表一组数据的平均水平.标准差描述一组数据围绕平均数波动的幅度.在实际应用中,我们常综合样本的多个统计数据,对总体进行估计,为解决问题作出决策.(共18张PPT)
2.2 用样本估计总体
2.2.2用样本的数字特征估计总体的
数字特征
第二课时
知识回顾
1.如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?
(1)众数:最高矩形下端中点的横坐标.
(2)中位数:直方图面积平分线与横轴交点的横坐标.
(3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.
2.对于样本数据x1,x2,…,xn,其标准差如何计算?
知识补充
1.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
3.对于城市居民月均用水量样本数据,其平均数 ,标准差s=0.868.
在这100个数据中,
落在区间( -s, +s)=[1.105,2.841]外的有28个;
落在区间( -2s, +2s)=[0.237,3.709]外的只有4个;
落在区间( -3s, +3s)=[-0.631,4.577]外的有0个.
一般地,对于一个正态总体,数据落在区间( -s, +s)、 ( -2s, +2s)、( -3s, +3s)内的百分比分别为68.3%、95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用(参考教材P79“阅读与思考”).
例题分析
例1 画出下列四组样本数据的条形图,
说明他们的异同点.
(1) 5,5,5,5,5,5,5,5,5;
(2) 4,4,4,5,5,5,6,6,6;
O
频率
1.0
0.8
0.6
0.4
0.2
1 2 3 4 5 6 7 8
(1)
O
频率
1.0
0.8
0.6
0.4
0.2
1 2 3 4 5 6 7 8
(2)
(3) 3,3,4,4,5,6,6,7,7;
(4) 2,2,2,2,5,8,8,8,8.
频率
1.0
0.8
0.6
0.4
0.2
1 2 3 4 5 6 7 8
O
(3)
频率
1.0
0.8
0.6
0.4
0.2
1 2 3 4 5 6 7 8
O
(4)
例2 甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):
甲 :
25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39
乙:
25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48
从生产零件内径的尺寸看,谁生产的零件质量较高?
甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高.
说明:1.生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差.
2.问题中25.40mm是内径的标准值,而不是总体的平均数.
例3 以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在550分,若某同学今年高考得了520分,他想报考这所大学还需收集哪些信息?
要点:(1)查往年录取的新生的平均分数.若平均数小于中位数很多,说明最低录取线较低,可以报考;
(2)查往年录取的新生高考总分的标准差.若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考.
例4 在去年的足球甲A联赛中,甲队每场比赛平均失球数是1.5,全年比赛失球个数的标准差为1.1;乙队每场比赛平均失球数是2.1,全年比赛失球个数的标准差为0.4.你认为下列说法是否正确,为什么? (1)平均来说甲队比乙队防守技术好;
(2)乙队比甲队技术水平更稳定;
(3)乙队很少不失球.
例5 有20种不同的零食,它们的热量含量如下:
110 120 123 165 432 190 174 235 428 318 249 280 162 146 210 120 123 120 150 140
(1)以上20个数据组成总体,求总体平均数与总体标准差;
(2)设计一个适当的随机抽样方法,从总体中抽取一个容量为7的样本,计算样本的平均数和标准差.
(1)总体平均数为199.75,总体标准差为95.26.
(1)以上20个数据组成总体,求总体平均数与总体标准差;
(2)设计一个适当的随机抽样方法,从总体中抽取一个容量为7的样本,计算样本的平均数和标准差.
(2)可以用抽签法抽取样本,样本的平均数和标准差与抽取的样本有关.
小结作业
1.对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变.如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性.
2.在抽样过程中,抽取的样本是具有随机性的,如从一个包含6个个体的总体中抽取一个容量为3的样本就有20中可能抽样,因此样本的数字特征也有随机性.
用样本的数字特征估计总体的数字特征,是一种统计思想,没有惟一答案.
3.在实际应用中,调查统计是一个探究性学习过程,需要做一系列工作,我们可以把学到的知识应用到自主研究性课题中去.
作业:
P82习题2.2 A组:5,6.
B组:1.(共17张PPT)
简单随机抽样
1、灯泡厂要了解生产的灯泡的使用寿命,需要将所有灯泡逐一测试吗?
2、前一段时间,食品添加剂中“苏丹红”事件闹得沸沸扬扬,国家卫生部要对食品中的添加剂“苏丹红”含量进行检测,怎样获得相关数据?
3、国际奥委会2003年6月29日决定,
2008年北京奥运会的举办日期将比原定日期推迟
两周,改在8月8日至8月24日举行。原因是7月
末8月初北京地区的气温高于8月中上旬。
这一结论是如何得到的?
统计学是干什么的?
现代社会是信息化的社会,人们常常需要收集数据,根据所获得的数据提取有价值的信息,作出合理的决策。统计是研究如何合理收集、整理、分析数据的学科,它可以为人们制定决策提供依据。
统计的基本思想方法是什么?
统计的基本思想方法是用样本估计总体,即当总体数量很大或检测过程具有一定的破坏性时,不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况。
如何进行合理的抽样呢?
基本概念:
1、在统计里,我们把所要考察对象的全体叫做总体,其中的每一个考察对象叫做个体。
2、从总体中所抽取的一部分个体叫做总体的一个样本。样本中个体的数目叫做样本的容量。
3、总体中所有个体的平均数叫做总体平均数,把样本中所有个体的平均数叫做样本平均数。
简单随机抽样的概念
从个体数为N的总体中不重复地取出n个个体(n注意以下四点:
(1)它要求被抽取样本的总体的个体数有限;
(2)它是从总体中逐个进行抽取;
(3)它是一种不放回抽样;
(4)它是一种等概率(等机会)抽样。
例 下列抽取样本的方式是否属于简单随机抽样?说明理由。
(1)从无限多个个体中抽取10个个体作样本;
(2)盒子里共有80个零件,从中选出5个零件进行质量检验。在抽样操作时,从中任意拿出一个零件进行质量检验后再它放回盒子里。
小结:简单随机抽样的特点
(1)它要求被抽取样本的总体个数有限;这样便于通过随机抽取的样本对总体进行分析。
(2)它是从总体中逐个地进行抽取;这样便于在抽样实践中进行操作。
(3)它是一种不放回抽样,由于抽样实践中多采用不放回抽样,使其具有较广泛的实用性,而且由于所抽取的样本中没有被重复抽取的个体,便于进行有关的分析和计算。
(4)它是一种等机会抽样,不仅每次从总体中抽取一个个体时,各个个体被抽取的机会相等,而且在整个抽样过程中,各个个体被抽取的机会也相等,从而保证了这样抽样方法的公平性。
为了了解高一(5)50名学生的视力状况,从中抽取10名学生进行检查,如何抽取?
1.把高一(5)班50名学生称为总体
请互相讨论:
抽签法
2.把抽取出的10名同学称为一个样本。
3.把样本的个数称为样本容量
思考:在抽签过程中如何保证样本的代表性?
1、抽签法(抓阄法)
一般地,用抽签法从个体个数为N的总体中抽取一个容量为k的样本的步骤为:
(1)将总体中的所有个体编号(号码可以从1到N);
(2)将1到N这N 个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);
(3)将号签放在同一箱中,并搅拌均匀;
(4)从箱中每次不放回的抽出1个号签,并记录其编号,连续抽取k次;
(5)从总体中将与抽到的签的编号相一致的个体取出。
发现:抽签法简单易行,适用于总体中个体数不多的情形。
2、随机数表法
制作一个数表,其中的每个数都是用随机方法产生的,这样的表称为随机数表。只要按一定的规则到随机数表中选取号码就可以了。这种抽样方法叫做随机数表法。
打开课本P56
用随机数表法抽取样本的步骤:
(1)对总体中的个体进行编号(每个号码
位数一致);
(2)在随机数表中任选一个数作为开始;
(3)从选定的数开始按一定的方向读下去,
得到的数码若不在编号中,则跳过,若在编
号中,则取出,如果得到的号码前面己经取
出,也跳过,如此继续下去,直到取满为止;
(4)根据选定的号码抽取样本。
随机数表法抽取样本的公平性在于:
(1)随机数表中每个位置上出现哪一个数是等可能的;
(2)从N个个体中抽到哪一个个体的号码也是等可能性的。
发现:
总结:简单随机抽样是在特定总体中抽取样本,总体中每一个体被抽取的可能性是等同的,而且任何个体之间彼此被抽取的机会是独立的。如果用从个体数为N的总体中抽取一个容量为n的样本,那么每个
个体被抽取的概率等于
抽签法
简单随机抽样的方法:
随机数表法1.已知的平均数为a,标准差是b,则的平均数是_____。标准差是________.
2.200辆汽车通过某一段公路时,时速的频率分布直方图如
右图所示,则时速在[50,70)的汽车大约有( ).
A.60辆
B.80辆
C.70辆
D.140辆
3. 为了在运行下面的程序之后输出的y值为16,则输入x的值应该是( ).
INPUT x
IF x<0 THEN
y=(x+1)(x+1)
ELSE
y=(x-1)(x-1)
END IF
PRINT y
END
A.3或-3 B. -5
C.-5或5 D.5或-3
4.用“辗转相除法”求得和的最大公约数是( ).
A. B. C. D.
5. 右图给出的是计算的值的一个流程图,其中判断
框内应填入的条件是( ).
A. B.
C. D.
6.(本小题满分12分)给出50个数,1,2,4,7,11,…,其规律是:第1个数是1,第2个数比第1个数大1,第3个数比第2个数大2,第4个数比第3个数大3,…,以此类推. 要求计算这50个数的和. 先将下面给出的程序框图补充完整,再根据程序框图写出程序.
1. 把程序框图补充完整:
(1)________________________ (2分)
(2)________________________ (2分)
2. 程序:(8分)
2. 程序:
i=1
p=1
s=0
Do
s= s + p
p= p + i
i=i+1
Loop until i<=50
PRINT s
END
时速(km)
0.01
0.02
0.03
0.04
频率
组距
40
50
60
70
80
(2)
结 束
i= i +1
(1)
开 始
是
输出 s
否
i = 1
P = 1
S= 0
S= s + p(共19张PPT)
系统抽样与分层抽样
简单随机抽样的概念
从个体数为N的总体中不重复地取出n个个体(n适用范围:总体中个体数较少的情况,抽取的样本容量也较小时。
复习回顾:
用抽签法抽取样本的步骤:
简记为:编号;制签;搅匀;抽签;取个体。
用随机数表法抽取样本的步骤:
简记为:编号;选数;读数;取个体。
知识回顾
1、简单随机抽样包括________和____________.
抽签法
随机数表法
2、在简单随机抽样中,某一个个体被抽到的可能性是( )。
A.与第几次抽样有关,第一次抽的可能性最大
B.与第几次抽样有关,第一次抽的可能性最小
C.与第几次抽样无关,每次抽到的可能性相等
D.与第几次抽样无关,与抽取几个样本无关
C
问题:
某校高一年级共有20个班,每班有50名学生。为了了解高一学生的视力状况,从这1000人中抽取一个容量为100的样本进行检查,应该怎样抽样?
1、系统抽样:
当总体的个体数较多时,采用简单随机抽样太麻烦,这时将总体平均分成几个部分,然后按照预先定出的规则,从每个部分中抽取一个个体,得到所需的样本,这样的抽样方法称为系统抽样(等距抽样)。
2、系统抽样的步骤:
(1)采用随机的方式将总体中的个体编号;
(2)将整个的编号按一定的间隔(设为K)分段,当
(N为总体中的个体数,n为样本容量)是整数
时, ;当 不是整数时,从总体中剔除一些
个体,使剩下的总体中个体的个数 能被n整除,这
时, ,并将剩下的总体重新编号;
(3)在第一段中用简单随机抽样确定起始的个体编号 ;
(4)将编号为 的个体抽出。
简记为:编号;分段;在第一段确定起始号;加间隔获取样本。
3、系统抽样的特点:
(1)用系统抽样抽取样本时,每个个体被抽到的可能性是相的,
(2)系统抽样适用于总体中个体数较多,抽取样 本容量也较大时;
(3)系统抽样是不放回抽样。
个体被抽取的概率等于
例题分析:
例1:某单位在岗职工共624人,为了调查工人用于上班途中的时间,决定抽取62个工人进行调查。如何采用系统抽样方法完成这一抽样?
分析:因为624的10%约为62,624不能被62整除,为了保证“等距”分段,应先剔除4人。
2、采用系统抽样的方法,从个体数为1003的总体中抽取一个容量50的样本,则在抽样过程中,被剔除的个体数为( ),抽样间隔
为( )。
3
20
练习:
1、某工厂生产产品,用传送带将产品送放下一道工序,质检人员每隔十分钟在传送带的某一个位置取一件检验,则这种抽样方法是( )。
A.抽签法 B.随机数表法
C.系统抽样 D.其他
C
分层抽样
问题 一个单位的职工500人,其中不到35岁的有125人,35到49岁的有280人,50岁以上的有95人。为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本。由于职工年龄与这项指标有关,试问:应用什么方法抽取?能在500人中任意取100个吗?能将100个份额均分到这三部分中吗?
分析:考察对象的特点是由具有明显差异的几部分组成。
当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做“分层抽样”,其中所分成的各部分叫做“层”。
分层抽样
问题 一个单位的职工500人,其中不到35岁的有125人,35到49岁的有280人,50岁以上的有95人。为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本。由于职工年龄与这项指标有关,试问:应用什么方法抽取?能在500人中任意取100个吗?能将100个份额均分到这三部分中吗?
解:(1)确定样本容量与总体的个体数之比100:500=1:5。
(3)利用简单随机抽样或系统抽样的方法,从各年龄段分别抽取25,56,19人,然后合在一起,就是所抽取的样本。
(2)利用抽样比确定各年龄段应抽取的个体数,依次为 ,即25,56,19。
强调两点:
(1)分层抽样是等概率抽样,它也是公平的。用分层抽样从个体为N的总体中抽取一个容量为n的样本时,在整个抽样过程中每个个体被抽到的概率相等 为n/N。
(2)分层抽样是建立在简单随机抽样或系统抽样的基础上的,由于它充分利用了已知信息,因此它获取的样本更具代表性,在实用中更为广泛。
分层抽样的抽取步骤:
(1)总体与样本容量确定抽取的比例。
(2)由分层情况,确定各层抽取的样本数。
(3)各层的抽取数之和应等于样本容量。
(4)对于不能取整的数,求其近似值。
4.三种抽样方法的比较
一个电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下所示:
很喜爱 喜爱 一般 不喜爱
2400 4200 3800 1600
打算从中抽取60人进行详细调查,如何抽取?
练习 :
在下列问题中,各采用什么抽样方法抽取样本较合适?
1、从20台电脑中抽取4台进行质量检测;
2、从2004名同学中,抽取一个容量为20的样本
3、某中学有180名教工,其中业务人员136名,管理人员20名,后勤人员24名,从中抽取一个容量为15的样本。
简单抽样
系统抽样
分层抽样
5、要从已编号(1~50)的50部新生产的赛车中随机抽取5部进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5部赛车的编号可能是( )。
A. 5,10,15,20,25 B. 3,13,23,33,43
C. 5,8,11,14,17 D. 4,8,12,16,20
B(共25张PPT)
2.2.2 用样本的数字特征估计总体的数字特征
平均数: 一组数据的算术平均数,即
x=
一 众数、中位数、平均数的概念
中数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
二 、 众数、中位数、平均数与频率分布直方图的关系
1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:
频率
组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.02t.
频率
组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.
2.02这个中位数的估计值,与样本的中
位数值2.0不一样,你能解释其中的原因吗?
3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. n 个样本数据的平均数由公式:
X=
给出.下图显示了居民月均用水量的平均数: x=1.973
频率
组距
0.1
0.2
0.3
0.4
0.5
O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)
三 三种数字特征的优缺点
1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.
2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。
3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。
四 众数、中位数、平均数的简单应用
例1 某工厂人员及工资构成如下:
人员 经理 管理人员 高级技工 工人 学徒 合计
周工资 2200 250 220 200 100
人数 1 6 5 10 1 23
合计 2200 1500 1100 2000 100 6900
(1)指出这个问题中周工资的众数、中位数、平均数
(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?
分析:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据
可见,只有经理在平均数以上,其余的人
都在平均数以下,故用平均数不能客观真
实地反映该工厂的工资水平。
90
100
110
120
130
140
分数
频率
0.45
0.05
0.15
1、某市高三数学抽样考试中,对90分以上(含90分)的成绩进行统计,其频率分布图如图,若130~140分数段的人数为90人;则90~100分数段的人数为: ;
810
(2003,安徽)
2、一个容量为20的样本数据.分组后.组距与频数如下:(0,20] 2;(20,30] 3, (30,40] 4; (40,50] 5; (50,60] 4; (60,70] 2。则样本在(-∞,50]上的频率为: ,
7/10
(2002,江西)
2400
2700
3000
3300
3600
3900
X 体重
y
0.001
3、观察新生婴儿的体重,其频率分布直方图
如图所示,则新生婴儿体重(2700,3000)的频
率为: ;
0.3
4、某射手对100个靶各射击5次,记下命中数,设计结果如下:
频数
4
3
2
1
0
命中数
5
14
31
29
18
3
5
1、列出频率分布表;
2、画出分布频率条形图;
3、求命中不少于3次的概率。
(2003,东北)