2.2用样本估计总体(一)
知识探究(一):频率分布表
【问题】 我国是世界上严重缺水的国家 之一,城市缺水问题较为突出,某市政 府为了节约生活用水,计划在本市试行 居民 生活用水定额管理,即确定一个居 民月用水量标准a,用水量不超过a的部 分按平价收费,超出a的部分按议价收费. 通过抽样调查,获得100位居民2007年的 月均用水量如下表(单位:t):
3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6
3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4
3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8
3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1
3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3
3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0
2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3
2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4
2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4
2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
思考1:上述100个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么? 0.2~4.3
思考2:样本数据中的最大值和最小值的差称为极差.如果将上述100个数据按组距为0.5进行分组,那么这些数据共分为多少组? (4.3-0.2)÷0.5=8.2
思考3:以组距为0.5进行分组,上述100个数据共分为9组,各组数据的取值范围可以如何设定?[0,0.5),[0.5,1),[1,1.5),…,[4,4.5].
思考4:如何统计上述100个数据在各组中的频数?如何计算样本数据在各组中的频率?你能将这些数据用表格反映出来吗?
思考5:上表称为样本数据的频率分布表,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?
用样本的频率分布估计总体分布.
思考6:如果市政府希望85%左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即a的取值)有何建议?
88%的居民月用水量在3t以下,可建议取a=3.
思考7:在实际中,取a=3t一定能保证85%以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?
分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的.
思考8:对样本数据进行分组,其组数是由哪些因素确定的?
思考9:对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.
思考10:一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?
第一步,求极差.
第二步,决定组距与组数.
第三步,确定分点,将数据分组.
第四步,列频率分布表.
知识探究(二):频率分布直方图
思考1:为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:
思考2:
频率分布直方图中
小长方形的面积表示什么?小长方形的面积表示该组的频率.
所有小长方形的面积和=?所有小长方形的面积和=1.
思考3:频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来.你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?
(1)居民月均用水量的分布是“山峰”状的,而且是“单峰”的;
(2)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;
(3)居民月均用水量的分布有一定的对称性等.
思考4:样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布
直方图的作图步骤如何?
第一步,画平面直角坐标系.
第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度.
第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.
课堂练习
1. 有一个容量为50的样本数据的分组及各组的频数如下:
[12.5, 15.5) 3 [24.5, 27.5) 10
[15.5, 18.5) 8 [27.5, 30.5) 5
[18.5, 21.5) 9 [30.5, 33.5) 4
[21.5, 24.5) 11
⑴列出样本的频率分布表和画出频率分布直方图;
⑵根据样本的频率分布估计,小于30.5的数据约占多少?
2.(2006年全国卷II)一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人作进一步调查,则在[2500,3000](元)月收入段应抽出 25 人
3.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;第六组,成绩大于等于18秒且小于等于19秒.右图是按上述分组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为,成绩大于等于15秒且小于17秒的学生人数为,则从频率分布直方图中可分析出和分别为( A )
A.0.9,35 B.0.9,45
C.0.1,35 D.0.1,45
4. ( 2006年重庆卷)为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:
根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是 ( C)
(A)20 (B)30 (C)40 (D)50
5.(广东文7、艺术理6)下面左图是某县参加2007年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为A1、A2、…、A10(如A2表示身高(单位:cm)(150,155)内的学生人数).右图是统计左图中身高在一定范围内学生人数的一个算法流程图.现要统计身高在160~180cm(含160cm,不含180cm)的学生人数,那么在流程图中的判断框内应填写的条件是(B)
A.i<9 B. i<8 C. i<7 D. i<6
6.为了解某校高三学生的视力情况,随机地抽查了该
校100名高三学生的视力情况,得到频率分布直方图,
如右,由于不慎将部分数据丢失,但知道前4组的频
数成等比数列,后6组的频数成等差数列,设最大频
率为a,视力在4.6到5.0之间的学生数为b,则a, b
的值分别为( A )
A.0,27,78 B.0,27,83
C.2.7,78 D.2.7,83
小结作业
1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律.我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.
2.频率分布表和频率分布直方图,是对相同数据的两种不同表达方式.用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况.通过作图既可以从数据中提取信息,又可以利用图形传递信息.
3.样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况.
作业:《习案》作业十八
0.0001
0.0002
0.0003
0.0004
0.0005
1000 1500 2000 2500 3000 3500 4000
月收入(元)
频率/组距
0
13
14
15
16
17
18
19
秒
频率/组距
0.36
0.34
0.18
0.06
0.04
0.02
0.3
0.1
4.3
4.4
4.5
4.6
4.7
4.8
4.9
5.0
5.1
5.2
视力
2.2用样本估计总体(三)
问题提出
1. 对一个未知总体,我们常用样本的频率分布估计总体的分布,其中表示样本数据的频率分布的基本方法有哪些?
频率分布直方图、频率分布表、频率分布折线图、茎叶图
2. 美国NBA在2006——2007年度赛季中,甲、乙两名篮球运动员在随机抽取的12场比赛中的得分情况如下:
甲运动员得分:12,15,20,25,31,30, 36,36,37,39,44,49.
乙运动员得分:8,13,14,16,23,26, 28,38,39,51,31,39.
如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比较依据,即通过样本数据对总体的数字特征进行研究,用样本的数字特征估计总体的数字特征.
知识探究(一):众数、中位数和平均数
思考1:以上两组样本数据如何求它们的众数、中位数和平均数?
思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么?
思考3:中位数左右两侧的直方图的面积应有什么关系?
思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么?
0.5-0.04-0.08-0.15-0.22=0.01,0.5×0.01÷0.25=0.02,中位数是2.02.
思考5:平均数是频率分布直方图的“重心”,从直方图估计总体在各组数据内的平均数分别为多少?
0.25,0.75,1.25,1.75,2.25, 2.75,3.25,3.75,4.25.
思考6:将频率分布直方图中每个小矩形的 面积与小矩形底边中点的横坐标之积相加, 就是样本数据的估值平均数. 由此估计总体的平均数是什么?
0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25×06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02.
思考7:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗?
频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关.
注: 在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.
思考8 (1)一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?
如:样本数据收集有个别差错不影响中位数;大学毕业生凭工资中位数找单位可能收入较低.
(2)样本数据的平均数大于(或小于)中位数说明什么问题?
平均数大于(或小于)中位数,说明样本数据中存在许多较大(或较小)的极端值.
(3)你怎样理解“我们单位的收入水平比别的单位高”这句话的含义?
这句话具有模糊性甚至蒙骗性,其中收入水平是员工工资的某个中心点,它可以是众数、中位数或平均数.
样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息.
平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.
当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度.
知识探究(二):标准差
思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
甲、乙两人本次射击的平均成绩分别为多少环?
思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?
甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.
思考3:对于样本数据x1,x2,…,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算?
思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,…,xn的平均数为,则标准差的计算公式是:
那么标准差的取值范围是什么?标准差为0的样本数据有何特点?
s≥0,标准差为0的样本数据都相等.
思考5:对于一个容量为2的样本:x1,x2(x1标准差越大离散程度越大,数据较分散;
标准差越小离散程度越小,数据较集中在平均数周围.
知识迁移
计算甲、乙两名运动员的射击成绩的标准差,比较其射击水平的稳定性.
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
课堂小结
1. 用样本的众数、中位数、平均数和标准差等统计数据,估计总体相应的统计数据.
2. 平均数对数据有“取齐”的作用,代表一组数据的平均水平.
3. 标准差描述一组数据围绕平均数波动的幅度.在实际应用中,我们常综合样本的多个统计数据,对总体进行估计,为解决问题作出决策.
作业:
《习案》作业二十、作业二十一
2.2用样本估计总体(二)
频率分布直线图和茎线图
问题提出:
1. 列出一组样本数据的频率分布表可以分哪几个步骤进行?
第一步,求极差.
第二步,决定组距与组数.
第三步,确定分点,将数据分组.
第四步,统计频数,计算频率,制成表格.
2. 频率分布直方图是在平面直角坐标系中画若干个依次相邻的小长方形,这些小长方形的宽、高和面积在数量上分别表示什么?
3. 我们可以用样本数据的频率分布表和频率分布直方图估计总体的频率分布,当总体中的个体数较多或较少时,统计中用什么方法提取样本数据的相关信息,我们将进一步作些探究.
频率分布折线图和茎叶图
探究1:频率分布折线图与总体密度曲线
思考1:在城市居民月均用水量样本数据的频率分布直方图中,各组数据的平均值大致是哪些数?
思考2:在频率分布直方图中,依次连接各小长方形上端的中点,就得到一条折线,这条折线称为频率分布折线图. 你认为频率分布折线图能大致反映样本数据的频率分布吗?
思考3:当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?
思考4:在上述背景下,相应的频率分布折线图越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.那么图中阴影部分的面积有何实际意义?
思考5:当总体中的个体数比较少或样本数据不密集时,是否存在总体密度曲线?为什么?
不存在,因为组距不能任意缩小
思考6:对于一个总体,能否通过样本数据准确地画出总体密度曲线?
探究1:茎叶图
频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.
【问题】 某赛季甲、乙两名篮球运动员每场 比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16, 33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
思考1:你能理解这个图是如何记录这些数据的吗?你能通过该图说明哪个运动员的发挥更稳定吗?
思考2:在统计中,上图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪些数,“叶”指的是哪些数?
思考3:对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,4.3,2.7,3.1,3.5,用茎叶图如何表示?
思考4:一般地,画出一组样本数据的茎叶图的步骤如何?
第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;
第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;
第三步,将各个数据的叶按大小次序写在茎右(左)侧.
思考5:用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点?
(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.
思考6:比较茎叶图和频率分布表,茎叶图中“茎”和“叶”的数目分别与频率分布表中哪些数目相当?
思考7:对任意一组样本数据,是否都适合用茎叶图表示?为什么?
不适合样本容量很大或茎、叶不分明的样本数据.
例. 甲、乙两人数学成绩的茎叶图如下.
(1)求出这两名同学的数学成绩的平均数、中位数;
(2)比较两名同学的成绩,谈谈看法.
练习
1. 为了了解高一学生的体能情况,某校随机抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出了频率分布直方图.图中从左到右各小长方形的面积之比为2:4:17:15:9:3,第二小组的频数为12.
(1)第二小组的频率是多少?
(2)样本容量是多少?
(3)若次数在110以上(含110次)为达
标,试估计该校全体高一学生的达标率约
是多少?
2. 某班级共有学生54人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本.已知2号,28号,41号同学在样本中,那么样本中还有一个同学的学号是 .
3. 在抽取某产品的尺寸过程中,将其尺寸分成若干组,[a,b]是其中一组,抽查出的个体数在该组上的频率为m,该组上的直方图的高为h,则| a-b |等于
4. 在一个样本的频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形和的 ,且样本容量为160,则中间一组的频数为 ( )
A. 32 B. 0.2 C. 40 D. 0.25
作业:《习案》作业十九
2.2用样本估计总体(四)
知识回顾
1.如何根据样本频率分布直方图,分别估计总体的众数、中位数和平均数?
(1)众数:最高矩形下端中点的横坐标.
(2)中位数:直方图面积平分线与横轴交点的横坐标.
(3)平均数:每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.
2. 对于样本数据x1,x2,…,xn,其标准差如何计算?
知识补充
1.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
3.对于城市居民月均用水量样本数据,其平均数 ,标准差s=0.868.在这100个数据中,落在区间 =[1.105,2.841]外的有28个;落在区间=[0.237,3.709]外的只有4个;落在区间 =[-0.631,4.577]外的有0个.
一般地,对于一个正态总体,数据落在区间 、 、
内的百分比分别为68.3%、95.4%、99.7%,这个原理在产品质量控制中有着广泛的应用(参考教材P79“阅
读与思考”).
例题分析
例1 画出下列四组样本数据的条形图,说明他们的异同点.
(1) 5,5,5,5,5,5,5,5,5;
(2) 4,4,4,5,5,5,6,6,6;
(3) 3,3,4,4,5,6,6,7,7;
(4) 2,2,2,2,5,8,8,8,8.
例2 甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):
甲 :
25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39
乙:
25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48
从生产零件内径的尺寸看,谁生产的零件质量较高?
甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高.
说明:1.生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差.
2.问题中25.40mm是内径的标准值,而不是总体的平均数.
例3 以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在550分,若某同学今年高考得了520分,他想报考这所大学还需收集哪些信息?
要点:
(1)查往年录取的新生的平均分数.若平均数小于中位数很多,说明最低录取线较低,可以报考;
(2)查往年录取的新生高考总分的标准差.若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考.
练习
5、(宁夏理11文12).甲、乙、丙三名射箭运动员在某次测试中各射箭20次,三人的测试成绩如下表
甲的成绩
环数 7 8 9 10
频数 5 5 5 5
乙的成绩
环数 7 8 9 10
频数 6 4 4 6
丙的成绩
环数 7 8 9 10
频数 4 6 6 4
分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有( B )
A. B. C. D.
课堂小结
1.对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变.如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性.
2.在抽样过程中,抽取的样本是具有随机性的,如从一个包含6个个体的总体中抽取一个容量为3的样本就有20中可能抽样,因此样本的数字特征也有随机性. 用样本的数字特征估计总体的数字特征,是一
种统计思想,没有惟一答案.
3.在实际应用中,调查统计是一个探究性学习过程,需要做一系列工作,我们可以把学到的知识应用到自主研究性课题中去.