(共42张PPT)
2.2.1 用样本的频率分布估计总体的分布(一)
从一个总体得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息。
如果把这些数据形成频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况。
一、频率分布表与频率分布直方图:
1.频数、频率
将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。
每组的频数除以样本容量的商叫做该组的频率;
频率反映每组数据在样本中所占比例的大小。
2.样本的频率分布
根据随机所抽样本容量的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。
为了能直观地显示样本的频率分布情况,通常我们会将样本的容量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,叫做样本的频率分布表。
3.用样本的频率分布估计总体的分布
从一个总体得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所包含的信息,如果把这些数据形成频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况。用样本估计总体,是研究统计问题的一个基本思想方法,而对于总体的分布,我们总是用样本的频率分布对它进行估计。
4.列频率分布表的步骤
下面我们通过一个具体的实例来阐述这一方法。
某钢铁加工厂生产内径为25.40mm的钢管,为了掌握产品的生产状况,需定期对产品进行检测,下面的数据是一次抽样中的100件钢管的内径尺寸:
最大值
最小值
列频率分布表的方法步骤:
①求极差(也称全距,即一组数据中最大值与最小值的差):
计算极差时,需要找出这组数据的最大值和最小值,当数据很多时,可借助如下算法(最大值):
S1 把这100个数据命名为A(1)、A(2)、A(3)、……、A(100);
S2 设变量x=A(1);
S3 把A(i) (i=2,3,……,100)逐个与x比较,如果A(i)>x,则x=A(i);
运用上面的算法得出这组样本数据的最大值是25.56,用类似的算法可以得出最小值是25.24它们的差为 25.56-25.24= 0.32,所以极差等于0.32mm.
②决定组距与组数
那么组数= ——— =10.67,于是分成11组。
极差
组距
样本数据有100个,由上面算得极差为0.32,取组距为0.03,
注意:为方便起见,组距的选择应力求“取整”,如果极差不利于分组( 如不能被组数整除)要适当增大极差,如在左、右两端各增加适当范围(尽量使两端增加的量相同).
③决定分点,将数据分组
将第1组的起点定为25.235,以组距为0.03将数据分组时,可以分成以下11组:
[25.235,25.265),[25.265,26.295), ……, [25.535,25.565].
分组时,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间,当然也可以采用其他分组方法。
④登记频数,计算频率,列出频率分布表
频率= —————,如第1小组的频率为——— =0.01.
频数
样本容量
1
100
频率分布表:
⑤ 绘制频率分布直方图
利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图,简称频率直方图。 下面仍以上例中的数据加以说明。
(1)频率分布直方图的绘制方法与步骤
S1 先制作频率分布表,然后作直角坐标系,以横轴表示产品内径尺寸,纵轴表示频率/组距.
S2 把横轴分成若干段,每一段对应一个组的组距,即在横轴上标上25.235,25.265,
…… , 25.565表示的点;
S3 在上面标出的各点中,分别以相邻两点为端点的线段为底作矩形,它的高等于该组的频率/组距,每个矩形的面积恰好是该组的频率。
这些矩形就构成了频率分布直方图。
(2)有关问题的理解
① 因为小矩形的面积=组距×频率/组距=频率,所以各小矩形的面积表示相应各组的频率。这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小。
②在频率分布直方图中,各小矩形的面积之和等于1.
③同样一组数据,如果组距不同,横轴、纵轴单位不同,得到的图的形状也会不同。不同的形状给人的印象也不同,这种印象有时会影响我们对总体的判断。
④同一个总体,由于抽样的随机性,如果随机抽取另外一个容量为100的样本,所形成的样本频率分布一般会与前一个样本频率分布有所不同。但是,它们都可以近似地看作总体的分布。
⑤上例中,如果规定,钢管内径的尺寸在区间25.325~25.475内为优等品,我们可依据抽样分析统计出产品中优等品的比例,也就是它的频率。从上表或上图容易看出,这个频率值等于0.12+0.18+0.25+0.16 +0.13=0.84,于是可以估计出所有生产的钢管中有84%的优等品。工厂可以根据质量规范,看看是否达到优等品率的要求,如果没有达到,就需要进一步分析原因,解决问题。
频率分布直方图的特点
从频率分布直方图可以清楚的看出数据分布的总体态势,但是从直方图本身得不出原始的数据内容。所以,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
例1. 从某校高一年级的1002名新生中用系统抽样的方法抽取一个容量为100的身高的样本,数据如下(单位:cm)。试作出该样本的频率分布表。
168 165 171 167 170 165 170 152 175 174
165 170 168 169 171 166 164 155 164 158
170 155 166 158 155 160 160 164 156 162
160 170 168 164 174 171 165 179 163 172
180 174 173 159 163 172 167 160 164 169
151 168 158 168 176 155 165 165 169 162
177 158 175 165 169 151 163 166 163 167
178 165 158 170 169 159 155 163 153 155
167 163 164 158 168 167 161 162 167 168
161 165 174 156 167 166 162 161 164 166
解:最大值=180,最小值=151,
极差=29,决定分为10组;
则需将全距调整为30,组距为3,既每个小区间的长度为3,组距=全距/组数。
可取区间[150.5, 180.5]
分组 频数 频率
[150.5,153.5) 4 0.04
[153.5,156.5) 8 0.08
[156.5,159.5) 8 0.08
[159.5,162.5) 11 0.11
[162.5165.5) 22 0.22
[165.5,168.5) 19 0.19
[168.5,171.5) 14 0.14
[171.5,174.5) 7 0.07
[174.5,177.5) 4 0.04
[177.5,180.5) 3 0.03
合计 100 1
频率分布直方图为:
例2.下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)
(1)列出样本频率分布表﹔
(2)估计身高小于134cm的人数占总人数的百分比.。
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142) [142,146)
人数 5 8 10 22 33 20
区间界限 [146,150) [150,154) [154,158)
人数 11 6 5
解:(1)样本频率分布表如下:
(2)由样本频率分布表可知身高小于134cm 的男孩出现的频率为0.04+0.07+ 0.08=0.19,
所以我们估计身高小于134cm的人数占总人数的19%.
例3.为了了解一大片经济林生长情况,随机测量其中的100株的底部 周长,得到如下数据表(单位:cm)
135 98 102 110 99 121 110 96 100 103
125 97 117 113 110 92 102 109 104 112
109 124 87 131 97 102 123 104 104 128
105 123 111 103 105 92 114 108 104 102
129 126 97 100 115 111 106 117 104 109
111 89 110 121 80 120 121 104 108 118
129 99 90 99 121 123 107 111 91 100
99 101 116 97 102 108 101 95 107 101
102 108 117 99 118 106 119 97 126 108
123 119 98 121 101 113 102 103 104 108
(1)编制频率分布表;
(2)绘制频率分布直方图;
(3)估计该片经济林中底部周长小于100 cm的树木约占多少,周长不小于120cm的树木约占多少.
分组 频数 频率 频率/组距
[80,85) 1 0.01 0.002
[85,90) 2 0.02 0.004
[90,95) 4 0.04 0.008
[95,100) 14 0.14 0.028
[100,105) 24 0.24 0.048
[105,110) 15 0.15 0.030
[110,115) 12 0.12 0.024
[115,120) 9 0.09 0.018
[120,125) 11 0.11 0.022
[125,130) 6 0.06 0.012
[130,135] 2 0.02 0.004
合计 100 1 0.2
解:(1)这组数据的最大值为135,最小值为80,全距为55,可将其分为11组,组距为5.频率分布表如下:
(2)直方图如图
(3)从频率分布表得,样本中小于100的频率为0.01+0.02+0.04+0.14=0.21,样本中不小于120的频率为0.11+0.06+0.02=0.19,
估计该片经济林中底部周长小于100cm的树木约占21%,周长不小于120cm的树木约占19%.
1. 有一个容量为的样本数据,分组后各组的频数如下: (12.5,15.5],3; (15.5,18.5],8;
(18.5,21.5],9; (21.5,24.5], 11; (24.5,27.5],10;
(27.5,30.5],4. 由此估计,不大于27.5的数据约为总体的 ( )
A.91% B.92%
C.95% D.30%
A
练习题:
2. 一个容量为20的样本数据,数据的分组及各组的频数如下:
(10,20),2;(20,30),3;(30,40),4;(40,50),5;(50,60),4;(60,70),2.
则样本在区间(-∞,50)上的频率为 ( )
A.0.5 B.0.7 C.0.25 D.0.05
B
3. 从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分)[40,50),2;[50,0),3;[60,70),10;[70,80),15;[80,90),12;[90,100),8;
(1)列出样本的频率分布表(含累计频率);
(2)画出频率分布直方图;
(3)估计成绩在[60,90)分的学生比例;
(4)估计成绩在85分以下的学生比例。
解:(1)频率分布表如下:
(2)频率分布直方图如下:
(3)估计成绩在[60,90)分的学生比例;
解:(3)成绩在[60,90)的学生比例即为学生成绩在[60,90)的频率,0.2+0.3+0.24 =0.74.
(4)估计成绩在85分以下的学生比例。
(4)成绩在85分以下的学生比例即为学生成绩不足85分的频率,设相应频率为b,
由 ,故b=0.72,估计成绩在85分以下的学生约占0.72.
4. 一个容量为100的样本,数据的分组和各组的一些相关信息如下:
(1)完成上表中每一行的两个空格;
(2)画出频率分布直方图;
(3)根据累计频率分布图估计,总体中小于22的样本数据大约占多大的百分比?
(1)补全后的频率分布表如下:
0.06
0.21
0.16
0.06
0.14
0.30
0.51
0.18
0.85
0.95
0.05
8
16
18
10
5
(2) 频率分布直方图:
(3)根据累计频率分布图估计,总体中小于22的样本数据大约占多大的百分比?
解:(3)在这个分布图上,横坐标为22落在[21,24)内,分布图在这段区间上的线段所在的直线方程是:
当x=22时,y=0.37,
因此总体中小于22的样本数据大约占0.37.(共36张PPT)
2.2.1 用样本的频率分布估计总体的分布(二)
二、总体密度曲线
1.频率分布折线图
把频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图。
为了方便看图,一般习惯于把频率分布折线图画成与横轴相连,所以横轴上的左右两端点没有实际的意义。例如,前面的钢管内径的频率分布折线图,如图所示。
频率分布直方图:
频率分布折线图
2.总体密度曲线
如果样本容量越大,所分组数越多,上述图中表示的频率分布就越接近于总体在各个小组内所取值的个数与总数比值的大小。
设想如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线y=f(x)来描绘,这条光滑曲线就叫做总体密度曲线。
总体密度曲线精确地反映了一个总体在各个区域内取值的规律。
产品尺寸落在(a,b)内的百分率就是图中带斜线部分的面积。
对前面钢管内径的例子来说,总体密度曲线呈中间高两边低的“钟”形分布,总体的数据大致呈对称分布,并且大部分数据都集中在靠近中间的区间内 。
例:对于样本频率分布折线图与总体密度曲线的关系,下列说法中正确的是( )
(A)频率分布折线图与总体密度曲线无关
(B)频率分布折线图就是总体密度曲线
(C)样本容量很大的频率分布折线图就是总体密度曲线
(D)如果样本容量无限增大,分组的组距无限减小,那么频率分布折线图就会无限接近于总体密度曲线
D
解析:总体密度曲线通常是用样本频率分布估计出来的;因为如果样本容量无限增大,分组的组距无限缩小,那么频率分布折线图就会无限接近于一条光滑曲线,这条曲线就是总体密度曲线,故选D.
(1)总体密度曲线与总体分布相互唯一确定,如果总体分布已知,就可以得到总体密度曲线的函数表达式,从而用函数的理论去研究它。但我们所面临的情况是总体分布未知,因此,我们只能通过样本频率分布折线图近似表示总体密度曲线,当然还可以用其他方法估计总体密度曲线,但不能够通过样本数据准确地画出总体密度曲线。
进一步理解:
(2)总体密度曲线的实际意义在于:
总体密度曲线与x轴,直线x=a,x=b围成的面积等于x在[a,b]取值时的概率.
2.茎叶图
茎叶图也是用来表示数据的一种图,茎是中间的一列数,叶是从茎上生长出来的数.
例.甲、乙两篮球运动员在上赛季每场比赛的得分如下,试比较这两位运动员的得分水平.
甲: 12,15,24,25,31,31,36,36,37,39,44,49,50.
乙: 8,13,14,16,23,26,28,33,38,39,51
解:画出两人得分的茎叶图
茎叶图的中间部分像一颗植物的茎,两边部分像这颗植物上长出来的叶子。
用中间的数字表示两位运动员得分的十位数,两边的数字分布表示两个人各场得分的个位数,例如 3| 389 就表示了33,38,39这3个数据。
从这个茎叶图可以看出甲运动员的得分大致对称平均得分及中位数、众数都是30多分;乙运动员的得分除一个51外,也大致对称,平均得分及中位数、众数都是20多分,因此甲运动员发挥比较稳定,总体得分情况比乙好.
画茎叶图的步骤
S1 将每个数据分为茎(高位)和叶(低位)两部分;
S2 将最小茎和最大茎之间的数按大小次序排成一列,写在左(右)侧;
S3 将各个数据的叶按大小次序写在其茎右(左)侧。
几种表示样本分布的方法比较:
(1)频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便;
(2)频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到频率分布表中看不清楚的数据模式,但是从频率分布直方图本身不能得出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
(3)频率分布折线图的优点是它反映了数据的变化趋势,如果样本容量不断增大,分组的组距不断缩小,那么折线图就趋向于总体密度曲线。
(4)用茎叶图刻画数据有两个优点:一是所有的信息都可以从这个茎叶图中得到;二是茎叶图便于记录和表示,能够展示数据的分布情况,但当样本数据较多或数据位数较多时,茎叶图就显得不太方便了。
例1.在某电脑杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,22,11,24,27,17.
在某报纸的一篇文章中,每个句子的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22。
(1)将这两组数据用茎叶图表示;
(2)将这两组数据进行比较分析,得到什么结论?
(1)将这两组数据用茎叶图表示;
(2)电脑杂志上每个句子的字数集中在10,30之间,中位数为22.5,而报纸上每个句子的字数集中在20,40之间,中位数为27.5,还可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少,说明电脑杂志作为科普读物需要简洁明了、通俗易懂。
例2. 有人说:“茎叶图表示三位数以上的数据时不够方便”, 果真如此吗?请看下例:
现在能否用茎叶图来表示上述数据呢?
解:从上述数据可以看到它们的百位数字都是3,所不同的仅仅是十位和个位,而两位数据是可以作茎的,那么只需在茎的位置写上百位和十位,叶的位置上写上个位即可。
例3. 某运动员得分的茎叶图如下,试判断他的得分的中位数,众数及稳定程度.
解:从这个图可以直观的看出该运动员得分的中位数是36、众数是31与36,
且得分大都在20和40之间,分布较对称,集中程度高,说明其发挥比较稳定.
练习题:
1.在频率分布直方图中,小矩形的高表示( )
A.频率/样本容量
B.组距×频率
C.频率
D.频率/组距
D
2.在用样本频率估计总体分布的过程中,下列说法中正确的是( )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
C
3.一个容量为20的样本数据,分组后组距与频数如下表.
组距 [10,20) [20,30) [30,40) [40,50) [50,60) [60,70)
频数 2 3 4 5 4 2
则样本在区间(-∞,50)上的频率为( )
A.0.5 B.0.25 C.0.6 D.0.7
D
4. 10个小球分别编有号码1,2,3,4,其中1号球4个,2号球2个,3号球3个,4号球1个,数0.4是指1号球占总体分布的( )
A.频数 B.频率
C.频率/组距 D.累计频率
B
5.已知样本:12,7,11,12,11,12,10,10,9,8,13,12,10,9,6,11,8,9,8,10,那么频率为0.25的样本的范围是( )
A. [5.5,7.5) B. [7.5,9.5)
C. [9.5,11.5) D. [11.5,13.5)
D
6.频率分布直方图中,小长方体的面积等于( )
A.相应各组的频数
B.相应各组的频率
C.组数
D.组距
B
7.将容量为50的数据,按从小到大的顺序分为6组,如下表.
组号 1 2 3 4 5 6
频数 6 8 10 10 9 7
第3组的频率和前3组的累计频率是( )
A. 0.24和0.5 B. 0.2和0.48
C. 0.06和0.24 D. 0.14和0.48
B
8.从一群学生中抽取一个一定容量的样本对他们的学习成绩进行分析,已知不超过70分的人数为8人,其累计频率为0.4,则这样的样本容量是( )
A.20人 B.40人
C.70人 D.80人
A
9. 一个容量为n的样本分成若干组,已知某组的频数和频率分别是30和0.25,则n=____________.
120
10. 将100个数据分成8个组,其中有一组是9个数据,那么该组的频数是______,频率是____________.
9
0.09
11.从某校2100名学生随机抽取一个30名学生的样本,样本中每个学生用于课外作业的时间(单位:min)依次为:75,80,85,65,95,100,70,55,65,75,85,110,120,80,85,80,75,90,90,95,70,60,60,75,90,95,65,75,80,80.该校的学生中作业时间超过一个半小时(含一个半小时)的学生有____________人.
630
12.频率分布直方图中各小长方体的面积和为____________.
1