用样本的频率分布估计总体的分布
教学目标:
1、在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图。
2、通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计。
知识点梳理:
1、 频率分布的概念:
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布。
其一般步骤为:(1)________________(2)________________(3)_______________________
(4)_________________(5)__________________
频率分布直方图的特征:(1)从频率分布直方图可以清楚的看出数据分布的总体趋势。(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。
2、频率分布折线图、总体密度曲线
(1)频率分布折线图的定义:____________________________________
(2)总体密度曲线的定义:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息。
〖思考〗:(1)对于任何一个总体,它的密度曲线是不是一定存在?为什么?
(2)对于任何一个总体,它的密度曲线是否可以被非常准确地画出来?为什么?
3、茎叶图
(1)茎叶图的概念:当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图。
(2)茎叶图的特征:①用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。②茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰。
典型例题:
类型一 绘制频率分布表与频率分布直方图
例1、下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位cm)
?Sheet1
区间界限 [122,126) [126,130) [130,134) [134,138) [138,142) [142,146)
人数 5 8 10 22 33 20
区间界限 [146,150) [150,154) [154,158)
人数 11 6 5
?
(1)列出样本频率分布表﹔
(2)画出频率分布直方图;
(3)估计身高小于134cm的人数占总人数的百分比.。
讲评:回顾频率分布直方图的概念与步骤。
类型二、用样本的频率分布估计总体
例2、为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数次测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12.
(1) 第二小组的频率是多少?样本容量是多少?
(2) 若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少?
(3) 在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由。
讲评:在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1。
类型三、茎叶图及应用
例3、某良种培育基地正在培育一种小麦新品种A,将其与原有一个优良品种B进行对照试验,两种小麦各种值了25亩,所得亩产数据(单位:千克)如下:
品种A: 357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,
427,430,430,434,443,445,445,451,454
品种B: 363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,
403,406,407,410,412,415,416,422,430
(1)画出两组数据的茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对于品种A与B的亩产量用其稳定性进行比较,写出统计结论。
课堂小结:
1、 总体分布指的是总体取值的频率分布规律,由于总体分布不易知道,因此我们往往用样本的频率分布去估计总体的分布。
2、 总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图。
随堂训练:
1、 频率分布直方图的作法是:用横轴表示样本数据,用纵轴表示__________,以________为底,以_______为高作矩形。
2、为了检测某种产品的质量,抽取了一个容量为100的样本,数据的分组及频率如下表:
分组 频数 频率
[10.75,10.85) 3
[10.85,10.95) 9
[10.95,11.05) 13
[11.05,11.15) 16
[11.15,11.25) 26
[11.25,11.35) 20
[11.35,11.45) 7
[11.45,11.55) 4
[11.55,11.65) 2
合计 100
(1)完成上面的频率分布表;
(2)根据上表画出频率分布直方图;
(3)根据上表和图,估计数据落在[10.95,11.35)范围内的概率约是多少?
(4)数据小于11.20的概率约是多少?
答案:
例1、分析:根据样本频率分布表、频率分布直方图的一般步骤解题。
解:(1)样本频率分布表如下:
(2)其频率分布直方图如下:
(3)由样本频率分布表可知身高小于134cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134cm的人数占总人数的19%.
例2、解:(1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,
因此第二小组的频率为:
又因为频率=
所以
(2)由图可估计该学校高一学生的达标率约为
(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内。
例3、(1)略
(2)用茎叶图处理现有数据不但可以看出数据的分布情况,而且可以看出每组中的具体数据。
(3)通过观察茎叶图,可以发现品种A的平均亩产量约为411.1千克,品种B的平均亩产量为397.8千克。由此可知品种A的平均亩产量比品种B的平均亩产量高,但品种A的亩产量不够稳定,而品种B的亩产量比较集中在平均亩产量附近。
90
100
110
120
130
140
150
次数
o
0.004
0.008
0.012
0.016
0.020
0.024
0.028
频率/组距
0.032
0.036
122
126
130
134
138
142
146
150
158
154
身高(cm)
o
0.01
0.02
0.03
0.04
0.05
0.06
0.07
频率/组距