【教师参考】新课标人教A版必修3同课异构课件:22 用样本估计总体(4份)

文档属性

名称 【教师参考】新课标人教A版必修3同课异构课件:22 用样本估计总体(4份)
格式 zip
文件大小 4.8MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2015-04-19 20:22:18

文档简介

课件26张PPT。 第二章 统计
2.2.1 用样本的频率分布估计
总体分布用样本估计总体 在统计中,用样本的有关情况估计总体的相应情况大体上有两类方法:一、用样本的频率分布去估计总体分布二、用样本的某种数字特征去估计总体相应数字特征 (如平均数、标准差等) 抽查某地区55名12岁男生的身高(单位:cm)的测量值如下:
128.1 144.4 150.3 146.2 140.6 126.0 125.6 127.7 154.4 142.7 141.2 142.7 137.6 136.9 132.3 131.8 147.7 138.4 136.6 136.2 141.6 141.1 133.1 142.8 136.8 133.1 144.5 142.4 140.8 127.7 150.7 160.3 138.8 154.3 147.9 141.3 143.8 138.1 139.7 142.9 144.7 148.5 138.3 135.3 134.5 140.6 138.4 137.3 149.5 142.5 139.3 156.1 152.2 129.8 133.2
试从以上数据中,对该地区12岁男生的身高情况进行大致的推测。 情景导入 为此,需要对统计数据进行整理和分析。分析数据的一种基本方法是用图将他们画出来,或用表格改变数据的排列方式。
128.1 144.4 150.3 146.2 140.6 126.0 125.6 127.7 154.4 142.7 141.2 142.7 137.6 136.9 132.3 131.8 147.7 138.4 136.6 136.2 141.6 141.1 133.1 142.8 136.8 133.1 144.5 142.4 140.8 127.7 150.7 160.3 138.8 154.3 147.9 141.3 143.8 138.1 139.7 142.9 144.7 148.5 138.3 135.3 134.5 140.6 138.4 137.3 149.5 142.5 139.3 156.1 152.2 129.8 133.2根据以上数据可以画出频数分布表和频数分布图,从图表中可以清楚地知道数据分布在各个小组的个数。频率分布表和频率分布图,则从各个小组的数据在样本容量中所占比例的大小来表示数据分布的规律。画频率分布直方图的具体做法如下:1、求极差(最大值与最小值的差)160.3-125.6=34.72、决定组距与组数(将数据分组)组数=极差/组距=34.7/5≈6.9因此组距为5,组数为73、将数据分组4、画频率分布表[125.45 ,130.45), [130.45, 135.45) ,[135.45, 140.45), [140.45, 145.45), [145.45, 150.45), [150.45,155.45) ,[155.45, 160.45]55名12岁男生身高的频率分布表一、频率分布表4、画频率分布表5、画频率分布直方图二、频率分布直方图1、频率分布表列出的是数据落在各个小组的频率。2、频率分布直方图是用面积表示数据落在各个小组的频率的大小。在频率分布直方图中,各小长方形面积之和为1。说明:画频率分布直方图的一般步骤:1、求极差(最大值与最小值的差)2、决定组距与组数(将数据分组)组数=极差/组距当样本容量不超过100时,组数一般为5~12组5、画频率分布直方图4、画频率分布表二、频率分布直方图3、将数据分组三、频率分布折线图随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。四、总体密度曲线四、总体密度曲线身高ab (图中阴影部分的面积,表示总体在区间 (a, b) 内取值的百分比)。反映了总体分布,即反映了总体在各个范围内取值的百分比说明:总体密度曲线是客观存在的,但在实际中,我们只能用样本来估计。由于样本是随机的,不同的样本得到的频率分布折线图不同;即使是同一样本,不同的分组得到的频率分布折线图也不同。也就是说:频率分布折线图是随着样本的容量和分组情况的变化而变化的,因此不能由样本的频率分布折线图得到准确的总体密度曲线。例1、为了了解某地高一年级男生的身高情况,从其中的一个学校选取容量为60的样本(60名男生的身高,单位:cm),分组情况如下:60.4527例2、一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图,为了分析居民的收入与年龄、学历、职业等方面的联系,要从这10000人中再用分层抽样的方法抽出100人作进一步调查,则在[2500,3000](元)月收入段应抽出 人25试验1、进行“抛掷硬币”试验的试验结果画出频率分布的条形图 注意点:①各直方长条的宽度要相同;②相邻长条之间的间隔要适当结论:当试验次数无限增大时,01两种试验结果的频率大致相同。五、总体分布 排除了抽样造成的误差,精确地反映了总体取值的概率分布规律。这种总体取值的概率分布规律通常成为总体分布。 (2)研究总体概率分布往往可以研究其频数分布、频率分布.频率分布与总体分布的关系: (1)通过样本的频数分布、频率分布可以估计总体的概率分布. 抽样过程中加大样本容量, 排除抽样造成的误差,这样样本的分布频率精确地反映了总体取值的概率分布规律。用样本的频率分布估计总体分布,可以分为两种情况。
(1)当总体中的个体取不同数值很少时,如试验1,其几何表示用条形图;
(2) 当总体中的个体取不同数值较多、甚至无限时或总体可以在一个实数区间内取值,如试验2,其几何表示用直方图。说明:以上两种情况的不同之处在于:前者的频率分布表列出的是几个不同数值的频率,条形图用其高度来表示取各个值的频率;后者的频率分布表列出的是在各个不同区间内取值的频率,直方图用其图形面积的大小来表示在各个区间内取值的频率,各长方形面积之和为1。NBA某赛季甲、乙两名篮球运动员每场比赛的得分 的原始纪录如下: 甲运动员得分:13,51,23,8,26,38,16,33,14,28,39; 乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39. 问题一:请用适当的方法表示上述数据,并对两名运动员的得分能力进行比较.六、茎叶图 问题二:用上次课所学的制作样本的频率分布直方图来分析好吗? 甲:13,51,23,8,26,38,16,33,14,28,39; 乙:49,24,12,31,50,31,44,36,15,37,25,36,39.当数据比较少时,应用列分布直方图反而不方便 简化制图格式和步骤,得到新的统计制图方法:甲运动员得分:13,51,23,8,26,38,16,
33,14,28,39; 乙运动员得分:49,24,12,31,50,31,44,
36,15,37,25,36,39.茎叶图茎叶图:顾名思义,茎是指中间的一列数,叶 就是从茎的旁边生长出来的数.中间的数字表示 得分的十位数,旁边的数字分别表示两个人得分 的个位数.茎叶图特点:茎叶图不仅能保留原始数据,而且能够展示数据
的分布情况 。乙:得分基本上是对称的,叶的分布是“单峰”的,有10/13的叶是分布在茎2、3、4上,中位数是36.
甲:得分除一个特殊得分(51分)外,也大致对称,分布也是“单峰”的,有9/11的叶主要集中在茎1、2、3上,中位数是26. 从上述中位数的大小就可以看得出,乙运动员的成绩更好.另外,乙运动员的得分更集中于峰值附近,这说明乙运动员的发挥更稳定.课件17张PPT。 第二章 统计
2.2.1 用样本的频率分布估计
总体分布 我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?探究:你认为,为了较为合理地确定出这个标准,需要做哪些工作? 复习引入: (1)统计的核心问题: 如何根据样本的情况对总体的情况作出推断 简单随机抽样 系统抽样 分层抽样(3)通过抽样方法收集数据的目的是什么?从中寻找所包含的信息,用样本去估计总体(2)随机抽样的几种常用方法 : 我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费。如果希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢 ?探究:①采用抽样调查的方式获得样本数据
②分析样本数据来估计全市居民用水量的分布情况下表给出100位居民的月均用水量表
分析数据的一种基本方法是用图将它们画出来,或者用紧凑的表格改变数据的排列方式,作图可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息。表格则是通过改变数据的构成形式,为我们提供解释数据的新方式讨论:如何分析数据?根据这些数据你能得出用水量其他信息吗?为此我们要对这些数据进行整理与分析〈一〉频率分布的概念:
频率分布是指一个样本数据在各个小范围内所占比例的大小。一般用频率分布直方图反映样本的频率分布 〈二〉画频率分布直方图其一般步骤为:
(1)计算一组数据中最大值与最小值的差,即求极差(2)决定组距与组数(3)将数据分组(4)列频率分布表(5)画频率分布直方图第一步: 求极差: (数据组中最大值与最小值的差距) 最大值= 4.3 最小值= 0.2 所以极差= 4.3-0.2 = 4.1第二步: 决定组距与组数: (强调取整) 当样本容量不超过100时, 按照数据的多少, 常分成5~12组.
为方便组距的选择应力求“取整”.
本题如果组距为0.5(t). 则 第三步: 将数据分组:( 给出组的界限) 所以将数据分成9组较合适. [0, 0.5), [0.5, 1), [1, 1.5),……[4, 4.5) 共9组. 第四步: 列频率分布表. 组距=0.5 0.040.080.080.160.30.150.440.220.250.512.000.020.040.040.080.10.30.150.05第五步: 画出频率分布直方图. 频率/组距 月均用水量/t (组距=0.5)
小长方形的面积=?
小长方形的面积总和=?
月均用水量最多的在哪个区间?请大家阅读第68页,直方图有哪些优点和缺点?频率分布直方图的特征:
从频率分布直方图可以清楚的看出数据分布的总体趋势。
从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了。思考:
1.频率分布表与频率分布直方图的区别?频率分布表列出的是在各个不同区间内取值的频率。
频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率。2.如果当地政府希望使85%以上的居民每月的用水量不超出标准,根据频率分布表2-2和频率分布直方图2.2-1,你能对制定月用水量标准提出建议吗 ?3.将组距确定为1,作出教材P66页 居民月均用水量的频率分布直方图 4.谈谈两种组距下,你对图的印象?同一个样本数据,绘制出来的分布图是唯一的吗? (同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图和形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断 ) 画出频率分布折线图. 频率/组距 月均用水量/t (取组距中点, 并连线 ) 频率分布折线图:
画好频率分布图后,我们把频率分布直方图中各小长方形上端连接起来,得到的图形.在样本频率分布直方图中,当样本容量增加,作图时所分的组数增加,组距减少,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线. 它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息. 总体密度曲线:1.对于任何一个总体,它的密度曲线是不是一定存在?它的密度曲线是否可以被非常准确地画出来?思考 实际上,尽管有些总体密度曲线是客观存在的,但一般很难像函数图象那样准确地画出来,我们只能用样本的频率分布对它进行估计,一般来说,样本容量越大,这种估计就越精确。2.图中阴影部分的面积表示什么?2.总体在范围(a,b)内取值的百分比 例: 甲乙两人比赛得分记录如下:
甲:13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39
乙:49, 24, 12, 31, 50, 31, 44, 36, 15, 37, 25, 36, 39
用茎叶图表示两人成绩,说明哪一个成绩好.甲 乙0
1
2
3
4
5
2, 5
5, 4
1, 6, 1, 6, 7, 9
4, 9
0 8
4, 6, 3
3, 6, 8
3, 8, 9
1 叶 茎 叶茎叶图 (一种被用来表示数据的图) 茎叶图 当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图 小结:
1.不易知一个总体的分布情况时,往往从总体中抽取一个样本,用样本的频率分布去估计总体的频率分布,样本容量越大,估计就越精确.
2. 目前有:频率分布表、直方图、茎叶图.
3.当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图。
课件19张PPT。 第二章 统计
2.2.2 用样本的数字特征估计
总体的数字特征一、众数、中位数、平均数1、众数 在一组数据中,出现次数最多的数据叫做这一组数据的众数。2、中位数 将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:分别求这些运动员成绩的众数,中位数与平均数  解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
  上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70; 这组数据的平均数是 答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米). 二 、众数、中位数、平均数与频率分布直 方图的关系1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:频率分布直方图如下: 2、在样本中,有50%的个体小于或等于中
位数,也有50%的个体大于或等于中位数,因此,
在频率分布直方图中,中位数左边和右边的直方图
的面积应该相等,由此可以估计中位数的值。下图
中虚线代表居民月均用水量的中位数的估计值,此
数据值为2.02t. 频率分布直方图如下:说明:
2.03这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致. 3. 可以从频率分布直方图中估计平均数 平均数的估计值=频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和三、众数、中位数、平均数的简单应用例1. 某工厂人员及工资构成如下:(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?分析:
(1)众数为200,中位数为220,平均数为300。
(2)因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。四、标准差 平均数向我们提供了样本数据的重要信息,但是,平均数有时也会使我们作出对总体的片面判断,难以概括样本数据的实际状态,而数据的离散程度可以用极差、方差或标准差来描述。为了表示样本数据的单位表示的波动幅度,通常要求出样本方差或者它的算术平方根.四、标准差(1)方差:设在一组数据,x1,x2,…,xn中,各数据与它们的平均数x的差的平方分别是那么我们用它们的平均数,即 来衡量这组数据的波动大小,并把它叫做这组数据的方差,一组数据方差越大,则这组数据波动越大。 (2)标准差:我们把数据的方差的算术平方根叫做这组数据的标准差,它也是一个用来衡量一组数据的波动大小的重要的量。计算标准差的算法: 四、标准差S5 算出方差的算术平方根,即为样本标准差s。例2. 计算数据5,7,7,8,10,11的标准差.S5 .所以这组数据的标准差是2.例3. 从某灯泡厂生产的一批灯泡中随机地抽取10只
进行寿命测试,得数据如下(单位:h):
1458,1395,1562,1614,1351,1490,1478,1382,1536,1496
使用函数型计算器或计算机的Excel软件求样本的平
均数x和样本的标准差。解:按键继续按下表按键SHIFTSHIFTxσn==x解2:打开Excel工作表,在一列输入数据,如将10个数据输入A1到A10单元格中.(1)利用求和∑计算它们的和;(2)用函数AVERAGE(A1:A10)求它们的平均数;(3)用函数VARPA(A1:A10)求它们的方差;(4)用开方函数Sqrt(方差)计算它们的标准差.(2)由(1)知,甲、乙两人平均成绩相等,但s乙2.2.2 用样本的数字特征估计
总体的数字特征(一):众数、中位数和平均数 思考1:在初中我们学过众数、中位数和平均数的概念,这些数据都是反映样本信息的数字特征,对一组样本数据如何求众数、中位数和平均数? 思考2:在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内?由此估计总体的众数是什么? 思考4:在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.04,0.08,0.15,0.22,0.25,0.14,0.06,0.04,0.02.由此估计总体的中位数是什么? 0.5-0.04-0.08-0.15-0.22=0.01,0.01÷0.5=0.02,中位数是2+0.02=2.02. 思考3:在频率分布直方图中,每个小矩形的面积表示什么?中位数左右两侧的直方图的面积应有什么关系?思考5:平均数是频率分布直方图的“重心”,在城市居民月均用水量样本数据的频率分布直方图中,各个小矩形的重心在哪里?从直方图估计总体在各组数据内的平均数分别为多少?0.25,0.75,1.25,1.75,2.25,
2.75,3.25,3.75,4.25. 思考6:根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数. 由此估计总体的平均数是什么?0.25×0.04+0.75×0.08+1.25×0.15+1.75×0.22+2.25×0.25+2.75×0.14+3.25× 0.06+3.75×0.04+4.25×0.02=2.02(t).
平均数是2.02. 思考7:从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是2.0,平均数是1.973,这与我们从样本频率分布直方图得出的结论有偏差,你能解释一下原因吗? 频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关. 注:在只有样本频率分布直方图的情况下,我们可以按上述方法估计众数、中位数和平均数,并由此估计总体特征.思考8:一组数据的中位数一般不受少数几个极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点,你能举例说明吗?样本数据的平均数大于(或小于)中位数说明什么问题?你怎样理解“我们单位的收入水平比别的单位高”这句话的含义? 如:样本数据收集有个别差错不影响中位数;大学
毕业生凭工资中位数找单位可能收入较低.
平均数大于(或小于)中位数,说明样本数据
中存在许多较大(或较小)的极端值.
这句话具有模糊性甚至蒙骗性,其中收入水平
是员工工资的某个中心点,它可以是众数、中位数
或平均数.(二):标准差 样本的众数、中位数和平均数常用来表示样本数据的“中心值”,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数据中的少量信息. 平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平均数的影响也越大.当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度. 思考1:在一次射击选拔赛中,甲、乙两名运动员各射击10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
甲、乙两人本次射击的平均成绩分别为多少环?思考2:甲、乙两人射击的平均成绩相等,观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?环数甲的成绩比较分散,极差较大,乙的成绩相对集中,比较稳定.环数思考3:对于样本数据x1,x2,…,xn,设想通过各数据到其平均数的平均距离来反映样本数据的分散程度,那么这个平均距离如何计算? 思考4:反映样本数据的分散程度的大小,最常用的统计量是标准差,一般用s表示.假设样本数据x1,x2,…,xn的平均数为 ,则标准差的计算公式是: 那么标准差的取值范围是什么?标准差为0的样本数据有何特点? s≥0,标准差为0的样本数据都相等. 标准差越大离散程度越大,数据较分散;标准差越小离散程度越小,数据较集中在平均数周围. 知识补充1.标准差的平方 称为方差,有时用方差代替标准差测量样本数据的离散度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.例1 画出下列四组样本数据的条形图,
说明他们的异同点.
(1) 5,5,5,5,5,5,5,5,5;
(2) 4,4,4,5,5,5,6,6,6;样本数字特征例题分析(3) 3,3,4,4,5,6,6,7,7;
(4) 2,2,2,2,5,8,8,8,8.
例2 甲、乙两人同时生产内径为25.40mm的一种零件,为了对两人的生产质量进行评比,从他们生产的零件中各随机抽取20件,量得其内径尺寸如下(单位:mm):甲 :
25.46 25.32 25.45 25.39 25.36 25.34 25.42 25.45 25.38 25.42 25.39 25.43 25.39 25.40 25.44 25.40 25.42 25.35 25.41 25.39乙:
25.40 25.43 25.44 25.48 25.48 25.47 25.49 25.49 26.36 25.34 25.33 25.43 25.43 25.32 25.47 25.31 25.32 25.32 25.32 25.48 从生产零件内径的尺寸看,谁生产的零件质量较高? 甲生产的零件内径更接近内径标准,且稳定程度较高,故甲生产的零件质量较高. 说明:1.生产质量可以从总体的平均数与标准差两个角度来衡量,但甲、乙两个总体的平均数与标准差都是不知道的,我们就用样本的平均数与标准差估计总体的平均数与标准差.
2.问题中25.40mm是内径的标准值,而不是总体的平均数.例3 以往招生统计显示,某所大学录取的新生高考总分的中位数基本稳定在550分,若某同学今年高考得了520分,他想报考这所大学还需收集哪些信息?要点:(1)查往年录取的新生的平均分数.若平均数小于中位数很多,说明最低录取线较低,可以报考;
(2)查往年录取的新生高考总分的标准差.若标准差较大,说明新生的录取分数较分散,最低录取线可能较低,可以考虑报考.例4 在去年的足球甲A联赛中,甲队每场比赛平均失球数是1.5,全年比赛失球个数的标准差为1.1;乙队每场比赛平均失球数是2.1,全年比赛失球个数的标准差为0.4.你认为下列说法是否正确,为什么?
(1)平均来说甲队比乙队防守技术好;(2)乙队比甲队技术水平更稳定;(3)甲队有时表现很差,有时表现又非常好;(4)乙队很少不失球.小结作业1.对同一个总体,可以抽取不同的样本,相应的平均数与标准差都会发生改变.如果样本的代表性差,则对总体所作的估计就会产生偏差;如果样本没有代表性,则对总体作出错误估计的可能性就非常大,由此可见抽样方法的重要性.2.在抽样过程中,抽取的样本是具有随机性的,如从一个包含6个个体的总体中抽取一个容量为3的样本就有20中可能抽样,因此样本的数字特征也有随机性.
用样本的数字特征估计总体的数字特征,是一种统计思想,没有惟一答案.