课件13张PPT。第2章第1节抽样方法——简单随机抽样新课标人教版数学高二上学期多媒体教学课件 如何用样本情况估计总体情况?提出总体、个体、样本、样本容量等念。介绍如何用样本平均数去估计总体平数。《统计初步》知识框架图:引例:问题1:要计算2007年温州市全体中考学生数学平均
成绩和语文平均成绩,你准备这样做?问题2:假设你作为一名食品卫生工作人员,要了解
某批袋装牛奶的细菌超标情况,你准备怎样做?如何保证样本能够很好的代表总体呢?抽样分析问题3:要对某食品店内的一批小包装饼干进行卫生达
标检验,你准备怎样做?为了使样本具有很好的代表性,设计抽样方法时,最重要的是要将总体“搅拌均匀”,即使每个个体有同样的机会被抽中。简单随机抽样注意以下点: (1)它要求被抽取样本的总体的个体数有限; (2)它是从总体中逐个进行抽取; (3)它是一种不放回抽样;(4)它是一种等概率抽样。 一般地,设一个总体的个体数为N,如果通过逐个不放回地抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。简单随机抽样1、抽签法(抓阄法)例1:高二某班有40名学生,现要从中抽出8名学生去参加一个座谈会,每名学生机会均等,可以如何操作?抽签法的步骤:1、把总体的所有N个个体从0到(N-1)编号;2、 把号码写在号签上,将号签放在一个容器中搅拌
均匀,每次抽取一个号签,不放回的连续取n次;3、将取出的n个号签上的号码所对应的n个个体作为
样本。思考你认为抽签法有什么优点和缺点?当总体中的个体数很多时,用抽签法方便吗?优点:抽签法能够保证每个个体入选样本的机会相等缺点:(1)当总体中的个数较多时,制作号签的成本 将会增加,使得抽签法成本高;
(2)号签多时,把它们“搅拌均匀”就比较困难,从而使产生坏样本的可能性增加。 将全班同学按学号编号,制作相应的卡片号签,放入同一个箱子里均匀搅拌,从中抽出15个号签,就相应的15名学生对看足球比赛的喜爱程度(很喜爱、喜爱、一般、不喜爱、很不喜爱 )进行调查。分析并说明整个抽签过程中每个同学被抽到的概率是相等的。练习:2、用随机数表法进行抽取(1)随机数表是统计工作者用计算机生成的随机数,并保证表中的每个位置上的数字是等可能出现的。(3)用随机数表抽取样本,可以任选一个数作为开始,读数的方向可以向左,也可以向右、向上、向下等等。因此并不是唯一的.(2)用随机数表进行抽样的步骤:将总体中个体编号;选定开始的数字;获取样本号码。(4)由于随机数表是等概率的,因此利用随机数表抽取样本保证了被抽取个体的概率是相等的。例2:假设我们要考察某公司生产的袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,可以按照下面的步骤进行先将800袋牛奶编号,可以编为000,001,…,799;
在随机数表中任选一个数;
从选定的数开始向右(读数的方向可以是向左,向上,向下等),得到满足的数将它取出,继续向右读,直到样本的60个号码全部取出。 将全班同学按学号编号,制作相应的卡片号签,放入同一个箱子里均匀搅拌,从中抽出15个号签,就相应的15名学生对看足球比赛的喜爱程度(很喜爱、喜爱、一般、不喜爱、很不喜爱)进行调查。上述问题中抽取样本的方法用随机数表法来进行!规则1:从103页表中第3行第11列的两位数开始,依次向下读数,到头后再转向它左面的两位数号码,并向上读数,以此下去,直到取足样本。练习:规则2:从103页表中第12行第10列的两位数开始,依次向左读数,到头后再转向它下面的两位数号码,并向右读数,以此下去,直到取足样本。抽签法 2.简单随机抽样的法:随机数表法注:随机抽样并不是随意或随便抽取,因为随意或随便抽取都会带有主观或客观的影响因素.小结 一般地,设一个总体的个体数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。1.简单随机抽样的概念课件17张PPT。第2章第1节抽样方法——系统抽样新课标人教版数学高二上学期多媒体教学课件 注意以下四点: (1)它要求被抽取样本的总体的个体数有限; (2)它是从总体中逐个进行抽取; (3)它是一种不放回抽样;(4)它是一种等概率抽样。 一般地,设一个总体的个体数为N,如果通过逐个不放回地抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。1、简单随机抽样1、抽签法抽签法的步骤:1、把总体的所有N个个体从0到(N-1)编号;2、 把号码写在号签上,将号签放在一个容器中搅拌
均匀,每次抽取一个号签,不放回的连续取n次;3、将取出的n个号签上的号码所对应的n个个体作为
样本。2、用随机数表法进行抽取先将总体编号;
在随机数表中任选一个数;
从选定的数开始向右(读数的方向可以是向左,向上,向下等),得到满足的数将它取出,继续向右读,直到样本号码全部取出。提出问题(1)某学校为了了解高一年级学生对教师教学的意见,打算从高一年级500名学生中抽取50名进行调查,用简单随机抽样,该如何操作?你还能设计其它抽取样本的方法吗? (2)为了了解高一年级12000名学生的数学成绩,需要抽取容量为120的样本,请用合适的方法抽取.解:(1)对全体学生的数学成绩进行编号:1,2,3……,12000.(2)分段:由于样本容量与总体容量的 比是1:100,我们将总体平均分为100个部分,其中每一部分包含100个个体.(3)在第一部分即1号到100号用简单随机抽样,抽取一个号码,比如是50.(4)以50作为起始数,,然后顺序抽取150,250,350,…..11950.这样就得到容量为100的一个样本.当总体的个数较多时,采用简单随机抽样太麻烦,这时将总体分成均衡的部分,然后按照预先定出的规则,从每一部分中抽取1个个体,得到所需要的样本,这种抽样称为系统抽样。2.系统抽样系统抽样的步骤为:(1)先将总体中的N个体编号.有时可直接利用个体自身所带的号码.(2)确定分段间隔k。对编号均衡地分段, 是整数时, ;
不是整数时,从N中剔除一些个体,使得其为整数为止。(3)第一段用简单随机抽样确定起始号码l。(4)按照规则抽取样本:l;l+k;l+2k;……;l+(n-1)k 系统抽样时,将总体中的个体均分后的每一段进行抽样时,采用简单随机抽样;系统抽样每次抽样时,总体中各个个体被抽取的概率也是相等的;如总体的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行。需要说明的是整个抽样过程中每个个体被抽到的概率仍然相等。系统抽样与简单随机抽样比较,有何优、缺点?1、系统抽样比简单随机抽样更容易实施; 2、系统抽样的效果会受个体编号的影响,而简单随机抽样的效果不受个体编号的影响; 3、系统抽样比简单随机抽样的应用范围广。广告中数据的可靠性某减肥药的广告称,其减肥的有效率为75%,见到这样的广告你会怎么想?
“现代研究证明,99%以上的人感染有螨虫……”,这是一家化妆品公司的广告。
某化妆品的广告称:“它含有某种成分可以彻底地清楚脸部皱纹,只需10天,就能让肌肤得到改善。”3.分层抽样 当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样。其中所分成的各部分叫做层。 由于分层抽样的要求不同,各层的抽样的样本容量也不相同,所以,应当按照实际情况,合理地将样本容量分配到各个层,以确保抽样的合理性,研究时可以根据不同的要求来分层抽样。 分层抽样适用于总体由差异明显的几部分组成的情况,每一部分称为层,在每一层中实行简单随机抽样。这种方法较充分地利用了总体己有信息,是一种实用、操作性强的方法。 分层抽样的一个重要问题是一个总体如何分层。分层抽样中分多少层,要视具体情况而定。总的原则是:层内样本的差异要小,而层与层之间的差异尽可能地大,否则将失去分层的意义。分层抽样的实施步骤:(2)根据总体中的个体数N与样本容量n确定抽样比:k=(3)确定各层应该抽取的个体数。各层的抽取数之和应等于样本容量。对于不能取整的数,求其近似值。(4)按(3)中确定的数目在各层中随机抽取个体,合在一起得到容量为n的样本.(1) 根据已有信息,将总体分成互不相交的层; (1)分层抽样适用于总体由差异明显的几部分组成的情况,每一部分称为层,在每一层中实行简单随机抽样。这种方法较充分地利用了总体己有信息,是一种实用、操作性强的方法。而且更具代表性。 (2)分层抽样的一个重要问题是总体如何分层,分多少层,这要视具体情况而定。总的原则是:层内样本的差异要小,而层与层之间的差异尽可能地大,否则将失去分层的意义。注:例2、一个单位的职工有500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人。为了了解该单位职工年龄与身体状况的有关指标,从中抽取100名职工作为样本,应该怎样抽取? 解:抽取人数与职工总数的比是100:500=1:5,则各年龄段(层)的职工人数依次是125:280:95=25:56:19,然后分别在各年龄段(层)运用简单随机抽样方法抽取。
答:在分层抽样时,不到35岁、35~49岁、50岁以上的三个年龄段分别抽取25人、56人和19人。分层抽样的抽取步骤:(1)总体与样本容量确定抽取的比例。(2)由分层情况,确定各层抽取的样本数。(3)各层的抽取数之和应等于样本容量。(4)对于不能取整的数,求其近似值。4.三种抽样方法的比较 一个电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下所示:
很喜爱 喜爱 一般 不喜爱
2400 4200 3800 1600
打算从中抽取60人进行详细调查,如何抽取?
5.课堂练习 课件25张PPT。第2章第2节频率分布直方图新课标人教版数学高二上学期多媒体教学课件 用样本的有关情况去估计总体的相应情况,
这种估计大体分为两类,
一类是用样本频率分布估计总体分布,
一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征。 整体介绍: 将一批数据按要求分为若干个组,各组内数据的个数,叫做该组的频数。
频率:每组数据的个数除以全体数据个数的商叫做该组的频率。
根据随机抽取样本的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况),就叫做样本的频率分布。
我国是世界上严重缺水的国家之一,城市缺水问题较为突出。2000年全国主要城市中缺水情况排在前10位的城市 例1:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a的部分按平价收费,超过a的部分按议价收费。 ①如果希望大部分居民的日常生活不受影响,那 么标准a定为多少比较合理呢? ②为了较合理地确定这个标准,你认为需要做
哪些工作? 思考:由上表,大家可以得到什么信息? 通过抽样,我们获得了100位居民某年的月平均用水量(单位:t) ,如下表: 1、求极差(即一组数据中最大值与最小值的差)知道这组数据的变动范围4.3-0.2=4.12、决定组距与组数(将数据分组)3、 将数据分组(8.2取整,分为9组)画频率分布直方图的步骤4、列出频率分布表.(学生填写频率/组距一栏)5、画出频率分布直方图。组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组。4.列频率分布表100位居民月平均用水量的频率分布表频率分布直方图如下:
小长方形的面积=?频率分布直方图如下:
小长方形的面积总和=?频率分布直方图如下:
月均用水量最多的在那个区间?探究:
同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。分别以1和0.1为组距重新作图,然后谈谈你对图的印象。 一、求极差,即数据中最大值与最小值的差二、决定组距与组数 :组距=极差/组数三、分组,通常对组内数值所在区间,
取左闭右开区间 , 最后一组取闭区间四、登记频数,计算频率,列出频率分布表画一组数据的频率分布直方图,可以按以下的步骤进行:五、画出频率分布直方图(纵轴表示频率/组距)练 习1.有一个容量为50的样本数据的分组的频数如下:[12.5, 15.5) 3[15.5, 18.5) 8[18.5, 21.5) 9[21.5, 24.5) 11[24.5, 27.5) 10[27.5, 30.5) 5[30.5, 33.5) 4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少? 解:组距为3 分组 频数 频率 频率/ 组距[12.5, 15.5) 3[15.5, 18.5) 8[18.5, 21.5) 9[21.5, 24.5) 11[24.5, 27.5) 10[27.5, 30.5) 5[30.5, 33.5) 40.06
0.16
0.18
0.22
0.20
0.10
0.080.020
0.053
0.060
0.073
0.067
0.033
0.027频率分布直方图如下:0.0100.0200.0300.0400.05012.515.50.0600.070例2 为了了解一大片经济林的生长情况,随机测量其中的100株的底部周长,得到如下数据表(长度单位:cm): (1)编制频率分布表;(2)绘制频率分布直方图;
(3)估计该片经济林中底部周长小于100cm的树木 约占多 少,周长不小于120cm的树木约占多少。解:
(1)从表中可以看出:
这组数据的最大值为135,最小值为80,
故极差为55,
可将其分为11组,组距为5。
从第1组[80,85)开始,
将各组的频数、频率和 频率/组距 填入表中2.有一个容量为50的样本,数据的分组及其频数如下所示, 请将其制成频率直方图.频率分布表如下:0.060.160.180.220.200.100.081.00频数3.已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是 ( )5.5~7.5 B. 7.5~9.5
C. 9.5~11.5 D. 11.5~13.5D4.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.1、求极差(即一组数据中最大值与最小值的差)2、决定组距与组数(将数据分组)3、 将数据分组小结:画频率分布直方图的步骤4、列出频率分布表.(填写频率/组距一栏)5、画出频率分布直方图。组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组。注意(2)纵坐标为:课件16张PPT。第2章第2节用样本的频率分布估计总体分布新课标人教版数学高二上学期多媒体教学课件 一、求极差,即数据中最大值与最小值的差二、决定组距与组数 :组距=极差/组数三、分组,通常对组内数值所在区间,
取左闭右开区间 , 最后一组取闭区间四、登记频数,计算频率,列出频率分布表画一组数据的频率分布直方图,可以按以下的步骤进行:五、画出频率分布直方图(纵轴表示频率/组距)例2 为了了解一大片经济林的生长情况,随机测量其中的100株的底部周长,得到如下数据表(长度单位:cm): (1)编制频率分布表;(2)绘制频率分布直方图;
(3)估计该片经济林中底部周长小于100cm的树木 约占多 少,周长不小于120cm的树木约占多少。解:
(1)从表中可以看出:
这组数据的最大值为135,最小值为80,
故极差为55,
可将其分为11组,组距为5。
从第1组[80,85)开始,
将各组的频数、频率和 频率/组距 填入表中3.已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是 ( )5.5~7.5 B. 7.5~9.5
C. 9.5~11.5 D. 11.5~13.5D4.一个容量为100的样本,数据的分组和各组的相关信息如下表,试完成表中每一行的两个空格.频率分布直方图如下:连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图利用样本频分布对总体分布进行相应估计(3)当样本容量无限增大,组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线——总体密度曲线。(2)样本容量越大,这种估计越精确。(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?总体密度曲线月均用水量/tab (图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。 用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布直方图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。 总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.总体密度曲线频率分布直方图如下:连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图茎叶图某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下:(1)甲运动员得分:
13,51,23,8,26,38,16,33,14,28,39(2)乙运动员得分:
49,24,12,31,50,31,44,36,15,37,25,36,39茎叶图甲乙0
1
2
3
4
5
2 5
5 4
1 6 1 6 7 9
4 9
08
4 6 3
6 8
3 8 9
1 叶就是从茎的旁边生长出来的数,表示得分的个位数。 茎是指中间的一列数,表示得分的十位数 茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况。
从运动员的成绩的分布来看,乙运动员的成绩更好;从叶在茎上的分布情况来看,乙运动员的得分更集中于峰值附近,说明乙运动员的发挥更稳定。
在样本数据较少时,用茎叶图表示数据的效果较好。它不但可以保留所有信息,而且可以随时纪录,这对数据的纪录和表示都能带来方便。但当样本数据较多时,茎叶图就显得不太方便。因为每一个数据都要在茎叶图中占据一个空间,如果数据很多,枝叶就会很长。课件13张PPT。第2章第2节 标准差新课标人教版数学高二上学期多媒体教学课件 平均数向我们提供了样本数据的重要信息,但是平均有时也会使我们作出对总体的片面判断.因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽的.因此,只有平均数还难以概括样本数据的实际状态.如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7如果你是教练,你应当如何对这次射击作出评价?如果看两人本次射击的平均成绩,由于45678910环数频率0.10.20.3(甲)456789100.10.20.30.4环数0(乙)频率甲的环数极差=10-4=6
乙的环数极差=9-5=4.考察样本数据的分散程度的大小,最常用的统计量是标准差.
标准差是样本平均数的一种平均距离,一般用s表示所谓“平均距离”,其含义可作如下理解:由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差.显然,标准差越大,则a越大,数据的离散程度越大;标准差越小,数据的离散程度越小.一个样本中的个体与平均数之间的距离关系可用下图表示:考虑一个容量为2的样本:用计算器可算出甲,乙两人的的成绩的标准差由 可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.例题1:画出下列四组样本数据的直方图,说明它们的异同点.(1) 5, 5, 5, 5, 5, 5, 5, 5, 5;(2) 4, 4, 4, 5 , 5, 5, 6, 6, 6;(3) 3 , 3 , 4 , 4 , 5, 6 , 6, 7 , 7;(4) 2 , 2 , 2 , 2, 5 , 8 , 8 , 8 , 8 ;解:四组样本数据的
直方图是:0.10.20.30.40.50.60.70.80.91.012345678标准差还可以用于对样本数据的另外一种解释.例如,在关于居民月均用水量的例子中,平均数标准差s=0.868 ,所以例2 甲乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm)甲 25.46, 25.32, 25.45, 25.39, 25.36
25.34, 25.42, 25.45, 25.38, 25.42
25.39, 25.43, 25.39, 25.40, 25.44
25.40, 25.42, 25.35, 25.41, 25.39乙 25.40, 25.43, 25.44, 25.48, 25.48
25.47, 25.49, 25.49, 25.36, 25.34
25.33, 25.43, 25.43, 25.32, 25.47
25.31, 25.32, 25.32, 25.32, 25.48 从生产的零件内径的尺寸看,谁生产的质量较高?分析:每一个工人生产的所有零件的内径尺寸组成一个总体,
由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.00mm的差异在时质量低,差异小时质量高;当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样比较两人的生产质量只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可.但是这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样体数据,然后比较这两个样本的平均数,标准差,以此作为两个总体之间的估计值.解:用计算器计算可得:从样本平均数看,甲生产的零件内径比乙生产的更接近内径标准(25.40mm),但是差异很小;从样本标准差看,由于从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与我们抽取的内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本(为什么?).这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数,标准差等都会发生改变,这就会影响到我们对总体情况的估计.如果样本的的代表性差,那么对总体所作出的估计就会产生偏差;样本没有代表性时,对总体作出错误估计的可能性就非常大.这也正是我们在前面讲随机抽样时反复强调样本代表性的理由.在实际操作中,为了减少错误的发生,条件许可时,通常采取适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.课件22张PPT。第2章 统计复习课新课标人教版数学高二上学期多媒体教学课件 复习回顾一、随机抽样方法简单随机抽样系统抽样分层抽样抽签法随机数法系统抽样的步骤为:(1)先将总体中的N个体编号.有时可直接利用个体自身所带的号码.(2)确定分段间隔k。对编号均衡地分段, 是整数时, ;
不是整数时,从N中剔除一些个体,使得其为整数为止。(3)第一段用简单随机抽样确定起始号码l。(4)按照规则抽取样本:l;l+k;l+2k;……;l+(n-1)k三种抽样方法的比较应用举例 例2 某校小礼堂举行心理讲座,有500人参加听课,坐满小礼堂,现从中选取25名同学了解有关情况,选取怎样的抽样方式更为合适. 分析:宜采用系统抽样的方法,请写出具体的操作步骤。2 把第一组的1~20号写成标签,用抽签的方法从中 抽出第一个号码.设这个号码为x3 号码为 x 、 x+10、 x+20、…… 、x +490作为样本 1 把500人的座位号按从小到大的顺序平均分成25组, 组距为20应用举例 例3 某科研单位有科研人员160人,其中具有高级以上职称的24人,中级职称48人,其余均为初级以下职称,现要抽取一个容量为20的样本,试确定抽样方法,并写出抽样过程.宜采用分层抽样的抽取方法(1)按总体与样本容量确定抽取的比例。 (2)由分层情况,确定各层抽取的样本数。(4)对于不能取整的数,求其近似值。 (3)各层的抽取数之和应等于样本容量。一、求极差,即数据中最大值与最小值的差二、决定组距与组数 :组距=极差/组数三、分组,通常对组内数值所在区间,
取左闭右开区间 , 最后一组取闭区间四、登记频数,计算频率,列出频率分布表二、画一组数据的频率分布直方图,可以按以下的步骤进行:五、画出频率分布直方图(纵轴表示频率/组距)频率分布直方图如下:
小长方形的面积=?茎叶图甲乙0
1
2
3
4
5
2 5
5 4
1 6 1 6 7 9
4 9
08
4 6 3
6 8
3 8 9
1 三 、 众数、中位数、平均数与频 率分布直方图的关系 1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。2、在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。 3、平均数是频率分布直方图的“重心”,是直方图的平衡点,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)四、考察样本数据的分散程度的大小,最常用的统计量是标准差.
标准差是样本平均数的一种平均距离,一般用s表示1.有一个容量为50的样本数据的分组的频数如下:[12.5, 15.5) 3[15.5, 18.5) 8[18.5, 21.5) 9[21.5, 24.5) 11[24.5, 27.5) 10[27.5, 30.5) 5[30.5, 33.5) 4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少? 解:组距为3 分组 频数 频率 频率/ 组距[12.5, 15.5) 3[15.5, 18.5) 8[18.5, 21.5) 9[21.5, 24.5) 11[24.5, 27.5) 10[27.5, 30.5) 5[30.5, 33.5) 40.06
0.16
0.18
0.22
0.20
0.10
0.080.020
0.053
0.060
0.073
0.067
0.033
0.027频率分布直方图如下:0.0100.0200.0300.0400.05012.515.50.0600.070五、变量间的相互关系变量间关系函数关系相关关系 散点图线形回归线形回归方程 (1)回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线。(2)最小二乘法例1 下列两个变量之间的关系,哪个不是函数关系( ).
A.角度和它的余弦值 B.正方形边长和面积
C.正n边形的边数和内角度数之和 D.人的年龄和身高D例2 5个学生的数学和物理成绩如下表:
画出散点图,并判断它们是否有相关关系.画图1例3 下表是某地的年降雨量与年平均气温,判断两者是
相关关系吗?求回归直线有意义吗?画图24、利用回归直线方程对总体进行估计 例5 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系。如果已测得炉料熔化完毕时,钢水的含碳量X与冶炼时间y(从炉料熔化完毕到出刚的时间)的一列数据,如下表所示:(1)作出散点图,找规律。
(2)求回归直线方程。
(3)预测当钢水含碳量为160时,应冶炼多少分钟?画图3 解: (1) 作散点图
从图可以看出,各点分布在一条直线附近,即它们线形相关.(2)列出下表,并计算设所求的回归直线方程为其中a,b的值使的值最小.所以回归直线的方程为 =1.267x-30.51(3)当x=160时, 1.267.160-30.51=172课件16张PPT。第2章第2节 众数、中位数、平均数新课标人教版数学高二上学期多媒体教学课件 一 众数、中位数、平均数的概念 中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数. 众数:在一组数据中,出现次数最多的数据叫做这组数据的众数. 众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.平均数: 一组数据的算术平均数,即 练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:分别求这些运动员成绩的众数,中位数与平均数 解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70; 二 、 众数、中位数、平均数与频 率分布直方图的关系 1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示:0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t) 2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)100位居民月平均用水量的频率分布表求出样本数据的中位数?说明:
2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致. 3、平均数是频率分布直方图的“重心”,是直方图的平衡点,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和给出. n 个样本数据的平均数由公式:0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)下图显示了居民月均用水量的平均数:
x=2.02三 三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少. 2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。 3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。 四 众数、中位数、平均数的简单应用例 某工厂人员及工资构成如下:(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么? 分析:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。课件10张PPT。第2章第3节两个变量的线性关系新课标人教版数学高二上学期多媒体教学课件 现实生活中存在许多相关关系:1、通过收集大量的数据,进行统计,对数据分析,找出其中的规律,对其相关关系作出一定判断.2、由于变量之间相关关系的不确定性,所以样本数据应较大,和有代表性.才能对它们之间的关系作出正确的判断.提出问题商品销售与广告;
粮食生产与施肥量;
人体的脂肪量与年龄。探究:.年龄脂肪239.52717.83921.24125.9454927.526.35028.25329.65430.25631.45730.8年龄脂肪5833.56035.26134.6如上的一组数据,你能分析人体的脂肪含量与年龄之间有怎样的关系吗?下面我们以年龄为横轴,脂肪含量为纵轴建立直角坐标系,作出各个点,称该图为散点图。如图:O20253035404550556065年龄脂肪含量510152025303540从刚才的散点图发现:点的位置散布在从左下角到右上角的区域。称它们成正相关。但有的两个变量的相关,如下图所示:作出散点图发现,它们散
布在从左上角到右下角的区域内。称它们成负相关.O如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,该直线方程叫回归方程。3、那么,我们该怎样来求出这个回归方程?
请同学们展开讨论,能得出哪些具体的方案?20253035404550556065年龄脂肪含量0510152025303540. 方案1、先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小时,测出它的斜率和截距,得回归方程。20253035404550556065年龄脂肪含量0510152025303540. 方案2、在图中选两点作直线,使直线两侧 的点的个数基本相同。 20253035404550556065年龄脂肪含量0510152025303540 方案3、如果多取几对点,确定多条直线,再求出这些直线的斜率和截距的平均值作为回归直线的斜率和截距。而得回归方程。 如图: 我们还可以找到
更多的方法,但
这些方法都可行
吗?科学吗?
准确吗?怎样的
方法是最好的?20253035404550556065年龄脂肪含量0510152025303540我们把由一个变量的变化
去推测另一个变量的方法
称为回归方法。我们上面给出的几种方案可靠性都不是很强,人们经过长期的实践与研究,已经找到了计算回归方程的斜率与截距的一般公式:以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫最小二乘法.课件10张PPT。第2章第3节两个变量的线性关系新课标人教版数学高二上学期多媒体教学课件 一、相关关系的判断例1:5个学生的数学和物理成绩如下表:画出散点图,并判断它们是否有相关关系。解:数学成绩小结:用Excel作散点图的步骤如下 :(1)进入Excel,在A1,B1分别输入“数学成绩”、“物理成绩”,在A、B列输入相应的数据。(2)点击图表向导图标,进入对话框,选择“标准类型”中的“XY散点图”,单击“完成”。(3)选中“数值X轴”,单击右键选中“坐标轴格式”中的“刻度”,把“最小值”、“最大值”、“刻度主要单位”作相应调整,最后按“确定”。y轴方法相同。二、求线性回归方程例2:观察两相关变量得如下表:求两变量间的回归方程解1:计算得:小结:求线性回归直线方程的步骤:
第一步:列表 ;
第二步:计算 ;
第三步:代入公式计算b,a的值;
第四步:写出直线方程。解2:用Excel求线性回归方程,步骤如下:(1)进入Excel作出散点图。(2)点击“图表”中的“添加趋势线”,单击“类型”中的“线性”,单击“确定”,得到回归直线。(3)双击回归直线,弹出“趋势线格式”,单击“选项”,选定“显示公式”,最后单击“确定”。例:有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:摄氏温度 -5 0 4 7 12 15 19 23 27 31 36热饮杯数 156 150 132 128 130 116 104 89 93 76 54 (1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间关系的一 般规律;
(3)求回归方程;
(4)如果某天的气温是 C,预测这天卖出的热饮杯数。三、利用线性回归方程对总体进行估计解: (1)散点图(2)气温与热饮杯数成负相关,即气温越高, 卖出去的热饮杯数越少。(3)从散点图可以看出,这些点大致分布在一条直线附近。