数学必修3_第二章统计(全套课件)

文档属性

名称 数学必修3_第二章统计(全套课件)
格式 rar
文件大小 1.7MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2010-02-26 17:07:00

文档简介

课件21张PPT。第二章 统计2.1 随机抽样简单随机抽样复习总体:
个体:
样本:
样本容量:在统计学中,所有考察对象的全体叫做总体.每一个考察的对象叫做个体.从总体中抽取的一部分个体叫做总体的一 个样本.样本中个体的数目叫做样本的容量.统计的基本思想 通过从总体中抽取一个 样本,根据样本的情况去估计总体的相应情况.探究:假设你作为一名食品卫生工作人员,要对某食品店内的
一批小包装饼干进行卫生达标检验,你准备怎样做? 一般得,设一个总体含有N个个体,从中逐个不放回地抽取n个
个体作为样本 ,如果每次抽取时总体内的各个个体被抽到的
机会都相等,就把这种抽样方法叫做简单随机抽样。常用的简单随机抽样方法有:1.抽签法(抓阄法)例1.若已知高一(3)班总共有64人,现要抽取6位同学出来做游戏,
请设计一个抽取的方法,要使得每位同学被抽到的机会相等。分析:可以把64位同学的学号分别写在大小,质地都相同的纸片上,
折叠或揉成小球,把纸片集中在一起并充分搅拌后,在从中逐
个抽出6张纸片,再选出纸片上的学号对应的同学即可。第一步:将总体的所有N个个体从0至(N-1)编号;第二步:准备N个号签分别标上这些编号,将号签放在容器中搅拌均匀后
每次抽取一个号签,不放回地连续取n次;第三步:将取出的n个号签上的号码所对应的n 个个体作为样本。基本步骤:例. 要考察某公司生产的500克袋装牛奶的质量是否达标,准备
从800袋牛奶中抽取60袋进行检验,请设计一个抽取的方法。步骤:第一步:先将800袋牛奶编号,可以编为000,001,…,799;第二步:在随机数表中任选一个数,如选出第8行第7列的数字7:第三步:从选取的数7开始向右读(也可向其它方向),得到一个三位数785,因为785<799,说明号码785在总体内,将它取出;继续向右读,得
到916,由于916>799,将它去掉,按照这种方法继续向右读,又取
出567,199,507,…,依次下去,知道样本的60个号码全部取出。
这样我们就得到了一个容量为60的样本。2.随机数法第一步:将总体的所有N个个体从0至(N-1)编号;第二步:选出开始的数字;第三步:在0至(N-1)的自然数中产生n个不同的随机数作为选出的号码,
将这n个号码所对应的个体作为样本。2.随机数法随机数表法的基本步骤:注:随机数还可用计算机产生。练习:1.某工厂已加工一种产品1000件,为了了解这种产品的合格率,要从中抽取
一个容量为60的样本进行检测,如何采用简单随机抽样方法抽取上述样本?抽签法 2.简单随机抽样的方法:随机数表法注:随机抽样并不是随意或随便抽取,因为随意或随便抽取都会带有主观或客观的影响因素.小结 一般地,设一个总体的个体数为N,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。1.简单随机抽样的概念系统抽样 例 学校为了了解高一年级学生对教师教学的意见,打算从高一年级500名学生中抽取50名学生进行调查. 除了用简单随机抽样获取样本外,你能否设计其他抽样样本的方法? 我们按照这样的方法来抽样:首先将这500名学生从1开
始进行编号,然后按号码顺序以一定的间隔进行抽取.
由于这个间隔可以定为10,即从号码为1~10的第一个
间隔中随机地抽取一个号码,假如抽到的是6
号,然后从第6号开始,每隔10个号码抽取一个,得到
6,16,26,36,…496这样,我们就得到一个容量为50的样本.这种抽样方法我
们叫做系统抽样. 当总体中的个体数较多时,将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这样的抽样叫做系统抽样.二、系统抽样的步骤一、系统抽样的定义系统抽样的步骤为:(1)先将总体中的N个体编号.有时可直接利用个体自身所带的号码.(2)确定分段间隔k。对编号均衡地分段, 是整数时, ;
不是整数时,从N中剔除一些个体,使得其为整数为止。(3)第一段用简单随机抽样确定起始号码l。(4)按照规则抽取样本:l;l+k;l+2k;……l+nk 系统抽样时,将总体中的个体均分后的每一段进行抽样时,采用简单随机抽样;系统抽样每次抽样时,总体中各个个体被抽取的概率也是相等的;如总体的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行。需要说明的是整个抽样过程中每个个体被抽到的概率仍然相等。P59练习: 2分层抽样 假设某地区有高中生2400人,初中生10900人,小学生11000人,此地教育部门为了了解本地区中小学的近视情况及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查,你认为应当怎样抽取样本?你认为哪些因素影响学生视力?抽样要考虑和因素?年级由于样本容量与总体个数的比例为1:100,则
高中应抽取人数为2400*1/100=24人,
初中应抽取人数为10900*1/100=109人,
小学应抽取人数为11000*1/100=110人.通常,当总体是由个体差异明显的几个部分组成时,往往选用分层抽样的方法。一、分层抽样的定义。 一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样。二、分层抽样的步骤:(1)按某种特征将总体分成互不相交的层
(2)按比例k=n/N确定每层抽取个体的个数(n/N)*Ni个。
(3)各层分别按简单随机抽样的方法抽取。
(4)综合每层抽样,组成样本。 某中学有180名教职员工,其中教学人员144人,管理人员12人,后勤服务人员24人,设计一个抽样方案,从中选取15人去参观旅游.
选用分层抽样,抽取教学人员12人,管理人员1人,后勤服务人员2人.简单随
机抽样系统
抽样分层
抽样抽样过程中每个个体被抽取的概率相等将总体分成均衡几部分,按规则关联抽取将总体分成几层,按比例分层抽取用简单随机抽样抽取起始号码总体中的个体数较少总体中的个体数较多总体由差异明显的几部分组成从总体中逐个不放回抽取用简单随机抽样或系统抽样对各层抽样课件35张PPT。2.2用样本估计总体复习回顾1、什么是简单随机抽样?什么样的总体适宜简单随机抽样? 2、什么是系统抽样?什么样的总体适宜 系统抽样? 3、什么是分层抽样?什么样的总体适宜分层抽样?抽样是统计的第一步,接下来就要对样本进行分析简单随
机抽样系统
抽样分层
抽样抽样过程中每个个体被抽取的概率相等将总体分成均衡几部分,按规则关联抽取将总体分成几层,按比例分层抽取用简单随机抽样抽取起始号码总体中的个体数较少总体中的个体数较多总体由差异明显的几部分组成从总体中逐个不放回抽取用简单随机抽样或系统抽样对各层抽样通过图、表、计算来分析样本数据,找出数据中的规律,就可以对总体作出相应的估计.这种估计一般分成两种: ①是用样本的频率分布估计总体的分布. ②是用样本的数字特征(如平均数、标准差 等)估计总体的数字特征.用样本去估计总体,是研究统计问题的一个基本思想.初中时我们学习过样本的频率分布,包括频数、频率的概念,频率分布表和频率分布直方图的制作.频率分布 样本中所有数据(或数据组)的频数和样本容量的比,叫做该数据的频率.频率分布的表示形式有:
①样本频率分布表
②样本频率分布条形图
③样本频率分布直方图所有数据(或数据组)的频数的分布变化规律叫做样本的频率分布.2.2.1用样本的频率分布
估计总体分布(1)我国是世界上严重缺水的国家之一, 城市缺水问题较为突出。2000年全国主要城市中缺水情况排在前10位的城市探究:某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a , 用水量不超过a 的部分按平价收费,超过a 的部分按议价收费。①如果希望大部分居民的日常生活不受影响,那么标准a 定为多少比较合理呢?②为了较合理地确定这个标准,你认为需要做哪些工作?由于城市居民比较多,因此采用抽样调查的方式,通过分析样本数据来估计全市居民用水量的分布情况.下面是通过抽样得到的.
100位居民某年的月均用水量:根据这些数据你能得出用水量其他信息吗?1. 求极差: ( 最大值与最小值的差) 最大值= 4.3 最小值= 0.2
所以,极差= 4.3-0.2 = 4.12. 决定组距与组数: 当样本容量不超过100时, 按照数据的多少, 常分成5~12组.
为方便组距的选择应力求”取整”.
本题如果组距为0.5(t). 则 3. 将数据分组( 给出组的界限) 所以将数据分成9组较合适. [0, 0.5), [0.5, 1), [1, 1.5),……[4, 4.5) 共9组. 步骤:画频率分布直方图4. 列出频率分布表.(填写频率/组距一栏)5. 画出频率分布直方图4.列频率分布表100位居民月均用水量的频率分布表小长方形的面积=?5.画频率分布直方图其相应组距上的频率等于该组距上长方形的面积.一般地,作频率分布直方图的方法为:
把横轴分成若干段,每一段对应一个组的组距,以此线段为底作矩形,高等于该组的频率/组距, 这样得到一系列矩形,每一个矩形的面积恰好是该组上的频率,这些矩形构成了频率分布直方图.小长方形的面积总和=?5.画频率分布直方图月均用水量最多的在那个区间?5.画频率分布直方图请大家阅读第68页,直方图有那些优点和缺点?5.画频率分布直方图 频率分布直方图的特征:
(1)从频率分布直方图可以清楚的
看出数据分布的总体趋势.
(2)从频率分布直方图得不出原始
的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.已知样本10, 8, 6, 10, 8,13,11,10,12,7,8,9,12,9,
11,12,9,10,11,11, 那么频率为0.2范围的是( )A. 5.5~7.5 B. 7.5~9.5 C. 9.5~11.5 D. 11.5~13.5D练习1:练习2:有一个容量为50的样本数据的分组的频数如下:[12.5, 15.5) 3[15.5, 18.5) 8[18.5, 21.5) 9[21.5, 24.5) 11[24.5, 27.5) 10[27.5, 30.5) 5[30.5, 33.5) 4(1)列出样本的频率分布表;(2)画出频率分布直方图;(3)根据频率分布直方图估计,数据落在[15.5, 24.5)的百分比是多少? 解:组距为3 分组 频数 频率 频率/ 组距 [12.5, 15.5) 3[15.5, 18.5) 8[18.5, 21.5) 9[21.5, 24.5) 11[24.5, 27.5) 10[27.5, 30.5) 5[30.5, 33.5) 40.06
0.16
0.18
0.22
0.20
0.10
0.080.020
0.053
0.060
0.073
0.067
0.033
0.027所以,数据落在[15.5, 24.5)的百分比是56%.列出频率分布表:频率分布直方图如下:0.0100.0200.0300.0400.05012.515.50.0600.07018.521.524.527.530.533.5 小结:频率分布直方图应用1.求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图探究:同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的图的形状也会不同.不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断.分别以1和0.1为组距重新作图,然后谈谈你对图的印象.频率分布折线图的定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.频率分布直方图连接频率分布直方图中各小长方形上端的中点,得到频率分布折线图利用样本频分布对总体分布进行相应估计(3)当样本容量无限增大,组距无限缩小,那么频率分布折线图就会无限接近于一条光滑曲线——总体密度曲线。(2)样本容量越大,这种估计越精确。(1)上例的样本容量为100,如果增至1000,其频率分布直方图的情况会有什么变化?假如增至10000呢?总体密度曲线的定义:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线。
它能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息. 总体密度曲线月均用水量/tab (图中阴影部分的面积,表示总体在某个区间 (a, b) 内取值的百分比)。 用样本分布直方图去估计相应的总体分布时,一般样本容量越大,频率分布折线图就会无限接近总体密度曲线,就越精确地反映了总体的分布规律,即越精确地反映了总体在各个范围内取值百分比。 总体密度曲线反映了总体在各个范围内取值的百分比,精确地反映了总体的分布规律。是研究总体分布的工具.总体密度曲线茎叶图的概念 当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.例题:某赛季甲、乙两名篮球运动员每场比赛得分的原始记录如下﹕(1)甲运动员得分:
13,51,23,8,26,38,16,33,14,28,39;(2) 乙运动员得分:
49,24,12,31,50,31,44,36,15,37,25,36,39.茎叶图甲乙0
1
2
3
4
5(1)甲运动员得分:13,51,23,8,26,38,16,33,14,28,39(2)乙运动员得分: 49,24,12,31,50,31,44,36,15,37,25,36,39313868634899421014657569茎叶图的特征 (1)优点:1.从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到 2.茎叶图中的数据可以随时记录,随时添加,方便记录与表示(2)缺点:茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.下表一组数据是某车间30名工人加工零件的个数, 设计一个
茎叶图表示这组数据,并说明这一车间的生产情况.P71 练习3:   茎叶图:课件26张PPT。12.2.2 用样本的数字特征估计总体的数字特征 众数、中位数、平均数
2. 标准差
2众数、中位数、平均数3一、众数、中位数、平均数的概念 中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数. 众数:在一组数据中,出现次数最多的数据叫做这组数据的众数. 众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.4 练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示: 分别求这些运动员成绩的众数,中位数与平均数 解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
  上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70;5 这组数据的平均数是答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米). 6例如,在上一节调查的100位居民的月均用水量的问题中,从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t.如图所示: 二 、 众数、中位数、平均数与频率分布直方图的关系 1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。7 2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。下图中虚线代表居民月均用水量的中位数的估计值,此数据值为2.03t. 8说明:
2.03这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.9下图显示了居民月均用水量的平均数: 3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. n 个样本数据的平均数由公式: 给出10三 、三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.
如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少.11 2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。
如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。12 3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。
也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。 13 四 众数、中位数、平均数的简单应用例 某工厂人员及工资构成如下:(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么? 解:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。14标准差15 平均数向我们提供了样本数据的重要信息,但是平均有时也会使我们作出对总体的片面判断.因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽的.因此,只有平均数还难以概括样本数据的实际状态.如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7如果你是教练,你应当如何对这次射击作出评价?如果看两人本次射击的平均成绩,由于 两人射击 的平均成绩是一样的.那么两个人的水平就没有什么差异吗?
16(甲)45678910环数频率0.10.20.3频率(乙) 直观上看,还是有差异的.如:甲成绩比较分散,乙成绩相对集中(如上图所示).
因此,我们还需要从另外的角度来考察这两组数据.例如:在作统计图表时提到过的极差.
17 甲的环数极差=10-4=6 乙的环数极差=9-5=4.
它们在一定程度上表明了样本数据的分散程度,与平均数一起,可以给我们许多关于样本数据的信息.显然,极差对极端值非常敏感,注意到这一点,我们可以得到一种“去掉一个最高分,去掉一个最低分”的统计策略. 考察样本数据的分散程度的大小,最常用的统计量是标准差.
标准差是样本平均数的一种平均距离,一般用s表示.所谓“平均距离”,其含义可作如下理解:18 由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差.一个样本中的个体与平均数之间的距离关系可用下图表示:考虑一个容量为2的样本:19 显然,标准差越大,则a越大,数据的离散程度越大;标准差越小,数据的离散程度越小.用计算器可算出甲,乙两人的的成绩的标准差由 可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.上面两组数据的离散程度与标准差之间的关系可用图直观地表示出来.20例题1:画出下列四组样本数据的直方图,说明它们的异同点.解:四组样本数据的直方图是:2122四组数据的平均数都是5.0,标准差分别是0.00,0.82,1.49,2.83.
虽然它们有相同的平均数,但是它们有不同的标准差,说明数据的分散程度是不一样的.标准差还可以用于对样本数据的另外一种解释.例如:
在关于居民月均用水量的例子中,平均数 标准差s=0.868 所以23例2 甲乙两人同时生产内径为25.40mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm)甲 25.46, 25.32, 25.45, 25.39, 25.36
25.34, 25.42, 25.45, 25.38, 25.42
25.39, 25.43, 25.39, 25.40, 25.44
25.40, 25.42, 25.35, 25.41, 25.39乙 25.40, 25.43, 25.44, 25.48, 25.48
25.47, 25.49, 25.49, 25.36, 25.34
25.33, 25.43, 25.43, 25.32, 25.47
25.31, 25.32, 25.32, 25.32, 25.48 从生产的零件内径的尺寸看,谁生产的质量较高?24分析:每一个工人生产的所有零件的内径尺寸组成一个总体,
由于零件的生产标准已经给出(内径25.40mm),生产质量可以从总体的平均数与标准差两个角度来衡量.总体的平均数与内径标准尺寸25.00mm的差异在时质量低,差异小时质量高;当总体的平均数与标准尺寸很接近时,总体的标准差小的时候质量高,标准差大的时候质量低.这样比较两人的生产质量只要比较他们所生产的零件内径尺寸所组成的两个总体的平均数与标准差的大小即可.但是这两个总体的平均数与标准差都是不知道的,根据用样本估计总体的思想,我们可以通过抽样分别获得相应的样体数据,然后比较这两个样本的平均数,标准差,以此作为两个总体之间的估计值.解:用计算器计算可得:25 从样本平均数看,甲生产的零件内径比乙生产的更接近内径标准(25.40mm),但是差异很小;从样本标准差看,由于 从上述例子我们可以看到,对一名工人生产的零件内径(总体)的质量判断,与我们抽取的内径(样本数据)直接相关.显然,我们可以从这名工人生产的零件中获取许多样本(为什么?).这样,尽管总体是同一个,但由于样本不同,相应的样本频率分布与平均数,标准差等都会发生改变,这就会影响到我们对总体情况的估计.如果样本的的代表性差,那么对总体所作出的估计就会产生偏差;样本没有代表性时,对总体作出错误估计的可能性就非常大.这也正是我们在前面讲随机抽样时反复强调样本代表性的理由.在实际操作中,为了减少错误的发生,条件许可时,通常采取适当增加样本容量的方法.当然,关键还是要改进抽样方法,提高样本的代表性.26小结:1 . 众数、中位数、平均数的概念
2. 众数、中位数、平均数与频率分布直方图的关系
3. 三种数字特征的优缺点
4. 什么是标准差?
5. 如何利用标准差刻画数据的离散程度?
作业:P79练习1、2、3课件18张PPT。2.3 变量间的相关关系2.3.1 变量之间的相关关系
2.3.2 两个变量的线性关系探究下面变量间的关系:1.球的体积与该球的半径;
2.粮食的产量与施肥量;
3.小麦的亩产量与光照;
4.匀速行驶车辆的行驶距离与时间;相关关系—两个变量的关系可能是确定的也可能是不确定的,当自变量取值一定,因变量的取值带有一定的随机性时,两个变量之间的关系称为相关关系.(非确定性关系)
函数关系---函数关系指的是自变量和因变量之间的关系是相互唯一确定的.(确定性关系)探究:. 如上的一组数据,你能分析人体的脂肪含量与年龄之间有怎样的关系吗? 从上表发现,对某个人不一定有此规律,但对很多个体放在一起,就体现出“人体脂肪随年龄增长而增加”这一规律.而表中各年龄对应的脂肪数是这个年龄人群的样本平均数.我们也可以对它们作统计图、表,对这两个变量有一个直观上的印象和判断. 下面我们以年龄为横轴,脂肪含量为纵轴建立直角坐标系,作出各个点,称该图为散点图。如图:从刚才的散点图发现:年龄越大,体内脂肪含量越高,点的位置散布在从左下角到右上角的区域。称它们成正相关。 但有的两个变量的相关,如下图所示:如高原含氧量与海拔高度
的相关关系,海平面以上,
海拔高度越高,含氧量越
少。
作出散点图发现,它们散
布在从左上角到右下角的区
域内。又如汽车的载重和汽
车每消耗1升汽油所行使的
平均路程,称它们成负相关.正相关:散点图中的点散布在从左下角到右上角的区域.负相关:散点图中的点散布在从左上角到右下角的区域.线性相关:散点图中的点均匀地分布在一条直线的周围.我们再观察它的图像发现这些点大致分布在一条直线附 近,像这样,如果散点图中点的分布从整体上看大致在 一条直线附近,我们就称这两个变量之间具有线性相 关关系,这条直线叫做回归直线,该直线叫回归方程。那么,我们该怎样
来求出这个回归方
程?
同学们展开讨论,
能得出哪些具体的
方案?20253035404550556065年龄脂肪含量0510152025303540.方案1、先画出一条直线,测量出各点与它的距离,再移动直线,到达一个使距离的和最小时,测出它的斜率和截距,得回归方程。20253035404550556065年龄脂肪含量0510152025303540如图 :.方案2、在图中选两点作直线,使直线两侧的点的个数基本相同。 20253035404550556065年龄脂肪含量0510152025303540方案3、如果多取几对点,确定多条直线,再求出 这些直线的斜率和截距的平均值作为回归直线的斜率和截距。而得回归方程。 如图我们还可以找到
更多的方法,但
这些方法都可行
吗?科学吗?
准确吗?怎样的
方法是最好的?20253035404550556065年龄脂肪含量0510152025303540我们上面给出的几种方案可靠性都不是很强,人们经过长期的实践与研究,已经找到了计算回归方程的斜率与截距的一般公式:以上公式的推导较复杂,故不作推导,但它的原理较为简单:即各点到该直线的距离的平方和最小,这一方法叫最小二乘法。(书本P88~89)其中,b是回归方程的斜率,a是截距回归方程为:例:假设某设备的使用年限x(年)和所支出的维修费用y(万元)有如下统计资料:由资料知 y对 x呈线性关系,试求:(2)估计使用年限是10年时,维修费用估计是多少?解:(1) 制表:(2) 回归直线方程是(2)估计使用年限是10年时,维修费用估计是多少?答:估计使用10年时,维修费用估计是12.4万元。1.230.08练习:2.两变量中具有相关关系的是( )
A.正方体的体积与边长 B.人的身高与体重
C.匀速行驶车辆的行驶位移与时间 D.球的半径与体积3.线性回归方程表示的直线 必定过(  )A.B.C.D.4.设有一个回归方程, 变量x 增加1个单位长度时,
变量y增加(  )A.平均增加2.5个单位长度 B.平均增加0.5个单位长度
C.平均减少2.5个单位长度 D.平均减少0.5个单位长度5.对于回归方程 当x=28时,y的估计值是BDC390