第二章 统计
2.1 随机抽样
2.1.1 简单随机抽样
[目标]
1.理解简单随机抽样的概念;2.掌握常见的两种简单随机抽样的方法;3.能合理地从实际问题的总体中抽取样本.
[重点]
用简单随机抽样方法(抽签法和随机数法)从总体中抽取样本的方法和步骤.
[难点]
运用简单随机抽样方法解决实际问题.
知识点一 简单随机抽样的概念
[填一填]
一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
[答一答]
1.现有甲、乙两位同学对同一个总体用简单随机抽样的方法抽样,那么他们抽取的样本一定一样吗?
提示:这两位同学抽出来的样本不一定一样.因为对于一次简单随机抽样来说,抽出来的样本是确定的,而这两位同学分别抽取时,各个个体是否入样带有随机性,且个体间无固定间距.
2.利用简单随机抽样,从一个含有N个个体的总体中逐个不放回地抽取n个个体作为样本(n≤N),每个个体入样的可能性是多少?
提示:简单随机抽样每一次抽取时总体中的各个个体有相同的可能性被抽到,均为.
3.根据简单随机抽样的定义,简单随机抽样有哪些特征?
提示:简单随机抽样的特征是:个体有限、逐个抽取、不放回、等可能.
知识点二 简单随机抽样的方法
[填一填]
1.抽签法
一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
2.随机数法
利用随机数表、随机数骰子或计算机产生的随机数进行抽样.
[答一答]
4.抽取一个号签,记录其编号后放入容器中,再次抽取记录,连续n次后得到号签上的号码对应的个体,这些个体组成样本,这种抽样方法是抽签法吗?
提示:不是.因为抽签法是逐个不放回抽取,目的是保证抽取的号签不会重复,而这里记录编号后又放回容器中,所以不是抽签法.
5.抽签法的一般步骤是什么?
提示:(1)将总体中个体编号1~N.
(2)将所有编号1~N写在形状、大小相同的号签上.
(3)将号签放在一个不透明的容器中,搅拌均匀.
(4)从容器中每次抽取一个号签,并记录其编号,连续抽取n次.
(5)从总体中将与抽取到的号签的编号相一致的个体取出.
6.抽签法与随机数法有哪些相同点与不同点?
提示:相同点:①抽签法和随机数法都是简单随机抽样的方法,并且要求被抽取样本的总体的个数有限;②抽签法和随机数法都是从总体中逐个地进行抽取,都是不放回抽样.
不同点:①抽签法相对于随机数法简单;②随机数法更适用于总体中的个体数较多的时候,而抽签法适用于总体中的个体数相对较少的情况,所以当总体中的个体数较多时,应当选用随机数法,这样可以节约制作号签的成本.
类型一 简单随机抽样的概念
[例1] (1)某校今年有1
901名同学参加高考,从中随机抽取50名同学的总成绩进行分析,在这个调查中,下列叙述错误的是( )
A.总体是:1
901名同学的总成绩
B.个体是:每一名同学
C.样本是:50名同学的总成绩
D.样本容量是:50
(2)下面的抽样方法是简单随机抽样吗?为什么?
①某连队从200名党员官兵中,挑选出50名最优秀的官兵赶赴青海参加抗震救灾工作.
②一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
③箱子里共有100个零件,从中选出10个零件进行质量检验,在抽样操作中,从中任意取出1个零件进行质量检验后,再把它放回箱子里.
[解析] (1)据题意总体是指1
901名同学的总成绩,样本是指抽取的50名同学的总成绩,个体是指每一名同学的高考总成绩,样本容量是50,故B错误.
(2)解:①不是简单随机抽样.因为50名官兵是从中挑出来的,是最优秀的,每个个体被抽到的机会不同,不符合简单随机抽样中“等机会抽样”的要求.
②是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等机会的抽样.
③不是简单随机抽样.因为它是有放回抽样.
[答案] (1)B (2)见解析
要判断所给的抽样方法是否是简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的四个特点:?1?总体的个数有限;?2?逐个抽取;?3?是不放回的抽取;?4?保证每个个体被抽到的可能性是相同的.
[变式训练1] 下面的抽样方法是简单随机抽样的是(4).
(1)某班有40名同学,指定个子最高的5名同学参加校篮球赛;
(2)从无限多个个体中抽取50个个体作样本;
(3)一儿童从玩具箱中的20件玩具中随意拿出一件来玩,玩后放回再拿出一件,连续玩了5件;
(4)从2
000个灯泡中逐个抽取20个进行质量检查.
解析:(1)不是简单随机抽样,因为这不是等可能抽样;
(2)不是简单随机抽样,因为总体不是有限个;
(3)不是简单随机抽样,因为它是有放回抽样;
(4)满足简单随机抽样的四个特征,故是简单随机抽样.
类型二 简单随机抽样的应用
命题视角1:抽签法的应用
[例2] 某班40名同学,随机抽取10名同学参加某项活动,请写出采用抽签法抽取的过程.
[分析] 根据抽签法的一般步骤来写.
[解] 第一步,对这40个学生进行编号,编号分别为1,2,…,40.
第二步,将号码写在形状、大小相同的号签上.
第三步,将号签放在一个不透明的箱中,并搅拌均匀.
第四步,从箱中每次抽取1个号签,连续抽取10次.
第五步,将与号签上的号码对应的同学选出即得样本.
一个抽样能否用抽签法,关键看两点:一是制签是否方便,二是号签是否容易被搅匀.在适用此法时,一定要注意“放入不透明容器,并充分搅匀”.
[变式训练2] 现要从20名学生中抽取5名进行阅卷调查,写出抽取样本的过程.
解:①先将20名学生进行编号,从1编到20;
②把号码写在形状、大小均相同的号签上;
③将号签放在一个不透明的箱子中进行充分搅拌,力求均匀,然后从箱子中抽取5个号签,这5个号签上的号码对应的学生,即为所求的样本.
命题视角2:随机数表法的应用
[例3] 从一个含有40个个体的总体中抽取一个容量为7的样本,将个体依次随机编号为01,02,…,40,从随机数表的第6行第8列开始,依次向右,到最后一列转下一行最左一列开始,直到取足样本,则获取的第4个样本编号为( )
(下面节选了随机数表第6行和第7行)
第6行 84 42 17 56 31 07 23 55 06
82 77 04 74 43 59 76 30 63 50 25
83 92 12 06
第7行 63 01 63 78 59 16 95 56 67
19 98 10 50 71 75 12 86 73 58 07
44 39 52 38
A.06
B.10
C.25
D.35
[解析] 找到第6行第8列的数开始向右读,第一个数是63,不成立,
第二个数是10,成立,第三个数是72,不成立,
第四个数是35,成立,第五个数是50,不成立,
这样依次读出结果,68,27,70,47,44,35,97,63,06,合适的数是27,35,06,
其中35前面已经出现,应舍掉,
故第四个数是06.
[答案] A
?1?随机数表法选定初始数字读数方向,向左、向右、向上或向下都可以,方向可能导致结果不同,但并不影响样本的公平性.?2?随机数表法适用于总体个数较多,但样本容量较小的情况.
[变式训练3] 一个学生在一次理科综合学科竞赛中要回答的8道题是这样产生的:从15道物理题中随机抽取3道;从20道化学题中随机抽取3道;从12道生物题中随机抽取2道.请选用随机数表法研究这个学生所要回答的三门学科的题的序号.
解:第一步,将物理、化学、生物题的编号依次地改成01,02,…,47;
第二步,在随机数表中任选一个数作为开始,任选一个方向作为读数方向,例如选出第10行第2列的数7,向右读;
第三步,从选定的数7开始向右读,每次读取两位,凡不在01~47中的数跳过去不读,前面已经读过的也跳过去不读,从01~15中选3个号码,从16~35中选3个号码,从36~47中选2个号码,依次可得到08,24,40,44,29,05,28,14;
第四步,对应以上编号找出所要回答的问题的序号,物理题的序号为:5,8,14;化学题的序号为:24,28,29;生物题的序号为:40,44.
类型三 简单随机抽样的等可能性
[例4] 一个布袋中有10个同样质地的小球,从中不放回地依次抽取3个小球,则某一特定小球被抽到的可能性是________,第三次抽取时,剩余每个小球被抽到的可能性是________.
[解析] 因为简单随机抽样过程中每个个体被抽到的可能性均为,所以第一个空填.因本题中的抽样是不放回抽样,所以第一次抽取时,每个小球被抽到的可能性为,第二次抽取时,剩余9个小球,每个小球被抽到的可能性为,第三次抽取时,剩余8个小球,每个小球被抽到的可能性为.
[答案]
在整个抽样过程中,各个个体被抽取的机会都相等,从而保证了这种抽样方法的公平性.
[变式训练4] 某地有2
000人参加自学考试,为了了解他们的成绩,从中抽取一个样本,若每个考生被抽到的概率都是0.04,则这个样本的容量是80.
解析:设样本容量为n,根据简单随机抽样,得=0.04,解得n=80.
1.为了了解一批零件的长度,抽测了其中200个零件的长度,在这个问题中,200个零件的长度是( C )
A.总体
B.个体
C.总体的一个样本
D.样本容量
解析:200个零件的长度是从总体中抽出的个体组成的集合,是总体的一个样本.故选C.
2.抽签法中确保样本代表性的关键是( B )
A.制签
B.搅拌均匀
C.逐一抽取
D.抽取不放回
3.从10个篮球中任取一个,检验其质量,则应采用的抽样方法为简单随机抽样.
4.用随机数法从100名学生(男生35人)中抽选20人进行评教,某男学生被抽到的可能性是0.2.
解析:随机抽样中每个个体被抽到的可能性相同为=0.2.
5.下面的抽样方法是简单随机抽样吗?为什么?
(1)从无数个个体中抽取20个个体作为样本.
(2)从50台冰箱中一次性抽取5台冰箱进行质量检查.
(3)某班有40名同学,指定个子最高的5名同学参加学校组织的篮球赛.
(4)一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
解:(1)不是简单随机抽样.因为总体的个数是无限的,而不是有限的.
(2)不是简单随机抽样.虽然“一次性”抽取和“逐个”抽取不影响个体被抽到的可能性,但简单随机抽样的定义要求的是“逐个抽取”.
(3)不是简单随机抽样.因为是指定5名同学参加比赛,每个个体被抽到的可能性是不同的,不是等可能抽样.
(4)是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能地进行抽样.
——本课须掌握的三大问题
1.简单随机抽样是一种简单、基本、不放回的抽样方法,常用的简单随机抽样方法有抽签法和随机数法.
2.抽签法的优点是简单易行,缺点是当总体的容量大时,费时、费力,并且标号的签不易搅拌均匀,这样会导致抽样不公平;随机数法的优点也是简单易行,缺点是当总体容量大时,编号不方便.两种方法只适合总体容量较少的抽样类型.
3.简单随机抽样每个个体入样的可能性都相等,均为n/N,但要将每个个体入样的可能性与第n次抽取时每个个体入样的可能性区分开,避免在解题中出现错误.
PAGE2.1.2 系统抽样
[目标]
1.记住系统抽样的方法和步骤;2.会用系统抽样从总体中抽取样本;3.能用系统抽样解决实际问题.
[重点]
系统抽样的步骤和应用.
[难点]
对系统抽样的理解.
知识点一 系统抽样的概念
[填一填]
先将总体中的个体逐一编号,然后按号码顺序以一定的间隔进行抽取,先从第一个间隔中随机地抽取一个号码,然后按此间隔逐个抽取即得到所需样本.
[答一答]
1.怎样判断一种抽样是否为系统抽样?
提示:判断一种抽样是否为系统抽样,关键有两点:
(1)是否在抽样前知道总体是由什么构成的,抽样的方法能否保证每个个体被抽到的机会均等;
(2)是否能将总体分成几个均衡的部分,在每个部分中是否能进行简单随机抽样.
2.系统抽样有哪些特点?
提示:系统抽样适用于总体容量较大的情况,它也是逐个抽取、不放回、等可能抽样.
知识点二 系统抽样的步骤
[填一填]
一般地,假设要从容量为N的总体中抽取容量为n的样本,我们可以按下列步骤进行系统抽样:
[答一答]
3.由系统抽样的步骤可知,样本中编号相邻的每两个个体的编号间隔是否相等?
提示:相等.
4.当不是整数时,应怎么做?
提示:当不是整数时,可用简单随机抽样剔除多余个体.
类型一 系统抽样的判断
[例1] (1)下列抽样问题中最适合用系统抽样法抽样的是( )
A.从全班48名学生中随机抽取8人参加一项活动
B.一个城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150家.为了掌握各商店的营业情况,要从中抽取一个容量为21的样本
C.从参加模拟考试的1
200名高中生中随机抽取100人分析试题作答情况
D.从参加模拟考试的1
200名高中生中随机抽取10人了解某些情况
(2)某校为了解高二的1
553名同学对教师的教学意见,现决定用系统抽样的方法抽取一个容量为50的样本,先在总体中随机剔除n个个体,然后把剩下的个体按0001,0002,0003…编号并分成m个组,则n和m应分别是( )
A.53,50
B.53,30
C.3,50
D.3,31
[解析] (1)A中,总体容量较小,样本容量也较小,可采用抽签法;
B中,总体中的个体有明显的差异不适宜用系统抽样法;
D中,总体容量较大,但样本容量较小,可用随机数法;
C中,总体容量较大,样本容量也较大,可用系统抽样法.
(2)1
553被50除余3,故可以剔除3个个体,分成50组即可.
[答案] (1)C (2)C
判断一种抽样是否是系统抽样,必须看能否将总体分成几个均衡的部分,并先在第一个部分中进行简单随机抽样,接下来按照一定的规则抽取样本.当抽样行为具备系统抽样特点时,即可以认为是系统抽样.
[变式训练1] 高考结束后,某市教育局为了了解该市20
000名考生的有关情况,决定从这20
000名考生中抽取200名考生的成绩进行分析,根据从1到20
000的编号,从1至100号考生中随机确定39号考生,然后依次取出139号,239号,339号,…,19
939号考生组成样本.这种抽样方法是( C )
A.抽签法
B.随机数法
C.系统抽样法
D.简单随机抽样法
解析:根据抽样过程可以发现,从20
000名考生中抽取200名考生的成绩时,先从前100号考生中随机确定39号考生,然后直接等距离确定其余的199名考生,这种抽样方法是系统抽样.
类型二 系统抽样的设计
命题视角1:是整数的系统抽样
[例2] 为了了解某地区今年高一学生期末考试数学学科的成绩,拟从参加考试的15
000名学生的数学成绩中抽取容量为150的样本.请用系统抽样写出抽取过程.
[分析] 由于总体容量恰被样本容量整除,所以分段间隔k==100,按系统抽样方法的四个步骤抽取样本.
[解] (1)对全体学生的数学成绩进行编号:1,2,3,…,15
000.
(2)分段:由于样本容量与总体容量的比是1?100,所以我们将总体平均分为150个部分,其中每一部分包含100个个体.
(3)在第一部分即1号到100号用简单随机抽样抽取一个号码,比如是56.
(4)以56作为起始数,然后顺次抽取156,256,356,…,14
956,这样就得到一个容量为150的样本.
当总体容量能被样本容量整除时,分段间隔k=;当用系统抽样抽取样本时,通常是将起始数l加上间隔k得到第2个个体编号?l+k?,再加k得到第3个个体编号?l+2k?,依次进行下去,直到获取整个样本.
[变式训练2] 为了解参加某知识竞赛的1
000名学生的成绩,从中抽取容量为50的样本,采用哪种抽样方法比较恰当?简述抽样过程.
解:适宜选用系统抽样,抽样过程如下:
第一步,随机地将这1
000名学生编号为1,2,3,…,1
000.
第二步,将总体按编号顺序均分为50部分,每部分包括20个个体.
第三步,在第1部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码,比如18.
第四步,将编号为18,38,58,…,978,998的个体抽出,组成样本.
命题视角2:不是整数的系统抽样
[例3] 某校高中二年级有253名学生,为了了解他们的视力情况,准备按1?5的比例抽取一个样本,试用系统抽样方法进行抽取,并写出过程.
[分析] →→→
→→
[解] (1)先把这253名学生编号000,001,…,252.
(2)用随机数表法任取出3个号,从总体中剔除与这三个号对应的学生.
(3)把余下的250名学生重新编号1,2,3,…,250.
(4)分段.取分段间隔k=5,将总体均分成50段.每段含5名学生.
(5)以第一段即1~5号中随机抽取一个号作为起始号,如l.
(6)从后面各段中依次取出l+5,l+10,l+15,…,l+245这49个号.
这样就按1?5的比例抽取了一个样本容量为50的样本.
当总体容量不能被样本容量整除时,可以先从总体中随机剔除几个个体.但要注意的是剔除过程必须是随机的,也就是总体中的每个个体被剔除的机会均等.剔除几个个体后使总体中剩余的个体数能被样本容量整除.
[变式训练3] 从73个个体中抽取含8个个体的样本,若采用系统抽样的方法抽样,则分段间隔k是9;每个个体被抽到的可能性为.
解析:系统抽样是等可能抽样,即从数量为N的总体中抽取一个容量为n的样本,则总体中每个个体被抽到的机会均为.采用系统抽样的方法,因为=9.125,故分段间隔k=9,每个个体被抽到的可能性仍为.
类型三 系统抽样的应用
[例4] 将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法,抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次是( )
A.26,16,18
B.25,17,8
C.25,16,9
D.24,17,9
[解析] 由题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组有12名学生,第k(k∈N
)组抽中的号码是3+12(k-1).令3+12(k-1)≤300得k≤,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k-1)≤495,得[答案] B
由于整个抽样过程中每个个体被抽到的概率相等,故可依此确定某范围上的要抽取的样本容量.
[变式训练4] 某初级中学领导采用系统抽样方法,从该校预备年级800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号,求得间隔数k==16,即每16人抽取一个人.在1~16中随机抽取一个数,如果抽到的是7,则从33~48这16个数中应取的数是39.
解析:因为采用系统抽样方法,每16人抽取一个人,1~16中随机抽取一个数抽到的是7,所以在第k组抽到的是7+16(k-1),所以从33~48这16个数中应取的数是7+16×2=39.
1.老师从全班50名同学中抽取学号为3,13,23,33,43的五名同学了解学习情况,其最可能用到的抽样方法为( D )
A.简单随机抽样
B.抽签法
C.随机数表法
D.系统抽样
解析:间隔相同,均为10.
2.从2
005个编号中抽取20个号码入样,采用系统抽样的方法,则抽样的间隔为( C )
A.99
B.99.5 C.100 D.100.5
解析:由于不是整数,所以先剔除5个个体,再分段,分段间隔为k==100.
3.用系统抽样法从160名学生中抽取容量为20的样本,将160名学生从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号).若第16组抽出的号码是126,则第1组抽出的号码是( C )
A.4
B.5
C.6
D.7
解析:系统抽样一般是按照事先确定的规则,即通常是将k加上间隔l的整数倍,得到第2个编号k+l,第3个编号k+2l,…,这样继续下去,直到获取整个样本,其中k是第1组中抽出的样本号码.题中的分段间隔是160÷20=8,且第16组抽出的号码是126,则k+15×8=126,解得k=6.故选C.
4.某校高三年级有男生220人,学籍编号为1,2,…,220;女生380人,学籍编号为221,222,…,600,为了解学生学习的心理状态,按学籍号采用系统抽样的方法从这600名学生中抽取75人进行问卷调查(第一组采用简单随机抽样,抽到的学籍编号为5),则女生被抽取的人数为48人.
解析:由题意得,抽样间隔为600÷75=8,且第1组抽到的号码为5,则每组抽到的号码数为5+8(k-1),k∈N
,当k=27时,抽到的号码为5+8×26=213,此时为男生,故男生一共可抽到27人,一共需要抽取75人,则女生人数为75-27=48.
5.为了了解参加高考的2
000名学生的成绩,决定抽取一个样本容量为100的样本,应采用什么抽样方法恰当?简述抽样过程.
解:适宜选用系统抽样,抽样过程如下:
(1)随机地将这2
000名学生编号为1,2,3,…,2
000.
(2)将总体按编号顺序均分成100部分,每部分包括20个个体.
(3)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码,比如是8.
(4)以8为起始号码,每间隔20抽取一个号码,这样得到一个容量为100的样本:8,28,48,…,1
968,1
988.
——本课须掌握的三大问题
1.体会系统抽样的概念,其中关键因素是“分组”,否则不是系统抽样.系统抽样适用于总体中的个体数较多的情况,因为这时采用简单随机抽样显得不方便.
2.解决系统抽样问题的两个关键步骤为:
(1)用系统抽样法抽取样本,当不为整数时,取k=,即先从总体中用简单随机抽样的方法剔除N-nk个个体,且剔除多余的个体不影响抽样的公平性.
(2)按简单随机抽样的方法在其中一个部分(通常是第一部分)内抽取一个个体;依据预先确定的规则,在其余每个部分里分别抽取一个相应个体,得到满足题意的样本.
3.系统抽样的优点是简单易操作,当总体个数较多的时候也能保证样本的代表性;缺点是对存在明显周期性的总体,选出来的个体,往往不具备代表性.从系统抽样的步骤可以看出,系统抽样是把一个问题划分成若干部分分块解决,从而把复杂问题简单化,体现了数学转化思想.
PAGE2.1.3 分层抽样
[目标]
1.记住分层抽样的特点和步骤;2.会用分层抽样从总体中抽取样本;3.给定实际抽样问题会选择合适的抽样方法进行抽样.
[重点]
用分层抽样抽取样本.
[难点]
三种抽样方法的联系与区别以及抽样方法的选择.
知识点一 分层抽样的概念
[填一填]
1.定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样.
2.适用范围
当总体是由差异明显的几个部分组成时,往往采用分层抽样.
[答一答]
1.分层抽样适合于什么样的总体?分层抽样有什么特点?
提示:当总体是由差异明显的几部分组成时,用分层抽样.分层抽样仍具有逐个抽取、不放回、等可能性等特点.
2.分层抽样有什么优点?
提示:分层抽样使样本具有较强的代表性,而且在每个层中进行抽样时,又可灵活地采用简单随机抽样或其他抽样方法.
知识点二 分层抽样的步骤
[填一填]
1.根据已掌握的信息,将总体分成若干部分;
2.根据总体中的个体数N和样本容量n计算出抽样比k=;
3.根据抽样比k计算出各层中应抽取的个体数:·Ni(其中Ni为第i层所包含的个体总数).
4.按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.
[答一答]
3.分层抽样公平吗?
提示:分层抽样中,每个个体被抽到的可能性是相同的,与层数、分层无关.
4.某全日制大学共有学生5
600人,其中专科生有1
300人,本科生有3
000人,研究生有1
300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本容量为280,则应在专科生、本科生与研究生这三类学生中分别抽取65人,150人,65人.
解析:抽样比是=,则应在专科生、本科生与研究生这三类学生中分别抽取1
300×=65(人),3
000×=150(人),1
300×=65(人).
类型一 分层抽样的概念
[例1] (1)下列问题中,最适合用分层抽样方法抽样的是( )
A.某电影院有32排座位,每排有40个座位,座位号是1~40.有一次报告会坐满了听众,报告会结束以后为听取意见,要留下32名听众进行座谈
B.从10台冰箱中抽出3台进行质量检查
C.某乡农田有山地8
000亩,丘陵12
000亩,平地24
000亩,洼地4
000亩,现抽取农田480亩估计全乡农田平均产量
D.从50个零件中抽取5个做质量检验
(2)分层抽样又称为类型抽样,即将相似的个体归入一类(层),然后每层各抽若干个个体构成样本,所以分层抽样为保证每个个体等可能入样,必须进行( )
A.每层内等可能抽样
B.每层内不等可能抽样
C.所有层用同一抽样比
D.所有层抽同样多样本容量
[解析] (1)A的总体容量较大,宜采用系统抽样方法;
B的总体容量较小,用简单随机抽样法比较方便;
C的总体容量较大,且各类田地的产量差别很大,宜采用分层抽样方法;D与B类似.
(2)由分层抽样的定义和特点可知,所有层用同一个抽样比,等可能抽样.
[答案] (1)C (2)C
分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.
[变式训练1] 某学校有男、女学生各500名.为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( D )
A.抽签法
B.随机数法
C.系统抽样法
D.分层抽样法
解析:由于被抽取的个体的属性具有明显差异,所以宜采用分层抽样法.
类型二 分层抽样的设计
[例2] 某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革的意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,请具体实施操作.
[分析] →→→
→→
[解] 因机构改革关系到每个人的不同利益,故采用分层抽样方法较妥.
∵=5,∴=2,=14,=4.
∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人.
因副处级以上干部与工人数都较少,将他们分别按1~10和1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,…,69编号,然后用随机数表法抽取14人.这样便得到了一个容量为20的样本.
分层抽样的特点
(1)适用于总体由差异明显的几部分组成的情况.
(2)更充分体现和反映了总体的情况.
(3)等可能抽样,每个个体被抽到的可能性都相等.
[变式训练2] 某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12
000,其中持各种态度的人数如下表所示:
很喜欢
喜欢
一般
不喜欢
2
435
4
567
3
926
1
072
电视台为了进一步了解观众的具体想法和意见,打算从中再抽取60人进行更为详细的调查,应怎样进行抽样?
解:采用分层抽样,由题意知抽样比为=.
“很喜欢”的有2
435人,应抽取2
435×≈12(人);
“喜欢”的有4
567人,应抽取4
567×≈23(人);
“一般”的有3
926人,应抽取3
926×≈20(人);
“不喜欢”的有1
072人,应抽取1
072×≈5(人).
因此,采用分层抽样的方法,从“很喜欢”“喜欢”“一般”“不喜欢”的人中分别抽取12人,23人,20人和5人.
类型三 三种抽样方法的综合应用
[例3] 为了考察某学校的教学水平,将抽取这个学校高三年级的部分学生本学年的考试成绩进行统计分析,为了全面反映实际情况,采取以下三种方式进行抽查(已知该学校高三年级共有20个教学班,并且每个班内的学生按随机方式编好了学号,假定该校每班学生人数都相同):
①从全年级20个班中任意抽取一个班,再从该班任意抽取20人,考察他们的学习成绩;
②每个班都抽取1人,共计20人,考察这20个学生的成绩;
③把学生按成绩分成优秀、良好、普通三个级别,从中共抽取100名学生进行考察(已知若按成绩分,该校高三学生中优秀生共150人,良好生共600人,普通生共250人).
根据上面的叙述,回答下列问题:
(1)上面三种抽取方式中,其总体、个体、样本分别指什么?每一种抽取方式抽取的样本中,其样本容量分别是多少?
(2)上面三种抽取方式中各自采用何种抽样方法?
(3)试分别写出上面三种抽取方式各自抽取样本的步骤.
[解] (1)三种抽取方式中,其总体都是高三全体学生本学年的考试成绩,个体都是指高三年级每个学生本学年的考试成绩.第一种抽取方式中,样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第二种抽取方式中,样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第三种抽取方式中,样本为所抽取的100名学生本学年的考试成绩,样本容量为100.
(2)三种抽取方式中,第一种方式采用的是简单随机抽样法;第二种方式采用的是系统抽样法和简单随机抽样法;第三种方式采用的是分层抽样法和简单随机抽样法.
(3)第一种方式抽样的步骤如下:
第一步:在这20个班中用抽签法任意抽取一个班;
第二步:从这个班中按学号用随机数法或抽签法抽取20名学生,考察其考试成绩.
第二种方式抽样的步骤如下:
第一步:各个班的学生按1,2,3,…编号;
第二步:在第一个班中,用简单随机抽样法任意抽取某一学生,记其编号为a;
第三步:在其余的19个班中,选取编号为a的学生,共计20人.
第三种方式抽样的步骤如下:
第一步:分层.若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,总体由差异明显的三部分组成,所以在抽取样本时,应把全体学生分成三个层次.
第二步:确定各个层次抽取的人数.因为样本容量与总体个体数的比为100?1
000=1?10,所以在每个层次抽取的个体数依次为,,,即15,60,25.
第三步;按层次分别抽取.在优秀生中用简单随机抽样法抽取15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.
选择抽样方法的步骤
(1)判断总体是否由差异明显的几个部分组成,若是,则选用分层抽样;否则,考虑用简单随机抽样或系统抽样;
(2)判断总体容量和样本容量的大小.当总体容量较小时,采用抽签法;当总体容量较大、样本容量较小时,采用随机数法;当总体容量较大、样本容量也较大时,采用系统抽样.
[变式训练3] 完成下列两项调查:①从某社区70户高收入家庭、335户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.这两项调查宜采用的抽样方法依次是( B )
A.①简单随机抽样,②系统抽样
B.①分层抽样,②简单随机抽样
C.①系统抽样,②分层抽样
D.①②都用分层抽样
解析:①总体中高收入、中等收入、低收入家庭有明显差异,故用分层抽样;②总体容量与样本容量都较小,故采用简单随机抽样.
1.分层抽样适合的总体是( C )
A.总体容量较多
B.样本容量较多
C.总体中个体有差异
D.任何总体
解析:总体中个体差异明显时,采用分层抽样较好.故选C.
2.某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是( D )
A.简单随机抽样法
B.抽签法
C.随机数表法
D.分层抽样法
解析:因为男生和女生的健康情况不一样,所以宜采用分层抽样,且有==.故该抽样方法为分层抽样.
3.一批灯泡400只,其中20
W、40
W、60
W的数目之比是4?3?1,现用分层抽样的方法产生一个容量为40的样本,三种灯泡依次抽取的个数为( A )
A.20,15,5
B.4,3,1
C.16,12,4
D.8,6,2
解析:三种灯泡依次抽取的个数为40×=20,40×=15,40×=5.故选A.
4.在120人中,青年人有65人,中年人有15人,老年人有40人,从中抽取一个容量为20的样本.
(1)求采用简单随机抽样、系统抽样、分层抽样时,每个人被抽到的概率;
(2)写出用分层抽样抽取样本的步骤.
解:(1)简单随机抽样,每个个体被抽到的概率是=;系统抽样,将120人随机均匀地分成20组,每组6人,每组取1人,则每个个体被抽到的概率是;分层抽样,青年人、中年人、老年人的人数之比为13?3?8,即抽取青年人的人数是20×=≈11,每个青年人被抽到的概率是÷65=;同理,可求得每个中年人、老年人被抽到的概率都是.综上可知,不论采用哪一种抽样方法,每个人被抽到的概率都是.
(2)第一步:按照青年、中年、老年把总体分为三层;
第二步:计算各层的抽取人数:青年人的人数为20×=≈11,中年人的人数为20×=≈2,老年人的人数为20×=≈7;
第三步:在各层中采用简单随机抽样抽取个体:在青年人和老年人中采用随机数表法,在中年人中采用抽签法;
第四步:把抽取的个体组成一个样本即可.
——本课须掌握的三大问题
1.用分层抽样从个体为N的总体中抽取一个容量为n的样本时,在整个抽样过程中每个个体被抽到的机会相等.
2.分层抽样是建立在简单随机抽样或系统抽样基础上的,由于它充分利用了已知信息,考虑了保持样本结构与总体结构的一致性,因此它获得的样本更具代表性,在实用中更为广泛.
3.简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一.
PAGE2.2 用样本估计总体
2.2.1 用样本的频率分布估计总体分布
[目标]
1.理解用样本的频率分布估计总体分布的方法;2.掌握列频率分布表、画频率分布直方图、频率分布折线图、茎叶图的方法;3.能够利用图形解决实际问题.
[重点]
频率分布直方图的画法及茎叶图的画法.
[难点]
应用频率分布直方图估计总体的分布.
知识点一 频率分布表和频率分布直方图
[填一填]
1.频率分布直方图的绘制
(1)求极差,即一组数据中的最大值与最小值的差.
(2)决定组距与组数,组距与组数的确定没有固定的标准,一般来说,数据分组的组数与样本容量有关,样本容量越大,所分组数越多,当样本容量不超过100时,按照数据的多少,常分为5~12组.
(3)将数据分组.
(4)列频率分布表,计算各小组的频率,作出频率分布表.
(5)画频率分布直方图.其中横轴表示样本数据,纵轴表示频率与组距的比.
2.频率分布直方图的意义
频率分布直方图中,各小长方形的面积表示相应各组的频率,各小长方形的面积的总和等于1.
[答一答]
1.如何确定组距?
提示:组距的选择应力求“取整”,如果极差不利于分组(如不能被组数整除),可适当增大极差,如在左、右两端各增加适当范围(尽量使两端增加的量相同).
2.频率分布直方图中长方形的面积有什么含义?
提示:在频率分布直方图中,由于长方形的面积S=组距×=频率,所以各个小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组上的频率的大小.
知识点二 频率分布折线图、总体密度曲线
[填一填]
1.频率分布折线图的定义
连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
2.总体密度曲线的定义
在样本频率分布直方图中,随着样本容量的增加,所分组数的增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线,它能够精确地反映总体在各个范围内取值的百分比,它能给我们提供更加精细的信息.
[答一答]
3.频率分布折线图有什么优缺点?
提示:频率分布折线图的优点是它可以表示数量的多少,直观地反映数量的增减情况,即变化趋势;缺点是它不适合总体分布较多的情况.
知识点三 茎叶图
[填一填]
1.茎叶图的适用范围
在样本数据较少时,用茎叶图表示数据的效果较好.
2.茎叶图的优点
它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.
3.茎叶图的缺点
当样本数据较多时,枝叶就会很长,茎叶图就显得不太方便.
[答一答]
4.画茎叶图时,重复出现的数据只记录一次吗?
提示:不是.绘制茎叶图时,重复出现的数据要重复记录,不能遗漏,特别是“叶”位置的数据.同一数据出现几次,就要在图中体现几次.
类型三 画样本的频率分布直方图
[例1] 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高.(单位:cm)
区间界限
[122,126)
[126,130)
[130,134)
人数
5
8
10
区间界限
[134,138)
[138,142)
[142,146)
人数
22
33
20
区间界限
[146,150)
[150,154)
[154,158]
人数
11
6
5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134
cm的人数占总人数的百分比.
[解] (1)样本频率分布表如下:
分组
频数
频率
[122,126)
5
0.04
[126,130)
8
0.07
[130,134)
10
0.08
[134,138)
22
0.18
[138,142)
33
0.28
[142,146)
20
0.17
[146,150)
11
0.09
[150,154)
6
0.05
[154,158]
5
0.04
合计
120
1
(2)其频率分布直方图如下:
(3)由样本频率分布表可知身高小于134
cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134
cm的人数占总人数的19%.
在该问题中,分组区间已经给出,只需计算相应的频率即可列表.在画频率分布直方图时,小长方形的高是频率除以组距,需要预先进行计算.画频率分布直方图时,还需注意比例适当.从频率分布表或频率分布直方图,可以估计总体的分布情况.
[变式训练1] 为了检测某种产品的质量,抽取了一个容量为100的样本,数据的分组情况与频数如下:
[10.75,10.85),3;[10.85,10.95),9;[10.95,11.05),13;
[11.05,11.15),16;[11.15,11.25),26;[11.25,11.35),20;
[11.35,11.45),7;[11.45,11.55),4;[11.55,11.65),2.
(1)列出频率分布表;
(2)画出频率分布直方图和频率分布折线图.
解:(1)频率分布表如下:
分组
频数
频率
[10.75,10.85)
3
0.03
[10.85,10.95)
9
0.09
[10.95,11.05)
13
0.13
[11.05,11.15)
16
0.16
[11.15,11.25)
26
0.26
[11.25,11.35)
20
0.20
[11.35,11.45)
7
0.07
[11.45,11.55)
4
0.04
[11.55,11.65)
2
0.02
合计
100
1.00
(2)频率分布直方图及频率分布折线图如图所示:
类型二 频率分布直方图的应用
[例2] 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小矩形的面积之比为2?4?17?15?9?3,第二小组的频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率约是多少?
[解] (1)频率分布直方图是以面积的形式来反映数据落在各小组内的频率大小的,
因此第二小组的频率为=0.08.
因为第二小组的频率=,
所以样本容量===150.
(2)由直方图可估计该校全体高一年级学生的达标率约为×100%=88%.
由频率分布直方图进行相关计算时,需掌握下列关系式:
?1?
×组距=频率.
?2?=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
[变式训练2] 从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由图中数据可知a=0.030.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为3.
解析:根据(0.035+a+0.020+0.010+0.005)×10=1,
求得a=0.030.
身高在[120,130)内学生有0.030×10×100=30人,
在[130,140)内学生有0.020×10×100=20人,
在[140,150]内学生有0.010×10×100=10人,
则从身高在[140,150]内的学生中选取的人数为
×10=3(人).
类型三 茎叶图及应用
[例3] 某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产量数据(单位:千克)如下:
品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)画出茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,得出统计结论.
[分析] 两组数据比较多,注意不要漏掉数据,根据茎叶图的特点(分布情况)写出统计结论.
[解] (1)茎叶图如图.
(2)样本容量不大,画茎叶图很方便,此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息丢失,而且还可以随时记录新的数据.
(3)通过观察茎叶图可以看出:
①品种A亩产量的平均数比品种B亩产量的平均数大;
②品种A的亩产量波动比品种B的亩产量波动大,故品种A的亩产量稳定性较差.
?1?利用茎叶图进行数据分析时,通常从茎叶图中各个“叶”上的数字多少来分析该组数据的分布对称性、稳定性等.
?2?如果茎叶图中的数据大致集中在某一行附近,那么说明这组数据比较稳定.,?3?茎叶图只适用于样本数据较少的情况.
[变式训练3] 为了调查甲、乙两个网站受欢迎的程度,随机选取了14天,统计上午8:00~10:00间各自的点击量,得到如图所示的茎叶图,根据茎叶图解答下列问题:
(1)求乙网站点击量的极差;
(2)求甲网站点击量在[10,40]间的频数和频率;
(3)请你估计甲、乙两网站哪个更受欢迎?并说理由.
解:(1)根据茎叶图,得乙网站的点击量的最大值是71,最小值是5,则乙网站的极差为71-5=66.
(2)观察茎叶图,得甲网站点击量在[10,40]间的点击量有20,24,25,38共4个,所以甲网站点击量在[10,40]间的频数为4,频率为=.
(3)观察茎叶图,得甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方,从数据的分布情况来看,甲的平均数大于乙的平均数,所以甲网站更受欢迎.
1.一个容量为40的样本数据分组后组数与频数如下:
[25,25.3),6;[25.3,25.6),4;[25.6,25.9),10;
[25.9,26.2),8;[26.2,26.5),8;[26.5,26.8),4.
则样本在[25,25.9)上的频率为( C )
A. B.
C. D.
解析:[25,25.9)包括[25,25.3),6;[25.3,25.6),4;[25.6,25.9),10,频数之和为20,频率为=,故选C.
2.在用样本频率分布估计总体分布的过程中,下列说法正确的是( C )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
3.从甲、乙两种玉米苗中各抽6株,分别测得它们的株高如图所示(单位:cm),根据数据估计( D )
A.甲种玉米比乙种玉米不仅长得高而且长得整齐
B.乙种玉米比甲种玉米不仅长得高而且长得整齐
C.甲种玉米比乙种玉米长得高但长势没有乙整齐
D.乙种玉米比甲种玉米长得高但长势没有甲整齐
解析:甲种玉米株高集中在21
cm~37
cm,极差为37-16=21
cm,乙种玉米株高集中在27~45且极差为45-14=31
cm,因此可以判断乙种玉米比甲种玉米长得高但长势没有甲整齐.故选D.
4.为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( C )
A.6 B.8
C.12
D.18
解析:由题图可知,第一组与第二组的频率之和为(0.24+0.16)×1=0.4.因为第一组与第二组共有20人,所以该试验共选取志愿者=50(人),故第三组共有50×0.36=18(人),没有疗效的有6人,故有疗效的有18-6=12(人).
5.甲、乙两名篮球运动员在某几场比赛得分情况为
甲:12,15,25,24,39,36,31,37,49,44,50;
乙:16,13,14,26,23,28,39,33,38,51.
(1)画出甲、乙两名篮球运动员在某几场比赛得分的茎叶图;
(2)甲、乙两人这几场比赛得分的中位数之和是多少.
解:(1)以得分的十位数为“茎”,个位数为“叶”在同一图中画出即可.茎叶图如图所示.
(2)甲得分的中位数为第六个数36,乙得分的中位数为第五个和第六个数的平均数,即=27,所以甲、乙得分的中位数之和为63.
——本课须掌握的两大问题
1.理解频率分布直方图注意以下几点:
(1)在频率分布直方图中,各小长方形的面积的总和等于1,利用这一点可以检验所画的直方图是否正确.
(2)同样一组数据,如果组距不同,横轴、纵轴的单位不同,得到的直方图的形状也不相同.不同的形状给人以不同的印象,这种印象很多时候会影响我们对总体的判断.
(3)同一个总体,由于抽样的随机性,如果随机地抽取另外一个样本,所形成的样本频率分布一般会与前一个样本的频率分布有所不同,但是它们都可以近似地看作总体的分布.
2.对茎叶图的认识:
(1)茎叶图在样本数据较少、较为集中且位数不多时比较适用.由于它较好地保留了原始数据且能够展示数据的分布情况,所以可以帮助我们分析样本数据的大致频率分布,还可以用来分析样本的一些数字特征.
(2)用茎叶图表示数据有两个突出的优点:其一,图上没有原始数据的损失,所有信息都可从这个茎叶图中得到;其二,茎叶图可以随时记录,方便记录与表示.
不能正确理解频率分布直方图
开讲啦
在频率分布直方图中,每个小长方形的面积表示相应各组的频率,所有小长方形的面积之和为1.在解题时,
常因把小长方形的高误认为是频率而导致错误.
[典例] 为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄在17.5~18岁之间的男生体重(单位:kg),得到频率分布直方图如下:
根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是( )
A.20
B.30
C.40
D.50
[错答] A
[正答] C
[错因分析] 错解步骤如下:体重在[56.5,64.5)的频率为0.03+0.05×2+0.07=0.2,
故学生人数为0.2×100=20.
错解原因在于将小长方形的高误认为是频率了,而实际上小长方形的面积才是频率.
故体重在[56.5,64.5)的频率为(0.03+0.05×2+0.07)×2=0.4,学生人数为0.4×100=40.
[针对训练] 某中学举行了一次“环保知识竞赛”活动.为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的成绩(得分取正整数,满分为100分)作为样本(样本容量为n)进行统计.按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出了频率分布直方图,并作出了分数的茎叶图(图中仅列出得分在[50,60),[90,100]的数据),如图.
则样本容量n和频率分布直方图中x,y的值分别为( A )
A.50,0.030,0.004
B.30,0.040,0.003
C.30,0.030,0.040
D.50,0.300,0.400
解析:由题意可知,样本容量n==50,y==0.004,x=0.100-0.004-0.010-0.016-0.040=0.030.
PAGE2.2.2 用样本的数字特征估计总体的数字特征
[目标]
1.会求样本的众数、中位数、平均数、标准差、方差;2.理解用样本的数字特征来估计总体数字特征的方法;3.会应用相关知识解决简单的统计实际问题.
[重点]
样本的众数、中位数、平均数、标准差、方差的求解及应用.
[难点]
对样本的众数、中位数、平均数、标准差、方差意义的理解.
知识点一 众数、中位数、平均数
[填一填]
名称
定义
在频率分布直方图中的估计方法
众数
一组数据中出现次数最多的数称为这组数据的众数
最高的矩形的中点
中位数
一组数据按从小到大的顺序排成一列,处于中间位置的数称为这组数据的中位数
一组数据中的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等
平均数
一组数据的和与这组数据的个数的商称为这组数据的平均数,数据x1,x2,…,xn的平均数为=
平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和
[答一答]
1.一组数据的平均数、中位数、众数唯一吗?
提示:一组数据的平均数、中位数都是唯一的,众数不唯一,可以有一个,也可以有多个,还可以没有.如果有两个数据出现的次数相同,并且比其他数据出现的次数都多,那么这两个数据都是这组数据的众数.
2.在一组数据中,共有10个数,其中3出现2次,9出现4次,-3出现1次,5出现3次,则这组数据的平均数为5.4.
解析:3出现2次,其和为6,9出现4次,其和为36,-3出现1次,其和为-3,5出现3次,其和为15,则这10个数据之和为6+36-3+15=54,则这组数据的平均数==5.4.
知识点二
标准差、方差
[填一填]
1.标准差
(1)定义:标准差是样本数据到平均数的一种平均距离,一般用s表示.
(2)计算公式:
s=.
2.方差
(1)定义:标准差的平方.
(2)计算公式:
s2=[(x1-)2+(x2-)2+…+(xn-)2].
[答一答]
3.标准差与方差的作用是什么?
提示:(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.
(2)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.
4.现有10个数,其平均数为3,且这10个数的平方和是100,那么这个数组的标准差是1.
解析:由s2=(x+x+…+x)-
2,得s2=×100-32=1,所以s=1.
类型一 众数、中位数、平均数及应用
命题视角1:众数、中位数、平均数的计算
[例1] 已知一组数据为20,30,40,50,50,60,70,80,其中平均数、中位数和众数的大小关系是( )
A.平均数>中位数>众数
B.平均数<中位数<众数
C.中位数<众数<平均数
D.众数=中位数=平均数
[解析] 一组数据为20,30,40,50,50,60,70,80,它的平均数为×(20+30+40+50+50+60+70+80)=50,中位数为×(50+50)=50,众数为50,∴它们的大小关系是平均数=中位数=众数.故选D.
[答案] D
平均数、众数、中位数的计算方法
平均数一般是根据公式来计算的;计算众数、中位数时,可先将这组数据按从小到大或从大到小的顺序排列,再根据各自的定义计算.
[变式训练1] 已知样本数据x1,x2,…,xn的均值=5,则样本数据2x1+1,2x2+1,…,2xn+1的均值为11.
解析:由条件知==5,
则所求均值0=
==2+1=2×5+1=11.
命题视角2:直方图中众数、中位数、平均数的计算
[例2] 从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.
试利用频率分布直方图求:
(1)这50名学生成绩的众数与中位数;
(2)这50名学生的平均成绩.
[解] (1)由众数的概念可知,众数是出现次数最多的数.在频率分布直方图中高度最高的小长方形的中间值即为所求,所以众数应为75分.
由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等,即频率也相等,从而就是小矩形的面积和相等.因此在频率分布直方图中将频率分布直方图中所有小矩形的面积一分为二的直线所对应的成绩即为所求.
因为0.004×10+0.006×10+0.02×10=0.04+0.06+0.2=0.3.
所以前三个小矩形面积的和为0.3.
而第四个小矩形面积为0.03×10=0.3,0.3+0.3>0.5,
所以中位数应位于第四个小矩形内.
设其为x,高为0.03,所以令0.03(x-70)=0.2,
得x≈76.7(分).
(2)样本平均值应是频率分布直方图的“重心”,即所有数据的平均值,取每个小矩形底边的中点值乘以每个小矩形的面积求和即可.
所以平均成绩为45×(0.004×10)+55×(0.006×10)+65×(0.02×10)+75×(0.03×10)+85×(0.021×10)+95×(0.016×10)=73.65(分),
所以众数是75分,中位数约为76.7分,平均成绩为73.65分.
众数、中位数、平均数与频率分布直方图的关系
?1?众数:在频率分布直方图中,众数的估计值为最高矩形的底边中点的横坐标.
?2?中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等.
?3?平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点横坐标之和.
[变式训练2] 一组数据的频率分布直方图如图所示,请你在直方图中标出这组数据的众数、中位数和平均数对应的位置(用虚线标明),并根据直方图读出其相应的估计值.
解:众数、中位数、平均数对应的位置如图中虚线所示(众数:右端虚线,中位数:左端虚线,平均数:左端虚线).由直方图观察可得众数为2.25,中位数为2.02,平均数为2.02.
命题视角3:众数、中位数、平均数的应用
[例3] 据报道,某公司的33名职工的月工资(以元为单位)如下:
职务
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5
500
5
000
3
500
3
000
2
500
2
000
1
500
(1)求该公司职工月工资的平均数、中位数、众数;
(2)假设副董事长的工资从5
000元提升到20
000元,董事长的工资从5
500元提升到30
000元,那么新的平均数、中位数、众数又是什么?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平?结合此问题谈一谈你的看法.
[解] (1)平均数是=1
500+
≈1
500+591=2
091(元).
中位数是1
500元,众数是1
500元.
(2)平均数是=1
500+
≈1
500+1
788=3
288(元).
中位数是1
500元,众数是1
500元.
(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.
当数据较大时,求平均数时通常先减去某一个常数如本例中可先减一个1500,而后再求较为简单,由于平均数受极端值影响很大,故有时平均数不一定能客观地反映总体情况,深刻理解平均数、众数、中位数的特点,结合实际情况灵活运用.
[变式训练3] 高一(3)班有男同学27名,女同学21名,在一次语文测验中,男同学的平均分是82分,中位数是75分,女同学的平均分是80分,中位数是80分.
(1)求这次测验全班的平均分(精确到0.01分);
(2)估计全班成绩在80分以下(含80分)的同学至少有多少人?
(3)分析男同学的平均分与中位数相差较大的主要原因.
解:(1)利用平均数计算公式得=×(82×27+80×21)≈81.13(分).
(2)∵男同学成绩的中位数是75分,∴至少有14人得分不超过75分.又女同学成绩的中位数是80分,∴至少有11人得分不超过80分.
所以估计全班至少有25人得分低于80分(含80分).
(3)男同学的平均分与中位数的差别较大,说明男同学的成绩中两极分化现象严重,分数高的和低的相差较大.
类型二 方差、标准差及应用
命题视角1:方差、标准差的计算
[例4] 一组数据:10,11,12,11,14,8的方差是________,标准差是________.
[解析] 方法1:=×(10+11+12+11+14+8)=11,
所以s2=×[(10-11)2+(11-11)2+(12-11)2+(11-11)2+(14-11)2+(8-11)2]=×(1+0+1+0+9+9)=,s==.
方法2:由于该组数据都集中在11附近,故每一个数据都减去11得到一组新数据:-1,0,1,0,3,-3,该组数据的方差与原数据组方差相等.1=0,
∴s2=[(-1)2+02+12+02+32+(-3)2]=,
s=.
[答案]
方法2适用于每个数据都比较接近同一个数的问题,当数据又大又多时,更能体现方法2的优越性.
[变式训练4] 一组数据:3,4,6,7,10,其标准差是.
解析:∵=×(3+4+6+7+10)=6,
∴s2=×[(3-6)2+(4-6)2+(6-6)2+(7-6)2+(10-6)2]=×(9+4+0+1+16)=6.∴s=.
命题视角2:方差、标准差的实际应用
[例5] 甲、乙两机床同时加工直径为100
cm的零件,为检验质量,各从中抽取6件测量,数据为:
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
[分析] 先计算平均数和方差,再由方差大小判断质量稳定情况.
[解] (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100.
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)两台机床所加工零件的直径的平均值相同.
又s>s,所以乙机床加工零件的质量更稳定.
用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差?方差?分析稳定情况.
[变式训练5] 某工厂甲、乙两名工人参加操作技能培训,他们在培训期间参加的8次测试成绩记录如下:
甲 95 82 88 81 93 79 84 78
乙 83 92 80 95 90 80 85 75
试比较哪个工人的成绩较好.
解:甲=(78+79+81+82+84+88+93+95)=85,
乙=(75+80+80+83+85+90+92+95)=85.
s=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41.
∵甲=乙,s综上可知,甲的成绩较好.
1.下列各数字特征中,能反映一组数据离散程度的是( C )
A.众数
B.平均数
C.标准差
D.中位数
解析:反映数据离散程度的量是方差和标准差.故选C.
2.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( D )
A.a>b>c
B.b>c>a
C.c>a>b
D.c>b>a
解析:众数c=17,中位数b=15,平均数a=14.7,即a3.在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是( D )
A.众数
B.平均数
C.中位数
D.标准差
解析:根据标准差的性质,易知答案为D.
4.甲、乙两种水稻,经统计甲水稻的株高方差是2.0,乙水稻的株高标准差是1.8,可估计甲水稻比乙水稻长得整齐.
解析:因方差、标准差都衡量数据的波动性,2<(1.8)2.
5.某市有210名初中生参加数学竞赛预赛,随机调阅了60名学生的答卷,成绩如下表:
成绩
1分
2分
3分
4分
5分
6分
7分
8分
9分
10分
人数分布
0
0
0
6
15
21
12
3
3
0
(1)求样本的平均成绩和标准差(精确到0.01分);
(2)若规定预赛成绩在7分或7分以上的学生参加复赛,试估计有多少名学生可以进入复赛.
解:(1)=×(4×6+5×15+6×21+7×12+8×3+9×3)=6,s2=×[6×(4-6)2+15×(5-6)2+21×(6-6)2+12×(7-6)2+3×(8-6)2+3×(9-6)2]=1.5,∴s≈1.22,故样本的平均成绩为6分,标准差约为1.22分.
(2)在60名选手中,有12+3+3=18(名)学生预赛成绩在7分或7分以上,∴210人中有×210=63(名)学生的预赛成绩在7分或7分以上,故大约有63名学生可以参加复赛.
——本课须掌握的四大问题
1.利用直方图求数字特征:①众数是最高的矩形的底边的中点.②中位数左右两边直方图的面积应相等.③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
3.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
4.在抽样过程中,抽取的样本是具有随机性的,因此样本的数字特征也有随机性.用样本的数字特征估计总体的数字特征,是一种统计思想,没有唯一答案.
PAGE2.3 变量间的相关关系
[目标]
1.理解两个变量的相关关系的概念;2.会作散点图,并利用散点图判断两个变量之间是否具有相关关系;3.会求回归直线方程.
[重点]
根据给出的线性回归方程的系数公式建立线性回归方程.
[难点]
对回归思想的建立及回归直线与观测数据的关系的理解.
知识点一 变量之间的相关关系
[填一填]
1.函数关系
当自变量取一定值时,因变量的取值也随之确定的两个变量之间的关系,也称确定性关系.
2.相关关系
如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的随机性,那么这两个变量之间的关系,叫做相关关系.
[答一答]
1.你能举出几个函数关系和相关关系的实例吗?
提示:函数关系:圆的面积与其半径,正方体的体积与其棱长;
相关关系:销售额与广告费用,学习成绩与学习时间.
知识点二 两个变量的线性相关
[填一填]
1.散点图
将n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,以表示具有相关关系的两个变量的图形叫做散点图.
2.两类特殊的相关关系
(1)正相关:散点图中的点散布的位置是从左下角到右上角的区域.
(2)负相关:散点图中的点散布的位置是从左上角到右下角的区域.
[答一答]
2.粮食产量与施肥量间的相关关系是正相关还是负相关?
提示:在施肥不过量的情况下,施肥越多,粮食产量越高,所以是正相关.
知识点三 回归直线方程
[填一填]
1.线性相关
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.最小二乘法
求线性回归直线方程
=
x+
时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法,
其中,
是回归方程的斜率,
是回归方程在y轴上的截距.
[答一答]
3.回归系数
的含义是什么?
提示:(1)
代表x每增加一个单位,y的平均增加单位数,而不是增加单位数.
(2)当
>0时,两个变量呈正相关关系,含义为:x每增加一个单位,y平均增加
个单位数;
当
<0时,两个变量呈负相关关系,含义为:x每增加一个单位,y平均减少
个单位数.
4.根据回归系数的求解公式及回归直线方程,样本中心(,)与回归直线的关系是怎样的?
提示:由
=-
,得=
+
,即(,)满足回归方程,所以样本中心在回归直线上.
5.由回归直线方程得到的预报值一定是预报变量的精确值吗?
提示:由回归直线方程得到的预报值不是预报变量的精确值,事实上,它是预报变量的可能取值的平均值.
类型一 相关关系的判定
[例1] (1)下列关系中,属于相关关系的是________
(填序号).
①正方形的边长与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③出租车费与行驶的里程;
④降雪量与交通事故的发生率之间的关系.
(2)某个男孩的年龄与身高的统计数据如下表所示.
年龄x(岁)
1
2
3
4
5
6
身高y(cm)
78
87
98
108
115
120
①画出散点图;
②判断y与x是否具有线性相关关系.
[解析] (1)在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③为确定的函数关系;在④中,降雪量与交通事故的发生率之间具有相关关系.
(2)解:①散点图如图所示.
②由图知,所有数据点接近一条直线排列,因此,认为y与x具有线性相关关系.
[答案] (1)②④ (2)见解析
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.
[变式训练1] 某中学的兴趣小组在某座山测得海拔高度、气压和沸点的六组数据绘制成散点图如图所示,则下列说法错误的是( A )
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压的相关性都很强
解析:由题中左图知气压随海拔高度的增加而减小,由题中右图知沸点随气压的升高而升高,所以沸点与气压呈正相关,沸点与海拔高度呈负相关,由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,故B、C、D正确,A错误.
类型二 求回归直线方程
[例2] 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器的运转的速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)画出散点图;
(2)如果y对x有线性相关关系,请画出一条直线近似地表示这种线性关系;
(3)在实际生产中,若它们的近似方程为y=x-,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?
[解] (1)散点图如图所示:
(2)近似直线如图所示:
(3)由y≤10得x-≤10,解得x≤14.9,所以机器的运转速度应控制在14转/秒内.
如果给出x与y呈线性相关关系,则无需进行相关性检验,否则必须进行相关性检验,因为如果两个变量之间不具备相关关系或相关关系不明显,即使求出回归直线方程也是毫无意义,并且会作出错误地估测.
[变式训练2] (1)已知一组观测值(xi,yi)作出散点图后确定具有线性相关关系,若对于=x+,求得=0.51,=61.75,=38.14,则回归方程为( A )
A.=0.51x+6.65
B.=6.65x+0.51
C.=0.51x+42.30
D.=42.30x+0.51
解析:因为=0.51,=-≈6.65,
所以=0.51x+6.65.
(2)某商店统计了最近6个月商品的进价x与售价y(单位:元)的对应数据如下:
x
3
5
2
8
9
12
y
4
6
3
9
12
14
则=6.5,=8,=327,iyi=396,回归方程为=1.143x+0.571.
解析:==6.5,
==8,
=32+52+22+82+92+122=327,
iyi=3×4+5×6+2×3+8×9+9×12+12×14=396,
=≈1.143,=-≈0.571.
故回归方程为=1.143x+0.571.
类型三 利用回归方程对总体进行估计
[例3] 由某种设备的使用年限xi(年)与所支出的维修费yi(万元)的数据资料算得如下结果,=90,iyi=112,i=20,i=25.
(1)求所支出的维修费y对使用年限x的线性回归方程
=
x+
;
(2)①判断变量x与y之间是正相关还是负相关;
②当使用年限为8年时,试估计支出的维修费是多少.
[解] (1)∵i=20,i=25,
∴=i=4,=i=5,
∴
===1.2,
=-
=5-1.2×4=0.2.
∴线性回归方程为
=1.2x+0.2.
(2)①由(1)知
=1.2>0,
∴变量x与y之间是正相关.
②由(1)知,当x=8时,
=1.2×8+0.2=9.8,即使用年限为8年时,支出维修费约是9.8万元.
利用回归方程,我们可以进行预测,并对总体进行估计.尽管我们利用回归方程所得的值仅是一个估计值,具有随机性,但我们是根据统计规律得到的,因而所得结论正确的概率是最大的,故我们可以放心大胆地利用回归方程进行预测.
[变式训练3] (1)某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:
广告费用x
4
2
3
5
销售额y
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( B )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
解析:==3.5,
==42.
因为回归直线过点(,),
所以42=9.4×3.5+.解得=9.1.
故回归方程为=9.4x+9.1.
所以当x=6时,=6×9.4+9.1=65.5.
(2)某5名学生的总成绩和数学成绩如下表(单位:分):
学生
A
B
C
D
E
总成绩x
428
383
421
364
362
数学成绩y
78
65
71
64
61
①画出散点图;
②求y对x的回归直线方程(结果保留到小数点后3位数字);
③如果一个学生的总成绩为450分,试预测这个学生的数学成绩.
解:①散点图如下图所示:
②由题中数据计算可得
=391.6,=67.8,=770
654,iyi=133
548.
代入公式得
=≈0.204,
=67.8-0.204×391.6≈-12.086,
所以y对x的回归直线方程为
=-12.086+0.204x.
③由②得当总成绩为450分时,
=-12.086+0.204×450≈80,即这个学生的数学成绩大约为80分.
1.下列命题正确的是( C )
①任何两个变量都具有相关关系;
②圆的周长与该圆的半径具有相关关系;
③某商品的需求量与该商品的价格是一种非确定性关系;
④根据散点图求得的回归直线方程可能是没有意义的;
⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.
A.①③④
B.②③④
C.③④⑤
D.②④⑤
解析:①显然不正确,②是函数关系,③⑤正确,当两变量之间不具有线性相关关系时求得的回归直线方程是没有意义的,④正确.故选C.
2.判断下列图形中具有相关关系的两个变量是哪一个?( C )
解析:A中显然任给一个x都有唯一确定的y和它对应,是一种函数关系;B也是一种函数关系;C中从散点图可看出所有点看上去都在某条直线附近波动,具有相关关系,而且是一种线性相关;D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.
3.已知x与y之间的几组数据如下表:
x
0
1
2
3
y
0
2
6
7
则y与x的线性回归方程=x+必过点( C )
A.(1,2)
B.(2,6)
C.
D.(3,7)
解析:回归直线方程必过样本点的中心(,),即必过,故选C.
4.若施肥量x(kg)与水稻产量y(kg)的线性回归方程为=5x+250,当施肥量为80
kg时,预计水稻产量约为650
kg.
解析:当x=80时,=5×80+250=650(kg).
5.某城市理论预测2016年到2020年人口总数(单位:十万)与年份的关系如下表所示:
年份2016+x
0
1
2
3
4
人口总数y
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的回归方程=x+;
(3)据此估计2021年该城市人口总数.
(参考数据:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30)
解:(1)根据题中数表画出数据的散点图如图所示:
(2)由题中数表,知
=(0+1+2+3+4)=2,
=(5+7+8+11+19)=10.
所以==3.2,=-=3.6.
所以回归方程为=3.2x+3.6.
(3)当x=5时,=3.2×5+3.6=19.6(十万)=196(万).
估计2021年该城市人口总数约为196万.
——本课须掌握的三大问题
1.相关关系与函数关系的相同点与不同点
(1)相同点:两者均指两个变量之间的关系.
(2)不同点:①函数关系是一种确定关系;而相关关系是具有随机性的两个变量之间的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可以是伴随关系.
2.对散点图的两点说明
(1)散点图的特点形象地体现了各对数据的密切程度,因此我们可以根据散点图来判断两个变量有没有线性关系.
(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势.
3.对最小二乘法的理解
(1)回归直线是数据最贴近的直线,反映贴近程度的数据是偏差的平方和,即Q=(yi-a-bxi)2,这样,回归直线就是所有直线中Q取最小值的那一条.
(2)利用最小二乘法求
,
时,是将Q转化为关于
或
的二次函数,利用二次函数的知识求得的.
PAGE