1 从普查到抽样
学习目标 1.了解普查与抽样调查的概念.2.理解随机抽样的必要性和重要性.3.明确两种调查的优缺点.21*cnjy*com
知识点一 统计
思考 我们每天都接触大量的数据:各地房价的涨幅,各种指数的变化、天气的各种数据等,这些数据是怎么来的?
梳理 统计是研究如何合理收集、______、______数据的学科.
知识点二 普查
思考 你对“武汉一人口普查员劳累过度以身殉职”的报道有何看法?
梳理 一般地,普查是指一个________或一个________专门组织的________大规模的全面调查,目的是为了详细地了解________重要的国情、国力.21cnjy.com
普查的主要特点:①所取得的资料更加全面、________;②主要调查在特定时段的社会经济现象总体的________.21·世纪*教育网
普查的对象________时,普查无疑是一项非常好的调查方式.
知识点三 抽样调查
思考 要了解一批牛奶的质量是否达标,能用普查吗?
梳理 当不宜普查时,有:
(1)抽样调查:从调查对象中按照一定的方法抽取一部分,进行调查或观察,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.www-2-1-cnjy-com
(2)总体:调查对象的全体称为总体.
(3)个体:组成总体的每一个考察对象叫作个体;
(4)样本及样本的容量:从总体中所抽取的一部分个体叫作总体的一个样本,样本中的个体数目叫作样本的容量.【来源:21cnj*y.co*m】
(5)抽样调查的优点:抽样调查与普查相比,有很多优点,最突出的有两点:①迅速、及时;②节约人力、物力和财力.
类型一 普查与抽样调查
例1 医生是如何检验人的血液中血脂的含量是否偏高的?
反思与感悟 设计合理的调查方案是调查的基础,是统计活动中非常重要的环节.若对大批量且有破坏性的检验问题,只能进行抽样调查,这样检验是科学、合理的.在抽样调查中应注意:抽取的样本要具有全面性、代表性、随机性.【来源:21·世纪·教育·网】
跟踪训练1 下列调查中哪些是用普查方式,哪些是用抽样方法来收集数据的?
(1)为了了解我们班级的每个学生穿几号鞋,向全班同学做调查;
(2)为了了解我们学校高一年级学生穿几号鞋,向我们所在班的全体同学做调查;
(3)为了了解我们班的同学每天的睡眠时间,在每个小组中各选取2名学生做调查;
(4)为了了解我们班的同学每天的睡眠时间,选取班级中学号为双数的所有学生做调查.
类型二 如何进行抽样调查
例2 为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果会怎样?
反思与感悟 在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.【出处:21教育名师】
跟踪训练2 中央电视台希望在春节联欢晚会播出后一周内获得当年春节联欢晚会的收视率.下面是三名同学为电视台设计的调查方案.【版权所有:21教育】
甲同学:我把这张《春节联欢晚会收视率调查表》放在互联网上,只要上网登录该网址的人就可以看到这张表,他们填表的信息可以很快地反馈到我的电脑中.这样,我就可以很快统计收视率了.21教育名师原创作品
乙同学:我给我们居民小区的每一户住户发一份是否在除夕那天晚上看过中央电视台春节联欢晚会的调查表,只要一两天就可以统计出收视率.21*cnjy*com
丙同学:我在电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们是否收看了中央电视台春节联欢晚会,我不出家门就可以统计出中央电视台春节联欢晚会的收视率.21教育网
请问:上述三名同学设计的调查方案能够获得比较准确的收视率吗?为什么?
1.下列调查方式中,可用“普查”方式的是( )
A.调查某品牌电视机的市场占有率
B.调查某电视连续剧在全国的收视率
C.调查某校七年级一班的男女同学的比例
D.调查某型号炮弹的射程
2.下列说法不正确的是( )
A.普查是要对所有的对象进行调查
B.样本不一定是从总体中抽取的,没抽取的个体也是样本
C.当调查的对象很少时,普查是很好的调查方式,但当调查的对象很多时,则要耗费大量的人力、物力和财力
D.普查不是在任何情况下都能实现的
3.为了了解高一年级学生的视力情况,特别是近视率问题,抽测了其中100名同学的视力情况.在这个过程中,100名同学的视力情况(数据)是( )
A.总体 B.个体
C.总体的一个样本 D.样本容量
4.下列调查中属于抽样调查的是( )
①每隔5年进行一次人口普查;②某商品的质量优劣;③某报社对某个事情进行舆论调查;④高考考生的查体.
A.②③ B.①④
C.③④ D.①②
5.“非典”期间,我国每日公布非典疫情,其中有关数据的收集所采用的调查方式是________.
普查是一项非常艰巨的工作,它要对所有的对象进行调查.当普查的对象很少时,普查无疑是一项非常好的调查方式.普查主要有两个特点:21世纪教育网版权所有
(1)所取得的资料更加全面、系统;
(2)主要调查在特定时段的社会经济现象总体的数量.
答案精析
问题导学
知识点一
思考 由专业人员收集、整理、分析出来的.
梳理
整理 分析
知识点二
思考 人口普查是一个规模宏大的政府工程.普查是一项非常艰苦的工作,工作量很大,要耗费大量的人力、物力与财力,并且组织工作繁重、时间长.更值得注意的是,在很多情况下,普查工作难以实现.www.21-cn-jy.com
梳理
国家 地区 一次性 某项 系统 数量 很少
知识点三
思考 检验具有破坏性,故不能普查.
题型探究
例1 解 大家都知道,医生在检验时是不可能将一个人的血液都抽出来进行普查的,因此,医生在检验人的血液中血脂含量是否偏高时,通常是抽取少量的血样进行检验,然后由此作出推断,认为这个人的血液状况基本如此.21·cn·jy·com
跟踪训练1 解 (1)因为调查的是班级的每个学生,所以用的是普查.(2)通过我们班的全体同学穿几号鞋来了解学校高一年级学生穿几号鞋,这是抽样调查,样本是我们班的全体同学所穿的鞋号,总体是学校高一年级学生所穿的鞋号.(3)、(4)也都是抽样调查,样本分别是每小组中选取的2名学生的睡眠时间,学号为双数的所有学生的睡眠时间;总体都是我们班的同学每天的睡眠时间.2·1·c·n·j·y
例2 解 一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.2-1-c-n-j-y
跟踪训练2 解 综上所述,这三种调查方案都有一定的片面性,不能得到比较准确的收视率.因为并不是每个人都有互联网可上;某一地方的居民小区代表性不强;并不是每家都拥有电话.
当堂训练
1.C 2.B 3.C 4.A 5.普查
2.1 简单随机抽样
学习目标 1.体会随机抽样的必要性和重要性.2.理解随机抽样的目的和基本要求.3.掌握简单随机抽样中的抽签法、随机数法的一般步骤.
知识点一 简单随机抽样
思考1 从含有甲、乙的9件产品中随机抽取一件,总体内的各个个体被抽到的机会相同吗?为什么?甲被抽到的机会是多少?21cnjy.com
思考2 被抽取的样本总体的个数有限定条件吗?
思考3 简单随机抽样是不放回抽样,对于放回的抽样可以是简单随机抽样吗?
梳理 1.一般地,从一个总体中,________地抽取一些个体,然后对抽取的对象进行调查,在抽取过程中,要保证每个对象被抽到的____________.这样的抽样方法叫作简单随机抽样.
2.简单随机抽样的四个特点
(1)它要求被抽取样本的总体的个数有限,这样便于通过随机抽取的样本对总体进行分析.
(2)它是从总体中逐个抽取,这样便于在抽样实践中进行操作.
(3)它是一种不放回抽样,由于抽样实践中多采用不放回抽样,使其具有较广泛的实用性,而且由于所抽取的样本中没有被重复抽取的个体,便于进行有关的分析和计算.
(4)它是一种等机会抽样,不仅每次从总体中抽取一个个体时,各个个体被抽到的机会相等,而且在整个抽样的过程中,各个个体被抽取的机会也相等,从而保证了这种抽样方法的公平性.21·世纪*教育网
知识点二 抽签法和随机数法
思考1 采用抽签法抽取样本时,为什么将编号写在形状、大小相同的号签上,并且将号签放在同一个箱子里搅拌均匀?2-1-c-n-j-y
思考2 在什么条件下使用随机数法?
梳理 1.一般地,抽签法是简单随机抽样的一种,其操作步骤是
(1)给调查对象群体中的每个对象________;
(2)准备“抽签”的工具,实施“________”;
(3)对样本中每一个个体进行______________.
2.一般地,随机数法也是简单随机抽样的一种,把总体中的N个个体依次编上0,1,…,N-1的号码,然后利用工具(转盘或摸球、随机数表、科学计算器或计算机)产生0,1,…,N-1中的随机数,产生的随机数是几,就选几号个体,直至抽到预先规定的样本数.
类型一 简单随机抽样的判断
例1 下面的抽样是简单随机抽样吗?为什么?
(1)小乐从玩具箱中的10件玩具中随意拿出一件玩,玩后放回,再拿出一件,连续拿出四件;
(2)某学校从300名学生中一次性抽取20名学生调查睡眠情况.
反思与感悟 当抽样具有:(1)总体中个体数是有限的,(2)逐个抽取,(3)不放回抽取,(4)每个个体被抽到的机会等可能时,为简单随机抽样,否则不是简单随机抽样.
跟踪训练1 下面的抽样方法是简单随机抽样的是( )
A.盒子中有80个零件,从中选出5个零件进行质量检验,在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里21教育网
B.某车间包装一种产品,在自动包装传送带上,每隔5分钟抽一包产品,称其重量是否合格
C.某校分别从行政人员、教师、后勤人员中抽取2人,14人,4人了解对他们学校机构改革的意见
D.从8台电脑中不放回地随机抽取2台进行质量检验(假设8台电脑已编好号,对编号随机抽取)
类型二 简单随机抽样等可能性应用
例2 一个布袋中有10个同样质地的小球,从中不放回地依次抽取3个小球,则某一特定小球被抽到的可能性是________,第三次抽取时,剩余每个小球被抽到的可能性是________.
反思与感悟 简单随机抽样,每次抽取时,总体中各个个体被抽到的概率相同,在整个抽样过程中各个个体被抽到的机会也都相等.21·cn·jy·com
跟踪训练2 从总体容量为N的一批零件中,抽取一个容量为30的样本,若每个零件被抽到的可能性为0.25,则N的值为( )【来源:21cnj*y.co*m】
A.120 B.200 C.150 D.100
类型三 抽签法与随机数法
命题角度1 抽签法
例3 某卫生单位为了支援抗震救灾,要在18名志愿者中选取6人组成医疗小组去参加救治工作,请用抽签法设计抽样方案.21*cnjy*com
反思与感悟 一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
跟踪训练3 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
命题角度2 随机数法
例4 假设我们要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,应如何操作?21世纪教育网版权所有
反思与感悟 抽签法和随机数法对个体的编号是不同的,抽签法可以利用个体已有的编号,如学生的学籍号、产品的记数编号等,也可以重新编号,例如总体个数为100,编号可以为1,2,3,…,100.随机数法对个体的编号要看总体的个数,总体数为100,通常为00,01,…,99.总体数大于100小于1 000,从000开始编起,然后是001,002,….
跟踪训练4 某车间工人加工一种轴100件,为了了解这种轴的直径,要从中抽取10件轴在同一条件下测量,如何采用简单随机抽样的方法抽取样本?【来源:21·世纪·教育·网】
1.在简单随机抽样中,某一个个体被抽中的可能性( )
A.与第几次抽样有关,第1次的可能性要大些
B.与第几次抽样无关,每次的可能性都相等
C.与第几次抽样有关,最后1次的可能性要大些
D.以上都不正确
2.下面抽样方法是简单随机抽样的是( )
A.从平面直角坐标系中抽取5个点作为样本
B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编好号,对编号随机抽取)
3.一个总体中含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5的样本,则指定的某个个体被抽到的可能性为________.【出处:21教育名师】
4.某地有2 000人参加自学考试,为了了解他们的成绩,从中抽取一个样本,若每个考生被抽到的概率都是0.04,则这个样本的容量是________.21*cnjy*com
5.齐鲁风采“七乐彩”的中奖号码是从分别标有1,2,…,30的三十个小球中逐个不放回地摇出7个小球来按规则确定中奖情况,这种从30个号码中选7个号码的抽样方法是________.
1.简单随机抽样是一种简单、基本、不放回的抽样方法,常用的简单随机抽样方法有抽签法和随机数法.
2.抽签法的优点是简单易行,缺点是当总体的容量大时,费时、费力,并且标号的签不易搅拌均匀,这样会导致抽样不公平;随机数法的优点也是简单易行,缺点是当总体容量大时,编号不方便.两种方法只适合总体容量较少的抽样类型.www-2-1-cnjy-com
3.简单随机抽样每个个体入样的可能性都相等,均为,但要将每个个体入样的可能性与第n次抽取时每个个体入样的可能性区分开,避免在解题中出现错误.
答案精析
问题导学
知识点一
思考1 总体内的各个个体被抽到的机会是相同的.因为是从9件产品中随机抽取一件,这9件产品每件产品被抽到的机会都是1/9,甲也是1/9.2·1·c·n·j·y
思考2 被抽取的样本总体的个数必须有限,便于分析.
思考3 不可以.简单随机抽样是从总体中逐个抽取的是一种不放回抽样,也就是每次从总体中取出元素后不放回总体,若放回,则一定不是简单随机抽样.21教育名师原创作品
梳理
1.随机 概率相同
知识点二
思考1 为了使每个号签被抽取的可能性相等,保证抽样的公平性.
思考2 在总体容量不大的情况下使用.
梳理
1.(1)编号 (2)抽签 (3)测量或调查
题型探究
例1 解 (1)不是简单随机抽样,因为玩具被放回了,不符合“不放回抽样”这一特点.
(2)不是简单随机抽样,因为一次性抽取不符合“逐个抽取”这一特点.
跟踪训练1 D [依据简单随机抽样的特点知,只有D符合.]
例2
解析 因为简单随机抽样过程中每个个体被抽到的可能性均为,所以第一个空填.因为本题中的抽样是不放回抽样,所以第一次抽取时,每个小球被抽到的可能性为,第二次抽取时,剩余9个小球,每个小球被抽到的可能性为,第三次抽取时,剩余8个小球,每个小球被抽到的可能性为.【版权所有:21教育】
跟踪训练2 A [因为从含有N个个体的总体中抽取一个容量为30的样本时,在每次抽取一个个体的过程中任意一个个体被抽到的可能性为,在整个抽样过程中每个个体被抽到的可能性为,所以=0.25,从而有N=120.故选A.]www.21-cn-jy.com
例3 解 方案如下:
第一步,将18名志愿者编号,号码为01,02,03,…,18.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放到一个不透明的盒子中,充分搅匀.
第四步,从盒子中依次取出6个号签,并记录上面的编号.
第五步,与所得号码对应的志愿者就是医疗小组成员.
跟踪训练3 解 第一步,将20架钢琴编号,号码是01,02,…,20.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步,从袋子中逐个不放回地抽取5个号签,并记录上面的编号.
第五步,与所得号码对应的5架钢琴就是要进行质量检查的对象.
例4 解 第一步,将800袋牛奶编号为000,001,…,799.
第二步,在随机数表中任选一个数作为起始数(例如选出第8行第2列的数7).
第三步,从选定的数7开始依次向右读(读数的方向也可以是向左、向上、向下等),将编号范围内的数取出,编号范围外的数去掉,直到取满60个号码为止,就得到一个容量为60的样本.
跟踪训练4 解 方法一 (抽签法)将100件轴编号为1,2,…,100,并做好大小、形状相同的号签,分别写上这100个数,将这些号签放在一起,搅拌均匀,接着连续不放回地抽取10个号签,然后测量这10个号签对应的轴的直径.
方法二 (随机数法)将100件轴编号为00,01,…,99,在随机数表中选定一个起始位置,如取第21行第1个数开始,向右选取10个为93,12,47,79,57,37,89,18,45,50,这10件即为所要抽取的样本.
当堂训练
1.B 2.D 3. 4.80 5.抽签法
2.2 分层抽样与系统抽样
学习目标 1.理解并掌握系统抽样、分层抽样.2.会用系统抽样、分层抽样从总体中抽取样本.3.理解三种抽样的区别与联系.
知识点一 分层抽样
思考 分层抽样的总体具有什么特性?
梳理
1.分层抽样的概念
将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照____________随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为____________.
2.分层抽样的适用条件
分层抽样尽量利用事先所掌握的各种信息,并充分考虑保持样本结构与总体结构的一致性,这对提高样本的代表性非常重要.当总体是由____________的几个部分组成时,往往选用分层抽样的方法.21教育网
3.分层抽样的实施步骤
第一步,按某种特征将总体分成若干部分(层);
第二步,计算抽样比.抽样比=;
第三步,各层抽取的个体数=______________________;
第四步,依各层抽取的个体数,按________________从各层抽取样本;
第五步,综合每层抽样,组成样本.
知识点二 系统抽样
思考1 当总体中的个体数较多时,为什么不宜用简单随机抽样?
思考2 用系统抽样抽取样本时,每段各取一个号码,其中第1段的个体编号怎样抽取?以后各段的个体编号怎样抽取?
梳理
1.系统抽样的概念
将总体中的个体进行编号,等距分组,在第一组中按照________________抽取第一个样本,然后按__________(称为________)抽取其他样本.这种抽样方法有时也叫____________或____________.
2.系统抽样的步骤
假设要从容量为N的总体中抽取容量为n的样本,步骤为:
(1)先将总体的N个个体________.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;
(2)确定分段间隔k,对编号进行________.当(n是样本容量)是整数时,取k=;当不是整数时,先从总体中________剔除几个个体,再____________, 然后分段;
(3)在第1段用________________确定第一个个体编号l(l≤k);
(4)按照一定的规则抽取样本.通常是将l____________得到第2个个体编号________,再加____得到第3个个体编号______,依次进行下去,直到获取整个样本.
知识点三 三种抽样方法的比较
思考 系统抽样时,将总体分成均等的几部分,每部分抽取一个,符合分层抽样,故系统抽样就是一种特殊的分层抽样,这种说法对吗?
方法类别
共同特点
抽样特征
相互联系
适用范围
简单随机抽样
系统抽样
分层抽样
类型一 分层抽样及应用
命题角度1 分层抽样适用情形判定
例1 某地区有高中生2 400人,初中生10 900人,小学生11 000人.当地教育部门为了了解本地区中小学生的近视率及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查,你认为应当怎样抽取样本?21cnjy.com
反思与感悟 分层抽样实质是利用已知信息尽量使样本结构与总体结构相似.在实际操作时,并不排斥与其他抽样方法联合使用.【来源:21·世纪·教育·网】
跟踪训练1 某单位有员工500人,其中35岁以下的有125人,35岁~49岁的有280人,50岁以上的有95人.为了调查员工的身体状况,要从中抽取一个容量为100的样本,如何进行抽取?21世纪教育网版权所有
命题角度2 分层抽样具体实施步骤
例2 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层抽样的方法抽取,写出抽样过程.21·cn·jy·com
反思与感悟 在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体容量之比.
跟踪训练2 某单位最近组织了一次健身活动,活动小组分为登山组和游泳组,且每个职工至多参加了其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的,且该组中青年人占50%,中年人占40%,老年人占10%.为了了解各组不同年龄层次的职工对本次活动的满意程度,现用分层抽样方法从参加活动的全体职工中抽取200人进行抽查,试确定:21·世纪*教育网
(1)游泳组中,青年人、中年人、老年人分别所占的比例;
(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.
类型二 系统抽样及应用
例3 为了了解参加某种知识竞赛的1 000名学生的成绩,从中抽取一个容量为50的样本,那么采用什么抽样方法比较恰当?简述抽样过程.www-2-1-cnjy-com
引申探究
在本例中,如果总体是1 002,其余条件不变,又该怎么抽样?
反思与感悟 当总体中的个体数不能被样本容量整除时,需要在总体中剔除一些个体.由于剔除方法采用简单随机抽样,所以即使是被剔除的个体,在整个抽样过程中被抽到的机会和其他个体是一样的.2-1-c-n-j-y
跟踪训练3 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.
1.检测员每10分钟从匀速传递的新产品生产流水线上抽取一件新产品进行某项指标检测,这样的抽样方法是( )21*cnjy*com
A.系统抽样法 B.抽签法
C.随机数法 D.其他抽样方法
2.交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )21教育名师原创作品
A.101 B.808 C.1 212 D.2 012
3.为了调查某省各城市PM2.5的值,按地域把36个城市分成甲、乙、丙三组,对应的城市数分别为6,12,18.若用分层抽样的方法抽取12个城市,则乙组中应抽取的城市数为________.21*cnjy*com
4.某班级有50名学生,现要采用系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号为1~50号,并均匀分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.
5.一批产品中有一级品100个,二级品60个,三级品40个,分别用系统抽样法和分层抽样法从这批产品中抽取一个容量为20的样本.
1.系统抽样有以下特点:
(1)适用于总体容量较大的情况;
(2)剔除多余个体及第一段抽样都要用简单随机抽样,因而与简单随机抽样有密切联系;
(3)是等可能抽样,每个个体被抽到的可能性都是;
(4)是不放回抽样.
在抽样时,只要第一段抽取的个体确定了,后面各段中要抽取的个体依照事先确定好的规律就自动地被抽出,因此简单易行.【来源:21cnj*y.co*m】
2.总体容量小,简单随机抽样;总体容量大,系统抽样;总体差异明显,分层抽样.在实际抽样中,为了使样本具有代表性,通常要同时使用几种抽样方法.
答案精析
问题导学
知识点一
思考 分层抽样的总体由差异明显的几部分构成,也就是说当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样.
梳理
1.所占比例 类型抽样 2.差异明显 3.各层总的个体数×抽样比 简单随机抽样
知识点二
思考1 因为个体较多,采用简单随机抽样如制作号签等工作会耗费大量的人力、物力和时间,而且不容易做到“搅拌均匀”,从而使样本的代表性不强.www.21-cn-jy.com
思考2 用简单随机抽样抽取第1段的个体编号.在抽取第1段的号码之前,自定义规则确定以后各段的个体编号,通常是将第1段抽取的号码依次累加间隔k.
梳理
1.简单随机抽样 分组的间隔 抽样距 等距抽样 机械抽样
2.(1)编号 (2)分段 随机 重新编号 (3)简单随机抽样 (4)加上间隔k l+k k l+2k
知识点三
思考 不对,因为分层抽样是从各层独立地抽取个体,而系统抽样各段上抽取是按事先确定好的规则进行的,各层编号有联系,不是独立的,故系统抽样不同于分层抽样.
梳理
抽样过程中每个个体被抽取的概率相等 从总体中逐个不放回抽取 简单随机抽样是基础 样本容量较小 将总体分成均衡的几部分,按规则关联抽取 用简单随机抽样抽取起始号码 总体中的个体数较多,样本容量较大 将总体分成几层,按比例分层抽取 用简单随机抽样或系统抽样对各层抽样 总体由差异明显的几部分组成
题型探究
例1 解 (1)从总体来看,因为不同年龄阶段的学生的近视情况可能存在明显差异,为了使样本具有较好的代表性,应该分高中、初中、小学三个层次分别抽样.
(2)从三类学生的数量来看,人数较多,所以在各层抽样时可以采用系统抽样.
(3)采用系统抽样分好组之后,确定第一组人选时,可以采用简单随机抽样.
跟踪训练1 解 因为员工按年龄分为三个层,各层的身体状况有明显的差异,所以为了使样本具有代表性,需要采用分层抽样.抽样比为1∶5,即每5人中抽取一人.
35岁以下:125×=25(人),35岁~49岁:280×=56(人),50岁以上:95×=19(人).
例2 解 抽样过程如下:
第一步,确定抽样比,样本容量与总体容量的比为=.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);
从教师中抽取112×=14(人);
从后勤人员中抽取32×=4(人).
第三步,采用简单随机抽样的方法,抽取行政人员2人,教师14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.
跟踪训练2 解 (1)设登山组人数为x,则游泳组人数为3x,再设游泳组中,青年人、中年人、老年人各占比例分别为a、b、c,则有=47.5%,=10%,
解得b=50%,c=10%,
故a=1-50%-10%=40%.
所以游泳组中,青年人、中年人、老年人各占的比例分别为40%、50%、10%.
(2)游泳组中,抽取的青年人人数为200××40%=60,抽取的中年人人数为200××50%=75,抽取的老年人人数为200××10%=15.【版权所有:21教育】
例3 解 适宜选用系统抽样,抽样过程如下:
(1)随机地将这1 000名学生编号为1,2,3,…,1000.
(2)将总体按编号顺序均分成50个部分,每部分包括20个个体.
(3)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(4)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,…,l+980.2·1·c·n·j·y
引申探究 解 (1)将每个学生编一个号,由1至1002.
(2)利用随机数法剔除2个号.
(3)将剩余的1 000名学生重新编号1至1000.
(4)按编号顺序均分成50个部分,每部分包括20个个体.
(5)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(6)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,…,l+980.
跟踪训练3 解 (1)将每个工人编一个号,由0001至1003.
(2)利用随机数法找到3个号将这3名工人剔除.
(3)将剩余的1 000名工人重新编号0001至1000.
(4)分段,取间隔k==100,将总体均分为10组,每组100个工人.
(5)从第一段即0001号到0100号中随机抽取一个号l.
(6)按编号将l,100+l,200+l,…,900+l,共10个号选出.
这10个号所对应的工人组成样本.
当堂训练
1.A 2.B 3.4 4.37
5.解 系统抽样法:将200个产品编号为1~200,然后将编号分成20个部分,在第1部分中用简单随机抽样法抽取1个编号.如抽到5号,那么得到编号为5,15,25,…,195的个体,即可得到所需样本.【出处:21教育名师】
分层抽样法:因为100+60+40=200,所以=,
所以100×=10,60×=6,40×=4.
因此在一级品、二级品和三级品中分别抽取10个、6个和4个,即可得到所需样本.
3 统计图表
学习目标 1.理解统计图表的作用与意义.2.掌握茎叶图的概念与应用.3.通过实例体会条形统计图、折线统计图、扇形统计图和茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.21cnjy.com
知识点一 统计图表的作用与意义
思考 通过抽样获得的原始数据有什么缺点?
梳理 数据分析的基本方法:
(1)借助于图形
分析数据的一种基本方法是用图将它们画出来,此方法可以达到两个目的,一是从数据中________信息,二是利用图形________信息.21*cnjy*com
(2)借助于表格
分析数据的另一种方法是用紧凑的________改变数据的排列方式,此方法是通过改变数据的________,为我们提供解释数据的新方式.【来源:21cnj*y.co*m】
知识点二 常见统计图的特征
类型一 条形图的制作及读图
例1 某人统计了一本书中的100个句子的字数,得出下列结果:1~5个字的15句,6~10个字的27句,11~15个字的32句,16~20个字的15句,21~25个字的8句,26~30个字的3句.【版权所有:21教育】
(1)试作出条形统计图;
(2)统计出1~15个字及16~30个字的句子个数所占百分比,作出条形统计图;
(3)统计出1~10个字,11~20个字,21~30个字的句子个数所占百分比,作出条形统计图.
反思与感悟 条形图的制作一般可分为以下几步:
(1)根据统计资料整理数据,一般整理成表格形式;
(2)画出横轴、纵轴,确定它们表示的项目;
(3)画直条,条形的高与数据的大小成比例.
跟踪训练1 有100名学生,每人只能参加一个运动队,其中参加足球队的有30人,参加篮球队的有27人,参加排球队的有23人,参加乒乓球队的有20人.www.21-cn-jy.com
(1)列出学生参加运动队的频率分布表;
(2)画出频率分布条形图.
类型二 折线统计图与扇形统计图
例2 某市是我国西部的一个多民族城市,总人口数为370万(2000年普查统计).如图1和图2所示的是2000年该市各民族人口的统计图,请你根据统计图提供的信息回答下列问题.
(1)2000年该市少数民族的总人口数是多少?
(2)2000年该市总人口中的苗族所占的百分比是多少?
(3)若2000年该市参加中考的学生有40 000人,则参加中考的少数民族的学生人数约为多少?
反思与感悟 用统计图来表示百分比时,我们可以用条形统计图、折线统计图和扇形统计图,但最适宜用扇形统计图来表示.在解题过程中要看清楚题目的要求,根据不同的要求选择不同的统计图.统计图的功能就是将数据信息通过图表的形式恰当地表示出来.
跟踪训练2 如图是某保险公司提供的资料,在1万元以上的保险单中,有少于2.5万元,那么不少于2.5万元的保险单有________万元.2·1·c·n·j·y
类型三 茎叶图
例3 某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:
甲的得分 12,15,24,25,31,31,36,36,37,39,44,49,50;
乙的得分 8,13,14,16,23,26,28,33,38,39,51.
(1)画出甲、乙两名运动员得分数据的茎叶图;
(2)根据茎叶图分析甲、乙两名运动员的水平.
反思与感悟 当数据较少时,用茎叶图分析问题的突出优点是
(1)保留原始信息;(2)随时记录.用茎叶图分析数据可以运用数据分布的对称情况、集中分散情况来分析总体情况.【来源:21·世纪·教育·网】
跟踪训练3 在某电脑杂志的一篇文章中,每个句子所含的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17;
在某报纸的一篇文章中,每个句子所含的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22.
(1)将这两组数据用茎叶图表示;
(2)将这两组数据进行比较分析,得到什么结论?
1.当收集到的数据量很大或有多组数据时,用哪种统计图表示较合适( )
A.茎叶图 B.条形统计图
C.折线统计图 D.扇形统计图
2.如图所示是从一批产品中抽样得到的数据的条形统计图,由图可看出数据出现机会最大的范围是( )
A.(8.1,8.3) B.(8.2,8.4)
C.(8.4,8.5) D.(8.6,8.7)
3.如图所示是某校高一年级学生到校方式的条形统计图,根据图形可得出骑自行车人数占高一年级学生总人数的( )21·cn·jy·com
A.20% B.30%
C.50% D.60%
4.甲、乙两人在相同条件下各射靶10次,每次射靶的成绩情况如图所示:
从折线图上两人射击命中环数的走势看,最有潜力的是________.
1.条形统计图及折线统计图特别适用于数据量很大的情况,但却损失了数据的部分信息.扇形统计图适合表示总体的各个部分所占比例的问题,但不适用于总体分成部分较多的问题.
2.茎叶图表示数据有两个突出优点:(1)统计图上没有原始信息的损失.(2)茎叶图可以随时记录,方便表示与比较.21·世纪*教育网
缺点:当数据量很大或有多组数据时,茎叶图就不那么直观、清晰了.
答案精析
问题导学
知识点一
思考 因为通过抽样获得的原始数据多而且杂乱,无法直接从中理解它们的含义,并提取信息,也不便于我们用它来传递信息.www-2-1-cnjy-com
梳理
(1)提取 传递 (2)表格 构成形式
知识点二
直观 准确 具体数目 折线统计图 扇形统计图 原始数据
题型探究
例1 (1)条形统计图如图(1)所示.
(2)1~15个字的句子个数为1~5个字,6~10个字,11~15个字的句子个数之和:15+27+32=74,所占百分比为74%;16~30个字的句子个数为16~20个字,21~25个字,26~30个字的句子个数之和:15+8+3=26,所占百分比为26%.条形统计图如图(2)所示.
(3)1~10个字的句子个数为15+27=42,所占百分比为42%;11~20个字的句子个数为32+15=47,所占百分比为47%;21~30个字的句子个数为8+3=11,所占百分比为11%.条形统计图如图(3)所示.21世纪教育网版权所有
跟踪训练1 解 (1)参加足球队记为1,参加篮球队记为2,参加排球队记为3,参加乒乓球队记为4,得频率分布表如下:2-1-c-n-j-y
试验结果
频数
频率
参加足球队(记为1)
30
0.30
参加篮球队(记为2)
27
0.27
参加排球队(记为3)
23
0.23
参加乒乓球队(记为4)
20
0.20
合计
100
1.00
(2)由上表可知频率分布条形图如图.
例2 解 (1)15%×370=55.5(万人),
即2000年该市少数民族的总人口数是55.5万人.
(2)40%×15%=6%,
∴2000年该市总人口中的苗族所占的百分比是6%.
(3)40 000×15%=6 000(人),
即2000年该市参加中考的少数民族的学生约有6 000人.
跟踪训练2 91
解析 不少于1万元的占700万元的21%,为700×21%=147万元.1万元以上的保险单中,超过或等于2.5万元的保险单占,金额为×147=91万元,故不少于2.5万元的保险单有91万元.【出处:21教育名师】
例3 解 (1)作出茎叶图如图.
(2)由上面的茎叶图可以看出,甲运动员的得分情况是大致对称的;乙运动员的得分情况除一个特殊得分外,也大致对称.因此甲运动员的发挥比较稳定,总体得分情况比乙运动员好.
跟踪训练3 解 (1)茎叶图如图所示:
(2)电脑杂志上每个句子的字数集中在10~30之间,报纸上每个句子的字数集中在20~40之间,说明电脑杂志上每个句子的平均字数要比报纸上每个句子的平均字数少.说明电脑杂志作为科普读物需要通俗易懂、简明.21教育网
当堂训练
1.B 2.B 3.B 4.乙
4 数据的数字特征
学习目标 1.能合理地选取样本,并从中提取基本的数字特征.2.了解众数、中位数、平均数的概念,会计算方差和标准差.3.进一步体会用样本估计总体的思想,会用样本的数字特征估计总体的数字特征.
知识点一 众数、中位数、平均数
思考1 平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?
思考2 在电视大奖赛中,计算评委打分的平均值时,为什么要去掉一个最高分和一个最低分?
梳理 众数、中位数、平均数定义
(1)众数:一组数据中出现次数________的数.
(2)中位数:把一组数据按____________的顺序排列,处在________位置的数(或中间两个数的________)叫作这组数据的中位数.21·世纪*教育网
(3)平均数:如果n个数x1,x2,…,xn,那么=________________叫作这n个数的平均数.
知识点二 方差、标准差
思考1 当样本数据的标准差为0时,该组数据有何特点?
思考2 标准差、方差的意义是什么?
梳理 标准差、方差的概念及计算公式
(1)标准差是样本数据到平均数的一种_____________________,一般用s表示.s= ________________________________________________________________________.
(2)标准差的平方s2叫作方差.
s2=________________________________________________________________________
(xn是样本数据,n是样本容量,是样本平均数).
(3)标准差(或方差)越小,数据越稳定在平均数附近.s=0时,每一组样本数据均为.
知识拓展 平均数、方差公式的推广:
1.若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.21cnjy.com
2.设数据x1,x2,…,xn的平均数为,方差为s2,则
a.s2=[(x+x+…+x)-n2];
b.数据x1+a,x2+a,…,xn+a的方差也为s2;
c.数据ax1,ax2,…,axn的方差为a2s2.
知识点三 用样本的基本数字特征估计总体的基本数字特征
1.样本的基本数字特征包括________、________、________、________.
2.平均数向我们提供了样本数据的重要信息,但是平均数有时也会使我们作出对总体的片面判断,因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,还需要用标准差来反映数据的________程度.21*cnjy*com
3.现实中的总体所包含的个体数往往是很多的,虽然总体的平均数与标准差客观存在,但是我们无从知道.所以通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.虽然样本具有________性,不同的样本测得的数据不一样,与总体的数字特征也可能不同,但只要样本的________好,这样做就是合理的,也是可以接受的.
类型一 众数、中位数和平均数的理解与应用
例1 某公司的各层人员及工资数构成如下:
人员:经理1人,周工资2 200元;高层管理人员6人,周工资均为250元;高级技工5人,周工资均为220元;工人10人,周工资均为200元;学徒1人,周工资为100元.
(1)计算该公司员工周工资的众数、中位数、平均数;
(2)这个问题中,平均数能客观地反映这个公司的工资水平吗?
反思与感悟 (1)众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
(2)众数考查各个数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中部分数据多次重复出现时,众数往往更能反映问题.21教育网
(3)中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能在所给的数据中,也可能不在所给的数据中.www.21-cn-jy.com
(4)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动.
(5)因为平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数不具有的性质,也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于全体样本数据的信息.但平均数受数据的极端值的影响较大,使平均数在估计总体时可靠性降低.2·1·c·n·j·y
跟踪训练1 对于数据3,3,2,3,6,3,10,3,6,3,2,有下列结论:
①这组数据的众数是3;
②这组数据的众数与中位数的数值不相等;
③这组数据的中位数与平均数的数值相等;
④这组数据的平均数与众数的数值相等.
其中正确结论的个数为( )
A.1 B.2 C.3 D.4
类型二 标准差、方差的应用
例2 计算数据89,93,88,91,94,90,88,87的方差和标准差(标准差结果精确到0.1).
反思与感悟 (1)方差和标准差都是用来描述一组数据波动情况的特征数,常用来比较两组数据的波动大小.
(2)样本标准差反映了各样本数据围绕样本平均数波动的大小,标准差越小,表明各样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的两边越分散.2-1-c-n-j-y
(3)若样本数据都相等,则s=0.
(4)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度是由标准差来衡量的.【版权所有:21教育】
跟踪训练2 甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.
(1)分别求出两人得分的平均数与方差;
(2)根据图和(1)中算得的结果,对两人的训练成绩作出评价.
1.某市2016年各月的平均气温(℃)数据的茎叶图如图:
则这组数据的中位数是( )
A.19 B.20 C.21.5 D.23
2.设样本数据x1,x2,…,x10的平均数和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的平均数和方差分别为( )21·cn·jy·com
A.1+a,4 B.1+a,4+a
C.1,4 D.1,4+a
3.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.
4.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为________.【出处:21教育名师】
5.某校医务室抽查了高一10位同学的体重(单位:kg)如下:
74,71,72,68,76,73,67,70,65,74.
求这10个学生体重数据的平均数、中位数、方差、标准差.
1.平均数、中位数和众数刻画了一组数据的集中趋势,极差、方差刻画了一组数据的离散程度.它们作为一组数据的代表各有优缺点,也各有各的用处,从不同的角度出发,不同的人会选取不同的统计量来表达同一组数据的信息.【来源:21cnj*y.co*m】
2.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.21教育名师原创作品
答案精析
问题导学
知识点一
思考1 平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,但是平均数受数据中极端值的影响较大.
思考2 为了避免平均值受数据中个别极端值的影响,增大它在估计总体时的可靠性,故计算评委打分时要去掉一个最高分和一个最低分.
梳理
(1)最多 (2)从小到大(或从大到小) 中间 平均数
(3)(x1+x2+…+xn)
知识点二
思考1 当样本数据的标准差为0时,该组数据都相等.
思考2 标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.21世纪教育网版权所有
梳理
(1)平均距离 (2)[(x1-)2+(x2-)2+…+(xn-)2]
知识点三
1.众数 中位数 平均数 标准差
2.分散
3.随机 代表性
题型探究
例1 解 (1)众数为200,中位数为220,平均数为
=300.
(2)虽然平均数为300,但由给出的数据可见,只有经理的周工资在平均数以上,其余的都在平均数以下,故用平均数不能客观地反映该公司的工资水平.www-2-1-cnjy-com
跟踪训练1 A [在这11个数中,数3出现了6次,频率最高,故众数是3;将这11个数按从小到大的顺序排列得2,2,3,3,3,3,3,3,6,6,10,中间数据是3,故中位数是3;而平均数==4.故只有①正确.]21*cnjy*com
例2 解 ①=90+[(-1)+3+(-2)+1+4+0+(-2)+(-3)]=90+×0=90;
②计算xi-(i=1,2,…,8),得各数据为-1,3,-2,1,4,0,-2,-3;
③计算(xi-)2(i=1,2,…,8),得各数据为1,9,4,1,16,0,4,9;
④计算方差:s2=(1+9+4+1+16+0+4+9)==5.5;
⑤计算标准差:s=≈2.3.
所以这组数据的方差为5.5,标准差约为2.3.
跟踪训练2 解 (1)由题图可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.
甲==13,
乙==13,
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(2)由s>s可知乙的成绩较稳定.
从折线图来看,甲的成绩基本上呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩无明显提高.【来源:21·世纪·教育·网】
当堂训练
1.B
2.A [∵x1,x2,…,x10的平均数=1,方差s=4,且yi=xi+a(i=1,2,…,10),∴y1,y2,…,y10的平均数=·(y1+y2+…+y10)=·(x1+x2+…+x10+10a)=·(x1+x2+…+x10)+a=+a=1+a,其方差s=·[(y1-)2+(y2-)2+…+(y10-)2]=[(x1-1)2+(x2-1)2+…+(x10-1)2]=s=4.故选A.]
3.6 4.16
5.解 这10个学生体重数据的平均数为=×(74+71+72+68+76+73+67+70+65+74)=71.
这10个学生体重数据从小到大依次为65,67,68,70,71,72,73,74,74,76,位于中间的两个数是71,72,
∴这10个学生体重数据的中位数为=71.5.
这10个学生体重数据的方差为
s2=×[(74-71)2+(71-71)2+(72-71)2+(68-71)2+(76-71)2+(73-71)2+(67-71)2+(70-71)2+(65-71)2+(74-71)2]=11,
这10个学生体重数据的标准差为s==.
5 用样本估计总体
学习目标 1.学会列频率分布表,会画频率分布直方图.2.会用频率分布表或分布直方图估计总体分布,并作出合理解释.3.在解决问题过程中,进一步体会用样本估计总体的思想,认识统计的实际作用,初步经历收集数据到统计数据的全过程.【版权所有:21教育】
知识点一 总体的分布
思考 如果把我国初生婴儿的性别作为总体,那么它的分布是指什么?
梳理 一般地,总体分布是指总体中个体所占的比例.
知识点二 用频率分布表或频率分布直方图估计总体分布
思考1 要做频率分布表,需要对原始数据做哪些工作?
思考2 如何决定组数与组距?
思考3 同样一组数据,如果组距不同,得到的频率分布直方图也会不同吗?
梳理
1.频率分布直方图
在频率分布直方图中,纵轴表示,数据落在各小组内的频率用频率分布直方图的________来表示,各小长方形的面积的总和等于____.www.21-cn-jy.com
2.频率折线图
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的________开始,用线段依次连接各个矩形的____________,直至右边所加区间的________,就可以得到一条折线,我们称之为频率折线图.2·1·c·n·j·y
3.随着样本容量不断增大,样本中落在每个区间内的样本数的________会越来越稳定于总体在相应区间内取值的________.随着样本量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小.相应的频率折线图就会越来越接近于一条光滑曲线.
知识点三 总体的数字特征
思考 如果想知道某一历史时期黄河流域男性平均身高,有可能获得总体数据吗?怎么办?
梳理 一般地,
1.现实中的总体所包含的个体数往往很难获得,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
2.在抽样过程中,抽取的样本是具有随机性的,因此样本的数字特征也有随机性.用样本的数字特征估计总体的数字特征,是一种统计思想,没有唯一答案.
类型一 用频率分布表及频率分布直方图估计总体分布
例1 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高(单位:cm).
区间界限
[122,126)
[126,130)
[130,134)
[134,138)
[138,142)
人数
5
8
10
22
33
区间界限
[142,146)
[146,150)
[150,154)
[154,158)
人数
20
11
6
5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134 cm的人数占总人数的百分比.
反思与感悟 频率分布表和频率分布直方图之间的密切关系是显然的,它们只不过是相同的数据的两种不同的表达方式,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚地看到整个样本数据的频率分布情况,并由此估计总体的分布情况.21世纪教育网版权所有
跟踪训练1 为了了解中学生身体发育情况,对某中学17岁的60名女生的身高(单位:cm)进行了测量,结果如下:21·cn·jy·com
154 159 166 169 159 156 166 162 158 159
156 166 160 164 160 157 151 157 161 162
158 153 158 164 158 163 158 153 157 168
162 159 154 165 166 157 155 146 151 158
160 165 158 163 163 162 161 154 165 161
162 159 157 159 149 164 168 159 153 160
列出样本的频率分布表;绘出频率分布直方图和频率折线图.
类型二 估计总体数字特征
例2 为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每种轮胎行驶的最远里程数(单位:1 000 km)【出处:21教育名师】
轮胎A 96,112,97,108,100,103,86,98
轮胎B 108,101,94,105,96,93,97,106
(1)分别计算A,B两种轮胎行驶的最远里程的平均数、中位数;
(2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差;
(3)根据以上数据你认为哪种型号的轮胎性能更加稳定?
反思与感悟 平均数、中位数、众数、极差、方差等统计量是将多个数据“加工”成一个数据,能更清楚地反映这组数据的某些重要特征,要理解这些统计量表达的信息.
跟踪训练2 为迎接5月31日世界无烟日的到来,小华对10名戒烟成功者戒烟前和戒烟5个星期后的体重(单位:kg)作了认真统计,并记录如下表所示:21教育名师原创作品
人员
A
B
C
D
E
F
G
H
I
J
戒烟前
67
80
69
52
52
60
55
55
64
60
戒烟后
70
81
68
55
57
62
54
52
67
58
(1)求这10人在戒烟前和戒烟后的体重的平均数;
(2)求这10人在戒烟前和戒烟后的体重的方差;
(3)通过上述数据,你能得到什么结论?
1.用样本频率分布估计总体频率分布的过程中,下列说法正确的是( )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
2.下列说法不正确的是( )
A.频率分布直方图中每个小矩形的高就是该组的频率
B.频率分布直方图中各个小矩形的面积之和等于1
C.频率分布直方图中各个小矩形的宽一样大
D.频率分布折线图是从所加的左边区间的中点开始,用线段依次连接频率分布直方图的每个小矩形上端中点,直至右边所加区间的中点得到的21教育网
3.某校为了了解高三学生的身体状况,抽取了100名女生的体重.将所得的数据整理后,画出了如图的频率分布直方图,则所抽取的女生中体重在40~45 kg的人数是( )
A.10 B.2 C.5 D.15
4.一个容量为20的样本数据,分组后组距与频数如下表:
组距
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70)
频数
2
3
4
5
4
2
则样本在[10,50)上的频率为( )
A.0.5 B.0.24
C.0.6 D.0.7
5.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.21cnjy.com
(1)直方图中x的值为__________;
(2)在这些用户中,用电量落在区间[100,250)内的户数为________.
1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律,我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.
2.用同样的方法先后从总体中抽取两个大小相同的样本,但两次得到的样本频率分布表、样本频率分布直方图、样本的平均数和标准差仍然可能互不相同,是样本的随机性造成的,是不可避免的.只要抽样的方法比较合理,就能反映总体的信息,当样本量很大时,就比较接近总体的真实情况.【来源:21·世纪·教育·网】
答案精析
问题导学
知识点一
思考 是指男女性别的比例.
知识点二
思考1 分组,频数累计,计算频数和频率.
思考2 若为整数,则=组数.
若不为整数,则+1=组数.
注意:[x]表示不大于x的最大整数.
思考3 不同.对于同一组数据分析时,要选好组距和组数,不同的组距与组数对结果有一定的影响.
梳理
1.面积 1 2.中点 顶端中点 中点 3.频率 概率
知识点三
思考 时代变迁,已经不可能获得所有数据,但可以根据出土的同时期样本数据计算平均身高来估计.
题型探究
例1 解 (1)样本频率分布表如下:
分组
频数
频率
[122,126)
5
0.04
[126,130)
8
0.07
[130,134)
10
0.08
[134,138)
22
0.18
[138,142)
33
0.28
[142,146)
20
0.17
[146,150)
11
0.09
[150,154)
6
0.05
[154,158)
5
0.04
合计
120
1
(2)频率分布直方图如下:
(3)由样本频率分布表可知身高小于134 cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134 cm的人数占总人数的19%.21·世纪*教育网
跟踪训练1 解 第一步,求极差:上述60个数据中最大为169,最小为146.故极差为169-146=23(cm).www-2-1-cnjy-com
第二步,确定组距和组数,可取组距为3 cm,
则组数为=7,可将全部数据分为8组.
第三步,确定区间界限:[145.5,148.5),[148.5,151.5),[151.5,154.5),[154.5,157.5),[157.5,160.5),[160.5,163.5),[163.5,166.5),[166.5,169.5).
第四步,列频率分布表:
分组
频数
频率
[145.5,148.5)
1
0.017
[148.5,151.5)
3
0.050
[151.5,154.5)
6
0.100
[154.5,157.5)
8
0.133
[157.5,160.5)
18
0.300
[160.5,163.5)
11
0.183
[163.5,166.5)
10
0.167
[166.5,169.5)
3
0.050
合计
60
1.000
第五步,根据上述数据绘制频率分布直方图:
第六步,在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线即为频率折线图.2-1-c-n-j-y
例2 解 (1)A轮胎行驶的最远里程的平均数为
=100,
中位数为=99;
B轮胎行驶的最远里程的平均数为
=100,
中位数为=99.
(2)A轮胎行驶的最远里程的极差为112-86=26,
标准差为s= =≈7.43;
B轮胎行驶的最远里程的极差为108-93=15,
标准差为s= =≈5.43.
(3)由于A和B的最远行驶里程的平均数相同,而B轮胎行驶的最远里程的极差和标准差较小,所以B轮胎性能更加稳定.21*cnjy*com
跟踪训练2 解 (1)将数据按从小到大的顺序重新排列;
戒烟前:52,52,55,55,60,60,64,67,69,80;
戒烟后:52,54,55,57,58,62,67,68,70,81.
求得戒烟前=61.4(kg),戒烟后=62.4(kg).
(2)s=[(67-61.4)2+(80-61.4)2+…+(60-61.4)2]=70.44,
s=[(70-62.4)2+(81-62.4)2+…+(58-62.4)2]=73.84.
(3)从戒烟前后两组数据的统计量知:从平均数看,戒烟后这10人的平均体重增加了1 kg;从方差看,戒烟后数据的波动比戒烟前数据的波动大,说明戒烟对不同的人所发生的变化程度是不同的,通过对这两组数据的统计分析,得出结论:吸烟有害健康,戒烟对身体健康是有益的.【来源:21cnj*y.co*m】
当堂训练
1.C 2.A 3.A 4.D
5.(1)0.004 4 (2)70
解析 (1)(0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,∴x=0.004 4.
(2)(0.003 6+0.004 4+0.006 0)×50×100=70.
6 统计活动 结婚年龄的变化 7 相关性
学习目标 1.了解一个统计活动的全过程,提高收集、处理数据的能力.2.能通过实例体会变量间的相关性.3.掌握相关关系的判断.能根据散点图对线性相关关系进行判断和直线拟合,从而对整体进行估计.21*cnjy*com
知识点一 统计活动的步骤
思考 这一章到目前为止,我们已经学了很多统计知识,你能简要概括一下统计都是做哪些工作吗?
梳理 统计活动的步骤:一般地,有
(1)确定____________;(2)____________;(3)整理数据;(4)__________;(5)作出推断.
知识点二 散点图与曲线拟合
思考 假定我们已经有了两个量的一些对应取值,怎样处理这些数据才能便于我们观察猜想这两个量的关系?
梳理 一般地,在考虑两个量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将____________的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.从散点图上可以看出,如果变量之间________________,这些点会有一个________的大致趋势,这种趋势通常可以用一条____________来近似,这样近似的过程称为____________.【来源:21cnj*y.co*m】
知识点三 相关关系
思考 数学成绩y与学习数学所用时间t之间的关系,能否用函数关系刻画?
梳理 一般地,函数关系中的两个变量间是一种确定性关系;相关关系是一种非确定性关系.函数关系是一种因果关系而相关关系不一定是因果关系,也可能是伴随关系.
相关关系的分类
(1)线性相关:若____________x和y的散点图中,所有点看上去都在____________附近波动,则称变量间是线性相关的.【出处:21教育名师】
(2)非线性相关:若散点图上所有点看上去都在________(不是一条直线)附近波动,则称此相关为非线性相关的,此时,可以用____________来拟合.【版权所有:21教育】
(3)不相关:如果所有的点在散点图中______________,则称变量间是不相关的.
类型一 统计活动的方案设计
例1 如何设计随着年代推移初次结婚年龄如何发生变化的统计活动.
反思与感悟 统计活动作出的推断结论的准确性,决定于抽取的样本是否具有代表性,以及样本容量的大小,一般来说,用科学的抽样方法抽取样本,并且样本容量足够大,这样的统计活动得到的结论准确性高,可信度大,可以作为决策依据.21教育名师原创作品
跟踪训练1 请设计一个测量全班同学身高的试验.
类型二 变量之间的相关关系判断
例2 在下列两个变量的关系中,哪些是相关关系?
(1)正方形边长与面积之间的关系;
(2)作文水平与课外阅读量之间的关系;
(3)人的身高与年龄之间的关系;
(4)降雪量与交通事故发生率之间的关系.
反思与感悟 如果能够从两个变量的观察数据之间发现相关关系是极为有意义的,由此可以进一步研究二者之间是否蕴涵因果关系,从而发现引起这种相关关系的本质原因是什么.
跟踪训练2 有关法律规定,香烟盒上必须印上“吸烟有害健康”的警示语.吸烟是否一定会引起健康问题?有人认为“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法对吗?【来源:21·世纪·教育·网】
类型三 散点图及曲线拟合
例3 在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:
年龄
23
27
39
41
45
49
50
脂肪
9.5
17.8
21.2
25.9
27.5
26.3
28.2
年龄
53
54
56
57
58
60
61
脂肪
29.6
30.2
31.4
30.8
33.5
35.2
34.6
画出散点图,分析年龄与人体脂肪含量的关系.
反思与感悟 画散点图时应注意合理选择单位长度,避免图形过大或过小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.21教育网
跟踪训练3 如表所示为我国在1000年到2000年间的人口数量.
(1)试画出散点图;
(2)年份与人口是相关关系吗?你觉得用什么函数模型模拟效果比较好?
年份
人口/亿
1393
0.6
1578
0.6
1764
2
1849
4.1
1928
4.7
1949
5.4
1982
10.3
1990
11.6
1.对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
2.观察下列散点图,具有相关关系的是( )
A.①② B.①③
C.②④ D.②③
3.下列两个变量之间的关系,哪个不是函数关系( )
A.匀速行驶的车辆的行驶距离与时间
B.角度和它的正弦值
C.等腰直角三角形的腰长与面积
D.在一定年龄段内,人的年龄与身高
4.下列变量之间的关系是函数关系的是( )
A.圆的周长与半径
B.施肥量和小麦亩产量
C.降雨量和交通事故发生率
D.学习时间和学习成绩
1.判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.根据散点图,可以很容易看出两个变量是否具有相关关系,是不是线性相关.21世纪教育网版权所有
2.函数关系中的两个变量间是一种确定性关系;相关关系是一种非确定性关系.函数关系是一种因果关系而相关关系不一定是因果关系,也可能是伴随关系,函数关系与相关关系之间有着密切联系,在一定条件下可以互相转化.21cnjy.com
3.设计统计方案可以帮助我们更好地理解统计的全过程,其中收集数据过程实质是抽样,要强调样本的代表性;把数据整理成图表形式并计算特征数如平均数,标准差,可以估计总体分布,且便于交流.21·cn·jy·com
答案精析
问题导学
知识点一
思考 收集数据;整理数据;分析数据;估计总体.
梳理
(1)调查对象 (2)收集数据 (4)分析数据
知识点二
思考 以一个量为横坐标,一个量为纵坐标画出图.
梳理
变量所对应 存在着某种关系 集中 光滑的曲线 曲线拟合
知识点三
思考 一般来说,学数学的时间越长,成绩越好.但用时10小时,数学成绩却不是一个确定的数字.故不能用函数关系刻画.www.21-cn-jy.com
梳理
(1)两个变量 一条直线 (2)某条曲线 一条曲线
(3)没有显示任何关系
题型探究
例1 解 我们可以按照如下的步骤来进行这个统计活动.
(1)确定调查的对象:全班同学的父母辈和祖父母辈.调查目的:随着年代推移结婚年龄如何变化.
(2)收集数据:每位同学收集自己父母辈和祖父母辈的初次结婚年龄,按照以下方式记录下来(如下表).
父辈
母辈
祖父辈
祖母辈
初次结婚
年龄/岁
(3)整理数据,把所收集到的数据汇总成一个表格.
整理数据处理方法:利用计算机处理数据.
(4)分析数据:①将上面的数据用折线图、频率分布直方图分别表示出来.同学们之间可进行交流、讨论,确定出比较合适的统计图.②分别估计父辈、母辈、祖父辈、祖母辈的初次结婚年龄的平均数与标准差,并进行比较.21·世纪*教育网
(5)作出推断,通过分析数据作出推断.
跟踪训练1 解 试验的操作步骤设计如下:
(1)准备身高测量仪(为了避免仪器的误差,准备3架身高测量仪);
(2)安排负责仪器的人,一般每架仪器两人,一人测量一人记录;
(3)组织学生排队依次测量.用每架测量仪各测量一次,将所得数据填入下表;
(4)整理数据,用求平均值的方法算出每位同学的身高.
学生姓名
用仪器1所测数据
用仪器2所测数据
用仪器3所测数据
平均以后的数据
例2 解 两变量之间的关系有:函数关系与带有随机性的相关关系.(1)正方形的边长与面积之间的关系是函数关系.(2)作文水平与课外阅读量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.(3)人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具备相关关系.(4)降雪量与交通事故发生率之间具有相关关系.2·1·c·n·j·y
跟踪训练2 解 从已经掌握的知识来看,吸烟会损害身体的健康,但是除了吸烟之外,还有许多其他的因素影响身体健康,人体健康是很多因素共同作用的结果.我们可以找到长寿的吸烟者,也更容易发现由于吸烟而引发的患病者,所以吸烟不一定引起健康问题.但吸烟引起健康问题的可能性大.因此“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法是不对的.www-2-1-cnjy-com
例3 解 散点图如下;
在散点图中,点散布在从左下角到右上角的区域,故人的年龄与人体脂肪含量是线性相关关系.
跟踪训练3 解 (1)散点图如下:
(2)由图可知,我国在1000年到2000年间的人口数量与年份是相关关系.因为增长速度越来越快, 用指数模型模拟效果比较合适.2-1-c-n-j-y
当堂训练
1.C 2.D 3.D 4.A
8 最小二乘估计
学习目标 1.了解用最小二乘法建立线性回归方程的思想,会用给出的公式建立线性回归方程.2.理解回归直线与观测数据的关系,能用线性回归方程进行估计和预测.
知识点一 最小二乘法
思考 具有线性相关关系的散点大致分布在一条直线附近.如何确定这条直线比较合理?
知识点二 线性回归方程
思考 数学上的“回归”是什么意思?
梳理 用最小二乘法得到的直线方程称为__________,a,b是线性回归方程的系数.
如果用表示,用表示,则可以求得
b=
=.
a=________.
类型一 线性回归方程的求法
例1 下表为某地近几年机动车辆数与交通事故数的统计资料.
机动车辆数x/千台
95
110
112
120
129
135
150
180
交通事故数y/千件
6.2
7.5
7.7
8.5
8.7
9.8
10.2
13
(1)请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果不具有线性相关关系,请说明理由;
(2)如果具有线性相关关系,求出线性回归方程.
反思与感悟 即使散点图呈饼状,也可利用公式求出线性回归方程,但这种方程显然没什么价值.故应先画出散点图,看是否呈直线形,再求方程.21cnjy.com
跟踪训练1 以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线.
类型二 线性回归方程的应用
例2 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表:www.21-cn-jy.com
摄氏温度/℃
-5
0
4
7
12
15
19
23
27
31
36
热饮杯数
156
150
132
128
130
116
104
89
93
76
54
(1)画出散点图;
(2)从散点图中发现气温与热饮销售杯数之间有什么关系;
(3)求线性回归方程;
(4)如果某天的气温是2℃,预测这天卖出的热饮杯数;
(5) 气温为2℃时,小卖部一定能够卖出143杯左右热饮吗?为什么?
反思与感悟 线性回归方程主要用于预测,但这种预测类似于天气预报,不一定与实际数据完全吻合.
跟踪训练2 有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数,如下表:【来源:21·世纪·教育·网】
人均GDP/万元
10
8
6
4
3
1
患白血病的儿童数/人
351
312
207
175
132
180
(1)画出散点图,并判定这两个变量是否具有线性相关关系;
(2)通过计算可知这两个变量的线性回归方程为y=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?21·cn·jy·com
1.下列有关线性回归的说法,不正确的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫作散点图
C.线性回归方程最能代表观测值x、y之间的线性关系
D.任何一组观测值都能得到具有代表意义的线性回归方程
2.已知回归直线的斜率的估计值是1.23,样本点中心(即(,))为(4,5),( )
A.y=1.23x+4
B.y=1.23x+5
C.y=1.23x+0.08
D.y=0.08x+1.23
3.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得线性回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的线性回归方程为y=0.85x-85.71,则下列结论中不正确的是( )21教育网
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可判定其体重必为58.79 kg
1.求线性回归方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.2·1·c·n·j·y
(2)用公式计算a、b的值时,要先计算b,然后才能算出a.
2.利用线性回归方程,我们可以进行估计和预测.若线性回归方程为y=bx+a,则x=x0处的估计值为y0=bx0+a.21·世纪*教育网
答案精析
问题导学
知识点一
思考 应该使散点整体上最接近这条直线.最小二乘法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回归直线的距离www-2-1-cnjy-com
[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2最小.
知识点二
思考 “回归”一词最早由英国统计学家(Francils Galton)提出的,本意是子女的身高会向一般人的均值靠拢.现在这个概念引伸到随机变量有向回归线集中的趋势.
梳理
线性回归方程 -b
题型探究
例1 解 (1)在平面直角坐标系中画出数据的散点图,如图.
直观判断散点在一条直线附近,故具有线性相关关系.
(2)计算相应的数据之和:
i=1 031,i=71.6,
=137 835,iyi=9 611.7,
=128.875,=8.95,
将它们代入公式计算得b≈0.077 4,a≈-1.024 9,
所以,所求线性回归方程为y=0.077 4x-1.024 9.
跟踪训练1 解 (1)数据对应的散点图如图所示:
(2)=i=109,=23.2,
=60 975,iyi=12 952.
设所求线性回归方程为y=bx+a,
则b=≈0.196 2,
a=-b=23.2-109×0.196 2=1.814 2,
故所求线性回归方程为y=0.196 2x+1.814 2.
回归直线如(1)中图所示.
例2 解 (1)散点图如图所示:
(2)从上图看到,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间呈负相关,即气温越高,卖出去的热饮杯数越少.21世纪教育网版权所有
(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式求出线性回归方程的系数.利用计算器容易求得线性回归方程为y=-2.352x+147.767.
(4)当x=2时,y=143.063.因此,某天的气温为2℃时,这天大约可以卖出143杯热饮.
(5)小卖部不一定能够卖出143杯左右热饮,原因如下:①线性回归方程中的截距和斜率都是通过样本估计出来的,存在误差,这种误差可以导致预测结果的偏差.②即使截距和斜率的估计没有误差,也不可能百分之百地保证对应于x的预报值,能够与实际值y很接近.我们不能保证点(x,y)落在回归直线上,甚至不能百分之百地保证它落在回归直线的附近.
跟踪训练2 解 (1)散点图如下:
根据散点图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.2-1-c-n-j-y
(2)断言是错误的,将x=12代入y=23.25x+102.15得y=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况下所作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.21*cnjy*com
当堂训练
1.D 2.C 3.B 4.D
第一章 统计
1 例析简单随机抽样
简单随机抽样是一种最简单、最基本的抽样方法.适用于总体中的个体数较少且抽取的样本容量较小时.抽样中选取个体的方法有两种:放回和不放回.简单随机抽样中用的是不放回抽取.下面让我们一同来看如下的例题:
例1 判断下面的抽样方法是不是简单随机抽样?
(1)从不确定个体数的总体中抽取20个个体作为样本.
(2)从30瓶果汁中一次性随机抽取3瓶进行质量检查.
(3)某班有40名同学,指定个子最高的5名同学参加学校组织的篮球赛.
(4)从装有编号为1~36的大小、形状都相同的号签的盒子中逐个不放回地抽出6个号签.
分析 简单随机抽样的定义,抓住以下特点来理解:
①它要求被抽取的样本所在总体的容量确定且有限;②它是从总体中逐个地进行抽取;③它是一种不放回抽样;④每个个体被抽到的可能性是相同的,是等可能抽样.
解 (1)不是简单随机抽样.因为总体的个体数是不确定的,从而不能保证每个个体等可能入样.
(2)不是简单随机抽样.因为简单随机抽样的定义要求的是逐个抽取.
(3)不是简单随机抽样.因为该例是指定个子最高的5名同学参加比赛,每个个体被抽到的可能性是不同的,不是等可能抽样.21cnjy.com
(4)是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回地、等可能地进行抽样.
点评 要判断所给的抽样方法是不是简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的上述四个特点.
例2 若将例1(2)中的字眼“一次性”改为“逐个”,则该例便为简单随机抽样.即从30瓶果汁中逐个随机抽取3瓶进行质量检查.请选用合适的抽样方法,写出抽样过程.
分析 简单随机抽样分为两种:抽签法和随机数法.当总体容量和样本容量都较小时,可采用抽签法进行抽样.
解 (1)将30瓶果汁进行编号,号码为1,2,3,…,30;
(2)将1~30这30个编号写到大小、形状都相同的号签上;
(3)将写好的号签放入一个不透明的容器中,并搅拌均匀;
(4)从容器中每次抽取一个号签,连续不放回地抽取3次,并记录下上面的编号;
(5)所得号码对应的3瓶果汁就是要抽取的样本.
点评 抽签法(也叫抓阄法)是简单随机抽样的一种方法,一个抽样试验是否能用抽签法,关键看两点:一是制作号签是否方便;二是号签是否容易被“搅拌均匀”.本题中,总体中个体数(30)较少,制作号签比较方便,并且容易被“搅拌均匀”,所以可以采用抽签法.
将例2中的总体容量增大,我们该如何解决呢?比如例3.
例3 现在要考察某公司生产的2.5 L的果汁质量是否达标,欲从400瓶果汁中抽取6瓶进行质量检查.请选用合适的方法抽样,并写出抽样过程.21·世纪*教育网
分析 当总体容量较大,而样本容量较小时,因制签麻烦,故不宜用抽签法,可采用随机数法.
解 选用随机数法.
步骤如下:第一步,先将400瓶果汁编号,可以编为001,002,…,400;
第二步,在随机数表中任选一个数作为开始,比如第6行第1个数,取出072作为抽取的6瓶果汁中的第一个代号(见课本后的附表随机数表);2-1-c-n-j-y
第三步,继续向右读,每次读取三位,凡不在001~400中的数或重复的数跳过去不读,取到末尾时转到下一行从左到右继续读数,如此下去直到得出在001到400之间的6个三位数,分别为072,170,133,199,291,105;
第四步,找出与072,170,133,199,291,105对应的果汁作为样本.
点评 当总体中的个体较多,制作号签比较复杂,并且把号签搅拌均匀比较困难时,可以选择使用随机数法,本题将个体编号的位数统一为3位.
使用随机数法应注意以下两点:
(1)随机数法要求对个体编号且每个个体的号码位数必须相同.如对100个个体编号时应从00编到99(或者从001编到100),而不能用1,2,…,100.可见在总体中的个体进行编号时要视总体中个体的数目而定,但必须保证所编号码的位数一致,不允许出现不同位数的号码.
(2)选定开始读的数后,读数的方向可左、可右、可上、可下,即任意方向均可.读数的方向不同可能导致不同的结果,但这一点不影响样本的公平性和合理性.
2 系统抽样题型全析
在三种随机抽样中,系统抽样是较为重要的一种.当总体中的个体数较多时,可将总体分成均匀的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样方法叫做系统抽样,又称等距抽样.在抽样调查中,由于系统抽样简便易行,所以应用普遍.下面举例说明系统抽样的常见题型.
一、系统抽样的选取问题
例1 某商场想通过检查部分发票及销售记录来快速估计每月的销售金额,采用如下方法:从某本发票的存根中随机抽一张,如15号,然后按顺序将65号,115号,165号,…发票上的销售金额组成一个调查样本.这种抽取样本的方法是( )2·1·c·n·j·y
A.抽签法 B.随机数法
C.系统抽样法 D.分层抽样
分析 上述抽样方法是将发票平均分成若干组,每组50张,从第一组抽出了15号,以后各组抽15+50n(n∈N+)号,符合系统抽样的特点.
答案 C
点评 将总体分成均匀的几部分,按照预先定出的规则在各部分中抽取是系统抽样的常用步骤.
二、间隔问题
例2 为了解1 200名学生对学校某项教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为________.
分析 要抽取n个个体入样,需将N个编号均分成n组.(1)若为整数,则抽样间隔为;(2)若不是整数,则先剔除多余个体,再均分成n组,此时抽样间隔为[].
解析 根据样本容量为30,将1 200名学生分为30段,每段人数即间隔k==40.
答案 40
点评 将总体号码平均分组时,应先考虑总体容量N是否能被样本容量n整除.
三、抽取的个数问题
例3 为了了解参加一次知识竞赛的1 252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中应随机剔除的个体数目是( )
A.2 B.4 C.5 D.6
分析 因为1 252=50×25+2,所以应随机剔除2个个体.
答案 A
点评 (1)用系统抽样法抽取多少个个体就需将总体均分成多少组;(2)当总体中的个体数不能被样本容量整除时,需要剔除个体.需要注意的是,即使是被剔除的个体,被抽到的机会和其他个体也是一样的.www.21-cn-jy.com
四、综合问题
例4 一个总体中的1 000个个体编号为0,1,2,…,999,并依次将其分为10个小组,组号为0,1,2,…,9.要用系统抽样法抽取一个容量为10的样本,规定如果在第0组随机抽取的号码为x,那么依次错位地得到后面各组的号码(即在第k组中抽取的号码的后两位数为x+33k的后两位数).
(1)当x=24时,写出所抽取样本的10个号码;
(2)若所抽取的10个号码中某个数的后两位数是87,求x的取值范围.
分析 按系统抽样的规则计算求解.
解 (1)所分组为0~99,100~199,…,900~999共10组,从每组中抽一个,第0组取24,则第1组取100+(24+33×1)=157,依次错位地从每组中取出,所取的号码为24,157,290,323,456,589,622,755,888,921.
(2)①若抽取的样本为两位数,当k=0,取得号码为87时,x=87;②若抽取的样本为三位数,则87为x+33k(k=1,2,…,9)的后两位数.
如当k=5时,x+33×5=□87,可以求出x=22,这样令k取不同的值可以求得x的值分别为:21,22,23,54,55,56,87,88,89,90.
综上:x∈{21,22,23,54,55,56,87,88,89,90}.
点评 本题是系统抽样法的逆向综合问题,体现了知识间的联系和数学思想的运用.
3 辨析分层抽样的解题方法
若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本.这种抽样方法就是分层抽样.分层抽样尽量利用事先掌握的信息,并充分考虑了保持样本结构和总体结构的一致性,这对提高样本的代表性是很重要的.
一、应用分层抽样应遵循以下要求:
(1)将相似的个体归入一类,即为一层,分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,层面之间的样本差异要大,且互不重叠.即遵循不重复、不遗漏的原则.
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与这层个体数量与总体容量的比相等.即所有层应采用同一抽样比等可能抽样.
(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.
二、一般地,分层抽样的操作步骤:
第一步,计算样本容量与总体的个体数之比.
第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.
第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体.
第四步,将各层抽取的个体合在一起,就得到所取样本.
样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数,如果各层应抽取的个体数不都是整数应当调节样本容量,剔除个体.
三、分层抽样的优点
使样本具有较强的代表性,并且抽样过程中可综合选用各种抽样方法,因此分层抽样是一种实用、操作性强、应用比较广泛的抽样方法.下面举例解析分层抽样的方法.
例1 某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.21世纪教育网版权所有
解析 由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37.
40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为×100=20.
答案 37 20
点评 简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一.保证每个个体等可能入样是简单随机抽样、系统抽样、分层抽样共同的特征,为了保证这一点,分层时用同一抽样比是必不可少的.【来源:21cnj*y.co*m】
例2 某单位共有老、中、青职工430人,其中青年职工160人,中年职工人数是老年职工人数的2倍.为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为( )
A.9 B.18 C.27 D.36
解析 设老年职工人数为x,则2x+x+160=430,所以x=90,因此,该单位老年职工共有90人,
样本中老年职工人数为90×=18,所以用分层抽样的比例应抽取该样本中的老年职工人数为18.
答案 B
点评 分层抽样要正确计算各层在总体中所占的比例,每层采用简单随机抽样法.
分层抽样利用了调查者对调查对象事先掌握的各种信息,考虑了保持样本结构与总体结构的一致性,从而使样本更具代表性,在实际调查中被广泛应用.【版权所有:21教育】
4 浅析3种抽样方法的合理选取
一、简单随机宜少量
例1 据报道,2009年7月22日的“日全食”较为理想的观测地点有上海、重庆、苏州、杭州、合肥、武汉、宜昌、成都、乐山、嘉兴这10个城市.某天文小组从这10个城市中随机抽取4个城市进行观测,宜采用的抽样方法是______________,每个城市被选中的可能性是______________.21*cnjy*com
解析 由于总体中个体数目较少,所以宜采用简单随机抽样的方法进行抽样.每个城市被选中的可能性均相等,均为=0.4.21教育名师原创作品
答案 简单随机抽样 0.4
点评 本题中个体总数较少,使用简单随机抽样中的抽签法即可.可以直接把10个城市名分别写在10个大小相同的纸条上,将纸条放在一个盒子里摇匀,逐个随机抽出4个即可.在整个抽样过程中可以保证每个个体被抽到的可能性相等,也可以进一步计算出相应的值.
二、差别明显选分层
例2 网络上有一种“QQ农场”游戏,这种游戏通过虚拟软件模拟种植与收获的过程.为了解某小区不同年龄层次的居民对此游戏的态度(小区中居民的年龄具有一定的差别),现从中抽取100人进行调查,结果如下表:
对游戏的态度
喜欢
不喜欢
不了解
人数
35
35
30
请问随机抽取这100人较合理的抽样方法是________,调查结果得出后,若想从这100人中再选取20人进行座谈,较合理的抽样方法是____________.若这个小区共有2 000人,则每个人被抽到参加座谈的可能性为______.【来源:21·世纪·教育·网】
解析 因为小区居民的年龄存在明显差异,故抽取这100人宜采用分层抽样.根据调查结果,有三种明显不同的态度,因此,选取20人参加座谈,也宜采用分层抽样.在整个抽样过程中,每个人被抽到的可能性是相同的,均为=0.01.
答案 分层抽样 分层抽样 0.01
点评 分层抽样的过程是先把有差别的个体进行分层,在每一层中可以采用简单随机抽样或系统抽样的方法,这样也能保证每个个体被抽到的可能性相同.
三、大量抽取选系统
例3 2017年春节来临之际,某超市进行促销活动,为购买商品顾客分发了编号为0000~9999的奖券,超市计划从中抽取100张作为中奖号码,较合理的抽样方法是__________,每张奖券中奖的可能性为________.
解析 由于奖券数量较大,有10 000张奖券,所以宜采用系统抽样方法进行抽取.在抽样过程中,每张奖券被抽到的可能性是相等的,均为=0.01.
答案 系统抽样 0.01
点评 当总体中个体数目较多时,首先把个体编号,进行平均分组(若不能整除,则随机剔除多余的个体),然后采用简单随机抽样的方法从第一组中抽取一个个体,即可知道应抽取的其他编号的个体.
5 频率分布图中的统计问题分类解析
频率分布直方图将数理统计的数据直观化、形象化.关于统计一般可分为三步,第一步抽样,第二步根据抽样所得结果,画成图形,第三步根据图形,分析结论.在第二步中可画成两种图形,一个是频率分布直方图,另一个是频率分布条形图,两者有很大的不同,前者是以面积表示频率,频率分布条形图是以高度表示频率.下面就频率分布图中的统计问题分类解析.
一、求样本中限制条件下的个体所占频率
例1 观察新生儿的体重,其频率分布直方图如图所示,则新生儿体重在[2 700,3 000)的频率为( )
A.0.001 B.0.1
C.0.2 D.0.3
解析 由直方图的意义可知,在区间[2 700,3 000)内取值的频率为(3 000-2 700)×0.001=0.3.
答案 D
点评 频率为相应直方图的面积,即频率=纵坐标×横坐标差的绝对值.
二、求样本中限制条件下的个体的频数
例2 某市高三数学抽样考试中,对90分以上的成绩进行统计,其频率分布条形图如图所示.若130~140分数段的人数为90,则90~100分数段的人数为________.
解析 由于90分以上的考试人数是样本总体,则图中5个分数段的频率之和等于1,设130~140分数段的频率为p,则0.45+0.25+0.15+0.10+p=1,即0.95+p=1,则p=0.05.设该样本总体共有n个学生的分数,且设90~100分数段的人数为x,则由频率概念得解得故90~100分数段的人数为810.
答案 810
点评 本题是频率分布条形图.由于各分数段的人数与频率成正比,则可由=,求出x;题设条形图的纵坐标是“频率”这是有别于常规的,在审题时不能混淆.
例3 一个社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(如图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人作进一步调查,则在[2 500,3 000)(元)月收入段应抽出________人.21·cn·jy·com
解析 由直方图可得[2 500,3 000)(元)月收入段共有10 000×0.000 5×500=2 500(人),按分层抽样应抽出2 500×=25(人).【出处:21教育名师】
答案 25
点评 先求频数,频数=频率×样本容量,再按比例进行抽样.
三、求频率分布直方图中的参数问题
例4 为了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力,得到频率分布直方图如图.由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为( )
A.0.27,78 B.0.27,83
C.2.7,78 D.2.7,83
解析 注意到纵轴表示,由图像可知,前4组的公比为3,最大频率a=0.1×33×0.1=0.27,
设后六组公差为d,则0.01+0.03+0.09+0.27×6+·d=1,解得d=-0.05,即后四组频率的公差为-0.05,
所以,视力在4.6到5.0之间的学生数为
(0.27+0.22+0.17+0.12)×100=78,故选A.
答案 A
点评 解答本题关键是要利用直方图中残缺不全的数据,分析它们之间存在的内在关系.
6 学习变量的相关关系的注意点
一、相关关系不一定是因果关系
函数关系是一种因果关系,但相关关系不一定是因果关系,它仅是一种伴随关系.
例1 下列各组关系中,不属于相关关系的是( )
A.降雪量与交通事故的发生之间的关系
B.正方体的体积与棱长之间的关系
C.日照时间与小麦的亩产量之间的关系
D.人的身高与体重之间的关系
解析 选B,正方体的体积与棱长之间的关系是一种确定的函数关系.
答案 B
点评 本题易错选D.在人的身高与体重之间确实具有相关性,但人有胖瘦,所以,人的身高与体重之间没有因果关系,但有相关关系.21教育网
二、注意区分回归方程中a、b的意义
线性回归方程为y=bx+a,其中b是回归系数,而一次函数的习惯写法为y=ax+b,不要把它们混淆了.另外,对于线性回归方程y=bx+a有a=-b,即=b+a.
例2 一蚊香销售公司进行了一次市场调查,并统计了某品牌电热蚊香片的销售单价x(元/盒)与平均日销量y(盒),得到如下的数据资料:
x
10
12
17
20
25
y
50
42
30
18
9
若由相关资料知,y与x呈线性相关关系.试求y与x的线性回归方程.
解 由表中数据知=16.8,=29.8,
iyi=2 099,=1 558,
∴b=≈-2.75,
a=-b=29.8+2.75×16.8=76.
所以所求的线性回归方程为y=-2.75x+76.
点评 在写回归方程时,容易误写为y=76x-2.75,其原因是求出a、b后,把回归方程公式y=bx+a中的a、b位置搞错了.www-2-1-cnjy-com
三、注意建立回归方程的前提条件
当数据之间具有线性相关关系时才可以求回归方程.若数据之间不具有线性相关关系,即使用最小二乘法求出了回归方程,其回归方程也是没有实际意义的,不能用来作为估计的根据.所以求回归方程前一定要判断两个变量是否线性相关.21*cnjy*com
例3 下表给出了x,y之间的一组数据:
x
0
1
2
3
y
1
3
0
2
变量x,y之间是否具有相关关系?若有,求出线性回归方程.
解 画出变量x,y的相关数据对应的散点图如图所示:
由散点图可以看出,各点并不在一条直线附近,所以变量x,y之间不具有线性相关关系,不能用回归直线进行拟合,即使用样本数据求得回归方程也是没有意义的.
点评 此题易产生如下错解,求得b=0,a=1.5,所以线性回归方程为y=1.5.产生错解的原因是没有考察变量x,y之间是否具有相关关系.
第一章 统计
学习目标 1.会根据不同的特点选择适当的抽样方法获得样本数据.2.能利用图、表对样本数据进行整理分析,用样本和样本的数字特征估计总体.3.能利用散点图对两个变量是否相关进行初步判断,能用线性回归方程进行预测.21世纪教育网版权所有
1.抽样方法
(1)当总体容量较小,样本容量也较小时,可采用______________.
(2)当总体容量较大,样本容量较小时,可用__________________.
(3)当总体容量较大,样本容量也较大时,可用____________________.
(4)当总体由差异明显的几部分组成时,可用__________________.
2.用样本估计总体
用样本频率分布估计总体频率分布时,通常要对给定的一组数据作频率________与频率____________.当样本只有两组数据且样本容量比较小时,用________刻画数据比较方便.
3.样本的数字特征
样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括________、________和________;另一类是反映样本波动大小的,包括________及________.
4.变量间的相关关系
(1) 两个变量之间的相关关系的研究,通常先作变量的________,根据散点图判断这两个变量最接近于哪种确定性关系(函数关系).21教育网
(2)求线性回归方程的步骤:
①先把数据制成表,从表中计算出,,x,xiyi;
②计算回归系数a,b.公式为
③写出线性回归方程y=bx+a.
类型一 抽样方法的应用
例1 某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,干事20人,上级机关为了了解机关人员对政府机构的改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取?【出处:21教育名师】
反思与感悟 三种抽样方法并非截然分开,它们都能保证个体被抽到的机会相等.
跟踪训练1 某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名,现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( )【版权所有:21教育】
A.6 B.8 C.10 D.12
类型二 用样本的频率分布估计总体分布
例2 有1个容量为100的样本,数据(均为整数)的分组及各组的频数如下:
[12.5,15.5),6;[15.5,18.5),16;[18.5,21.5),18;
[21.5,24.5),22;[24.5,27.5),20;[27.5,30.5),10;
[30.5,33.5),8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计数据小于30的数据约占多大百分比.
反思与感悟 借助图表,可以把抽样获得的庞杂数据变得直观,凸显其中的规律,便于信息的提取和交流.
跟踪训练2 为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54 C.48 D.27
类型三 用样本的数字特征估计总体的数字特征
例3 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,各从中抽取6件测量,数据为
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
反思与感悟 样本的数字特征就像盲人摸到的象的某一局部特征,只有把它们结合起来才能看到全貌.
跟踪训练3 对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:
甲
60
80
70
90
70
乙
80
60
70
80
75
问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?
类型四 线性回归方程的应用
例4 下表提供了某厂节能降耗技术改进后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.【来源:21cnj*y.co*m】
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
反思与感悟 散点图经最小二乘法量化为线性回归方程后,更便于操作(估计、预测),但得到的值仍是估计值.21cnjy.com
跟踪训练4 2017年元旦前夕,某市统计局统计了该市2016年10户家庭的年收入和年饮食支出的统计资料如表:2-1-c-n-j-y
年收入x(万元)
2
4
4
6
6
6
7
7
8
10
年饮食支出y(万元)
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
(1)如果已知y与x成线性相关关系,求线性回归方程;
(2)若某家庭年收入为9万元,预测其年饮食支出.
(参考数据:xiyi=117.7,x=406)
1.10个小球分别编有号码1,2,3,4,其中1号球4个,2号球2个,3号球3个,4号球1个,则数0.4是指1号球占总体分布的( )2·1·c·n·j·y
A.频数 B.概率
C.频率 D.累积频率
2.为了了解全校1 320名高一学生的身高情况,从中抽取220名学生进行测量,下列说法正确的是( )21*cnjy*com
A.样本容量是220
B.个体是每一个学生
C.样本是220名学生
D.总体是1 320
3.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm)
174
176
176
176
178
儿子身高y(cm)
175
175
176
177
177
则y对x的线性回归方程为( )
A.y=x-1 B.y=x+1
C.y=x+88 D.y=176
4.某篮球队甲、乙两名运动员练习罚球,每人练习10组,每组罚球40个.命中个数的茎叶图如图,则所给结论中错误的是( )www.21-cn-jy.com
A.甲的极差是29
B.乙的众数是21
C.甲罚球命中率比乙高
D.甲的中位数是24
5.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50 C.55 D.60
1.应用抽样方法抽取样本时,应注意根据总体特征和已知信息设计和选择合适的抽样方法,确保样本的代表性.21教育名师原创作品
2.用样本的频率分布估计总体分布
利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计.直方图能够很容易地表示大量数据,非常直观地表明分布的形状.在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,这给数据的记录和表示都带来方便.21*cnjy*com
3.用样本的数字特征估计总体的数字特征
为了从整体上更好地把握总体的规律, 我们还可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.虽然随着样本不同,样本数字特征也不同,但只要样本代表性好,样本数字特征还是能估计总体数字特征的.
4.线性回归方程的应用
分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出线性回归方程,并利用线性回归方程进行估计和预测.
答案精析
知识梳理
1.(1)抽签法 (2)随机数法 (3)系统抽样法 (4)分层抽样法
2.分布表 分布直方图 茎叶图
3.众数 中位数 平均数 方差 标准差
4.(1)散点图
题型探究
例1 解 用分层抽样抽取.
∵20∶100=1∶5,∴=2,=14,=4,
即从副处级以上干部中抽取2人,一般干部中抽取14人,干事中抽取4人.
∵副处级以上干部与干事人数都较少,他们分别按1~10编号和1~20编号,然后采用抽签法分别抽取2人和4人,对一般干部采用00,01,…,69编号,然后用随机数法抽取14人.
跟踪训练1 B [分层抽样的原理是按照各部分所占的比例抽取样本,设从高二年级抽取的学生数为n,则=,得n=8.]
例2 解 (1)样本的频率分布表如下:
分组
频数
频率
[12.5,15.5)
6
0.06
[15.5,18.5)
16
0.16
[18.5,21.5)
18
0.18
[21.5,24.5)
22
0.22
[24.5,27.5)
20
0.20
[27.5,30.5)
10
0.10
[30.5,33.5)
8
0.08
合 计
100
1.00
(2)频率分布直方图如图:
(3)小于30的数据占0.06+0.16+0.18+0.22+0.20+0.10=0.92=92%.
跟踪训练2 B [[4.7,4.8)之间频率为0.32,[4.6,4.7)之间频率为1-0.62-0.05-0.11=1-0.78=0.22.21·cn·jy·com
∴a=(0.22+0.32)×100=54.]
例3 解 (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100.
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,【来源:21·世纪·教育·网】
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.21·世纪*教育网
(2)两台机床所加工零件的直径的平均数相同,
又s>s,
所以乙机床加工零件的质量更稳定.
跟踪训练3 解 甲的平均成绩为甲=74,乙的平均成绩为乙=73.所以甲的平均成绩好.
甲的方差是s=[(-14)2+62+(-4)2+162+(-4)2]=104,乙的方差是s=×[72+(-13)2+(-3)2+72+22]=56.www-2-1-cnjy-com
因为s>s,所以乙的各门功课发展较平衡.
例4 解 (1)散点图如图所示:
(2)==4.5,==3.5,
xiyi=3×2.5+4×3+5×4+6×4.5=66.5,
x=32+42+52+62=86,
∴b===0.7,
a=-b=3.5-0.7×4.5=0.35.
∴所求的线性回归方程为y=0.7x+0.35.
(3)现在生产100吨甲产品用煤
y=0.7×100+0.35=70.35,∴90-70.35=19.65.
∴预测生产100吨甲产品的生产能耗比技改前降低约19.65吨标准煤.
跟踪训练4 解 (1)依题意可计算得:=6,=1.83,2=36,
=10.98,又∵xiyi=117.7,x=406,
∴b=≈0.17,a=-b≈0.81,
∴y=0.17x+0.81.
∴所求的线性回归方程为y=0.17x+0.81.
(2)当x=9时,y=0.17×9+0.81=2.34(万元).
可估计大多数年收入为9万元的家庭每年饮食支出约为2.34万元.
当堂训练
1.C 2.A 3.C 4.D 5.B