2.2 分层抽样与系统抽样
[读教材·填要点]
1.分层抽样的概念
将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样.
2.系统抽样的概念
系统抽样是将总体的个体进行编号,按照简单随机抽样抽取第一个样本,然后按相同的间隔(称为抽样距)抽取其他样本.
系统抽样又叫等距抽样或机械抽样.
[小问题·大思维]
1.分层抽样时为什么要将总体分成互不重叠的层?
提示:在总体中由于个体之间存在着明显的差异,为了使抽取的样本更合理,更具有代表性,所以将总体分成互不重叠的层,而后独立地抽取一定数量的个体.
2.系统抽样的第二步中,当不是整数时,从总体中剔除一些个体采用的方法是什么?影响系统抽样的公平性吗?
提示:剔除一些个体可以用简单随机抽样抽取,不影响系统抽样的公平性.
[研一题]
[例1] 某企业共有3 200名职工,其中青、中、老年职工的比例为3∶5∶2.若从所有职工中抽取一个容量为400的样本,则采用哪种抽样方法更合理?青、中、老年职工应分别抽取多少人?每人被抽到的可能性相同吗?
[自主解答] 因为总体由差异明显的三部分(青、中、老年)组成,所以采用分层抽样的方法更合理.
因为青、中、老年职工的比例是3∶5∶2,所以应分别抽取:
青年职工400×=120(人);中年职工400×=200(人);
老年职工400×=80(人).
由样本容量为400,总体容量为3 200可知,抽样比是=,所以每人被抽到的可能性相同,均为.
[悟一法]
分层抽样的步骤:
(1)根据已经掌握的信息,将总体分成互不重叠的层;
(2)根据总体中的个体数N和样本容量n计算抽样比 k=;
(3)确定第i层应该抽取的个体数目ni=Ni×k(Ni为第i层所包含的个体数),使得各ni之和为n;
(4)在各层中,按步骤(3)中确定的数目在各层中随机地抽取个体,合在一起得到容量为n的样本.
[通一类]
1.某城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150家.为了掌握各商店的营业情况,计划抽取一个容量为21的样本,按照分层抽样方法抽取时,各种百货商店分别要抽取多少家?写出抽样过程.
解:第一步:样本容量与总体容量的比为=;第二步:确定各种商店要抽取的数目:大型商店:20×=2(家),中型商店:40×=4(家),小型商店:150×=15(家);第三步:采用简单随机抽样在各层中分别抽取大型商店2家,中型商店4家,小型商店15家,综合每层抽样即得样本.
[研一题]
[例2] 相关部门对某食品厂生产的303盒月饼进行质量检验,需要从中抽取10盒,请用系统抽样法完成对此样本的抽取.
[自主解答] 第一步 将303盒月饼用随机的方式编号.
第二步 从总体中剔除3盒月饼,将剩下的300盒月饼重新编号(分别为000,001,…,299),并分成10段.
第三步 在第一段中用简单随机抽样抽取起始号码l.
第四步 将编号为l,l+30,l+2×30,…,l+9×30的个体取出,组成样本.
[悟一法]
1.当总体容量能被样本容量整除时,分段间隔k=;当用系统抽样抽取样本时,通常是将起始数s加上间隔k得到第2个个体编号(s+k),再加k得到第3个个体编号(s+2k),依次进行下去,直到获得整个样本.
2.当总体容量不能被样本容量整除时,可以先从总体中随机剔除几个个体,但要注意的是剔除过程必须是随机的,也就是总体中的每个个体被剔除的机会均等,剔除几个个体后使总体中剩余的个体能被样本容量整除,然后再按系统抽样方法抽取样本.
[通一类]
2.为了了解某地区今年高一学生期末考试数学学科的成绩,拟从参加考试的15 000名学生的数学成绩中抽取容量为150的样本.请用系统抽样写出抽取过程.
解析:(1)对全体学生的数学成绩进行编号:1,2,3,…,15 000.
(2)分段:由于样本容量与总体容量的比是1∶100,所以我们将总体平均分为150个部分,其中每一部分包含100个个体.
(3)在第一部分即1号到100号用简单随机抽样抽取一个号码,比如是56.
(4)以56作为起始数,然后依次抽取156,256,356,…,14 956,这样就得到容量为150的一个样本.
[研一题]
[例3] 选择恰当的抽样方法,并写出抽样过程.
(1)有30个篮球,其中,甲厂生产的有21个,乙厂生产的有9个,现抽取10个作样品;
(2)有甲厂生产的30个篮球,其中一箱21个,另一箱9个,现取出3个作样品;
(3)有甲厂生产的300个篮球,抽取10个作样品;
(4)有甲厂生产的300个篮球,从中抽取30个作样品.
[自主解答] (1)因总体是由差异明显的几部分构成,可采用分层抽样的方法抽取.
第一步 确定抽取个数.因为=,所以甲厂生产的应抽取21×=7(个),乙厂生产的应抽取9×=3(个);
第二步 用抽签法分别抽取甲厂生产的篮球7个,乙厂生产的篮球3个.这些篮球便组成了我们要抽取的样本.
(2)总体容量较小,用抽签法.
第一步 将30个篮球编号,编号为00,01,…,29;
第二步 将以上30个编号分别写在一张小纸条上,揉成小球,制成号签;
第三步 把号签放入一个不透明的袋子中,充分搅匀;
第四步 从袋子中逐个抽取3个号签,并记录上面的号码;
第五步 找出与所得号码对应的篮球.
(3)总体容量较大,样本容量较小,适宜用随机数法.
第一步 将300个篮球用随机方式编号,编号为001,002,…,300;
第二步 在随机数表中随机的确定一个数作为开始,如第3行第5列的数“3”开始.任选一个方向作为读数方向,比如向右读;
第三步 从数“3”开始向右读,每次读三位,凡不在001~300中的数跳过去不读,遇到已经读过的数也跳过去不读,便可依次得到241,242,232,283,039,101,158,272,266,166这10个号码,这就是所要抽取的10个样本个体的号码.
(4)总体容量较大,样本容量也较大,适宜用系统抽样法.
第一步 将300个篮球用随机方式编号,编号为000,001,002,…,299,并分成30段;
第二步 在第一段000,001,002,…,009这十个编号中用简单随机抽样抽出一个(如002)作为起始号码;
第三步 将编号为002,012,022,…,292的个体抽出,组成样本.
[悟一法]
1.三种抽样的适用范围不同,各自的特点也不同,但各种方法间又有密切联系.在应用时要根据实际情况选取合适的方法.
2.三种抽样中每个个体被抽到的可能性都是相同的.
[通一类]
3.某社区有700户家庭,其中高收入家庭225户,中等收入家庭400户,低收入家庭75户.为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,记作①;某中学高二年级有12名篮球运动员,要从中选出3人调查投篮命中率情况,记作②;从某厂生产的802辆轿车中抽取40辆测试某项性能,记作③.为完成上述三项抽样,则应采取的抽样方法是( )
A.①简单随机抽样,②系统抽样,③分层抽样
B.①分层抽样,②简单随机抽样,③系统抽样
C.①简单随机抽样,②分层抽样,③系统抽样
D.①分层抽样,②系统抽样,③简单随机抽样
解析:对于①,总体由高收入家庭、中等收入家庭和低收入家庭差异明显的三部分组成,而所调查的指标与收入情况密切相关,所以应采用分层抽样;
对于②,总体中的个体数较少,而且所调查内容对12名调查对象是平等的,应采用简单随机抽样;
对于③,总体中的个体数较多,且个体之间差异不明显,样本中个体数也较多,应采用系统抽样.
答案:B
一个单位有职工160人,其中有业务人员112人,管理人员16人,后勤服务人员32人,为了了解职工的某种情况,要从中抽取一个容量为20的样本,试确定业务人员、管理人员、后勤服务人员各抽取的人数是多少?
[解] 法一:三部分所含个体数之比为112∶16∶32=7∶1∶2,设三部分各抽个体数为7x,x,2x,则由7x+x+2x=20得x=2.故业务人员、管理人员、后勤服务人员抽取的个体数分别为14,2和4.
法二:由160÷20=8,所以可在各层人员中按8∶1的比例抽取,又因为112÷8=14,16÷8=2,32÷8=4,所以业务人员14人,管理人员2人,后勤服务人员4人.
法三:因为共有职工160人,所抽取的人数为20,所以样本容量与总体容量之比为=,
则业务人员应抽取112×=14人,管理人员应抽16×=2人,后勤服务人员应抽32×=4人.
1.简单随机抽样、系统抽样、分层抽样之间的共同点是( )
A.都是从总体中逐个抽取
B.将总体分成几部分,按事先确定的规则在各部分中抽取
C.抽样过程中每个个体被抽取的机会相同
D.将总体分成几层,分层进行抽取
解析:简单随机抽样、系统抽样、分层抽样的共同点是:在抽样过程中每个个体被抽取的概率是相同的.
答案:C
2.某市场想通过检查发票及销售记录的2%来快速估计每月的销量总额.采取如下方法:从某本发票的存根中随机抽一张,如15号,然后按顺序往后将65号, 115号,165号,…抽出,发票上的销售额组成一个调查样本.这种抽取样本的方法是( )
A.抽签法 B.随机数法
C.系统抽样法 D.其他的抽样方法
解析:上述抽样方法是将发票平均分成若干组,每组50张.从第一组中抽取15号,以后各组抽取15+50n(n∈N*)号,符合系统抽样的特点.
答案:C
3.某校高三年级有男生500人,女生400人.为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是( )
A.简单随机抽样法 B.抽签法
C.随机数表法 D.分层抽样法
解析:样本由差异明显的几部分组成,抽取的比例由每层个体占总体的比例确定,即为分层抽样法.
答案:D
4.将一个总体分为A、B、C三层,其个体数之比为5∶3∶2,若用分层抽样方法抽取容量为100的样本,则应从C中抽取的个体数为________.
解析:×100=20.
答案:20
5.将参加数学夏令营的100名同学编号为001,002,…,100.现采用系统抽样方法抽取一个容量为25的样本,且第一段中随机抽得的号码为004,则在046至078号中,被抽中的人数为________.
解析:抽样距为4,第一个号码为004,故001~100中是4的整数倍的数被抽出,在046至078号中有048,052,056,060,064,068,072,076,共8个.
答案:8
6.某中学有教职工300人,分为教学人员、管理人员、后勤服务人员三部分,其组成比例为8∶1∶1.现用分层抽样从中抽取容量为20的样本,请写出抽样的过程.
解:抽样过程如下:
(1)确定抽样比=;
(2)确定各层抽样数目为=16,
=2,=2;
(3)用系统抽样法从教学人员中抽取16人,用简单随机抽样法分别从管理人员和后勤服务人员中各抽取2人;
(4)将上述各层所抽的个体合在一起即为所要抽取的样本.
一、选择题
1.某牛奶生产线上每隔30分钟抽取一袋进行检验,该抽样方法记为①;从某中学的30名数学爱好者中抽取3人了解学业负担情况,该抽样方法记为②.那么( )
A.①是系统抽样,②是简单随机抽样
B.①是简单随机抽样,②是简单随机抽样
C.①是简单随机抽样,②是系统抽样
D.①是系统抽样,②是系统抽样
解析:对于①,因为每隔30分钟抽取一袋,是等间距抽样,故①为系统抽样;对于②,总体数量少,样本容量也小,故②为简单随机抽样.
答案:A
2.(2012·四川高考)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )
A.101 B.808
C.1 212 D.2 012
解析:依题意得知,甲社区驾驶员的人数占总人数的=,因此有=,解得N=808.
答案:B
3.一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是( )
A.12,24,15,9 B.9,12,12,7
C.8,15,12,5 D.8,16,10,6
解析:由题意,各种职称的人数比为160∶320∶200∶120=4∶8∶5∶3,所以抽取的具有高、中、初级职称的人数和其他人员的人数分别为40×=8,40×=16,40×=10,40×=6.
答案:D
4.下列抽样中不是系统抽样的是( )
A.从标有1~15号的15个球中,任选3个作为样本.将15个球按从小号到大号排序,随机选i0号作为起始号码,以后选i0+5,i0+10(超过15则从1再数起)号入样
B.工厂生产的产品,在用传送带将产品送入包装车间前,检验人员从传送带上每隔五分钟抽取一件产品进行检验
C.进行某一市场调查时,规定在商场门口随机抽取一个人进行询问调查,直到调查到事先规定的调查人数为止
D.在报告厅对与会听众进行调查,通知每排(每排人数相等)座位号为14的听众留下来座谈
解析:分析各选项中抽样的特点,与系统抽样的概念、特点进行比较.A、D显然是系统抽样.B项中,传送带的速度是恒定的,实际上是将某一段时间内生产的产品分成一组,且可以认为这些产品已经排好,又总在某一位置抽取样品,这正好符合系统抽样的概念.选项C因事先不知道总体的个数,而且抽样时不能保证每个个体等可能入样,因此它不是系统抽样.
答案:C
5.某学校有职工140人,其中教师91人,教辅行政人员28人,总务后勤人员21人.为了了解职工的某种情况,要从中抽取一个容量为20的样本.以下的抽样方法中,依次为简单随机抽样、系统抽样、分层抽样顺序的是( )
方法1:将140人从1~140编号,然后制作出编号1~140的形状、大小相同的号签,并将号签放入同一箱子里均匀搅拌,然后从中抽取20个号签,编号与号签相同的20个人被选出;
方法2:将140人分成20组,每组7人,并将每组7人按1~7编号,在第一组采用抽签法抽出k号(1≤k≤7),其余各组k号也被抽出,20个人被选出;
方法3:按20∶140=1∶7的比例,从教师中抽出13人,从教辅行政人员中抽出4人,从总务后勤人员中抽出3人.从各类人员中抽取所需人员时,均采用随机数法,可抽到20人.
A.方法2,方法1,方法3
B.方法2,方法3,方法1
C.方法1,方法2,方法3
D.方法3,方法1,方法2
解析:结合简单随机抽样、系统抽样、分层抽样的定义判断.
答案:C
二、填空题
6.(2012·浙江高考)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为________.
解析:由分层抽样得,此样本中男生人数为560×=160.
答案:160
7.(2013·日照高一检测)某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层抽样的方法抽取样本,则应抽取高一学生数为________.
解析:若设高三学生数为x,则高一学生数为,高二学生数为+300,所以有x+++300=3 500,解得x=1 600.故高一学生数为800,因此应抽取高一学生数为=8.
答案:8
8.(2013·中山高一检测)一个总体中有100个个体,随机编号为0、1、2、…、99,依编号顺序平均分成10个小组,组号依次为1、2、3、…、10.现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是________.
解析:第k组的号码为(k-1)10,(k-1)10+1,…,(k-1)·10+9,当m=6、k=7时,第k组抽取的号码m+k的个位数字为3,所以(7-1)×10+3=63.
答案:63
三、解答题
9.为了调查某路口一个月的车流量情况,交警采用系统抽样的方法,样本距为7,从每周中随机抽取一天,他正好抽取的是星期日,经过调查后做出报告.你认为交警这样的抽样方法有什么问题?应当怎样改进?如果是调查一年的车流量情况呢?
解:交警所统计的数据以及由此所推断出来的结论,只能代表星期日的交通流量.由于星期日是休息时间,很多人不上班,不能代表其他几天的情况.
改进方法可以将所要调查的时间段的每一天先随机地编号,再用系统抽样方法来抽样,或者使用简单随机抽样来抽样亦可.
如果是调查一年的交通流量,使用简单随机抽样法显然已不合适,比较简单可行的方法是把样本距改为8.
10.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同的年龄层的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取容量为200的样本.试求:
(1)游泳组中,青年人、中年人、老年人分别所占的比例;
(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.
解:(1)设登山组人数为x,游泳组中,青年人、中年人、老年人各占比例分别为a,b,c,则有=47.5%,
=10%.
解得b=50%,c=10%.
故a=1-50%-10%=40%.
即游泳组中,青年人、中年人、老年人各占比例分别为40%、50%、10%.
(2)游泳组中,抽取的青年人人数为200××40%=60;
抽取的中年人人数为200××50%=75;
抽取的老年人人数为200××10%=15.[读教材·填要点]
1.众数、中位数、平均数
(1)众数的定义:
一组数据中重复出现次数最多的数称为这组数的众数,一组数据的众数可以是一个,也可以是多个.
(2)中位数的定义及求法:
把一组数据按从小到大的顺序排列,把处于最中间位置的那个数(或中间两数的平均数)称为这组数据的中位数.
(3)平均数:
①平均数的定义:
如果有n个数x1、x2、…、xn,那么=,叫作这n个数的平均数.
②平均数的分类:
总体平均数:总体中所有个体的平均数叫总体平均数.
样本平均数:样本中所有个体的平均数叫样本平均数.
2.标准差、方差
(1)标准差的求法:
标准差是样本数据到平均数的一种平均距离,一般用s表示.
s=.
(2)方差的求法:
标准差的平方s2叫作方差.
s2=[(x1-)2+(x2-)2+…+(xn-)2].
其中,xn是样本数据,n是样本容量,是样本均值.
(3)方差的简化计算公式:
s2=[(x+x+…+x)-n2]=(x+x+…+x)-2.
3.极差
一组数据的最大值与最小值的差称为这组数据的极差.
4.数字特征的意义
平均数、中位数和众数刻画了一组数据的集中趋势,极差、方差刻画了一组数据的离散程度.
[小问题·大思维]
1.一组数据的众数一定存在吗?若存在,众数是唯一的吗?
提示:不一定.若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数;不是,可以是一个,也可以是多个.
2.如何确定一组数据的中位数?
提示:(1)当数据个数为奇数时,中位数是按从小到大顺序排列的中间位置的那个数.
(2)当数据个数为偶数时,中位数为排列在最中间的两个数的平均值.
[研一题]
[例1] 据报道,某公司的33名职工的月工资(单位:元)如下:
职务 董事长 副董事长 董事 总经理 经理 管理员 职员
人数 1 1 2 1 5 3 20
工资 5 500 5 000 3 500 3 000 2 500 2 000 1 500
(1)求该公司职工月工资的平均数、中位数、众数.
(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数、中位数、众数又是什么?(精确到元)
(3)你认为哪个统计量更能反映这个公司员工的工资水平,结合此问题谈一谈你的看法.
[自主解答] (1)平均数是
=1 500+
≈1 500+591=2 091(元).
中位数是1 500元,众数是1 500元.
(2)新的平均数是′=1500+
≈1 500+1 788=3 288(元).
中位数是1 500元,众数是1 500元.
(3)在这个问题中,中位数或众数均能反映该公司员工的工资水平,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平.
[悟一法]
1.众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
2.众数考查各个数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题.
3.中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能在所给的数据中,也可能不在所给的数据中.当一组数据中的个别数据变动较大时,可用中位数描述它的某种集中趋势.
[通一类]
1.某公司销售部有销售人员15人,销售部为了制定某种商品的月销售定额,统计了这15人某月的销售量如下:
销售量(件) 1 800 510 250 210 150 120
人数 1 1 3 5 3 2
(1)求这15位销售人员该月销售量的平均数、中位数及众数;
(2)假设销售部负责人把月销售额定为320件,你认为是否合理,为什么?如不合理,请你制定一个较为合理的销售定额.
解:(1)平均数为(1 800×1+510×1+250×3+210×5+150×3+120×2)=320(件),中位数为210件,众数为210件.
(2)不合理,因为15人中有13人的销售量未达到320件,也就是说,虽然320是这一组数据的平均数,但它却不能反映全体销售人员的销售水平.销售额定为210件更合理些,这是由于210既是中位数,又是众数,是大部分人都能达到的定额.
[研一题]
[例2] 甲、乙两机床同时加工直径为100 cm的零件,为了检验质量,各从中抽取6件进行测量,分别记录数据为:
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
[自主解答] (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100,
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)两台机床所加工零件的直径的平均数相同,又s>s,所以乙机床加工零件的质量更稳定.
[悟一法]
在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性就越差;方差越小,数据越集中,质量越稳定.
[通一类]
2.对划艇运动员甲、乙两人在相同的条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:
甲:27 38 30 37 35 31
乙:33 29 38 34 28 36
根据以上数据,试估计两人最大速度的平均数和标准差,并判断他们谁更优秀.
解:甲=×(27+38+30+37+35+31)==33,
s=×[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=,
s甲=≈3.96,
乙=×(33+29+38+34+28+36)==33,
s=×[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]=,
s乙=≈3.56.
由上知,甲、乙两人最大速度的平均数均为33 m/s,甲的标准差为3.96 m/s,乙的标准差为3.56 m/s,说明甲、乙两人的最大速度的平均值相同,但乙的成绩比甲的成绩更稳定,故乙比甲更优秀.
[研一题]
[例3] 在一次科技知识竞赛中,两组学生的成绩如下表:
分数 50 60 70 80 90 100
人数 甲组 2 5 10 13 14 6
乙组 4 4 16 2 12 12
已经算得两个组的平均分都是80分.请根据你所学过的统计知识,进一步判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
[自主解答] (1)甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数比较看,甲组成绩好些.
(2)甲=(50×2+60×5+70×10+80×13+90×14+100×6)
=×4 000=80(分),
乙=(50×4+60×4+70×16+80×2+90×12+100×12)
=×4 000=80(分).
s=[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,
s=[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵s(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.
(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,∴乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.
[悟一法]
要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.
[通一类]
3.甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:
(1)请填写下表:
平均数 中位数 命中9环以上的次数(含9环)
甲 7
乙
(2)从下列三个不同角度对这次测试结果进行分析:
①从平均数和中位数相结合看,谁的成绩好些?
②从平均数和命中9环及9环以上的次数相结合看,谁的成绩好些?
③从折线图中两人射击命中环数的走势看,谁更有潜力?
解:(1)由图可知,甲打靶的成绩为:2,4,6,8,7,7,8,9,9,10;乙打靶的成绩为:9,5,7,8,7,6,8,6,7,7.
甲的平均数是7,中位数是7.5,命中9环及9环以上的次数是3;
乙的平均数是7,中位数是7,命中9环及9环以上的次数是1.
(2)由(1)知,甲、乙的平均数相同.
①甲、乙的平均数相同,甲的中位数比乙的中位数大,所以甲成绩较好.
②甲、乙的平均数相同,甲命中9环及9环以上的次数比乙多,所以甲成绩较好.
③从折线图中看,在后半部分,甲呈上升趋势,而乙呈下降趋势,故甲更有潜力.
一个球队所有队员的身高如下(单位:cm):
178,179,181,182,176,183,176,180,183,175,181,185,180,184,问这个球队的队员平均身高是多少?(精确到1 cm)
[解] 法一:利用平均数的公式计算.
=×(178+179+181+…+180+184)=×2 523≈180.
法二:建立新数据,再利用平均数简化公式计算.
取a=180,将上面各数据同时减去180,得到一组数据:
-2,-1,1,2,-4,3,-4,0,3,-5,1,5,0,4.
′=×(-2-1+1+2-4+3-4+0+3-5+1+5+0+4)=×3=≈0.2,
∴=′+a=0.2+180≈180.
法三:利用加权平均数公式计算.
=×(185×1+184×1+183×2+182×1+181×2+180×2+179×1+178×1+176×2+175×1)=×2 523≈180.
法四:建立新数据,再利用加权平均数公式计算.
′=×[5×1+4×1+3×2+2×1+1×2+0×2+(-1)×1+(-2)×1+(-4)×2+(-5)×1]
=×0.3≈0.2.
∴=′+a=0.2+180≈180.
1.已知一组数据为20,30,40,50,50,60,70,80,其中平均数,中位数和众数大小关系是( )
A.平均数>中位数>众数
B.平均数<中位数<众数
C.中位数<众数<平均数
D.众数=中位数=平均数
解析:可得出这组数据的平均数、中位数和众数均为50.
答案:D
2.样本中共有五个个体,其值分别为a,0,1,2,3.若该样本的平均数为1,则样本方差为( )
A. B.
C. D.2
解析:∵样本的平均数为1,即×(a+0+1+2+3)=1,∴a=-1,∴样本方差s2=×[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.
答案:D
8 9 7
9 3 1 6 4 0 2
3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
解析:将这组数据从小到大排列,得87,89,90,91,92,93,94,96.故平均数=
=91.5,中位数为=91.5.
答案:A
4.(2012·湖南高考)如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.
(注:方差s2=[(x1-)2+(x2-)2+…+(xn-)2],其中为x1,x2,…,xn的平均数)
解析:该运动员五场比赛中的得分为8,9,10,13,15,平均得分==11,
方差s2=[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.8.
答案:6.8
5.甲、乙两人在相同条件下练习射击,每人打5发子弹,命中环数如下:
甲 6 8 9 9 8
乙 10 7 7 7 9
则两人射击成绩的稳定程度是________.
解析:∵甲=8,乙=8,
s=1.2,s=1.6,
∴s∴甲稳定性强.
答案:甲比乙稳定
6.某农科所为寻找高产稳定的油菜品种,选了三个不同的油菜品种进行试验,每一品种在五块试验田试种.每块试验田的面积为0.7公顷,产量情况如下表:
品种 各试验田产量(kg)
1 2 3 4 5
1 21.5 20.4 22.0 21.2 19.9
2 21.3 23.6 18.9 21.4 19.8
3 17.8 23.3 21.4 19.1 20.8
试评定哪一品种既高产又稳定.
解:1=21.0 kg,2=21.0 kg,3=20.48 kg;
s=0.572,s=2.572,s=3.5976,
∴1=2>3,s<s<s.
∴第一个品种既高产又稳定.
一、选择题
1.在某项体育比赛中,七位裁判为一选手打出的分数如下:90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( )
A.92,2 B.92,2.8
C.93,2 D.93,2.8
解析:去掉最高分95和最低分89后,剩余数据的平均数为==92,
方差为s2=×[(92-90)2+(92-90)2+(93-92)2+(94-92)2+(93-92)2]=×(4+4+1+4+1)=2.8.
答案:B
2.已知一组数据为-3,5,7,x,11,且这组数据的众数为5,那么数据的中位数是( )
A.7 B.5
C.6 D.11
解析:这组数据的众数为5,则5出现的次数最多,
∴x=5,那么这组数据按从小到大排列为-3,5,5,7,11,则中位数为5.
答案:B
3.如图所示,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB B.AsB
C.A>B,sA解析:A中的数据都不大于B中的数据,所以AsB.
答案:B
4.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均数为,则( )
A.me=m0= B.me=m0<
C.me解析:易知中位数的值me==5.5,众数m0=5,平均数=×(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)≈6,所以m0答案:D
5.(2013·济南高一检测)一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )
A.57.2 3.6 B.57.2 56.4
C.62.8 63.6 D.62.8 3.6
解析:设该组数据为x1,x2,…,xn,则(x1+x2+…+xn)=2.8,
[(x1-2.8)2+(x2-2.8)2+…+(xn-2.8)2]=3.6,
所以,所得新数据的平均数为[(x1+60)+(x2+60)+…+(xn+60)]=(x1+x2+…+xn)+60=2.8+60=62.8.
所得新数据的方差为[(x1+60-62.8)2+(x2+60-62.8)2+…+(xn+60-62.8)2]
=[(x1-2.8)2+(x2-2.8)2+…+(xn-2.8)2]=3.6.
答案:D
二、填空题
6.一个样本按从小到大的顺序排列为10,12,13,x,17,19,21,24,其中位数为16,则x=________.
解析:由中位数的定义知=16,∴x=15.
答案:15
7.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:
学生 1号 2号 3号 4号 5号
甲班 6 7 7 8 7
乙班 6 7 6 7 9
则以上两组数据的方差中较小的一个为
s2=________.
解析:计算可得两组数据的平均数均为7,
甲班的方差s==;
乙班的方差
s==.
则两组数据的方差中较小的一个为s=.
答案:
甲 乙
6 7 9 9 4
7 6 4 3 2 1 8 0 2 4 9
0 9 1
8.甲、乙两个小组各8名同学的英语口语测试成绩的茎叶图如右图所示,则甲、乙两组的平均数与中位数之差较大的组是________.
解析:由茎叶图可知,甲的平均数和中位数分别是83.625和83.5;乙的平均数和中位数分别是82.25和81.故乙的平均数和中位数之差较大.
答案:乙组
三、解答题
9.为了了解市民的环保意识,某校高一(1)班50名学生在6月5日(世界环境日)这一天调查了各自家庭丢弃旧塑料袋的情况,有关数据如下表:
每户丢弃旧塑料袋个数 2 3 4 5
户数 6 16 15 13
(1)求这50户居民每天丢弃旧塑料袋的平均数、众数和中位数;
(2)求这50户居民每天丢弃旧塑料袋的标准差.
解:(1)平均数=×(2×6+3×16+4×15+5×13)==3.7.
众数是3,中位数是4.
(2)这50户居民每天丢弃旧塑料袋的方差为
s2=×[6×(2-3.7)2+16×(3-3.7)2+15×(4-3.7)2+13×(5-3.7)2]
=×48.5=0.97,
所以标准差s≈0.985.
10.某校甲班、乙班各有49名学生,两班在一次数学测验中的成绩(满分100分)统计如下表:
班级 平均分 众数 中位数 标准差
甲班 79 70 87 19.8
乙班 79 70 79 5.2
(1)请你对下面的一段话给予简要分析:
甲班的小刚回家对妈妈说:“昨天的数学测验,全班平均79分,得70分的人最多,我得了85分,在班里算是上游了!”
(2)请你根据表中数据,对这两个班的测验情况进行简要分析,并提出教学建议.
解:(1)由中位数可知,85分排在第25名之后,从名次上讲,85分不算是上游.但也不能单以名次来判断学习成绩的好坏,小刚得了85分,说明他对这阶段的学习内容掌握较好.
(2)甲班学生成绩的中位数为87分,说明高于或等于87分的学生占一半以上,而平均分为79分,标准差很大,说明低分也多,两极分化严重,建议对学习有困难的同学多给一些帮助;
乙班学生成绩的中位数和平均分均为79分,标准差小,说明学生成绩之间差别较小,成绩很差的学生少,但成绩优异的学生也很少,建议采取措施提高优秀率.[读教材·填要点]
1.用样本估计总体的两种情况
(1)用样本的分布估计总体的分布.
(2)用样本的数字特征估计总体的数字特征.
2.频率分布直方图
在频率分布直方图中,纵轴表示,数据落在各小组内的频率用频率直方图的面积来表示,各小长方形的面积的总和等于1.
3.频率折线图
在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图.
随着样本量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小,相应的频率折线图就会越来接近于一条光滑曲线.
[小问题·大思维]
1.将数据的样本进行分组的目的是什么?
提示:从样本中的一个个数字中很难直接看出样本所包含的信息,通过分组,并计算其频率,目的是通过描述样本数据分布的特征,从而估计总体的分布情况.
2.频率分布直方图中,每个小长方形的面积表示什么含义?
提示:表示相应各组的频率.
[研一题]
[例1] 已知一个样本:30,29,26,24,25,27,26,22,24,25,26,28,25,21,23,25,27,29,25,28.
(1)列出样本的频率分布表.
(2)画出频率分布直方图和频率分布折线图.
(3)根据频率分布直方图,估计总体出现在23~28内的频率是多少?
[自主解答] (1)计算极差:30-21=9.
决定组距和组数:取组距为2.
∵=4,∴共分5组.
决定分点,使分点比数据多一位小数.
并把第1小组的分点减小0.5,即分成如下5组:
20.5~22.5,22.5~24.5,24.5~26.5,
26.5~28.5,28.5~30.5.
列出频率分布表如下:
分组 个数累计 频数 频率
20.5~22.5 2 0.1 0.05
22.5~24.5 3 0.15 0.075
24.5~26.5 正 8 0.4 0.2
26.5~28.5 4 0.2 0.1
28.5~30.5 3 0.15 0.075
合计 20 20 1.00
(2)作出频率分布直方图如下:
取各小长方形上的中点并用线段连接就构成了频率分布折线图,如上图.
(3)由频率分布表和频率分布直方图观察得:
样本值出现在23~28之间的频率为0.15+0.40+0.2=0.75,所以可以估计总体中出现在23~28之间的数的频率约为0.75.
[悟一法]
绘制频率分布直方图的具体步骤:
(1)求极差:
一组数据的最大值与最小值的差称为极差.
(2)决定组距与组数:
数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多,当样本容量不超过120时,按照数据的多少,常分成5~12组.为方便起见,组距的选择应力求“取整”.
(3)将数据分组:
通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.
(4)列频率分布表:
计算各小组的频率,作出频率分布表.
说明:制作好频率分布表以后,可利用各组的频率之和为1来检验该表是否正确.
(5)画出频率分布直方图:
依据频率分布表画出频率分布直方图.
[通一类]
1.下表给出了某校从500名12岁男孩中随机抽选出的120人的身高情况(单位:cm):
身高范围 [122,126) [126,130) [130,134) [134,138) [138,142)
人数 5 8 10 22 33
身高范围 [142,146) [146,150) [150,154) [154,158)
人数 20 11 6 5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高低于134 cm的人数占总人数的百分比.
解:(1)样本频率分布表如下所示:
分组 频数 频率
[122,126) 5 0.04
[126,130) 8 0.07
[130,134) 10 0.08
[134,138) 22 0.18
[138,142) 33 0.28
[142,146) 20 0.17
[146,150) 11 0.09
[150,154) 6 0.05
[154,158) 5 0.04
合计 120 1.00
(2)频率分布直方图如图所示.
(3)由样本频率分布表可知,身高低于134 cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以可以估计身高低于134 cm的人数占总人数的19%.
[研一题]
[例2] 某校开展了一次小制作评比活动,作品上交时间为5月1日至30日.评委会把同学们上交作品的件数按5天一组分组统计,绘制了如图所示的频率分布直方图.已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答有关问题:
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数最多?有多少件?
(3)经过评比,第四组和第六组分别有10件、2件作品获奖,则这两组哪组获奖率较高?
[自主解答] (1)依题意知,第三组的频率为=0.2,
又因为第三组的频数为12,
故本次活动的参评作品有=60件.
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×=18件.
(3)第四组的获奖率是=.
因为第六组上交的作品数量为60×=3,
所以第六组的获奖率为.
而>,显然第六组的获奖率较高.
[悟一法]
频率分布直方图的性质:
(1)因为小矩形的面积=组距×频率/组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)频数/相应的频率=样本容量.
[通一类]
2.(2011·湖北高考)有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图,估计样本数据落在区间[10,12)内的频数为( )
A.18 B.36
C.54 D.72
解析:样本数据落在区间[10,12)内的频率为1-(0.02×2+0.05×2+0.15×2+0.19×2)=0.18,所以样本数据落在区间[10,12)内的频数为0.18×200=36.
答案:B
3.为提高公众对健康的自我管理能力和科学认识,某调查机构共调查了200人在一天中的睡眠时间.现将数据整理分组,如下表所示.由于操作不慎,表中A,B,C,D四处数据污损,统计员只记得A处的数据比C处的数据大4,由此可知B处的数据为________.
分组(睡眠时间) 频数 频率
[4,5) 8 0.04
[5,6) 52 0.26
[6,7) A B
[7,8) C D
[8,9) 20 0.10
[9,10] 4 0.02
合计 200 1
解析:设A处的数据为x,则C处的数据为x-4,则
x+x-4+8+52+20+4=200,
解得x=60,
则B处数据为=0.30.
答案:0.30
[研一题]
[例3] 为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换,已知某校使用的100只日光灯在必须换掉前的使用天数如下表:
天数 151~180 181~210 211~240 241~270 271~300 301~330 331~360 361~390
灯管数 1 11 18 20 25 16 7 2
(1)试估计这种日光灯的平均使用寿命;
(2)若定期更换,可选择多长时间统一更换合适?
[自主解答] (1)各组中值分别是165.5,195.5,225.5,255.5,285.5,315.5,345.5,375.5,由此可算得平均数约为165.5×1%+195.5×11%+225.5×18%+255.5×20%+285.5×25%+315.5×16%+345.5×7%+375.5×2%=268.4≈268(天).
(2)将各组中值对(1)问中的平均数求方差:
×[1×(165.5-268.4)2+11×(195.5-268.4)2+18×(225.5-268.4)2+20×(255.5-268.4)2+25×(285.5-268.4)2+16×(315.5-268.4)2+7×(345.5-268.4)2+2×(375.5-268.4)2]=2 128.59.
故标准差为≈46(天).
答:估计这种日光灯的平均使用寿命约为268天,标准差约为46天,故可在222到314天左右统一更换较合适.
[悟一法]
1.样本的标准差和方差描述了总体数据围绕平均数波动的大小程度,样本的标准差、方差越大,总体数据估计越分散;样本的标准差、方差越小,总体数据估计越集中.特别是当样本的标准差和方差都为0时,则表明总体数据估计没有波动,估计数据全相等.
2.样本的平均数和方差是两个重要的数字特征.在应用平均数和方差解决实际问题时,若平均数不同,则直接应用平均数比较优劣,若平均数相同,则要由方差研究其与平均数的偏离程度.
[通一类]
4.两台机床同时生产直径(单位:cm)为10的圆形截面零件,为了检验产品质量,质量检验员从两台机床的产品中各抽出4件进行测量,结果如下:
机床甲 10 9.8 10 10.2
机床乙 10.1 10 9.9 10
如果你是质量检验员,在收集到上述数据后,你将通过怎样的运算来判断哪台机床生产的零件质量更符合要求?
解:(1)先计算平均直径:
甲=×(10+9.8+10+10.2)=10,
乙=×(10.1+10+9.9+10)=10.
由于甲=乙,因此仅由平均直径不能反映两台机床生产的零件的质量优劣.
(2)再计算方差:
s=×[(10-10)2+(9.8-10)2+(10-10)2+(10.2-10)2]=0.02,
s=×[(10.1-10)2+(10-10)2+(9.9-10)2+(10-10)2]=0.005.
s>s,这说明乙机床生产出的零件直径波动小,因此从产品质量稳定性的角度考虑,乙机床生产的零件质量更符合要求.
中小学生的视力状况受到全社会的广泛关注,某市有关部门从全市6万名高一新生中随机抽取了400名学生,对他们的视力状况进行一次调查统计,将所得到的有关数据绘制成频率分布直方图,如图,从左至右五个小组的频率之比依次是5∶7∶12∶10∶6.则全市高一新生视力在[3.95,4.25]范围内的学生约有多少人?
[错解] 因为第五小组的频率是0.5,
所以第一小组的频率为0.5×=.
所以全市6万名高一新生中视力在[3.95,4.25]范围内的学生约有60 000×=25 000人.
[错因] 错误原因在于对频率分布直方图理解不正确,图中标注的0.5并不是第五组的频率,0.5×0.3=0.15才是频率.
[正解] 因为第五小组的频率是0.5×0.3=0.15,
所以第一小组的频率是0.15×=0.125,
∴全市6万名高一新生中视力在[3.95,4.25]范围内的学生约有60 000×0.125=7 500人.
1.当收集到的数据量很大时,比较合适的统计图是( )
A.茎叶图 B.频率分布直方图
C.频率分布折线统计图 D.频率分布表
解析:当收集到的数据量很大时,一般用频率分布直方图表示.
答案:B
2.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a,b)是其中的一组,抽查出的个体在该组上的频率为m,该组上的直方图的高为h,则|a-b|=( )
A.hm B.
C. D.h+m
解析:=h,故|a-b|=组距==.
答案:B
3.为了解一片经济林的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出样本的频率分布直方图(如图所示),那么这100株树木中,底部周长小于110 cm的树有( )
A.80株 B.70株
C.60株 D.50株
解析:(0.01×10+0.02×10+0.04×10)×100=70(株).
答案:B
4.将容量为n的样本中的数据分成6组,绘制频率分布直方图.若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n等于________.
解析:∵第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,
∴前三组频数为·n=27,故n=60.
答案:60
5.某社会调查机构就某地居民的月收入调查了10 000人,并根据所得数据画了样本频率分布直方图(如图所示).
为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10 000人中再用分层抽样方法抽出100人进行调查,则在[2 500,3 000)(单位:元)的月收入段应抽出________人.
解析:100×(0.000 5×500)=25(人).
答案:25
6.如图所示,从参加环保知识竞赛的学生中抽出60名,将其成绩(均为整数)整理后画出的频率分布直方图如下.观察图形,回答下列问题:
(1)79.5至89.5这一组的频数、频率分别是多少?
(2)估计这次环保知识竞赛的及格率(60分及以上为及格).
解:(1)频率为0.025×10=0.25,频数为60×0.25=15.
(2)由频率分布直方图得(0.015+0.025+0.03+0.005)×10=0.75,所以及格率为75%.
一、选择题
1.下列说法不正确的是( )
A.频率分布直方图中每个小矩形的高就是该组的频率
B.频率分布直方图中各个小矩形的面积之和等于1
C.频率分布直方图中各个小矩形的宽一样大
D.频率分布折线图是依次连接频率分布直方图的每个小矩形上端中点得到的
解析:频率分布直方图的每个小矩形的高=.
答案:A
2.样本容量为100的频率分布直方图如图所示.根据样本的频率分布直方图估计样本数据落在[6,10)内的频数为a,样本数据落在[2,10)内的频率为b,则a,b分别是( )
A.32,0.4 B.8,0.1
C.32,0.1 D.8,0.4
解析:由于样本数据落在[6,10)内的频率为0.08×4=0.32,则a=100×0.32=32;由于样本数据落在[2,6)内的频率为0.02×4=0.08,则样本数据落在[2,10)内的频率b=0.08+0.32=0.4.
答案:A
3.将一个容量为50的样本数据分组后,组距与频数如下:[12.5,15.5),3;[15.5,18.5),8;[18.5,21.5),9;[21.5,24.5),11;[24.5,27.5),10;[27.5,30.5),6;[30.5,33.5),3.
则估计小于30的数据大约占总体的( )
A.94% B.6%
C.92% D.12%
解析:由样本的频率分布估计总体的分布.小于30.5的样本频数为3+8+9+11+10+6=47,所以其频率为=94%.小于27.5的样本频数为3+8+9+11+10=41,所以其频率为=82%.因此小于30的样本频率应在82%~94%之间,满足条件的只有92%.
答案:C
4.为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图所示).已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则抽取的学生人数为( )
A.46 B.48
C.50 D.60
解析:前3个小组的频率和为1-0.037 5×5-0.012 5×5=0.75.又因为前3个小组的频率之比为1∶2∶3,所以第2小组的频率为×0.75=0.25.又知第2小组的频数为12,则=48,即为所抽样本的人数.
答案:B
5.设矩形的长为a,宽为b,其比满足b:a=≈0.618,这种矩形给人以美感,称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:
甲批次:0.598 0.625 0.628 0.595 0.639
乙批次:0.618 0.613 0.592 0.622 0.620
根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是( )
A.甲批次的总体平均数与标准值更接近
B.乙批次的总体平均数与标准值更接近
C.两个批次总体平均数与标准值接近程度相同
D.两个批次总体平均数与标准值接近程度不能确定
解析:甲==0.617,
乙==0.613,
∴甲与0.618更接近.
答案:A
二、填空题
6.(2012·广东高考)由正整数组成的一组数据x1,x2,x3,x4,其平均数和中位数都是2,且标准差等于1,则这组数据为________.(从小到大排列)
解析:设x1≤x2≤x3≤x4,根据已知条件得到x1+x2+x3+x4=8,且x2+x3=4,所以x1+x4=4,又因为=1,所以(x1-2)2+(x2-2)2=2,又因为x1,x2,x3,x4是正整数,所以(x1-2)2=(x2-2)2=1,所以x1=1,x2=1,x3=3,x4=3.
答案:1,1,3,3
7.《中华人民共和国道路交通安全法》规定;车辆驾驶员血液酒精浓度在20~80 mg/100 mL(不含80)之间,属于酒后驾车;血液酒精浓度在80 mg/100 mL(含80)以上时,属醉酒驾车.据《法制晚报》报道,2011年2月15日至2月28日,全国查处酒后驾车和醉酒驾车共28 800人,如图是对这28 800人酒后驾车血液中酒精含量进行检测所得结果的频率分布直方图,则属于醉酒驾车的人数约为________.
解析:(0.01×10+0.005×10)×28 800=4 320.
答案:4 320
8.一组数据中的每一个数据都减去80,得一组新数据,若求得新数据的平均数是1.2,方差是4.4,则原来数据的平均数和方差分别是________,________.
解析:由题意得原来数据的平均数是80+1.2=81.2,方差不变,仍是4.4.
答案:81.2 4.4
三、解答题
9.有一个容量为50的样本,数据的分组及各组的频率如下:
[25,30),3;[30,35),8;[35,40),9;[40,45),11;
[45,50),10;[50,55),5;[55,60],4.
(1)列出样本的频率分布表;
(2)画出频率分布直方图及频率分布折线图.
解:(1)频率分布表如下:
分组 频数 频率
[25,30) 3 0.06
[30,35) 8 0.16
[35,40) 9 0.18
[40,45) 11 0.22
[45,50) 10 0.20
[50,55) 5 0.10
[55,60) 4 0.08
合计 50 1.00
(2)频率分布直方图、频率分布折线图如下图所示:
10.某校为了了解甲、乙两班的数学学习情况,从两班各抽出10名学生进行数学水平测试,成绩如下(单位:分):
甲班:82 84 85 89 79 80 91 89 79 74
乙班:90 76 86 81 84 87 86 82 85 83
(1)求两个样本的平均数;
(2)求两个样本的方差和标准差;
(3)试分析比较两个班的学习情况.
解:(1)甲=(82+84+85+89+79+80+91+89+79+74)=83.2,
乙=(90+76+86+81+84+87+86+82+85+83)=84.
(2)s=[(82-83.2)2+(84-83.2)2+(85-83.2)2+(89-83.2)2+(79-83.2)2+(80-83.2)2+(91-83.2)2+(89-83.2)2+(79-83.2)2+(74-83.2)2]=26.36,
s=[(90-84)2+(76-84)2+(86-84)2+(81-84)2+(84-84)2+(87-84)2+(86-84)2+(82-84)2+(85-84)2+(83-84)2]=13.2,
∴s甲=≈5.13,s乙≈≈3.63.
(3)由于甲<乙,
则甲班比乙班平均水平低.
由于s甲>s乙,
则甲班没有乙班稳定.
∴乙班的总体学习情况比甲班好.[读教材·填要点]
1.散点图
在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
2.变量之间的相关关系
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大趋势,这种趋势通常可以用一条光滑的曲线来近似,这样的近似过程称为曲线拟合.若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称这两个变量是线性相关的,而若所有点看上去在某条曲线(不是直线)附近波动,则称此相关为非线性相关.如果所有点在散点图中没有显示任何关系,则称变量间是不相关的.
[小问题·大思维]
1.相关关系和函数关系有什么异同?
提示:如果一个变量每取一个值,另一个变量总有唯一确定的值与之对应,那么,这两个变量就是函数关系;如果一个变量每取一个值,另一个变量的取值带有一定的随机性,并且从总体上来看有关系,但不是确定性关系,那么,就说这两个变量具有相关关系.
2.判断下列图中的两个变量,具有相关关系的有哪些?
提示:由图易知,(1)、(3)描述的是函数关系,(2)、(4)是散点图,其中(4)不存在明显的依赖关系,所以只有(2)中的两个变量具有相关关系.
[研一题]
[例1] 下列关系中,属于相关关系的是________.
①正方形的边长与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③人的身高与年龄之间的关系;
④降雪量与交通事故的发生率之间的关系.
[自主解答] 在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;在③中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在④中,降雪量与交通事故的发生率之间具有相关关系.
[答案] ②④
[悟一法]
两个变量x和y相关关系的确定方法:
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
[通一类]
1.下列关系中为相关关系的有( )
①学生的学习态度和学习成绩之间的关系;
②老师的执教水平与学生的学习成绩之间的关系;
③学生的身高与学生的学习成绩之间的关系;
④家庭的经济条件与学生的学习成绩之间的关系.
A.①② B.①③
C.②③ D.②④
解析:由相关关系定义可知,①②是相关关系,③④无相关关系.
答案:A
[研一题]
[例2] 下面是水稻产量与施化肥量的一组观测数据:
施化肥量 15 20 25 30 35 40 45
水稻产量 320 330 360 410 460 470 480
(1)将上述数据制成散点图;
(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增加吗?
[自主解答] (1)散点图如下:
(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增大.
[悟一法]
利用散点图判断不同变量的相关性时,其关键是正确画出散点图,然后观察分布规律:是分布在一条直线附近波动还是一条曲线附近波动,还是没有任何规律,从而得出线性相关、非线性相关或不相关的结论.
[通一类]
2.5个学生的数学和物理成绩如下表:
学生成绩学科 A B C D E
数学 80 75 70 65 60
物理 70 66 68 64 62
画出散点图,并判断它们是否具有线性相关关系.
解:以x轴表示数学成绩,y轴表示物理成绩,可得相应的散点图如图所示,由散点图可知,两者之间具有线性相关关系.
下列关系中带有随机性相关关系的有________.
①光照时间与果树的亩产量的关系;
②圆柱体积与其底面直径的关系;
③自由下落的物体的质量与落地时间的关系;
④球的表面积与球半径之间的关系.
[错解] ①
[错因] ①光照时间与果树的亩产量之间的关系是相关关系;②圆柱体积与两个变量相关,一是底面面积,一是高,这里直径决定了底面面积,而高还是一个可变量,因此在高没有确定的情况下,圆柱体积与底面直径只具有相关关系,而不是函数关系;③自由下落的物体的质量与落地时间无关,它们不具有相关关系;④球的表面积与球半径满足S=4πR2,故它们具有函数关系.
[正解] ①②
1.下列变量是线性相关的是( )
A.人的体重与视力
B.圆心角的大小与所对的圆弧长
C.收入水平与购买能力
D.人的年龄与体重
解析:B为确定关系;A、D不具有线性关系,C具有相关关系.
答案:C
2.下列分别是3对变量的散点图,则具有相关关系的是( )
A.①②③ B.①③
C.②③ D.②
答案:B
3.对于给定的两个变量的统计数据,下列说法正确的是( )
A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系
C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
解析:给出一组样本数据,总可以作出相应的散点图,但不一定都能分析出两个变量的关系,更不一定是具有线性相关或函数关系.
答案:C
4.为了判断两个变量x,y之间是否具有相关关系,在直角坐标系中,描出每一组观测值(x,y)表示的点,得到的图形称为________.
答案:散点图
5.有下列关系:①曲线上的点与该点关于原点的对称点的坐标之间的关系;②苹果的产量与气候之间的关系;③森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是________.
答案:②③
6.李老师为了了解学生的计算能力,对某同学进行了10次试验,收集数据如下:
题数x(道) 5 10 15 20 25 30 35 40 45 50
做题时间y(分钟) 9 19 26 37 48 52 61 73 81 89
画出散点图,并判断它们是否有线性相关关系.
解:散点图如图,由散点图可以看出,两者之间具有线性相关关系.
一、选择题
1.下列语句所表示的事件中的因素不具有相关关系的是( )
A.瑞雪兆丰年 B.名师出高徒
C.吸烟有害健康 D.喜鹊叫喜,乌鸦叫丧
解析:瑞雪兆丰年和名师出高徒是根据多年经验总结归纳出来的,吸烟有害健康具有科学根据,所以它们都是相关关系,所以A、B、C三项具有相关关系;结合生活经验知喜鹊和乌鸦发出叫声是它们自身的生理反映,与人无任何关系,不具有相关关系.
答案:D
2.试从下面四个图中的点在散点图上的分布状态,直观上初步判断两个变量之间有线性相关关系的是( )
答案:C
3.下列两个变量间的关系,是相关关系的是( )
A.任意实数和它的平方
B.圆半径和圆的面积
C.正多边形的边数和对角线的条数
D.天空中的云量和下雨
解析:很明显A、B、C三项都是函数关系;根据生活经验,天空中的云量和下雨之间不是确定性关系,虽然有云彩不一定下雨,但是如果没有云彩一定不下雨,这说明它们之间是相关关系.
答案:D
4.下列说法正确的是( )
A.相关关系是函数关系
B.函数关系是相关关系
C.线性相关关系是一次函数关系
D.相关关系有两种,分别是线性相关关系和非线性相关关系
解析:函数关系和相关关系互不包含,所以A、B、C三项不正确;根据定义,相关关系有两种,分别是线性相关关系和非线性相关关系.
答案:D
5.2003年春季,我国部分地区SARS流行,党和政府采取果断措施,防治结合,很快使病情得到控制.根据某同学记载的5月1日至5月12日每天北京市SARS病患者治愈的数据绘制出的散点图如图所示.
下列说法:
①根据此散点图,可以判断日期与人数具有线性相关关系;
②根据此散点图,可以判断日期与人数具有一次函数关系.
其中正确的为( )
A.①② B.①
C.② D.以上都不对
解析:①正确.
答案:B
二、填空题
6.下列两个变量之间的关系不是函数关系的是________.
①圆的周长和它的半径
②正方体的表面积与它的棱长
③正n边形的边数和内角和
④人的体重和身高
答案:④
7.下面各组变量之间具有相关关系的是________(填上正确答案的序号).
①高原含氧量与海拔高度.
②速度一定时,汽车行驶的路程和所用的时间.
③学生的成绩和学生的学号.
④父母的身高和子女的身高.
答案:①④
8.下列两个变量之间的关系,是函数关系的有________.
①球的体积和它的半径
②人的血压和体重
③底面积为定值的长方体的体积和高
④城镇居民的消费水平和平均工资
答案:①③
三、解答题
9.某个男孩的年龄与身高的统计数据如下:
年龄(岁) 1 2 3 4 5 6
身高(cm) 78 87 98 108 115 120
画出散点图,并判断它们是否具有相关关系.
解:散点图如下.
由散点图可清楚地看到,在一定的范围内,这个男孩的年龄与身高具有明显的正相关关系,即该男孩的身高随着年龄的增大而增大.
10.有时候,一些东西吃起来口味越好,对我们的身体越有害,下表给出了不同类型的某种食品的数据.第二行表示此种食品所含热量的百分比,第三行数据表示由一些美食家以百分制给出的对此种食品口味的评价:
品牌 A B C D E F G H I J
所含热量的百分比 25 34 20 19 26 20 19 24 19 13
口味记录 89 89 80 78 75 71 65 62 60 52
(1)作出散点图;
(2)你能从散点图中发现两者之间的近似关系吗?
(3)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系;
(4)对于这种食品,为什么人们更喜欢吃位于直线上方的食品而不是下方的?
解:(1)散点图如图所示.
(2)从上图看基本近似成线性相关关系.
(3)所画直线如上图所示.
(4)因为当直线上方的食品和下方的食品所含热量相同时,直线上方的食品口味更好.2.1 简单随机抽样
[读教材·填要点]
1.简单随机抽样的定义
设一个总体含有N个个体,随机抽取n个个体作为样本(n<N),在抽取的过程中,要保证每个个体被抽到的概率相同,这样的抽样方法叫作简单随机抽样.
2.抽签法
3.随机数法
(1)可以利用转盘、摸球、计算机、科学计算器等工具直接产生随机数,也可以利用随机数表来产生随机数.利用产生的随机数来抽取对应编号的个体,直至抽到预先规定的样本数.
(2)利用随机数表产生随机数的实施步骤:
①将总体中个体编号.
②在随机数表中任选一个数作为开始.
③规定从选定的数读取数字的方向.
④开始读取数字,若不在编号中,则跳过,若在编号中则取出,依次取下去,直到取满为止,相同的号只取一次.
⑤根据选定的号码抽取样本.
[小问题·大思维]
1.简单随机抽样是不放回抽样吗?
提示:简单随机抽样是从总体中逐个抽取的,是一种不放回抽样,也就是每次从总体中取出元素后不放回总体.
2.有同学认为:“随机数表只有一张,并且读数时只能按照从左向右的顺序读取,否则产生的随机样本就不同了,对整体的估计就不准确了”,你认为正确吗?
提示:不正确.随机数表的产生是随机的,读数的顺序也是随机的,不同的样本对总体的估计相差不大,但开始读数之后,要按一定的方向读下去.
[研一题]
[例1] 下面的抽样方法是简单随机抽样吗?为什么?
(1)从无数个个体中抽取50个个体作为样本;
(2)仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
(3)某大学从200名党员大学生中,挑选出50名最优秀的学生赶赴沈阳参加2013全运全志愿者工作;
(4)一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
[自主解答] (1)不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.
(2)不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.
(3)不是简单随机抽样.因为这50名学生是从中挑选出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.
(4)是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能的抽样.
[悟一法]
简单随机抽样的特点:①总体的个体数有限;②逐个抽取;③不放回抽样;④等可能性抽样.每一次抽取时,总体中各个个体被抽到的可能性相同,而且在整个抽样过程中各个个体被抽到的机会也都相等,从而保证抽样方法的公平性.判断一个抽样是否为简单随机抽样,只要看是否符合以上四个特点即可.
[通一类]
1.下列抽取样本的方法属于简单随机抽样的是________.
①从无限多个个体中抽取100个个体作为样本;
②盒子里有80个零件,从中选出5个零件进行质量检验,在抽样时,从中任意拿出一个零件进行检验后,再把它放回盒子里;
③从8台电脑中不放回地随机抽取5台进行质量检验(假设8台电脑已编好号,对编号随机抽取).
解析:
选项 判断 原因分析
① 否 总体中个体有无限多个,不符合“有限”的特点
② 否 是有放回的抽样,不符合“不放回”的特点
③ 是 符合简单随机抽样的特点
答案:③
[研一题]
[例2] 学校举办元旦晚会,需要从每班选10名男生,8名女生参加合唱节目,某班有男生32名,女生28名,试用抽签法确定该班参加合唱的同学.
[自主解答] 第一步,将32名男生从0到31进行编号.
第二步,用相同的纸条制成32个号签,在每个号签上写上这些编号.
第三步,将写好的号签放在一个容器内摇匀,不放回地逐个从中抽出10个号签.
第四步,相应编号的男生参加合唱.
第五步,用相同的办法从28名女生中选出8名,则此8名女生参加合唱.
[悟一法]
1.一个抽样试验能否用抽签法,关键看两点:一是制签是否方便,二是号签是否容易被搅匀.
2.一般地,当总体容量和样本容量都较小时可用抽签法,若总体容量非常大,那就费时、费力又不方便,万一搅拌不均匀有失公平性,从而产生坏样本(代表性差的样本)的可能性增加.
[通一类]
2.某师范大学为支援西部教育事业发展,计划从应届毕业生中选出一批志愿者.现从符合报名条件的18名志愿者中,选取6人组成志愿小组,请用抽签法设计抽样方案.
解:第一步,将18名志愿者编号,号码为:01,02,03,…,18.
第二步,将号码分别写在18张形状、大小、质地都相同的纸条上,揉成团,制成号签.
第三步,将制好的号签放入一个不透明的袋子中,并搅拌均匀.
第四步,从袋子中依次抽取6个号签,并记录上面的编号.
第五步,所得号码对应的志愿者就是志愿小组的成员.
[研一题]
[例3] 某单位有老年职工30人,中年职工50人,青年职工40人.若分别从老年职工、中年职工、青年职工中随机抽取3人、5人、4人举行会议.请用随机数表法抽取样本,并写出抽样过程.
[自主解答] 随机数法:
第一步 对职工编号.老年职工的编号为001,002,…,030;中年职工的编号为031,032,…,080;青年职工的编号为081,…,120;
第二步 在随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第15行第6个数“1”,向右读;
第三步 从数字“1”开始,向右读,每次读取三位,凡不在001~120中的数跳过去不读,前面已经读过的也跳过去不读,从001~030中选3个号码,从031~080中选5个号码,从081~120中选4个号码,依次可得到071,114,058,094,003,047,013,060,024,093,034,062;
第四步 对应003,013,024找出老年职工代表;对应071,058,047,060,034找出中年职工代表;对应114,094,093,082找出青年职工代表.
[悟一法]
利用随机数表法抽取个体时,事先应确定以表中的哪个数(哪行哪列)作为起点,以及读数的方向(向左、向右、向上或向下都可以).读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.
[通一类]
3.现有120台机器,请用随机数表法抽取10台机器,写出抽样过程.
解:使用随机数表法步骤如下:
第一步,先将120台机器编号,可以编为000,001,002,…,119;
第二步,在随机数表中任选一个数作为开始,任选一个方向作为读数方向,例如选出第9行第6列的数1,向右读;
第三步,从选定的数1开始向右读,每次读取三位,凡不在000~119中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到111,024,042,019,058,005,002,054,115,062;
第四步,以上这10个号码所对应的10台机器就是要抽取的对象.
某校有学生1 200人,为了调查某种情况,打算抽取一个样本容量为50的样本,问此样本若采用简单随机抽样将如何进行?
[解] 法一:抽签法
首先将该校学生都编上号码:0 001,0 002,…,1 200,然后做1 200个形状、大小相同的号签,然后将这些号签放在一个不透明容器中,均匀搅拌后,每次从中抽取一个号签,连续抽取50次,就得到一个容量为50的样本.
法二:随机数法
首先将该校学生都编上号码:0 001,0 002,0 003,…,1 200,然后在随机数表中选定一个数,如第5行第9列的数字6,从6开始向右连续读取数字,以4个数为一组,凡不在0 001~1 200中的数跳过去不读,前面已经读过的也跳过去不读,一直取足50人为止.
1.下列抽样方法是简单随机抽样的是( )
A.从50个零件中一次性抽取5个做质量检验
B.从50个零件中有放回地抽取5个做质量检验
C.从实数集中随机抽取10个分析奇偶性
D.运动员从8个跑道中随机抽取一个跑道
解析:A不是,因为是一次性抽样;B不是,因为是有放回抽样;C不是,因为实数集是无限集.
答案:D
2.下列抽样实验中,适合用抽签法的有( )
A.从某厂生产的3 000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
D.从某厂生产的3 000件产品中抽取10件进行质量检验
解析:A、D中个体的总数较大,不适于用抽签法;C中甲、乙两厂生产的两箱产品性质可能差别较大,因此未达到搅拌均匀的条件,也不适于用抽签法;B中个体数和样本容量均较小,且同厂生产的两箱产品,性质差别不大,可以看成是搅拌均匀了.
答案:B
3.某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法( )
①1,2,3,…,100;
②001,002,…,100;
③00,01,02,…,99;
④01,02,03,…,100.
其中正确的序号是( )
A.②③④ B.③④
C.②③ D.①②
解析:根据随机数法编号可知,①④编号位数不统一.
答案:C
4.用随机数法进行抽样,有以下几个步骤:
①将总体中的个体编号;
②读数获取样本号码;
③选定开始的数字.
这些步骤的先后顺序应该是________(填序号).
答案:①③②
5.某种福利彩票的中奖号码是从号码1~36中选出7个号码来确定的,这种从36个号码中选7个号码的抽样方法是________.
答案:抽签法
6.某老师在课堂上对全班同学进行了两次模拟抽样,第一次采用抽签法,第二次采用随机数法.在这两次抽样中,小明第一次被抽到了,第二次没有被抽到.那么用这两种方法抽样时,小明被抽到的可能性一样吗?
解:虽然都是简单随机抽样,但是每次抽出的结果可能会不相同,被抽到的可能性不是看最终结果,而是看在抽样前被抽到的可能性是不是相同,这主要取决于抽样是不是随机的,只要没有人为因素的干扰,在两次抽样中,小明被抽到的可能性都是一样的.
一、选择题
1.抽签法中确保样本代表性的关键是( )
A.抽签 B.搅拌均匀
C.逐一抽取 D.抽取不放回
解析:逐一抽取,抽取不放回是简单随机抽样的特点,但不是确保样本代表性的关键,一次抽取与有放回抽取(个体被重复取出可不算再放回)也不影响样本的代表性,抽签也一样.
答案:B
2.下列问题中,最适合用简单随机抽样的是( )
A.某电影院有32排座位,每排有40个座位,座位号是1~40.有一次报告会坐满了听众,报告会结束以后为听取意见,要留下32名听众进行座谈
B.从10台冰箱中抽出3台进行质量检查
C.某学校有在编人员160人,其中行政人员16人,教师112人,后勤人员32人.教育部门为了了解学校机构改革意见,要从中抽取一个容量为20的样本
D.某乡农田有山地8 000亩,丘陵12 000亩,平地24 000亩,洼地4 000亩,现抽取农田480亩估计全乡农田平均产量
解析:根据简单随机抽样的特点进行判断.A的总体容量较大,用简单随机抽样比较麻烦;B的总体容量较小,用简单随机抽样比较方便;C中,由于学校各类人员对这一问题的看法可能差异很大,不宜采用简单随机抽样;D中,总体容量较大,且各类田地的产量差别很大,也不宜采用简单随机抽样法.
答案:B
3.从10个篮球中任取一个,检查其质量,用随机数法抽取样本,则应编号为( )
A.1,2,3,4,5,6,7,8,9,10
B.-5,-4,-3,-2,-1,0,1,2,3,4
C.10,20,30,40,50,60,70,80,90,100
D.0,1,2,3,4,5,6,7,8,9
解析:用随机数法抽取样本,为了方便读数,所编的号码的位数尽量少,且所有号码的位数相同.
答案:D
4.在简单随机抽样中,某一个个体被抽到的可能是( )
A.与第n次抽样有关,第一次被抽中的可能性大些
B.与第n次抽样有关,最后一次被抽中的可能性较大
C.与第n次抽样无关,每次被抽中的可能性相等
D.与第n次抽样无关,每次都是等可能被抽取,但各次被抽取的可能性不一样
解析:在总体中抽取一个个体时,各个个体被抽取的可能性相等,而且在整个抽样过程中,各个个体被抽取的可能性也相等.
答案:C
5.某中学高一年级有400人,高二年级有320人,高三年级有280人,若每人被抽到的概率都为0.2,用随机数表法在该中学抽取容量为n的样本,则n=( )
A.80 B.160
C.200 D.280
解析:由=0.2,
解得n=200.
答案:C
二、填空题
6.一个总体的60个个体编号为00,01,…,59,现需从中抽取一容量为8的样本,请从随机数表的倒数第5行(下表为随机数表的最后5行)第11列开始,向右读取,直到取足样本,则抽取样本的号码是________.
95 33 95 22 00 18 74 72 00 18 38 79 58 69 32 81 76 80 26 92 82 80 84 25 39
90 84 60 79 80 24 36 59 87 38 82 07 53 89 35 96 35 23 79 18 05 98 90 07 35
46 40 62 98 80 54 97 20 56 95 15 74 80 08 32 16 46 70 50 80 67 72 16 42 79
20 31 89 03 43 38 46 82 68 72 32 14 82 99 70 80 60 47 18 97 63 49 30 21 30
71 59 73 05 50 08 22 23 71 77 91 01 93 20 49 82 96 59 26 94 66 39 67 98 60
解析:由随机数法的抽取规则可得.
答案:18,00,38,58,32,26,25,39
7.为了检验某种产品的质量,决定从1 001件产品中抽取10件进行检查,用随机数法抽取样本的过程中,所编的号码的位数是________.
解析:由于所编号码的位数和读数的位数要一致,因此所编号码是四位数,从0000到1 000,或者从0001到1001等等.
答案:四
8.从一群玩游戏的小孩中随机抽出k人,一人分一个桃子后,让他们返回继续玩游戏,一会儿后,再从中任意抽出m人,发现其中有n个小孩曾分过桃子,估计一共有小孩子________人.
解析:估计一共有小孩x人,则有=,
∴x=.
答案:
三、解答题
9.从90件产品中抽取12件进行质检,写出用随机数表法抽取这一样本的过程.
解:第一步 对90件产品按00,01,02,…,89进行编号.
第二步 在随机数表中随机地确定一个数作为开始,如第6行第3列的数3.
第三步 从数3开始向右读下去,每次读两位,若遇到不在00到89中的数则跳过去,遇到已读过的数也跳过去,便可依次得到35,79,00,33,70,60,16,20,38,82,77,57.
第四步 取与这12个数相对应的产品组成样本.
10.公共汽车管理部门要考察一下其所管辖的30辆公共汽车的卫生状况,现决定从中抽取10辆进行检查.如果以抽签法做实验,请叙述具体的做法;如果该管理部门管辖的是70辆车,利用随机数法抽取一个简单随机样本,样本容量为30.
解:(1)抽签法的步骤:
第一步 编号.给所管辖的30辆车编号;
第二步 定签.可以用各种不同的签,最简单的可以用纸条,将30辆车的编号写在纸条上;
第三步 抽取.将纸条混合均匀,依次随机地抽取10个;
第四步 调查.调查抽出的纸条所对应的车辆.
(2)随机数法的步骤:
第一步 编号.将70辆车编上号:00,01,02,…,69;
第二步 选数.由于总体是一个两位数的编号,所以从随机数表中随机选取一个位置开始,向某一方向依次选取两位数字,大于69的舍去,重复的舍去,直到取满30个数为止;
第三步 调查.调查抽出的数所对应的车辆.[读教材·填要点]
1.回归直线
如果两个变量散点图中点的分布从整体上看大致在一条直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
2.最小二乘法
求线性回归方程y=bx+a时,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.其中a,b的值由以下公式给出:
,a=-ba,b是线性回归方程的系数.
[小问题·大思维]
1.任给一组数据,我们都可以由最小二乘法得出线性回归方程吗?
提示:用最小二乘法求回归直线的方程的前提是先判断所给数据具有线性相关关系(可利用散点图判断).否则求出的线性回归方程是无意义的.
2.线性回归方程是否经过一定点?
提示:线性回归方程恒过定点(,).
[研一题]
[例1] 下表是某旅游区游客数量与平均气温的对比表:
平均气温(℃) -1 4 10 13 18 26
数量(百个) 20 24 34 38 50 64
若已知游客数量与平均气温是线性相关的,求线性回归方程.
[自主解答] ==,==,
x+x+…+x
=1+16+100+169+324+676=1 286,
x1y1+x2y2+…+x6y6=-20+96+340+13×38+18×50+26×64=3 474.
b==≈1.68,
a=-b≈18.73,
即所求的线性回归方程为y=1.68x+18.73.
[悟一法]
[通一类]
1.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x 6 8 10 12
y 2 3 5 6
已知记忆力x和判断力y是线性相关的,求线性回归方程.
解:==9,==4,
x=62+82+102+122=344,
xiyi=6×2+8×3+10×5+12×6=158,
b===0.7,
a=-b=4-0.7×9=-2.3.
则所求的线性回归方程为y=0.7x-2.3.
[研一题]
[例2] 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求线性回归方程;
(3)预测当广告费支出为7百万元时的销售额.
[自主解答] (1)
(2)从散点图可以发现,y与x具有线性相关关系,利用计算器求得:
=5,=50,x=145,xiyi=1 380,
设回归方程为y=bx+a,则
b===6.5,
a=-b=50-6.5×5=17.5,故所求线性回归方程为y=6.5x+17.5.
(3)当x=7时,y=6.5×7+17.5=63.
所以,当广告费支出为7百万元时,销售额约为6 300万元.
[悟一法]
用线性回归方程估计总体的一般步骤:
(1)作出散点图,判断散点是否在一条直线附近;
(2)如果散点在一条直线附近,用公式求出a、b并写出线性回归方程;
(3)根据线性回归方程对总体进行估计.
[通一类]
2.假设关于某设备的使用年限x和所支出的维修费用y(单位:万元)有如下的统计资料:
使用年限x 2 3 4 5 6
维修费用y 2.2 3.8 5.5 6.5 7.0
若由资料知y对x呈线性相关关系,试求:
(1)回归方程y=bx+a的系数a,b;
(2)使用年限为10年时,试估计维修费用是多少.
解:(1)列表如下:
i 1 2 3 4 5
xi 2 3 4 5 6
yi 2.2 3.8 5.5 6.5 7.0
xiyi 4.4 11.4 22.0 32.5 42.0
x 4 9 16 25 36
=4,=5,x=90,xiyi=112.3
b===1.23,
a=-b=5-1.23×4=0.08.
(2)回归方程是y=1.23x+0.08,
当x=10时,y=1.23×10+0.08=12.38(万元),
即估计使用10年时维修费用是12.38万元.
有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:
人均GDP(万元) 10 8 6 4 3 1
患白血病的儿童数 351 312 207 175 132 180
(1)画出散点图,并判定两个变量是否具有线性相关关系;
(2)通过计算可得两个变量的线性回归方程为y=23.25x+102.25,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
[错解] (1)根据表中数据画散点图,如图所示,从图可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系.
(2)将x=12代入y=23.25x+102.25,得y=23.25×12+102.25=381.25>380,所以上述断言是正确的.
[错因] 在第(1)问中,是否具有线性相关关系,要看大部分点、主流点是否分布在一条直线附近,个别点是不影响“大局”的,所以可断定这两个变量具有线性相关关系.在第(2)问中,381.25只是一个估计值,由它不能断言这个城市患白血病的儿童一定超过380人.如果这个城市的污染很严重,有可能人数远远超过380,若这个城市的环境保护的很好,则人数就有可能远远低于380.
[正解] (1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.
(2)将x=12代入y=23.25x+102.25,得y=23.25×12+102.25=381.25>380,即便如此,但因381.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人.
1.已知x与y之间的一组数据:
x 0 1 2 3
y 1 3 5 7
则y与x的线性回归方程y=bx+a必过点( )
A.(2,2) B.(1.5,0)
C.(1,2) D.(1.5,4)
解析:==1.5,==4.
答案:D
2.工人工资y(元)依劳动生产率x(千元)变化的回归直线方程为y=80x+50,则下列判断正确的是( )
A.劳动生产率为1 000元时,工资为130元
B.劳动生产率提高1 000元时,工资约提高80元
C.劳动生产率提高1 000元时,工资约提高130元
D.当月工资210元时,劳动生产率为2 000元
解析:回归直线的斜率为80,所以x每增加1个单位,y约增加80,即劳动生产率提高1000元时,工资提高约80元.
答案:B
3.下表是某厂1到4月份用水量情况(单位:百吨)的一组数据:
月份x 1 2 3 4
用水量y 4.5 4 3 2.5
用水量y与月份x之间具有线性相关关系,其线性回归方程为y=-0.7x+a,则a的值为( )
A.5.25 B.5
C.2.5 D.3.5
解析:=2.5,=3.5,代入回归方程,得3.5=-0.7×2.5+a,∴a=5.25.
答案:A
4.某商店统计了最近6个月某商品的进价x与售价y(单位:元)的对应数据如下:
x 3 5 2 8 9 12
y 4 6 3 9 12 14
则=________,=________,=________,
iyi=________,回归方程为________.
解析:根据公式代入即可求得,也可以利用计算器求得=6.5,=8,=327,iyi=396,
回归方程为y=1.14x+0.59.
答案:6.5 8 327 396 y=1.14x+0.59
5.某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃) 18 13 10 -1
用电量(度) 24 34 38 64
由表中数据得线性回归方程y=bx+a中b=-2,预测当气温为-4℃时,用电量的度数约为________.
解析:==10,==40,则a=-b =40+2×10=60,则y=-2x+60,则当x=-4时,y=-2×(-4)+60=68.
答案:68
6.下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:
x 3 4 5 6
y 2.5 3 4 4.5
(1)请画出上表中数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
解:(1)散点图如图所示.
(2)由对照数据,计算得:
x=86,==4.5,
==3.5.
又已知xiyi=66.5,
∴b===0.7,
a=-b=3.5-0.7×4.5=0.35.
∴所求的线性回归方程为y=0.7x+0.35.
(3)90-(0.7×100+0.35)=19.65(吨标准煤),
故生产100吨甲产品的生产能耗比技改前降低19.65吨标准煤.
一、选择题
1.设有一个回归方程y=2-1.5x,当x增加1个单位时( )
A.y平均增加1.5个单位
B.y平均减少1.5个单位
C.y平均增加2个单位
D.y平均减少2个单位
解析:y′=2-1.5(x+1)=2-1.5x-1.5=y-1.5,即x增加1个单位,y平均减少1.5个单位.
答案:B
2.对有线性相关关系的两个变量建立的线性回归方程y=a+bx中,回归系数b( )
A.可以小于0 B.只能大于0
C.只能等于0 D.只能小于0
解析:∵b=,∴b的取值是任意的.
答案:A
3.由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)得到线性回归方程y=bx+a,那么下面说法不正确的是( )
A.直线y=bx+a必经过点(,)
B.直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.直线y=bx+a的斜率为
D.直线y=bx+a与各点(x1,y1),(x2,y2),…,(xn,yn)的接近程度yi-(bxi+a)]2是该坐标平面上所有直线与这些点的最接近的直线
解析:直线y=bx+a一定过点(,),但不一定要过样本点.
答案:B
4.(2012·湖南高考)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79 kg,故D不正确.
答案:D
5.(2011·山东高考)某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:容易计算得=3.5,=42,故a=-b=42-9.4×3.5=9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5(万元).
答案:B
二、填空题
6.(2011·辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元).调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:由回归直线方程的意义知,x每增加1万元,y平均增加0.254万元.
答案:0.254
7.对一质点的运动过程观测了4次,得到如下表所示的数据,则刻画y与x的关系的线性回归方程为____________.
x 1 2 3 4
y 1 3 5 6
解析:=2.5,=3.75,xiyi=46,x=30,
b==1.7,a=-b=-0.5,
所以所求的线性回归方程为:y=1.7x-0.5.
答案:y=1.7x-0.5
8.(2011·广东高考)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:
时间x 1 2 3 4 5
命中率y 0.4 0.5 0.6 0.6 0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
解析:小李这5天的平均投篮命中率为(0.4+0.5+0.6+0.6+0.4)÷5=0.5.
又=3,=0.5,
由表中数据,得b=0.01,
a=-b=0.47,
故回归直线方程为y=0.01x+0.47.
令x=6,则有y=0.01×6+0.47=0.53.
答案:0.5 0.53
三、解答题
9.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量(单位:千克)影响的试验,得到如下一组数据:
施化肥量 15 20 25 30 35 40 45
水稻产量 330 345 365 405 445 450 455
(1)作出这些数据的散点图;
(2)由(1)分析两变量关系得出什么结论?
(3)求出回归直线方程.
解:(1)如图所示.
(2)由(1)可看出,各点散布在从左下角到右上角的区域内,为正相关,也可以说在适量限制范围内水稻产量随施肥量的增大而增大,但不是直线递增.
(3)用科学计算器可求得=30,=399.3,x=7 000,xiyi=87 175.于是
b==≈4.75.a=-b=399.3-4.75×30≈257.因此所求回归直线方程为y=4.75x+257.
10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元) 8 8.2 8.4 8.6 8.8 9
销量y(件) 90 84 83 80 75 68
(1)求回归直线方程=bx+a,其中b=-20,a=-b;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=(x1+x2+x3+x4+x5+x6)=8.5,
=(y1+y2+y3+y4+y5+y6)=80.
所以a=-b=80+20×8.5=250,从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-20(x-)2+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.[读教材·填要点]
1.统计图表
统计图表是表达和分析数据的重要工具,它不仅可以帮助我们从数据中获取有用的信息,还可以帮助我们直观、准确地理解相应的结果.统计图表有:条形统计图、扇形统计图、折线统计图、茎叶图.
2.茎叶图
用茎叶图表示数据的优、缺点:
(1)优点:一是茎叶图上没有信息的损失,所有的原始数据都可以从茎叶图中得到;二是茎叶图可以随时记录,方便表示与比较.
(2)缺点:当数据量很大或有多组数据时,茎叶图就不那么直观、清晰了.
[小问题·大思维]
问题1::茎叶图的茎和叶各表示什么?
提示:一般地说,数据是两位数时,十位上数字为“茎”,个位数字为“叶”,如果是小数时,通常把整数部分作为“茎”,小数部分作为“叶”.
问题2:茎叶图的运用范围是什么?
提示:茎叶图只适用于样本数据较少的情况.
[研一题]
[例1] 据2011年4月份的《生活报》报道,某省有关部门要求各中小学要把“每天锻炼一小时”写入课程表,为了响应这一号召,某校围绕着“你最喜欢的体育活动项目是什么?(只写一项)”的问题,对在校学生进行了随机抽样调查,从而得到一组数据.图1是根据这组数据绘制的条形统计图.请结合统计图回答下列问题:
(1)该校对多少名学生进行了抽样调查?
(2)本次抽样调查中,最喜欢篮球活动的有多少人?占被调查人数的百分比是多少?
(3)若该校九年级共有200名学生,图2是根据各年级学生人数占全校学生总人数的百分比绘制的扇形统计图,请你估计全校学生中最喜欢跳绳活动的人数约为多少?
[自主解答] (1)由图1知:4+8+10+18+10=50(名).
即该校对50名学生进行了抽样调查.
(2)本次调查中,最喜欢篮球活动的有18人,×100%=36%.
即最喜欢篮球活动的人数占被调查人数的36%.
(3)1-(30%+26%+24%)=20%,
200÷20%=1000(人),
×1000=160(人).
即估计全校学生中最喜欢跳绳活动的人数约为160人.
[悟一法]
(1)条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按照一定的顺序排列起来.其特点是便于看出和比较各种数量的多少,即条形统计图能清楚地表示出每个项目的具体数目.
(2)扇形统计图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各部分所占总数的百分数.总之,用统计图来表示数量关系更生动形象、具体,使人一目了然.
[通一类]
1.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,根据扇形统计图的情况可以知道丙、丁两组人数和为( )
A.250 B.150
C.400 D.300
解析:甲组人数是120,占30%,则总人数为=400;
乙组人数是400×7.5%=30,则丙、丁两组人数和为400-120-30=250.
答案:A
2.某班计划开展一些课外活动,全班有40名学生报名参加,他们就乒乓球、足球、跳绳、羽毛球等4项活动的参加人数做了统计,绘制了条形统计图(如图所示),那么参加羽毛球活动的人数的频率是________.
解析:参加羽毛球活动的人数是4,
则频率是=0.1.
答案:0.1
[研一题]
[例2] 下表给出了2012年A、B两地的降水量(单位:mm):
1月 2月 3月 4月 5月 6月
A 9.2 4.9 5.4 18.6 38.0 106.3
B 41.4 53.3 178.8 273.5 384.9 432.4
7月 8月 9月 10月 11月 12月
A 54.4 128.9 62.9 73.6 26.2 10.6
B 67.5 228.5 201.4 147.3 28.0 19.1
根据统计表绘制折线统计图.
[自主解答] 建立直角坐标系,用横坐标上的点表示月份,用纵坐标上的点表示降水量,描出每个月份对应的点,然后用直线段顺次连结相邻点,得到折线统计图如图表示.
其中虚线为B地降水量,实线为A地降水量.
[悟一法]
在绘制折线统计图时,可以先整理和观察数据统计表,建立直角坐标系,用两坐标轴上的点分别表示数据,再描出数据的相应点,顺次连结相邻的点,得到一条折线.特别注意,画折线统计图时,横轴、纵轴表示的实际含义要标明确.
[通一类]
3.如图是某市2013年4月1日至4月7日每天最高、最低气温的折线统计图,在这7天中,日温差最大的一天是( )
A.4月1日 B.4月2日
C.4月3日 D.4月5日
解析:由折线图可以看出,该市日温差最大的一天是4月5日.
答案:D
[研一题]
[例3] 某良种培育基地正在培育一种小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:
品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,
443,445,445,451,454;
品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,
410,412,415,416,422,430.
(1)试用茎叶图表示上面的数据;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
[自主解答](1)茎叶图如图所示.
A B
9 7 35
8 7 36 3
5 37 1 4
8 38 3 5 6
9 2 39 1 2 4 4 5 7 7
5 0 40 0 1 1 3 6 7
5 4 2 41 0 2 5 6
7 3 3 1 42 2
4 0 0 43 0
5 5 3 44
4 1 45
(2)用茎叶图处理现有的数据不仅可以看出数据的分布状况,而且可以看出每组中的具体数据.
(3)通过观察茎叶图,可以发现品种A的产量在420千克以上的亩数比品种B多10亩,而且品种A的产量在390千克以下的亩数与品种B一样多,由此可知,品种A的平均亩产量比品种B的平均亩产量高.但品种A的亩产量不够稳定,而品种B的亩产量比较集中,所以品种B的亩产量比较稳定.
[悟一法]
1.茎叶图适用于样本数据较少,且数位基本相同的情形,三位数以上的数据不太方便,当叶中数据重复时,一定要重复记录.
2.茎叶图由所有数据构成,没有损失任何样本信息.可以在抽样过程中随时记录,特别适合体育活动中的数据统计.
[通一类]
4.某中学甲、乙两名同学最近几次的数学考试成绩情况如下:
甲的得分:95,81,75,89,71,65,76,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
甲 乙
5 6
6 5 1 7 9
9 8 1 8 3 6 8
5 4 9 3 8 8 9
7 10 1 3
0 11 4
解:甲、乙两人数学成绩的茎叶图如图所示.
从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,大多集中
在80~100之间,中位数是98分;
甲同学的得分情况除一个特殊得分外,也大致对称,多集中在70~90之间,中位数是88分,但分数分布相对于乙来说,趋向于低分阶段.
因此,乙同学发挥比较稳定,总体得分情况比甲同学好.
为了了解各自受顾客欢迎的程度,甲、乙两个商店分别随机选取了14天记录下上午9∶00~10∶00间各自的顾客人数.
甲:73,24,58,72,64,38,66,70,20,41,55,67,8,25;
乙:12,37,21,5,54,52,61,45,19,6,19,36,42,14.
你能用哪些方法表示上面的数据?你认为甲、乙两个商店哪个更受顾客欢迎?
[解] 法一:列频数统计表如下:
顾客人数的范围 甲的频数 乙的频数
0~10 1 2
10~20 0 4
顾客人数的范围 甲的频数 乙的频数
20~30 3 1
30~40 1 2
40~50 1 2
50~60 2 2
60~70 3 1
70~80 3 0
法二:甲、乙分别列频率分布表如下:
甲商店顾客人数的范围 频数 频率
0~10 1 0.071
10~20 0 0.000
20~30 3 0.214
30~40 1 0.071
40~50 1 0.071
50~60 2 0.143
60~70 3 0.214
70~80 3 0.214
合计 14 1.000
乙商店顾客人数的范围 频数 频率
0~10 2 0.143
10~20 4 0.286
20~30 1 0.071
30~40 2 0.143
40~50 2 0.143
50~60 2 0.143
60~70 1 0.071
70~80 0 0.000
合计 14 1.000
法三:画出茎叶图如图所示.
甲 乙
8 0 5 6
1 2 4 9 9
5 4 0 2 1
8 3 6 7
1 4 2 5
8 5 5 2 4
7 6 4 6 1
3 2 0 7
由以上各种方法,比较各自的优劣可见,甲商店的中位数是56.5,且在此处波动,乙商店的中位数是28.5,波动较大,因此甲商店更受顾客欢迎.
1.如图所示是某校高一年级学生到校方式的条形统计图,根据图形可得出骑自行车人数占高一年级学生总人数的( )
A.20% B.30%
C.50% D.60%
解析:某校高一年级学生总数为60+90+150=300(人)
骑自行车人数为90人.骑自行车人数占高一年级学生总数的百分比为×100%=30%.
答案:B
2.如图是2010年各级学校每10万人口中平均在校生的人数扇形统计图,则下列结论正确的是( )
A.2010年有6%的高中生升入高等学校
B.2010年全国高等学校在校生6 000人
C.2010年各级学校10万人口中平均在校生数高等学校学生占6%
D.2010年高等学校的学生比高中阶段的学生多
解析:由扇形统计图可以看出,2010年各级学校每10万人口中平均在校生的人数所占的百分比分别为:幼儿园占8%,高等学校占6%,高中阶段占12%,初中阶段占26%,小学占48%,A项中应是高等学校在校学生.B项中6 000人应是平均数,D项显然错误.
答案:C
18 0 1
17 0 3 x 8 9
3.一次选拔运动员,测得7名选手的身高(单位:cm)分布
茎叶图如图,测得平均身高为177 cm,有一名候选人的身高记录不清楚,其末位数记为x,那么x的值是( )
A.5 B.6
C.7 D.8
解析:180+181+170+173+178+179+170+x=177×7,即1 231+x=1 239,解得x=8.
答案:D
4.如图是华联商厦某个月甲、乙、丙三种品牌彩电的销售量统计图,则甲、丙两种品牌彩电该月的销售量之和为________.
解析:由图可知,甲品牌该月的销售量为45台,丙品牌该月的销售量为30台.
答案:75
5.甲、乙两个班级各随机选出15名同学进行随堂测验,成绩的茎叶图如图所示,则甲班的最高成绩是________,乙班的最低成绩是________.
甲 乙
6 4
8 5 7
9 7 4 4 1 6 2 5 9
8 7 6 4 2 1 7 2 5 7 8 9
4 8 1 4 4 7 9
6 9 2
解析:由茎叶图可知,甲班的最高分为96,乙班的最低分是57.
答案:96 57
6.2010年全国硕士研究生的报考热门专业的统计数据如下表所示:
专业名称 2010报考人数
企业管理 164 200
法律硕士 95 500
MBA 139 200
英语语言文学 126 600
金融 128 000
计算机应用技术 81 400
会计学 76 300
管理科学与工程 72 300
设计艺术 72 100
2010年全国硕士研究生招生报考人数为127.5万,你能用不同的方式分别表示2010年各热门专业的报考情况吗?
解:从表中的数据不易直接看出各自的分布情况,为此我们可以用条形统计图、扇形统计图两种不同的方式进行表示.
可用如图(1)所示的条形统计图表示2010年各热门专业的报考情况,还可以用如图(2)所示的扇形统计图来表示2010年各热门专业的报考情况.
一、选择题
1.下面哪种统计图没有数据信息的损失,所有的原始数据都可以从该图中得到( )
A.条形统计图 B.茎叶图
C.扇形统计图 D.折线统计图
解析:所有的统计图中,仅有茎叶图完好无损地保存着所有的数据信息.
答案:B
2.某班学生在课外活动中参加文娱、美术、体育小组的人数之比为3∶1∶6,则在扇形统计图中表示参加体育小组人数的扇形圆心角是( )
A.108° B.216°
C.60° D.36°
解析:参加体育小组人数占总人数的=60%,则扇形圆心角是360°×60%=216°.
答案:B
3.如图是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知( )
甲 乙
0 8 9
5 0 1 2 4 7 8
3 2 2 1 9 9
8 7 5 4 2 1 3 3 6 8
9 4 4 4 1
1 5 2
A.甲运动员的成绩好于乙运动员
B.乙运动员的成绩好于甲运动员
C.甲、乙两名运动员的成绩没有明显的差异
D.甲运动员的最低得分为0分
解析:从这个茎叶图可以看出甲运动员的得分大致对称,平均得分及中位数都是30多分;乙运动员的得分除一个52外,也大致对称,平均得分及中位数都是20多分.因此,甲运动员发挥比较稳定,总体得分情况比乙好.
答案:A
4.某同学对高一(1)班和高一(2)班两个班级今年的获奖情况进行了统计,制成两个统计图(如图所示),你认为哪个图比较恰当( )
A.①恰当 B.②恰当
C.①②都恰当 D.①②都不恰当
解析:图②较恰当.由图②我们可以很清楚地看出运动类的奖品(1)班比(2)班多一些,而学习类的奖品(1)班比(2)班少一些.
答案:B
5.2013年某学科能力测试共有12万考生参加,成绩采用15级分,测试成绩分布图如下:试估计成绩高于11级分的人数为( )
A.8 000 B.10 000
C.20 000 D.60 000
解析:由题意结合条形图分析得成绩高于11级分的考生数的百分比大约为(2.3+3.5+0.9+1.7)%=8.4%,所以考生大约为:8.4%×120 000=10 080(人).故最接近的人数为10 000.
答案:B
二、填空题
6.某校高一(1)班有50名学生,综合素质评价“运动与健康”方面的等级统计如图所示,则该班“运动与健康”评价等级为A的人数是________.
解析:由扇形图可知:评价等级为A的人数占总人数的38%,由此可知高一(1)班的50名学生中有50×38%=19人在该等级中.
答案:19
7.在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________,________.
甲 乙
8 2 9
9 1 3 4 5
2 5 4 8 2 6
7 8 5 5 3 5
6 6 7
解析:甲组数据为:28,31,39,42,45,55,57,58,66,中位数为45;
乙组数据为:29,34,35,42,46,48,
53,55,67,中位数为46.
答案:45 46
8.某校为了了解学生的睡眠情况,随机调查了50名学生,得到他们在某一天各自的睡眠时间的数据,结果用如图所示的条形图表示.根据条形图可得这50名学生这一天平均每人的睡眠时间为________ h.
解析:法一:要确定这50名学生的平均睡眠时间,就必须计算其总睡眠时间.总睡眠时间为5.5×0.1×50+6×0.3×50+6.5×0.4×50+7×0.1×50+7.5×0.1×50=27.5+90+130+35+37.5=320.
故平均睡眠时间为320÷50=6.4 (h).
法二:根据图形得平均每人的睡眠时间为
t=5.5×0.1+6×0.3+6.5×0.4+7×0.1+7.5×0.1=6.4(h).
答案:6.4
三、解答题
9.某赛季甲、乙两名篮球运动员每场比赛得分原始记录如下:
甲运动员的得分:13,23,8,26,38,16,33,14,28,39;
乙运动员的得分:49,24,12,31,50,44,15,25,36,31.
用茎叶图将甲、乙运动员的成绩表示出来.
解:制作茎叶图的方法是:将所有的两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.
甲、乙运动员的得分茎叶图如图.
甲 乙
8 0
6 4 3 1 2 5
8 6 3 2 4 5
9 8 3 3 1 1 6
4 4 9
5 0
10.某地农村某户农民年收入如下(单位:元):
土地收入 打工收入 养殖收入 其他收入
4 320 3 600 2 357 843
请用不同的统计图来表示上面的数据.
解:用条形统计图表示,如图所示.
用折线统计图表示,如图所示.
用扇形统计图表示,如图所示.[读教材·填要点]
1.普查
(1)普查的定义:
普查是指一个国家或一个地区专门组织的一次性大规模的全面调查,目的是为了详细地了解某项重要的国情、国力.
(2)普查的特点:
①所取得的资料更加全面、系统;
②主要调查在特定时段的社会经济现象总体的数量.
2.抽样调查
(1)抽样调查的定义:
通常情况下,从调查对象中按照一定的方法抽取一部分,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断,这就是抽样调查.其中,调查对象的全体称为总体,被抽取的一部分称为样本.
(2)抽样调查的优点:
①迅速、及时;
②节约人力、物力和财力.
[小问题·大思维]
1.普查与抽样调查有哪些区别?
提示:①普查是对总体中每个个体进行调查,范围广、数据详细,工作量大;而抽样调查范围有局限性,数据不全面,工作量小;②当受客观条件限制,无法对所有个体进行普查时,往往采用抽样调查;③当调查具有破坏性时,就不允许普查.
2.质检中心要对某工厂生产的袋装牛奶进行质量检验,已知该工厂有2条生产线,每条生产线每天可生产牛奶12 000袋.质检中心委派3人承担该任务,问有无必要对每袋进行检验?你认为按一定的时间间隔抽取其中一小部分进行检验合理吗?
提示:没有必要;合理.
[研一题]
[例1] 假设你是一名食品卫生工作人员,要对某食品店的一批小包装饼干进行卫生达标检验,你准备怎样做?应当怎样获取样本?为什么?
[自主解答] 应该用抽样调查的方法对该批小包装饼干进行卫生达标检验,在抽样的过程中要注意以下几点:
(1)采用普查的方法来检验食品是否卫生达标是不合适的.因为这里检查的目的是决定是否让这批小包装饼干出售,而普查的结果却使得这批小包装饼干完全不能出售,与检查的目的相违背.
一般地,如果检验对检验对象具有破坏性,则需要通过抽样调查来推断总体的特征.
(2)抽样调查时,不能只图方便,如果只从一些容易取到的个体中抽取样本,那么所得到的样本只是一个“方便样本”,它的代表性差,得出的结论可能与事实相违背.
[悟一法]
1.要明确普查与抽样调查的优缺点,尤其在抽样调查中要注意以下事项:
(1)样本抽取具有随机性:即在抽取样本时总体的每个个体被抽到的可能性相等.
(2)样本抽取具有代表性:当总体数目较大且个体有明显差异时,要特别注意样本的代表性.
2.普查与抽样调查的特点:
方式 抽样调查 普查
特 点 节省人力、物力和财力 需要大量的人力、物力和财力
可以用于带有破坏性的检查 不能用于带有破坏性的检查
结果与实际情况之间有误差 在操作正确的情况下,能得到准确结果
[通一类]
1.某市一饮料厂,刚出厂一批罐装饮料,该市质量监督局、卫生局、工商局等部门联合对这批罐装饮料进行检查,这种检查是用普查还是用抽样调查?
解:结合生活经验,检查罐装饮料仅仅看外包装是不够的,因此检查时需要打开罐装饮料,但是检查后这罐饮料相当于已经“饮用”了,不能再销售,所以只能进行抽样调查.
[研一题]
[例2] 一些期刊杂志社经常会请一些曾经高考落榜而在某方面的事业上取得成就的著名专家、学者,谈他们对高考落榜的看法,这些名人所讲的都是大同小异,不外乎“我也有过落榜的沮丧,但从长远看,它有益于我的人生”,“我是因祸得福,落榜使我走了另一条成功之路”等等.小明据此得出一条结论,上大学不如高考落榜,他的结论正确吗?
[自主解答] 小明的结论是错误的,在众多的高考落榜生中,走出另外一条成功之路的是少数,小明通过研究一些期刊杂志社报道过的一些成功人士就得出结论是片面的,因为他的抽样不具有代表性.
[悟一法]
根据调查问题的特点设计抽样调查的不同方案,应遵循的原则是:抽取的部分个体具有广泛的代表性,能很好的代表总体,否则调查结果与实际情况不相符.
[通一类]
2.某公司为了调查该公司的某种产品的使用情况,组织一些人在某大型购物商场门口进行问卷调查,通过调查结果对产品质量进行改进,你认为这样的调查结果可靠吗?
解:这种调查结果不可靠,因为这样发放问卷进行调查会造成有些未使用这种产品或对该产品不感兴趣的人不愿意交回问卷,这样收回来的问卷不具有代表性.
[研一题]
[例3] 为了了解高一年级学生的视力情况,特别是近视率问题,抽测了其中100名同学的视力情况.在这个过程中,100名同学的视力情况(数据)是( )
A.总体 B.个体
C.总体的一个样本 D.样本容量
[自主解答] 100名同学的视力情况(数据)是从总体中抽取的一部分个体所组成的集合,所以是总体的一个样本.
[答案] C
[悟一法]
解决此类问题要注意区分以下几个概念:
(1)总体:在抽样调查中,调查对象的全体称为总体.
(2)样本:被抽取的一部分称为样本.
(3)个体:构成总体的每一个元素称为个体.
(4)样本容量:样本中个体的个数称为样本容量.
(5)总体容量:总体中个体的个数称为总体容量.
[通一类]
3.为了了解全校240名学生的身高情况,从中抽取40名学生测量其身高,下列说法正确的是( )
A.总体是240
B.个体是每一个学生
C.样本是40名学生
D.总体是全校240名学生的身高
解析:总体是240名学生的身高,所以A项不正确,D项正确;个体是每一个学生的身高,所以B项不正确;样本是40名学生的身高,所以C项不正确。
答案:D
中央电视台希望在春节晚会播出后一周内获得当年春节晚会的收视率,下面是两名同学为电视台设计的调查方案.
同学甲:我把这张《春节晚会收视率调查表》放在互联网上,只要上网登录该网址的人就可以看到此表,他们填表的信息可以很快地反馈到我的电脑中,这样,我就可以很快统计出收视率了.
同学乙:我在电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们是否收看了中央电视台春节联欢晚会,我不出家门就可以统计出中央电视台春节联欢晚会的收视率.
请问两位同学的调查方案中,哪位同学的统计可靠?
[错解] 甲同学
[错因] 在实践中,产生随机样本的困难较大,它受到调查对象、对象的分布、时间、空间、调查问题和过程等诸多因素的制约,随机性的保证是其中最关键的.学生甲的方案考虑的人群是上网且登录某网址的人群,那些不能上网的人群或不能登录此网址的人群就被排除在外了,所以抽样代表性差;学生乙的方案考虑的人群是那些有电话的人群,也有一定的片面性,所以代表性也不强.
因为联欢晚会的收视群体构成复杂,春节前后人口流动情况严重,总体分布不稳定,信息联络方式不唯一等,所以上面两种方案都不能保证抽样的随机性.
[正解] 都不可靠.
1.下面问题可以用普查的方式进行调查的是( )
A.检验一批钢材的抗拉强度
B.检验海水中微生物的含量
C.检验10件产品的质量
D.检验一批汽车的使用寿命
解析:A不能用普查的方式调查,因为这种试验具有破坏性;B用普查的方式无法完成;C可以用普查的方式进行调查;D该试验具有破坏性,且需要耗费大量的时间,在实际生产中无法应用.
答案:C
2.医生要检验病人血液中血脂的含量,采取的调查方法应该是( )
A.普查
B.抽样调查
C.既不能普查也不能抽样调查
D.普查与抽样调查都可以
答案:B
3.抽样调查在抽取调查对象时( )
A.按一定的方法抽取
B.随便抽取
C.全部抽取
D.根据个人的爱好抽取
解析:抽样调查在抽取调查对象时必须要保证所抽取的样本具有代表性,使每个个体被抽入样的可能性相等,因此抽样时一定要注意按事先设计好的抽样方法抽取样本.
答案:A
4.为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析,在这个问题中,总体是________.
答案:参加计算机水平测试的5 000名学生的成绩
5.普查是一项非常艰巨的工作,当总体中的对象很少时,往往采用的调查方式是________;当总体中的对象很多时,普查工作量就很大,这时通常采用的调查方式是________.但是如果调查具有破坏性,那么无论总体数目的多少,只能采用的调查方式是________.
答案:普查 抽样调查 抽样调查
6.试指出以下问题适合用普查还是抽样调查.
(1)去菜市场买了少量鸡蛋,想知道鸡蛋壳是否有破损;
(2)电视台想知道某电视剧的收视率;
(3)银行在收进储户现金的时候想知道有没有假钞;
(4)学期临近结束时,英语老师想在课堂上花5分钟的时间了解全班54人记忆单词和短语的情况.
解:(1)(3)适合用普查;(2)(4)适合用抽样调查
一、选择题
1.现从80件产品中随机抽出10件进行质量检验,下列说法正确的是( )
A.80件产品是总体 B.10件产品是样本
C.样本容量是80 D.样本容量是10
解析:在该问题中,80件产品的质量是总体,所以A错误;所抽取的10件产品的质量是样本,所以B错误;总体容量是80,所以C错误;样本容量是10,所以D正确.
答案:D
2.下列调查时,必须采用“抽样调查”的是( )
A.调查某城市今年7月份的温度变化情况
B.调查某一品牌5万瓶化妆品是否符合质量标准
C.调查我国所有城市中哪些是第一批沿海开放城市
D.了解全班50名学生100米短跑的成绩
解析:调查化妆品是否符合质量标准,具有“破坏性”,必须使用抽样调查.
答案:B
3.下列哪个问题不宜用普查( )
A.为了缓解城市的交通情况,某市准备出台限制私家车的政策,为此要进行民意调查
B.对你所在学校的学生最喜欢的体育活动情况的调查
C.某轮胎厂要对一个批次轮胎的寿命进行调查
D.对上海市常住人口家庭收入情况的调查
答案:C
4.为了调查北京市2012年家庭的收入情况,在该问题中总体是( )
A.北京市
B.北京市的所有家庭的收入
C.北京市的所有人口
D.北京市的工薪阶层
答案:B
5.下列调查中属于抽样调查的是( )
①每隔5年进行一次人口普查;
②某商品的质量优劣;
③某报社对某个事件进行舆论调查;
④高考考生的身体检查.
A.②③ B.①④
C.③④ D.①②
解析:①④为普查,②③为抽样调查.
答案:A
二、填空题
6.下面的各事件中,适合抽样调查的有________.
①调查除夕之夜我国有多少人观看中央电视台春节联欢晚会;
②调查某工厂生产的一万件西服中有无不合格产品;
③评价一个班级升学考试的成绩;
④调查当今中学生中,对交通法规的了解情况;
⑤调查山东省初中生每人每周的零花钱数.
答案:①②④⑤
7.2011年4月上海染色馒头事件,引起人们对有色食品质量的特别关注,检验员为了检查彩色豆腐是否具有染色现象,应采用__________的方法检验.
解析:这是破坏性的检验,不可能进行普查,应当采取抽样调查的方法进行检验,对随机抽取的部分产品进行检验,根据得到的检验结果,就可以得到这批产品是否具有染色现象,因为同一批豆腐,从中随机抽取一部分代表全体产品的质量是合理的.
答案:抽样调查
8.2013年我国江浙一带发现了H7N9病毒,在病毒发作区,对与病毒携带者亲密接触的人要进行检查,所采用的方法是________.
答案:普查
三、解答题
9.有人说“如果抽样方法设计得好,用样本进行视力调查与对24 300名学生进行视力普查的结果会差不多,而且对于教育部门掌握学生视力状况来说,因为节省了人力、物力和财力,抽样调查更可取”,你认为这种说法有道理吗?为什么?
解:这种说法有道理,因为一个好的抽样方法能够保证调查结果接近于普查的结果,因此只要根据误差的要求取合适的样本进行调查会和普查的结果差不多,而且抽样调查还可以节省人力、物力和财力.
10.为了了解高一一班语文老师的教学情况,从全班50名同学中抽取了成绩在前10名的10名同学进行问卷调查,这种抽样方法合理吗?为什么?
解:这种抽样方法不合理,它不具有随机性,不能保证每个个体被抽到的机会相等,并且成绩的好坏也可能会影响到对老师印象的偏见.在抽样时,一定要做到随机性,尽量避免人为的主观因素的影响.