2017_2018学年高中数学第二章统计学案(含解析)(打包6套)新人教A版必修3

文档属性

名称 2017_2018学年高中数学第二章统计学案(含解析)(打包6套)新人教A版必修3
格式 zip
文件大小 3.8MB
资源类型 教案
版本资源 人教新课标A版
科目 数学
更新时间 2017-09-26 16:28:19

文档简介

2.3
变量间的相关关系
相关关系
[提出问题]
(1)吸烟可导致肺癌.
(2)下表是某小卖部6天卖出热茶的杯数与当天气温的对比表.
气温/℃
25
18
12
10
4
0
杯数
18
30
37
35
50
54
(3)y=x2+5(x∈R).
问题1:吸烟一定可以导致肺癌吗?吸烟与患肺癌有关吗?
提示:吸烟不一定患肺癌,但它们有一定的关系.
问题2:小卖部中卖出的热茶杯数与当天气温有关吗?两者之间是如何变化的?
提示:两者间有关系.随着气温的降低卖出的热茶杯数增加.
问题3:y=x2+5(x∈R)中,x,y间是什么关系?
提示:y与x间是函数关系,是一种确定关系.
[导入新知]
相关关系
如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的随机性,那么这两个变量之间的关系叫做相关关系.
[化解疑难]
两个变量间的关系分类
两个变量间的关系分为三类:一类是确定性的函数关系,如正方形边长与面积的关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,这种关系就是相关关系,如某位同学的“物理成绩”与“数学成绩”之间的关系;再一类是不相关,即两变量没有任何关系.
散点图的含义及应用
[提出问题]
下表是某地搜集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据:
x
115
110
80
135
105
y
44.8
41.6
38.4
49.2
42
  问题1:以x为横坐标,y为纵坐标在平面直角坐标系中作出表示以上数据的点.
提示:如图所示:
问题2:房屋的销售价格与房屋的面积有关系吗?
提示:有关系.
问题3:怎样描述房屋的销售价格与房屋的面积之间的变化关系?
提示:大体上来看,面积越大,售价越高.但不是正比例函数关系.
[导入新知]
1.散点图
将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图,利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.
2.正相关和负相关
(1)正相关:散点图中的点散布在从左下角到右上角的区域.
(2)负相关:散点图中的点散布在从左上角到右下角的区域.
[化解疑难]
对正相关和负相关的理解
(1)正相关
随自变量的变大(或变小),因变量也随之变大(或变小),这种带有随机性的相关关系,我们称为正相关.例如,人年龄由小变大时,体内脂肪含量也由少变多.
(2)负相关
随自变量的变大(或变小),因变量却随之变小(或变大),这种带有随机性的相关关系,我们称为负相关.例如,汽车越重,每消耗1
L汽油所行驶的平均路程就越短.
回归直线方程
[提出问题]
问题:在“知识点二”的问题中,能否估计出房屋面积为120
m2时的销售价格?如何估计?
提示:能.根据散点图作出一条直线,求出直线方程,即可预测.
[导入新知]
 回归直线方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线;
(2)回归方程:回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn);
②设所求回归方程为,其中,是待定参数;
③由最小二乘法得
其中:是回归方程的斜率,是截距.
[化解疑难]
回归直线方程与直线方程的区别
线性回归直线方程中y的上方加记号“
”是与实际值y相区别,因为线性回归方程中“”的值是通过统计大量数据所得到的一个预测值,它具有随机性,因而对于每一个具体的实际值而言,的值只是比较接近,但存在一定的误差,即y=+e(其中e为随机变量),预测值与实际值y的接近程度由随机变量e的标准差决定.
相关关系的判断
  [例1] (1)下列关系中,属于相关关系的是________.(填序号)
①正方形的边长与面积之间的关系;
②农作物的产量与施肥量之间的关系;
③人的身高与年龄之间的关系;
④降雪量与交通事故的发生率之间的关系.
(2)某个男孩的年龄与身高的统计数据如下表所示.
年龄x/岁
1
2
3
4
5
6
身高y/cm
78
87
98
108
115
120
①画出散点图;
②判断y与x是否具有线性相关关系.
[解] (1)在①中,正方形的边长与面积之间的关系是函数关系;在②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;在③中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具有相关关系;在④中,降雪量与交通事故的发生率之间具有相关关系.
(2)①散点图如图所示.
②由图知,所有数据点接近一条直线排列,因此,认为y与x有线性相关关系.
[答案] (1)②④
[类题通法]
两个变量是否相关的两种判断方法
(1)根据实际经验:借助积累的经验进行分析判断.
(2)利用散点图:通过散点图,观察它们的分布是否存在一定的规律,直观地进行判断.
[活学活用]
如图所示的两个变量不具有相关关系的是______(填序号).
解析:①是确定的函数关系;②中的点大都分布在一条曲线周围;③中的点大都分布在一条直线周围;④中点的分布没有任何规律可言,x,y不具有相关关系.
答案:①④
求回归方程
[例2] 某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:
商店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/百万元
2
3
3
4
5
(1)画出销售额和利润额的散点图;
(2)若销售额和利润额具有相关关系,计算利润额y对销售额x的回归直线方程.
[解] (1)散点图如下:
(2)数据如下表:
i
xi
yi
x
xiyi
1
3
2
9
6
2
5
3
25
15
3
6
3
36
18
4
7
4
49
28
5
9
5
81
45
合计
30
17
200
112
可以求得=0.5,=0.4,
线性回归方程为=0.5x+0.4.
[类题通法]
求线性回归方程的步骤
(1)计算平均数,;
(2)计算xi与yi的积,求iyi;
(3)计算;
(4)将结果代入公式=,求;
(5)用=-,求;
(6)写出回归方程.
[活学活用]
1.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x/
cm
174
176
176
176
178
儿子身高y/
cm
175
175
176
177
177
则y对x的线性回归方程为(  )
A.=x-1      
B.=x+1
C.=88+x
D.=176
解析:选C 由题意得
==176(cm),
==176(cm),
由于(,)一定满足线性回归方程,经验证知选C.
2.已知变量x,y有如下对应数据:
x
1
2
3
4
y
1
3
4
5
(1)作出散点图;
(2)用最小二乘法求关于x,y的回归直线方程.
解:(1)散点图如图所示:
(2)==,
==,
iyi=1+6+12+20=39.
=1+4+9+16=30,
==,
=-×=0,
所以=x为所求回归直线方程.
利用线性回归方程对总体进行估计
[例3] 一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机器零件有一些会有缺点,每小时生产有缺点零件的多少随机器运转的速度而变化,下表是抽样试验结果:
转速x/转/秒(x∈N
)
16
14
12
8
每小时生产有缺点的零件数y/件
11
9
8
5
(1)如果y与x具有线性相关关系,求回归方程;
(2)若实际生产中,允许每小时的产品中有缺点的零件数最多为10个,那么机器的转速应该控制在什么范围内?
[解] (1)由题意,可得=12.5,=8.25,
iyi=438,=660,
则=≈0.728
6,
=-=-0.857
5.
所以回归直线的方程为=0.728
6x-0.857
5.
(2)要使y≤10,则0.728
6x-0.857
5≤10,
解得x≤14.90.
所以机器的转速应该控制在15转/秒以下.
[类题通法]
回归分析的三个步骤
(1)进行相关性检验,若两变量无线性相关关系,则所求的线性回归方程毫无意义;
(2)求回归直线方程,其关键是正确地求得,;
(3)根据直线方程进行预测.
[活学活用]
(全国乙卷)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,
=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=-.
解:(1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,
=0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.
    
[典例] 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据:
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
[解题流程]
[规范解答]
==4.5,==3.5,
=32+42+52+62=86,
∴===0.7,
=-=3.5-0.7×4.5=0.35,
故线性回归方程为=0.7x+0.35.
(3)根据回归方程预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,
故耗能约减少了90-70.35=19.65(吨)标准煤.
[类题通法]
解答回归分析问题的四个注意点
(1)先用散点图确定是否线性相关;
(2)准确计算回归方程中的各个系数;
(3)回归直线必过样本中心;
(4)利用回归直线方程求出的值只是估计值,会与实际值有一定的误差.
[活学活用]
某个体服装店经营某种服装在某周内所获纯利y(元)与该周每天销售这种服装的件数x(件)之间有一组数据如下表:
每天销售服装件数x/件
3
4
5
6
7
8
9
该周内所获纯利y/元
66
69
73
81
89
90
91
(1)求,;
(2)若纯利y与每天销售这种服装的件数x之间是线性相关的,求回归直线方程;
(3)若该店每周至少要获纯利200元,请你预测该店每天至少要销售这种服装多少件?
(以下数据供选择:=280,=45
309,iyi=3
487)
解:(1)==6,
=≈79.86.
(2)∵=≈4.75,
=79.86-4.75×6=51.36,
∴纯利与每天销售件数x之间的回归直线方程为=51.36+4.75x.
(3)当=200时,200=4.75x+51.36,所以x≈31.29.
因此若该店每周至少要获纯利200元,则该店每天至少要销售这种服装32件.
[随堂即时演练]
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是(  )
A.=-10x+200   
B.=10x+200
C.=-10x-200
D.=10x-200
解析:选A ∵商品销售量y(件)与销售价格x(元/件)负相关,∴b<0,排除B,D.又∵x=0时,y>0,∴选A.
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图图1;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图图2.由这两个散点图可以判断(  )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C 由这两个散点图可以判断,变量x与y负相关,u与v正相关.
3.若施肥量x(kg)与水稻产量y(kg)的线性回归方程为=5x+250,当施肥量为80
kg时,预计水稻产量约为________kg.
解析:把x=80
kg代入回归方程可得其预测值
=5×80+250=650(kg).
答案:650
4.对具有线性相关关系的变量x和y,测得一组数据如下表所示.
x
2
4
5
6
8
y
30
40
60
50
70
若已求得它们的回归直线的斜率为6.5,这条回归直线的方程为__________________.
解析:由题意可知==5,
==50.
即样本中心为(5,50).
设回归直线方程为=6.5x+,
∵回归直线过样本中心(,),
∴50=6.5×5+,
即=17.5,
∴回归直线方程为=6.5x+17.5.
答案:=6.5x+17.5
5.2015年元旦前夕,某市统计局统计了该市2014年10户家庭的年收入和年饮食支出的统计资料如下表:
年收入x/万元
2
4
4
6
6
6
7
7
8
10
年饮食支出y/万元
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
(1)如果已知y与x是线性相关的,求回归方程;
(2)若某家庭年收入为9万元,预测其年饮食支出.
(参考数据:iyi=117.7,=406)
解:(1)依题意可计算得:
=6,=1.83,2=36,
=10.98,
又∵iyi=117.7,=406,
∴=≈0.17,
=-=0.81,
∴=0.17x+0.81.
∴所求的回归方程为=0.17x+0.81.
(2)当x=9时,=0.17×9+0.81=2.34(万元).
可估计大多数年收入为9万元的家庭每年饮食支出约为2.34万元.
[课时达标检测]
一、选择题
1.下列命题正确的是(  )
①任何两个变量都具有相关关系;
②圆的周长与该圆的半径具有相关关系;
③某商品的需求量与该商品的价格是一种非确定性关系;
④根据散点图求得的回归直线方程可能是没有意义的;
⑤两个变量间的相关关系可以通过回归直线,把非确定性问题转化为确定性问题进行研究.
A.①③④     
B.②③④
C.③④⑤
D.②④⑤
答案:C
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是(  )
A.①②
B.②③
C.③④
D.①④
答案:D
3.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x/万元
4
2
3
5
销售额y/万元
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预测广告费用为6万元时的销售额为(  )
A.63.6万元
B.65.5万元
C.67.7万元
D.72.0万元
答案:B
4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  )
A.y与x具有正的线性相关关系
B.回归直线过样本的中心点(,)
C.若该大学某女生身高增加1
cm,则其体重约增加0.85
kg
D.若该大学某女生身高为170
cm,则可断定其体重必为58.79
kg
答案:D
5.对有线性相关关系的两个变量建立的回归直线方程=+x中,回归系数(  )
A.不能小于0
B.不能大于0
C.不能等于0
D.只能小于0
答案:C
二、填空题
6.正常情况下,年龄在18岁到38岁之间的人,体重y(单位:kg)对身高x(单位:cm)的回归方程为=0.72x-58.2,张红同学(20岁)身高为178
cm,她的体重应该在________
kg左右.
解析:用回归方程对身高为178
cm的人的体重进行预测,当x=178时,=0.72×178-58.2=69.96(kg).
答案:69.96
7.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x(单元:万元)和年教育支出y(单位:万元).调查显示年收入x与年教育支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程为=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元.
解析:因为回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15万元.
答案:0.15
8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球的时间x(单位:小时)与当天投篮的命中率:
时间x
1
2
3
4
5
命中率y
0.4
0.5
0.6
0.6
0.4
小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.
解析:小李这5天的平均投篮命中率
=(0.4+0.5+0.6+0.6+0.4)=0.5,=3,


=0.01,
=-=0.47,
∴线性回归方程为=0.01x+0.47,
则当x=6时,y=0.53.
∴预测小李该月6号打6小时篮球的投篮命中率为0.53.
答案:0.5 0.53
三、解答题
9.一项关于16艘轮船的研究中,船的吨位区间为[192,3
246](单位:吨),船员的人数为5~32人,船员人数y关于吨位x的回归方程为=9.5+0.006
2x,
(1)若两艘船的吨位相差1
000,求船员平均相差人数;
(2)估计吨位最大的船和最小的船的船员人数.
解:(1)设两艘船的吨位分别为x1,x2则
1-2=9.5+0.006
2x1-(9.5+0.006
2x2)
=0.006
2×1
000≈6,
即船员平均相差6人.
(2)当x=192时,=9.5+0.006
2×192≈11,
当x=3
246时,=9.5+0.006
2×3
246≈30.
即估计吨位最大和最小的船的船员数分别为30和11.
10.某工厂对某种产品的产量与成本进行资料分析后有如下数据:
产量x/千件
2
3
5
6
成本y/万元
7
8
9
12
(1)画出散点图;
(2)求成本y与产量x之间的线性回归方程;
(3)预计产量为8千件时的成本.
解:(1)散点图如下:
(2)设成本y与产量x的线性回归方程为=x+,
==4,==9.
===1.1,
=-=9-1.1×4=4.6.
所以,回归方程为=1.1x+4.6.
(3)当x=8时,=1.1×8+4.6=8.8+4.6=13.4,即产量为8千件时,成本约为13.4万元.
PAGE
-
1
-2.1.1 简单随机抽样
简单随机抽样
[提出问题]
继“地沟油”“瘦肉精”“镉大米”“皮革奶”及“毒生姜”等国内食品安全事件的不断曝光,食品安全问题越来越受到人们的关注,也得到各级政府部门的重视.
问题1:某报告称,食品质量检测人员对某品牌牛奶的抽检合格率为99.9%,你知道这一数据是怎么得到的吗?
提示:是抽取少量的牛奶来检测得到的.
问题2:你认为质检人员是怎样抽取样本的?
提示:在所有牛奶中,随机地逐个抽取得到样本.
[导入新知]
简单随机抽样的定义
设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
[化解疑难]
简单随机抽样的特点
简单随机抽样的常用方法
[提出问题]
问题:在“知识点一”的事例中,质检人员在对某个体经商户所销售的牛奶进行抽检和对生产厂家所生产的牛奶进行抽检采取的方式一样吗?
提示:个体经商户销售的牛奶数量较少,可用抽签法(抓阄法);而生产厂家生产的牛奶太多,可用计算机按生产批号进行抽取.
[导入新知]
1.抽签法
把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
2.随机数法
随机抽样中,另一个经常被采用的方法是随机数法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.
[化解疑难]
1.抽签法的一般步骤
2.抽签法的特点
(1)优点:简单易行,当总体的个体数不多时,使总体处于“搅拌”均匀的状态比较容易,这时,每个个体都有均等的机会被抽中,从而能够保证样本的代表性.
(2)缺点:仅适用于个体数较少的总体,当总体容量较大时,费时费力又不方便,况且,如果号签搅拌的不均匀,可能导致抽样不公平.
3.随机数表法的步骤
4.随机数表法的特点
(1)优点:操作简单易行,它很好地解决了用抽签法当总体中的个数较多时制签难的问题,在总体容量不大的情况下是行之有效的.
(2)缺点:如果总体中的个体数很多,对个体编号的工作量太大,即使用随机数表法操作也不方便快捷.
简单随机抽样的概念
[例1] 下面的抽样方法是简单随机抽样吗?为什么?
(1)从无数个个体中抽取50个个体作为样本;
(2)仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
(3)某连队从200名党员官兵中,挑选出50名最优秀的官兵赶赴灾区参加救灾工作;
(4)一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
[解] (1)不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.
(2)不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.
(3)不是简单随机抽样.因为这50名官兵是从中挑选出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.
(4)是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能的抽样.
[类题通法]
简单随机抽样的判断策略
判断一个抽样能否用简单随机抽样,关键是看它是否满足四个特点:①总体的个体数目有限;②从总体中逐个进行抽取;③是不放回抽样;④是等可能抽样.同时还要注意以下几点:①总体的个体性质相似,无明显的层次;②总体的个体数目较少,尤其是样本容量较小;③用简单随机抽样法抽出的样本带有随机性,个体间无固定的距离.
[活学活用]
下列问题中,最适合用简单随机抽样方法抽样的是(  )
A.某电影院有32排座位,每排有40个座位,座位号是1~40,有一次报告会坐满了听众,报告会结束后为听取意见,要留下32名听众进行座谈
B.从10台冰箱中抽出3台进行质量检查
C.某学校有在编人员160人,其中行政人员16人,教师112人,后勤人员32人,教育部门为了解在编人员对学校机构改革的意见,要从中抽取一个容量为20的样本
D.某乡农田有:山地800公顷,丘陵1
200公顷,平地2
400公顷,洼地400公顷,现抽取农田48公顷估计全乡农田平均每公顷产量
解析:选B A的总体容量较大,用简单随机抽样法比较麻烦;B的总体容量较少,用简单随机抽样法比较方便;C由于学校各类人员对这一问题的看法可能差异很大,不宜采用简单随机抽样法;D总体容量大,且各类田地的差别很大,也不宜采用简单随机抽样法.
抽签法及其应用
[例2] (1)下列抽样实验中,适合用抽签法的有(  )
A.从某厂生产3
000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两工厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
D.从某厂生产的3
000件产品中抽取10件进行质量检验
(2)某大学为了选拔世博会志愿者,现从报名的18名同学中选取6人组成志愿小组,请用抽签法写出抽样过程.
[解] (1)选B A,D两项总体容量较大,不适合用抽签法;对C项甲、乙两厂生产的产品质量可能差异明显.
(2)第一步,将18名同学编号,号码是01,02,…,18;
第二步,将号码分别写在一张纸条上,揉成团,制成号签;
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀;
第四步,从袋子中依次抽取6个号签,并记录上面的编号;
第五步,所得号码对应的同学就是志愿小组的成员.
[类题通法]
1.抽签法的适用条件
一个抽样能否用抽签法,关键看两点:一是制签是否方便;二是号签是否容易被搅匀.一般地,当总体容量和样本容量都较小时适宜用抽签法.
2.应用抽签法的关注点
(1)对个体编号时,也可以利用已有的编号.例如,从某班学生中抽取样本时,可以利用学生的学号、座位号等.
(2)在制作号签时,所使用的工具(纸条、卡片或小球等)应形状、大小都相同,以保证每个号签被抽到的概率相等.
(3)用抽签法抽样的关键是将号签搅拌均匀.只有将号签搅拌均匀,才能保证每个个体有相等的机会被抽中,从而才能保证样本具有代表性.
(4)要逐一不放回抽取.
[活学活用]
1.抽签法中确保样本具有代表性的关键是(  )
A.制签       
B.搅拌均匀
C.逐一抽取
D.抽取不放回
解析:选B 只有将号签搅拌均匀,才能保证每个个体有相等的机会被抽中,从而才能保证样本具有代表性.
2.现有30本《三维设计》,要从中随机抽取5本进行印刷质量检验,请用抽签法进行抽样,并写出抽样过程.
解:总体和样本数目较小,可采用抽签法进行:
①先将30本书进行编号,从1编到30;
②把号码写在形状、大小均相同的号签上;
③将号签放在某个箱子中进行充分搅拌,然后依次从箱子中取出5个号签,按这5个号签上的号码取出样品,即得样本.
随机数表法的应用
[例3] (1)要考察某种品牌的850颗种子的发芽率,从中抽取50颗种子进行实验,利用随机数表法抽取种子,先将850颗种子按001,002,…,850进行编号,如果从随机数表第3行第6列的数开始向右读,请依次写出最先检验的4颗种子的编号________________________________________________________________________.
(下面抽取了随机数表第1行至第5行.)
03
47
43
73
86 36
96
47
36
61 46
98
63
71
62 33
26
16
80
45 60
11
14
10
95
97
74
24
67
62 42
81
14
57
20 42
53
32
37
32 27
07
36
07
51 24
51
79
89
73
16
76
62
27
66 56
50
26
71
07 32
90
79
78
53 13
55
38
58
59 88
97
54
14
10
12
56
85
99
26 96
96
68
27
31 05
03
72
93
15 57
12
10
14
21 88
26
49
81
76
55
59
56
35
64 38
54
82
46
22 31
62
43
09
90 06
18
44
32
53 23
83
01
30
30
(2)现有一批零件,其编号为600,601,602,…,999.利用原有的编号从中抽取一个容量为10的样本进行质量检查,若用随机数表法,怎样设计方案?
[解] (1)从随机数表第3行第6列的数2开始向右读第一个小于850的数字是227,第二个数字665,第三个数字650,第四个数字267,符合题意.
(2)第一步,在随机数表中任选一数字作为开始数字,任选一方向作为读数方向.比如:选第7行第6个数“7”,向右读.
第二步,从“7”开始向右每次读取三位,凡在600~999中的数保留,否则跳过去不读,依次得753,724,688,770,721,763,676,630,785,916.
第三步,以上号码对应的10个零件就是要抽取的对象.(答案不唯一)
[答案] (1)227,665,650,267
[类题通法]
利用随机数表法抽样时应注意的问题
(1)编号要求位数相同,若不相同,需先调整到一致再进行抽样,如当总体中有100个个体时,为了操作简便可以选择从00开始编号,那么所有个体的号码都用两位数字表示即可,从00~99号.如果选择从1开始编号那么所有个体的号码都必须用三位数字表示,从001~100.很明显每次读两个数字要比读三个数字节省读取随机数的时间.
(2)第一个数字的抽取是随机的.
(3)当随机数选定,开始读数时,读数的方向可左,可右,可上,可下,但应是事先定好的.
[活学活用]
现有一批编号为10,11,…,98,100,…,600的元件,打算从中抽取一个容量为6的样本进行质量检验,如何用随机数表法设计抽样方案?
解:第一步,将元件的编号调整为010,011,012,…,099,100,…,600.
第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第6行第7个数“9”.
第三步,从数9开始,向右读,每次读取三位,凡不在010~600中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到544,354,378,520,384,263.
第四步,以上这6个号码所对应的6个元件就是所要抽取的对象.(答案不唯一)
      
[典例] 为了了解参加第27届世界大学生运动会的2
000名运动员的身高情况,从中抽取100名运动员进行调查.就这个问题,下面说法中正确的是(  )
①2
000名运动员是总体;②每个运动员是个体;③所抽取的100名运动员是一个样本;④样本容量为100;⑤每个运动员被抽到的可能性相等.
A.④⑤      
B.①②③
C.①②④⑤
D.①②③④⑤
[解析] 抽样的目的是了解参加运动会的2
000名运动员的身高情况,故总体应该是2
000名运动员的身高,而不是这2
000名运动员,同理,个体应该是每个运动员的身高,样本应该是所抽取的100名运动员的身高.故①②③都不正确,④⑤正确.
[答案] A
[易错防范]
1.解决本题易搞错考察的对象,误认为考察对象为运动员,从而误认为①②③也正确.
2.解决此类问题,关键是明确考察的对象,根据有关的概念可得总体、个体与样本的考察对象是相同的.
[成功破障]
某学校为了解高一800名新入学同学的数学学,从中随机抽取100名同学的中考数学成绩进行分析,在这个问题中,下列说法正确的是(  )
A.800名同学是总体
B.100名同学是样本
C.每名同学是个体
D.样本容量是100
解析:选D 据题意总体是指800名新入学同学的中考数学成绩,样本是指抽取的100名同学的中考数学成绩,个体是指每名同学的中考数学成绩,样本容量是100,故只有D正确.
[随堂即时演练]
1.下列抽样方法是简单随机抽样的是(  )
A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位是2
709的为三等奖
B.某车间包装一种产品,在自动包装传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.从8台电脑中逐个不放回地随机抽取2台,进行质量检验,假设8台电脑已编好号,对编号随机抽取
D.从20个零件中一次性抽出3个进行质量检查
解析:选C 由简单随机抽样的特点可知选项C正确.
2.用随机数表法进行抽样有以下几个步骤:
①将总体中的个体编号;②获取样本号码;③选定开始的数字;④选定读数的方向.这些步骤的先后顺序应为(  )
A.①②③④      
B.①③④②
C.③②①④
D.④③①②
解析:选B 由随机数表法的步骤知选B.
3.用随机数法从100名学生(男生25人)中抽选20人进行评教,某男学生被抽到的可能性是________.
解析:因为样本容量为20,总体容量为100,所以总体中每一个个体被抽到的可能性都为=0.2.
答案:0.2
4.一个总体的60个个体编号为00,01,…,59,现需从中抽取一容量为8的样本,请从随机数表的倒数第5行(下表为随机数表的最后5行)第11列开始,向右读取,直到取足样本,则抽取样本的号码是
.
95
33
95
22
00 18
74
72
00
18 38
79
58
69
32 81
76
80
26
92 82
80
84
25
39
90
84
60
79
80 24
36
59
87
38 82
07
53
89
35 96
35
23
79
18 05
98
90
07
35
46
40
62
98
80 54
97
20
56
95 15
74
80
08
32 16
46
70
50
80 67
72
16
42
79
20
31
89
03
43 38
46
82
68
72 32
14
82
99
70 80
60
47
18
97 63
49
30
21
30
71
59
73
05
50 08
22
23
71
77 91
01
93
20
49 82
96
59
26
94 66
39
67
98
60
解析:所取的号码要在00~59之间且重复出现的号码仅取一次.
答案:18,00,38,58,32,26,25,39
5.某校高一年级有43名足球运动员,要从中抽出5人抽查学习负担情况.用抽签法设计一个抽样方案.
解:第一步,编号,把43名运动员编号为1~43;
第二步,制签,做好大小、形状相同的号签,分别写上这43个数;
第三步,搅拌,将这些号签放在暗箱中,进行均匀搅拌;
第四步,抽签入样,每次从中抽取一个,连续抽取5次,从而得到容量为5的入选样本.
[课时达标检测]
一、选择题
1.在简单随机抽样中,某一个个体被抽到的可能性(  )
A.与第几次有关,第一次可能性最大
B.与第几次有关,第一次可能性最小
C.与第几次无关,与抽取的第几个样本有关
D.与第几次无关,每次可能性相等
答案:D
2.为了了解全校240名学生的身高情况,从中抽取40名学生进行测量,下列说法正确的是(  )
A.总体是240     
B.个体是每名学生
C.样本是40名学生
D.样本容量是40
答案:D
3.某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法:
①1,2,3,…,100;②001,002,…,100;
③00,01,02,…,99;④01,02,03,…,100.
其中正确的序号是(  )
A.②③④
B.③④
C.②③
D.①②
答案:C
4.用简单随机抽样方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性、“第二次被抽到”的可能性分别是(  )
A.,
B.,
C.,
D.,
答案:A
5.从一群游戏的小孩中随机抽出k人,一人分一个苹果,让他们返回继续游戏.过了一会儿,再从中任选m人,发现其中有n个小孩曾分过苹果,估计参加游戏的小孩的人数为(  )
A.
B.k+m-n
C.
D.不能估计
答案:C
二、填空题
6.某种福利彩票是从1~36的号码中,选出7个号码来按规则确定中奖情况,这种从36个号码中选7个号码的抽样方法是________.
解析:符合抽签法的特点:①个体数较少;②样本容量小.
答案:抽签法
7.假设要检验某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表法抽取样本时,先将800袋牛奶按000,001,…,799进行编号,如果从随机数表第8行第7列的数开始向右读,请你依次写出最先被检测的5袋牛奶的编号____________.
(下面摘取的是随机数表第7行至第9行.)
84
42
17
53
31 57
24
55
06
88 77
04
74
47
67 21
76
33
50
25 83
92
12
06
76
63
01
63
78
59 16
95
56
67
19 98
10
50
71
75 12
86
73
58
07 44
39
52
38
79
33
21
12
34
29 78
64
56
07
82 52
42
07
44
38 15
51
00
13
42 99
66
02
79
54
解析:找到第8行第7列的数开始向右读,第一个符合条件的是785,第二个数916大于800,要舍去,第三个数955也要舍去,第四个数667符合题意,这样依次读出结果.
答案:785,667,199,507,175
8.从个体数为N的总体中抽出一个样本容量是20的样本,每个个体被抽到的可能性是,则N的值是________.
解析:从个体数为N的总体中抽出一个样本容量是20的样本,∴每个个体被抽取的可能性是.
∵每个个体被抽取的可能性是,∴=,
∴N=100.
答案:100
三、解答题
9.要从某汽车厂生产的30辆汽车中随机抽取3辆进行测试,请选择合适的抽样方法,并写出抽样过程.
解:利用抽签法:第一步,将30辆汽车编号,号码是1,2,…,30;第二步,将号码分别写在形状、大小相同的纸条上,制成号签;第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀;第四步,从袋子中依次不放回地抽取3个号签,并记录上面的号码;第五步,所得号码对应的3辆汽车就是要抽取的对象.
10.某企业调查消费者对某产品的需求量,要从95户居民中抽选10户居民,请用随机数表法抽选样本.
附部分随机数表:
85
38
44
05
27 48
98
76
06
02 16
08
52
99
71 61
27
94
30
21 92
98
02
77
68
26
91
62
77
83 84
57
27
84
83 39
82
06
14
59 39
07
37
92
42 20
37
22
10
48
解:第一步:将95户居民编号,每一户一个编号,即01~95.
第二步:两位一组的表中,随机确定抽样的起点和抽样的顺序.如假定从第6列和第7列这两列的第1行开始读取,读数顺序从左往右.(横的数列称为“行”,纵的数列称为“列”).
第三步:依次抽出10个号码.可能有号码如96,98两个号码不在总体编号范围内,应排除在外,再补充两个号码.得到的样本号码是:40,52,74,89,87,60,21,85,29,16.
由此产生10个样本号码,编号为这些号码的居民家庭就是抽样调查的对象.
11.为制定本市初中七、八、九年级学生校服的生产计划,有关部门准备对180名初中男生的身高作调查,现有三种调查方案:
A.测量少年体校中180名男子篮球、排球队员的身高;
B.查阅有关外地180名初中男生身高的统计资料;
C.在本市的市区和郊县各任选一所完全中学和两所初级中学,在这六所学校有关的年级(1)班中,用抽签的方法分别选出10名男生,然后测量他们的身高.
为了达到估计本市初中这三个年级男生身高分布的目的,你认为采用上述哪一种调查方案比较合理,为什么?
解:方案C比较合理,理由如下:
由于A中,少年体校的男子篮球、排球的运动员的身高一定高于一般的情况,因此无法用测量的结果去估计总体的结果;B中,用外地学生的身高也不能准确地反映本地学生身高的实际情况;而C中的抽样方法符合简单随机抽样,因此用C方案比较合理.2.2.1 用样本的频率分布估计总体分布
频率分布表及频率分布直方图
[提出问题]
美国历届总统中,就任时年纪最小的是西奥多·罗斯福,他于1901年就任,当时年仅42岁;就任时年纪最大的是特朗普,他于2017年就任,当时70岁,下面按时间顺序(从1789年的华盛顿到2017年的特朗普,共45任)给出了历届美国总统就任时的年龄:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48,70
问题1:上述45个数据中最大值与最小值的差是多少?
提示:70-42=28.
问题2:若将上述数据分成下列几组:
[41.5,46.5),[46.5,51.5),[51.5,56.5),
[56.5,61.5),[61.5,66.5),[66.5,71.5).
各组中数据个数分别是多少?
提示:各组数据的个数分别为4,11,14,9,4,3.
问题3:我们初中学过的频数分布图和频数分布表能清楚地知道数据分布在各个小组的个数,那么如何刻画各个小组数据在样本容量中所占的比例大小呢?
提示:利用频率分布表和频率分布直方图.
[导入新知]
1.用样本估计总体的两种情况
(1)用样本的频率分布估计总体分布.
(2)用样本的数字特征估计总体数字特征.
2.频率分布直方图的画法
3.频率分布折线图和总体密度曲线
(1)频率分布折线图:
连接频率分布直方图中各小长方形上端的中点,就得到了频率分布折线图.
(2)总体密度曲线:
随着样本容量的增加,作图时所分的组数也在增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑曲线,统计中称之为总体密度曲线,它反映了总体在各个范围内取值的百分比.
[化解疑难]
     四种图表的区别与联系
名称
区别
频率分布表
从数量上比较准确地反映样本的频率分布规律
频率分布直方图
反映样本的频率分布情况
频率分布折线图
直观地反映了数据的变化趋势
总体密度曲线
虽客观存在,但要准确画出难度较大,只能用样本频率分布估计.样本容量越大,估计越准确
这四种图表都是描述样本数据分布情况,估计总体频率分布规律的,其联系如下:
茎叶图
[提出问题]
甲、乙两个小组各10名学生的英语口语测试成绩(单位:分)如下:
甲组:76
90
84
86
81
87
86
82
85
83;
乙组:82
84
85
89
79
80
91
89
79
74;
问题1:从甲、乙两组得分情况能否得出甲、乙两组哪组的成绩更整齐?
提示:能.甲组的成绩更整齐.
问题2:上述两组数据能否用图形直观地分析?
提示:能.
[导入新知]
茎叶图的概念
茎是指中间的一列数,叶就是从茎的旁边生长出来的数.茎叶图可用来分析单组数据,也可以对两组数据进行比较.茎叶图不仅能够保留原始数据,而且能够展示数据的分布情况.
[化解疑难]
对茎叶图的理解
茎叶图又称“枝叶图”,它的思路是将数组中的数按位数进行比较,将高位数字作为一个主干(茎),将低位数字作为分枝(叶),列在主干的一侧,这样就可以清楚地看到每个主干后面有几个数,每个数具体是多少.
例如,上例中甲、乙两个小组的英语口语测试成绩可用茎叶图表示为:
它的中间部分像一棵植物的茎,两边部分像这棵植物茎上生长出来的叶子.
列频率分布表、画频率分布直方图
[例1] 考察某校高二年级男生的身高,随机抽取40名高二男生,实测身高数据(单位:cm)如下:
171
163
163
166
166
168
168
160
168
165
171
169
167
169
151
168
170
160
168
174
165
168
174
159
167
156
157
164
169
180
176
157
162
161
158
164
163
163
167
161
(1)作出频率分布表;
(2)画出频率分布直方图和频率分布折线图.
[解] (1)最低身高151,最高身高180,
它们的极差为180-151=29.
确定组距为3,组数为10,列表如下:
分组
频数
频率
[150.5,153.5)
1
0.025
[153.5,156.5)
1
0.025
[156.5,159.5)
4
0.1
[159.5,162.5)
5
0.125
[162.5,165.5)
8
0.2
[165.5,168.5)
11
0.275
[168.5,171.5)
6
0.15
[171.5,174.5)
2
0.05
[174.5,177.5)
1
0.025
[177.5,180.5)
1
0.025
合计
40
1
(2)频率分布直方图和频率分布折线图如图所示.
[类题通法]
绘制频率分布直方图应注意的问题
(1)在绘制出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是“以一个恰当的单位长度”(没有统一规定),然后以各组的“”所占的比例来定高.如我们预先设定以“”为1个单位长度,代表“0.1”,则若一个组的为0.2,则该小矩形的高就是“”(占两个单位长度),如此类推.
(2)数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和为1.
[活学活用]
有一容量为200的样本,数据的分组以及各组的频数如下:
[-20,-15),7;[-15,-10),11;[-10,-5),15;[-5,0),40;[0,5),49;[5,10),41;[10,15),20;[15,20],17.
(1)列出样本的频率分布表;
(2)画出频率分布直方图和频率分布折线图;
(3)求样本数据不足0的频率.
解:(1)频率分布表如下:
分组
频数
频率
[-20,-15)
7
0.035
[-15,-10)
11
0.055
[-10,-5)
15
0.075
[-5,0)
40
0.2
[0,5)
49
0.245
[5,10)
41
0.205
[10,15)
20
0.1
[15,20]
17
0.085
合计
200
1.00
(2)频率分布直方图和频率分布折线图如图所示:
(3)样本数据不足0的频率为:
0.035+0.055+0.075+0.2=0.365.
频率分布直方图的应用
[例2] (1)某班50名学生在一次百米跑测试中,成绩全部介于13
s与19
s之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13
s且小于14
s;第二组,成绩大于等于14
s且小于15
s;…;第六组,成绩大于等于18
s且小于等于19
s,如图所示是按上述分组方法得到的频率分布直方图.设成绩小于17
s的学生人数占全班总人数的百分比为x,成绩大于等于15
s且小于17
s的学生人数为y,则从频率分布直方图(如图所示)中分析出x和y分别为(  )
A.0.9,35     
B.0.9,45
C.0.1,35
D.0.1,45
(2)为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
①第二小组的频率是多少?样本容量是多少?
②若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
[解] (1)选A 由频率分布直方图知x=0.34+0.36+0.18+0.02=0.9,∵=0.36+0.34=0.7,∴y=35.
(2)①频率分布直方图是以面积的形式反映了数据落在各小组内的频率大小的,
因此第二小组的频率为=0.08.
又因为第二小组的频率=,
所以样本容量===150.
②由直方图可估计该校高一年级学生的达标率为×100%=88%.
[类题通法]
频率分布直方图的意义
(1)频率分布直方图以面积的形式反映了数据落在各组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)=样本容量.
[活学活用]
(山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是(  )
A.56
B.60
C.120
D.140
解析:选D 由频率分布直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.



[例3] (1)甲、乙两个班级各随机选出15名同学进行测验,成绩的茎叶图如图所示(单位:分),则甲班、乙班的最高成绩分别是________,从图中看,________班的平均成绩较高.
(2)某中学高一(2)班甲、乙两名同学自入高中以来每场数学考试成绩情况如下:
甲同学得分:
95,81,75,91,86,89,71,65,76,88,94,110;
乙同学得分:
83,86,93,99,88,103,98,114,98,79,101,107.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
[解] (1)由茎叶图知甲班的最高成绩为96分,乙班的最高成绩为92分,再根据茎叶图的分布特点知,乙班的成绩分布集中在下面,故乙班的平均成绩较高.
(2)甲、乙两人数学成绩的茎叶图如图所示.
从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是87,因此乙同学发挥较稳定,总体得分情况比甲同学好.
答案:(1)96,92 乙
[类题通法]
画茎叶图的步骤
第一步,将数据分为“茎”(高位)和“叶”(低位)两部分;
第二步,将表示“茎”的数字按大小顺序由上到下排成一列;
第三步,将各个数据的“叶”按次序写在其茎的左、右两侧.
[活学活用]
如图是2017年某大学校园歌手大奖赛中七位评委为甲、乙两名选手打出的分数的茎叶图(图中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则一定有(  )
A.a1>a2
B.a2>a1
C.a1=a2
D.a1,a2的大小与m的值有关
解析:选B 根据茎叶图可知,去掉一个最高分和一个最低分后,甲的平均分为a1=80+=84,乙的平均分为a2=80+=85,故a2>a1.
    
[典例] 如图所示是某公司(共有员工300人)2017年员工年薪情况的频率分布直方图,由此可知,员工中年薪在10万元~12万元之间的共有________人.
[解析] 由所给图形,可知员工中年薪在10万元~12万元之间的频率为1-(0.02+0.08+0.08+0.10+0.10)×2=0.24,所以员工中年薪在10万元~12万元之间的共有300×0.24=72(人).故填72.
[答案] 72
[易错防范]
解本题容易出现的错误是审题不细,对所给图形观察不细心,认为员工中年薪在10万元~12万元之间的频率为1-(0.02+0.08+0.10)×2=0.60,从而得到员工中年薪在10万元~12万元之间的共有300×[1-(0.02+0.08+0.10)×2]=180(人)的错误答案.
[成功破障]
某校高一(2)班共有64名学生,下图是该班某次数学考试成绩的频率分布直方图,根据该图可知,成绩在110~120分之间的同学人数大约为(  )
A.10      
B.11
C.13
D.16
解析:选C 通过直方图可知,成绩在110~120分的频率是=0.2,所以分数在110~120分之间的同学大约有64×0.2=12.8≈13(人).
[随堂即时演练]
1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示.数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是(  )
A.45       
B.50
C.55
D.60
解析:选B [20,40)内的频率为0.005×20=0.1;
[40,60)内的频率为0.01×20=0.2;
低于60分的频率为0.1+0.2=0.3,
∴总人数为=50.
2.如图是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知(  )
A.甲运动员的成绩好于乙运动员
B.乙运动员的成绩好于甲运动员
C.甲、乙两名运动员的成绩没有明显的差异
D.甲运动员的最低得分为0分
解析:选A 由茎叶图可以看出甲的成绩都集中在30~50分,且高分较多;而乙的成绩只有一个高分52分,其他成绩比较低,故甲运动员的成绩好于乙运动员的成绩.
3.如图是一个班的语文成绩的茎叶图(单位:分),则优秀率(90分以上)是________,最低分是________.
解析:由茎叶图知,样本容量为25,90分以上的有1人,故优秀率为=4%,最低分为51分.
答案:4% 51
4.某地为了了解该地区10
000户家庭的用电情况,采用分层抽样的方法抽取了500户家庭的月平均用电量,并根据这500户家庭的月平均用电量画出频率分布直方图如图所示,则该地区10
000户家庭中月平均用电度数在[70,80)的家庭有________户.
解析:根据频率分布直方图得该地区10
000户家庭中月平均用电度数在[70,80)的家庭有10
000×0.012×10=1
200(户).
答案:1
200
5.随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165),[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率分布直方图如图所示.
(1)求频率分布直方图中x的值及身高在170
cm以上的学生人数;
(2)将身高在[170,175),[175,180),[180,185]区间内的学生依次记为A,B,C三个组,用分层抽样的方法从这三个组中抽取6人,求这三个组分别抽取的学生人数.
解:(1)由频率分布直方图可知
5×(0.01+0.02+0.04+x+0.07)=1,
解之得x=0.06.
身高在170
cm以上的学生人数为
100×(0.06×5+0.04×5+0.02×5)=60(人).
(2)A组人数为100×0.06×5=30(人),
B组人数为100×0.04×5=20(人),
C组人数为100×0.02×5=10(人),
由题意可知抽样比k==,
故应从A,B,C三组中分别抽取30×=3(人),20×=2(人),10×=1(人).
[课时达标检测]
一、选择题
1.一个容量为32的样本,已知某组样本的频率为0.125,则该组样本的频数为(  )
A.2        
B.4
C.6
D.8
答案:B
2.学校为了解学生在课外读物方面的支出情况,抽取了n个同学进行调查.结果显示这些同学的支出都在[10,50](单位:元)之间,其中支出在[10,30)(单位:元)之间的同学有33人,其频率分布直方图如图所示,则支出在[40,50](单位:元)之间的同学人数是(  )
A.100
B.120
C.30
D.300
答案:C
3.为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如图.据此可估计该校上学期400名教师中,使用多媒体进行教学次数在[16,30)内的人数为(  )
A.100
B.160
C.200
D.280
答案:B
4.某校100名学生的数学测试成绩频率分布直方图如图所示,分数不低于a即为优秀,如果优秀的人数为20人,则a的估计值是(  )
A.130
B.140
C.133
D.137
答案:C
5.为了解电视对生活的影响,一个社会调查机构就平均每天看电视的时间调查了某地10
000位居民,并根据所得数据画出样本的频率分布直方图(如图).为了分析该地居民平均每天看电视的时间与年龄、学历、职业等方面的关系,要从这10
000位居民中再用分层抽样抽出100位居民做进一步调查,则在[2.5,3)(小时)时间段内应抽出的人数是(  )
A.25
B.30
C.50
D.75
答案:A
二、填空题
6.下面茎叶图表示的是甲、乙两人在5次综合测评中的成绩,其中一个数字被污损,若乙的平均分是89,则污损的数字是________.
解析:设污损的叶对应的成绩是x,由茎叶图可得89×5=83+83+87+x+99,所以x=93,故污损的数字是3.
答案:3
7.如图是容量为100的样本的频率分布直方图,试根据图形中的数据填空.
(1)样本数据落在范围[6,10)内的频率为________;
(2)样本数据落在范围[10,14)内的频数为________.
解析:(1)样本数据落在范围[6,10)内的频率为
0.08×4=0.32.
(2)样本数据落在范围[10,14)内的频数为
0.09×4×100=36.
答案:(1)0.32 (2)36
8.为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图所示).已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则抽取的学生人数为________.
解析:前3个小组的频率和为
1-0.0375×5-0.012
5×5=0.75.
又因为前3个小组的频率之比为1∶2∶3,
所以第2小组的频率为×0.75=0.25.
又知第2小组的频数为12,则=48,即为所抽取的学生人数.
答案:48
三、解答题
9.下面是甲、乙两名运动员某赛季一些场次得分的茎叶图:
(1)甲、乙两名队员的最高得分各是多少?
(2)哪名运动员的成绩好一些?
解:(1)甲、乙两名队员的最高得分分别为51分,52分.
(2)从茎叶图可以看出,甲运动员得分大致对称,乙运动员的得分除一个52分以外,也大致对称.因此甲运动员的成绩好,总体得分比乙好.
10.在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日.评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示).已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:
(1)本次活动共有多少件作品参加评比?
(2)哪组上交的作品数最多?有多少件?
(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率较高?
解:(1)依题意知第三组的频率为=,又因为第三组的频数为12,
∴本次活动的参评作品数为=60(件).
(2)根据频率分布直方图可以看出,第四组上交的作品数量最多,共有60×=18(件).
(3)第四组的获奖率是=,
第六组上交的作品数量为
60×=3(件).
∴第六组的获奖率为=,显然第六组的获奖率较高.2.1.2 系统抽样
系统抽样的概念
[提出问题]
在一次有奖明信片的100
000个有机会中奖的号码(编号00
000~99
999)中,邮政部门按照随机抽取的方式确定后两位为37的号码为中奖号码.
问题1:上述抽样是简单随机抽样吗?
提示:不是.
问题2:上述抽样方法有什么特点?
提示:每隔100个号码有一个中奖.
[导入新知]
系统抽样的概念
要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.
[化解疑难]
系统抽样的特点
(1)系统抽样适用于总体容量较大,且分布均衡(即个体间无明显的差异)的情况;
(2)系统抽样的本质是“等距抽样”,要取多少个样本就把总体分成多少组,每组中取一个;
(3)系统抽样是等可能抽样,每个个体被抽到的可能性都是.
系统抽样的步骤
 
 [导入新知]
[化解疑难]
系统抽样需注意的问题
(1)如果总体中个体数N正好被样本容量n整除,则每个个体被入样的可能性是,若N不能被n整除,需要随机剔除m个个体,m=N-n·
,此时每个个体入样的可能性仍是,而不是.
(2)剔除个体后需要对剩余的个体重新进行编号.
(3)剔除个体及第一段抽样都用简单随机抽样.
系统抽样的概念
  [例1] (1)某商场欲通过检查部分发票及销售记录来快速估计每月的销售金额,采用如下方法:从某本发票的存根中随机抽一张,如15号,然后按顺序将65号,115号,165号,…,发票上的销售金额组成一个调查样本.这种抽取样本的方法是(  )
A.抽签法      
B.随机数法
C.系统抽样法
D.以上都不对
(2)为了了解某地参加计算机水平测试的5
008名学生的成绩,从中抽取了200名学生的成绩进行统计分析,运用系统抽样方法抽取样本时,每组的容量为(  )
A.24   B.25   C.26   D.28
[解析] (1)所述抽样方法是将发票平均分成若干组,每组50张,从第一组抽出了15号,以后各组抽15+50n(n∈N
)号,符合系统抽样的特点.
(2)选B 5
008除以200的整数商为25,
∴选B.
[答案] (1)C (2)B 
[类题通法]
系统抽样的判断方法
判断一个抽样是否为系统抽样:(1)首先看是否在抽样前知道总体是由什么组成,多少个个体;(2)再看是否将总体分成几个均衡的部分,并在每一个部分中进行简单随机抽样;(3)最后看是否等距抽样.
[活学活用]
某影院有40排座位,每排有46个座位,一个报告会上坐满了听众,会后留下座号为20的所有听众进行座谈,这是运用了(  )
A.抽签法
B.随机数表法
C.系统抽样法
D.放回抽样法
解析:选C 此抽样方法将座位分成40组,每组46个个体,会后留下座号为20的相当于第一组抽20号,以后各组抽取20+46n,符合系统抽样特点.
系统抽样的设计
[例2] (1)某初级中学领导采用系统抽样方法,从该校预备年级800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号,求得间隔数k==16,即每16人抽取一个人.在1~16中随机抽取一个数,如果抽到的是7,则从33~48这16个数中应取的数是________.
(2)某企业对新招的504名员工进行岗前培训,为了了解员工的培训情况,试用系统抽样的方法按照下列要求抽取员工,请你写出具体步骤.
①从中抽取8名员工,了解基本理论的掌握情况.
②从中抽取50名员工,了解实际操作的掌握情况.
[解] (1)∵采用系统抽样方法,每16人抽取一个人,1~16中随机抽取一个数抽到的是7,
∴在第k组抽到的是7+16(k-1),
∴从33~48这16个数中应取的数是7+16×2=39.
(2)①第一步,将504名员工随机编号,依次为001,002,003,…,503,504,将其等距分成8段,每一段有63个个体;
第二步,在第一段(001~063)中用简单随机抽样方法随机抽取一个号码作为起始号码,比如26号;
第三步,起始号+间隔的整数倍,确定各个个体:将编号为26,26+63,26+63×2,…,26+63×7的个体抽出组成样本.
②第一步,用随机方式给每个个体编号:001,002,003,…,503,504;
第二步,利用随机数表法剔除4个个体,比如剔除编号为004,135,069,308的4个个体,然后再对余下的500名员工重新编号,分别为001,002,003,…,499,500,并等距分成50段,每段10个个体;
第三步,在第一段001,002,003,…,010中用简单随机抽样方法抽出一个号码(如006)作为起始号码;
第四步,起始号+间隔的整数倍,确定各个个体,将编号为006,016,026,…,486,496的个体抽出组成样本.
[答案] (1)39
[类题通法]
设计系统抽样应关注的几个问题
(1)系统抽样一般是等距离抽取,适合总体中个体数较多,个体无明显差异的情况.
(2)总体均匀分段,通常在第一段(也可以选在其他段)中采用简单随机抽样的方法抽取一个编号,再通过将此编号加段距的整数倍的方法得到其他的编号.注意要保证每一段中都能取到一个个体.
(3)若总体不能均匀分段,要将多余的个体剔除(通常用随机数表的方法),不影响总体中每个个体被抽到的可能性.
[活学活用]
某校高中二年级有253名学生,为了了解他们的视力情况,准备按1∶5的比例抽取一个样本,试用系统抽样方法进行抽取,并写出过程.
解:第一步,先把这253名学生编号000,001,…,252.
第二步,用随机数表法任取出3个号,从总体中剔除与这三个号对应的学生.
第三步,把余下的250名学生重新编号1,2,3,…,250.
第四步,分段.取分段间隔k=5,将总体均分成50段.每段含5名学生.
第五步,以第一段即1~5号中随机抽取一个号作为起始号,如l.
第六步,从后面各段中依次取出l+5,l+10,l+15,…,l+245这49个号.
这样就按1∶5的比例抽取了一个样本容量为50的样本.
简单随机抽样与系统抽样的综合问题
[例3] 某集团有员工1
019人,其中获得过国家级表彰的有29人,其他人员990人.该集团拟组织一次出国学习,参加人员确定为:获得过国家级表彰的人员5人,其他人员30人,如何确定人选?
[解] 获得过国家级表彰的人员选5人,适宜使用抽签法:其他人员选30人,适宜使用系统抽样法.
(1)确定获得过国家级表彰的人员人选:
第一步,用随机方式给29人编号,号码为1,2,…,29;
第二步,将这29个号码分别写在一个小纸条上,揉成小球,制成号签;
第三步,将得到的号签放入一个不透明的袋子中,搅拌均匀;
第四步,从袋子中逐个抽取5个号签,并记录上面的号码;
第五步,从总体中将与抽到的号签的号码相一致的个体取出,人选就确定了.
(2)确定其他人员人选:
第一步,将990名其他人员重新编号(分别为1,2,…,990),并分成30段,每段33人;
第二步,在第一段1,2,…,33这33个编号中用简单随机抽样法抽出一个(如3)作为起始号码;
第三步,将编号为3,36,69,…,960的个体抽出,人选就确定了.
(1)(2)确定的人选合在一起就是最终确定的人选.
[类题通法]
系统抽样与简单随机抽样的区别和联系
1.区别
(1)系统抽样比简单随机抽样更容易实施,可节约抽样成本.
(2)系统抽样所得样本的代表性与具体的编号有关,而简单随机抽样所得样本的代表性与个体的编号无关.如果编号的个体特征随编号的变化呈一定的周期性,可能会使抽样的代表性很差.
(3)系统抽样的应用比简单随机抽样的应用更广泛,尤其是工业生产线上产品质量的检验,不知道产品的数量,因此不能用简单随机抽样.
2.联系
(1)将总体均分后的起始部分进行抽样时,采用的是简单随机抽样.
(2)与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的.
(3)与简单随机抽样一样是不放回的抽样.
(4)总体中的个体数恰好能被样本容量整除时,可用它们的比值作为系统抽样的间隔;当总体中的个体数不能被样本容量整除时,可用简单随机抽样先从总体中剔除少量个体,使剩下的个体数能被样本容量整除再进行系统抽样.
[活学活用]
下面给出某村委会调查本村各户收入情况做的抽样,阅读并回答问题.本村人口数1
200,户数300,每户平均人口数4人;应抽户数30;
抽样间隔:=40;
确定随机数字:取一张人民币,后两位数为12;
确定第一样本户:编号12的户为第一样本户;
确定第二样本户:12+40=52,52号为第二样本户;
……
(1)该村委会采用了何种抽样方法?
(2)抽样过程存在哪些问题,试修改.
(3)何处是用简单随机抽样?
解:(1)系统抽样.
(2)本题是对某村各户进行抽样,而不是对某村人口抽样.抽样间隔=10,其他步骤相应改为确定随机数字:取一张人民币,末位数为2.(假设)确定第一样本户:编号02的住户为第一样本户;确定第二样本户:2+10=12,12号为第二样本户.
(3)确定随机数字:取一张人民币,其末位数为2.
    
[典例] 从2
009名学生中选取50名学生参加数学竞赛,若采用下面方法选取:先用简单随机抽样从2
009人中剔除9人,剩下的2
000人再按系统抽样的方法抽取
50人,则在2
009人中,每个人入选的机会(  )
A.都相等,且为 
B.不全相等
C.均不相等
D.都相等,且为
[解析] 因为在系统抽样中,若所给的总体个数不能被样本容量整除,则要先剔除几个个体,本题要先剔除9人,然后再分组,在剔除过程中,每个个体被剔除的机会相等,所以每个个体被抽到包括两个过程,一是不被剔除,二是被选中,这两个过程是相互独立的,所以,每个人入选的机会都相等,且为.
[答案] A
[易错防范]
1.本题若认为剔除9人后,入选的机会就不相等了,则易误选C.
2.本题易误认为入选的机会虽然相等,但是利用了剔除后的数据,误选D.
3.在系统抽样过程中,为将整个的编号分段(即分成几个部分),要确定分段的间隔,当在系统抽样过程中比值不是整数时,要从总体中删除一些个体(用简单随机抽样的方法).但是每一个个体入样的机会仍然是相等的,不会发生变化.
[成功破障]
从样本容量为73的总体中抽取8个个体的样本,若采用系统抽样的方法抽样,则分段间隔k是________;每个个体被抽到的可能性为________.
解析:采用系统抽样的方法,因为=9.125,故分段间隔是k=9,每个个体被抽到的可能性为.
答案:9 
[随堂即时演练]
1.系统抽样适用的总体应是(  )
A.容量较少的总体
B.总体容量较多
C.个体数较多但均衡的总体
D.任何总体
解析:选C 系统抽样适用的总体应是个体数较多但均衡的总体.
2.从已编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是(  )
A.5,10,15,20,25  
B.3,13,23,33,43
C.1,2,3,4,5
D.2,4,6,16,32
解析:选B 用系统抽样的方法抽取到的导弹编号应该为k,k+d,k+2d,k+3d,k+4d,其中d==10,k是1到10中用简单随机抽样方法得到的编号,因此只有选项B满足要求.
3.将参加数学竞赛的1
000名同学编号如下:0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样方法分成50个部分,如果第1部分编号为
0001,0002,…,0020,第1部分随机抽取的一个号码为0015,则抽取的第40个号码为______________.
解析:利用系统抽样的概念,若n部分中在第1部分抽取的号码为m,分段间隔为d,则在第k部分中抽取的第k个号码为m+(k-1)d,所以抽取的第40个号码为0
015+39×20=0
795.
答案:0
795
4.一个总体中有100个个体,随机编号0,1,2,…,99.依编号顺序平均分成10个组,组号依次为1,2,3,…,10,现用系统抽样方法抽取一个容量为10的样本,规定如果在第一组随机抽取的号码为t,则在第k组中抽取的号码个位数字与t+k的个位数字相同.若t=7,则在第8组中抽取的号码应该是________.
解析:∵k=8,t=7,t+k=15,
∴在第8组中抽取的号码是75.
答案:75
5.某公司有1
000名职工,从中抽取10人参加培训,试用系统抽样进行具体实施.
解:第一步,将每个职工随机编号为:0001,0002,0003,…,1
000.
第二步,分段,取间隔k==100,将总体分为10组,每组100名职工.
第三步,从第一组0
001号至0
100号中随机抽取一个号i0.
第四步,按编号将i0,i0+100,i0+200,…,i0+900共10个号码选出.
这10个号码所对应职工即组成样本.
[课时达标检测]
一、选择题
1.下列抽样试验中,最适宜用系统抽样法的是(  )
A.某市的4个区共有2
000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样
B.从某厂生产的2
000个电子元件中随机抽取5个入样
C.从某厂生产的2
000个电子元件中随机抽取200个入样
D.从某厂生产的20个电子元件中随机抽取5个入样
答案:C
2.为了调查某产品的销售情况,销售部门从下属的92家销售连锁店中抽取30家了解情况,若用系统抽样方法,则抽样间隔和随机剔除的个数分别为(  )
A.3,2  
B.2,3
C.2,30
D.30,2
答案:A
3.在一个个体数目为2
003的总体中,利用系统抽样抽取一个容量为100的样本,则总体中每个个体被抽到的机会为(  )
A.       
B.
C.
D.
答案:C
4.用系统抽样法从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8,9~16,…,153~160),若第16组得到的号码为126,则第1组中用抽签的方法确定的号码是(  )
A.8  
B.6   
C.4  
D.2
答案:B
5.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为(  )
A.26,16,8
B.25,17,8
C.25,16,9
D.24,17,9
答案:B
二、填空题
6.已知标有1~20号的小球20个,目的是估计总体号码的平均值,即20个小球号码的平均数.试验者从中抽取4个小球,以这4个小球号码的平均数估计总体号码的平均值,按下面方法抽样(按小号到大号排序):
(1)以编号2为起点,系统抽样抽取4个球,则这4个球的编号的平均值为________;
(2)以编号3为起点,系统抽样抽取4个球,则这4个球的编号的平均值为________.
解析:20个小球分4组,每组5个:
(1)若以2号为起点,则另外三个球的编号依次为7,12,17,4个球编号的平均值为=9.5.
(2)若以3号为起点,则另外三个球的编号依次为8,13,18,4个球编号的平均值为=10.5.
答案:(1)9.5 (2)10.5
7.某高三(1)班有学生56人,学生编号依次为01,02,03,…,56.现用系统抽样的方法抽取一个容量为4的样本,已知编号为06,34,48的同学在样本中,那么样本中另一位同学的编号应该是________.
解析:由于系统抽样的样本中个体编号是等距的,且间距为56/4=14,所以样本编号应为06,20,34,48.
答案:20
8.有40件产品,编号从1至40,现从中抽4件检验,用系统抽样的方法确定所抽的编号可能是________(填序号)
①5,10,15,20;②2,12,22,32;③5,8,31,36
解析:由系统抽样的定义可知,间隔k==10,可以在第一组1~10号个体中取一个l,1≤l≤10,则抽到的样本为l,l+10,l+20,l+30.
答案:②
三、解答题
9.某批产品共有1
564件,产品按出厂顺序编号,号码从1到1
564,检测员要从中抽取15件产品做检测,请你给出一个系统抽样方案.
解:(1)先从1
564件产品中,用简单随机抽样方法抽出4件产品,将其剔除.
(2)将余下的1
560件产品编号:1,2,3,…,1
560.
(3)取k==104,将总体均分为15组,每组含104个个体.
(4)从第一组即1号到104号利用简单随机抽样抽取一个编号s.
(5)按编号把s,104+s,208+s,…,1
456+s共15个编号选出,这15个编号所对应的产品即组成样本.
10.要装订厂平均每小时大约装订图书362册,需要检验员每小时抽取40册图书,检验其质量状况,请你设计一个抽样方案.
解:第一步,把这些图书分成40个组,由于的商是9,余数是2,所以每个小组有9册书,还剩2册书.这时抽样距就是9.
第二步,先用简单随机抽样的方法从这些书中抽取2册,不进行检验.
第三步,将剩下的书进行编号,编号分别为0,1,…,359.
第四步,从第一组(编号为0,1,…,8)的书中用简单随机抽样的方法,抽取1册书,比如说,其编号为k.
第五步,顺次抽取编号分别为下面数字的书:k,k+9,k+18,k+27,…,k+39×9.这样总共就抽取了40个样本.
11.将一个总体中的1
000个个体编号为0,1,2,…,999,并依次将其均分为10个小组,组号为0,1,2,…,9,要用系统抽样方法抽取一个容量为10的样本,规定如果在第0组随机抽取的号码为x,那么依次错位地得到后面各组的号码,即第k组中抽取的号码的后两位数为x+33k的后两位数.
(1)当x=24时,写出所抽取样本的10个号码;
(2)若所抽取样本的10个号码中有一个后两位数是87,求x的取值范围.
解:(1)由题意知,此系统抽样的间隔是100,根据x=24和题意得,24+33×1=57,第二组抽取的号码是157.由24+33×2=90,则从第三组抽取的号码是290,…
故依次是24,157,290,323,456,589,622,755,888,921.
(2)由x+33×0=87得x=87,由x+33×1=87得x=54,由x+33×3=187得x=88,…,
依次求得x值可能为21,22,23,54,55,56,87,88,89,90.2.2.2 用样本的数字特征估计总体的数字特征
众数、中位数、平均数
[提出问题]
现从甲、乙、丙三个厂家生产的同一种产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下(单位:年)
甲:3,4,5,6,8,8,8,10
乙:4,6,6,6,8,9,12,13
丙:3,3,4,7,9,10,11,12
问题:三家广告中都称其产品的使用寿命为8年,利用初中所学的知识,你能说明为什么吗?
提示:三个厂家是从不同角度进行了说明,以宣传自己的产品.其中甲:众数为8年,乙:平均数为8年,丙:中位数为8年.
[导入新知]
众数、中位数、平均数的概念
(1)众数:一组数据中出现次数最多的数.
(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果个数是偶数,则取中间两个数据的平均数.
(3)平均数:一组数据的和除以数据个数所得到的数.
[化解疑难]
三种数字特征的比较
名称
优点
缺点
众数
体现了样本数据的最大集中点;②容易计算
它只能表达样本数据中很少的一部分信息;②无法客观地反映总体的特征
中位数
不受少数几个极端数据(即排序靠前或靠后的数据)的影响;②容易计算,便于利用中间数据的信息
对极端值不敏感
平均数
代表性较好,是反映数据集中趋势的量.一般情况下,可以反映出更多的关于样本数据全体的信息
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
方差和标准差
[提出问题]
甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
问题1:甲、乙两战士命中环数平均数甲,乙各是多少?
提示:甲=7环,乙=7环.
问题2:由甲,乙能否判断两人的射击水平?
提示:由于甲=7环,乙=7环,所以不能判断.
问题3:观察上述两组数据,你认为哪个人的射击水平更稳定?
提示:从数字分布来看,甲命中的环数较分散,乙命中的环数较集中.故乙的射击水平更稳定.
[导入新知]
标准差、方差的概念与计算公式
(1)标准差:
标准差是样本数据到平均数的一种平均距离,一般用s表示,s=.
(2)方差:
标准差的平方s2叫做方差.
s2=[(x1-)2+(x2-)2+…+(xn-)2],
其中,xn是样本数据,n是样本容量,是样本平均数.
[化解疑难]
对方差与标准差概念的理解
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.
(2)标准差、方差的取值范围:[0,+∞).
标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.
(3)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.
众数、中位数、平均数的计算
[例1] (1)已知一组数据按从小到大排列为-1,0,4,x,6,15,且这组数据的中位数是5,那么数据的众数是________,平均数是________.
(2)下面是某快餐店所有工作人员一周的收入表:
老板
大厨
二厨
采购员
杂工
服务生
会计
6
000元
900元
700元
800元
640元
640元
820元
①计算所有人员的周平均收入;
②这个平均收入能反映打工人员的周收入的一般水平吗?为什么?
③去掉老板的收入后,再计算平均收入,这能代表打工人员的周收入的水平吗?
[解] (1)∵中位数为5,
∴=5,即x=6.
∴该组数据的众数为6,
平均数为=5.
(2)①周平均收入1=(3
000+450+350+400+320+320+410)=750(元).
②这个平均收入不能反映打工人员的周收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员.
③去掉老板的收入后的周平均收入
2=(450+350+400+320+320+410)=375(元).
这能代表打工人员的周收入水平.
答案:(1)6 5
[类题通法]
利用样本数字特征进行决策时的两个关注点
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响大;中位数是样本数据所占频率的等分线,不受几个极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.
[活学活用]
从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则(  )
A.甲<乙,m甲>m乙 
B.甲<乙,m甲<m乙
C.甲>乙,m甲>m乙
D.甲>乙,m甲<m乙
解析:选B 由茎叶图知,甲的平均数为
(5+6+8+10+10+14+18+18+22+25+27+30+30+38+41+43)÷16=21.562
5,
乙的平均数为(10+12+18+20+22+23+23+27+31+32+34+34+38+42+43+48)÷16=28.562
5,
所以甲<乙.
甲的中位数为(18+22)÷2=20,
乙的中位数为(27+31)÷2=29,
所以m甲<m乙.
标准差(方差)的计算及应用
[例2] 从甲、乙两种玉米苗中各抽10株,分别测得它们的株高如下(单位:cm):
甲:25 41 40 37 22 14 19 39 21 42
乙:27 16 44 27 44 16 40 40 16 40
问:(1)哪种玉米苗长得高?
(2)哪种玉米苗长得齐?
[解] (1)∵甲=(25+41+40+37+22+14+19+39+21+42)=×300=30(cm),
乙=(27+16+44+27+44+16+40+40+16+40)=×310=31(cm).
∴甲<乙,
即乙种玉米苗长得高.
(2)s=[(25-30)2+(41-30)2+(40-30)2+(37-30)2+(22-30)2+(14-30)2+(19-30)2+(39-30)2+(21-30)2+(42-30)2]
=(25+121+100+49+64+256+121+81+81+144)=×1
042=104.2,
s=[(2×272+3×162+3×402+2×442)-10×312]=×1
288=128.8,
∴s<s,即甲种玉米苗长得齐.
[类题通法]
1.计算标准差的算法
2.标准差(方差)的两个作用
(1)标准差(方差)较大,数据的离散程度较大;标准差(方差)较小,数据的离散程度较小.
(2)在实际应用中,常常把平均数与标准差结合起来进行决策.在平均值相等的情况下,比较方差或标准差以确定稳定性.
[活学活用]
1.(安徽高考)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为(  )
A.8
B.15
C.16
D.32
解析:选C 已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选C.
2.(广东高考)某工厂36名工人的年龄数据如下表.
工人编号
年龄
工人编号
年龄
工人编号
年龄
工人编号
年龄
1
40
10
36
19
27
28
34
2
44
11
31
20
43
29
39
3
40
12
38
21
41
30
43
4
41
13
39
22
37
31
38
5
33
14
43
23
34
32
42
6
40
15
45
24
42
33
53
7
45
16
39
25
37
34
37
8
42
17
38
26
44
35
49
9
43
18
36
27
42
36
39
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据.
(2)计算(1)中样本的均值和方差s2.
(3)36名工人中年龄在-s与+s之间有多少人?所占的百分比是多少(精确到0.01%)
解:(1)36人分成9组,每组4人,其中第一组的工人年龄为44,所以它在组中的编号为2,
所以所有样本数据的编号为4n-2(n=1,2,…,9),
其年龄数据为:44,40,36,43,36,37,44,43,37.
(2)由均值公式知:==40,
由方差公式知:s2=[(44-40)2+(40-40)2+…+(37-40)2]=.
(3)因为s2=,s=,
所以36名工人中年龄在-s和+s之间的人数等于年龄在区间[37,43]上的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在-s和+s之间的人数所占的百分比为×100%≈63.89%.
数字特征的综合应用
[例3] 从高三抽出50名学生参加数学竞赛,由成绩得到如下的频率分布直方图.
由于一些数据丢失,试利用频率分布直方图求:
(1)这50名学生成绩的众数与中位数;
(2)这50名学生的平均成绩.
[解] (1)由众数的概念可知,众数是出现次数最多的数.在直方图中高度最高的小长方形的底边中点的横坐标即为所求,所以众数应为75.
由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等,即频率也相等,从而就是小矩形的面积和相等.因此在频率分布直方图中将所有小矩形的面积一分为二的垂直于横轴的直线与横轴交点的横坐标所对应的成绩即为所求.
∵0.004×10+0.006×10+0.02×10=0.04+0.06+0.2=0.3,
∴前三个小矩形面积的和为0.3.
而第四个小矩形面积为0.03×10=0.3,0.3+0.3>0.5,
∴中位数应约位于第四个小矩形内.
设其底边为x,高为0.03,∴令0.03x=0.2得x≈6.7,
故中位数应约为70+6.7=76.7.
(2)样本平均值应是频率分布直方图的“重心”,即所有数据的平均值,取每个小矩形底边的中点的横坐标乘以每个小矩形的面积求和即可.
∴平均成绩为45×(0.004×10)+55×(0.006×10)+65×(0.02×10)+75×(0.03×10)+85×(0.021×10)+95×(0.016×10)=73.65.
[类题通法]
众数、中位数、平均数与频率分布直方图的关系
众数
众数是最高长方形底边的中点所对应的数据,表示样本数据的中心值
中位数
在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;②表示样本数据所占频率的等分线
平均数
①平均数等于每个小长方形的面积乘以小长方形底边中点的横坐标之和;②平均数是频率分布直方图的重心,是频率分布直方图的平衡点
[活学活用]
为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图,则
(1)这20名工人中一天生产该产品数量在[55,75)的人数是________.
(2)这20名工人中一天生产该产品数量的中位数为________.
(3)这20名工人中一天生产该产品数量的平均数为________.
解析:(1)(0.040×10+0.025×10)×20=13.
(2)设中位数为x,则0.2+(x-55)×0.04=0.5,
x=62.5.
(3)0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.
答案:(1)13 (2)62.5 (3)64
    
[典例] 对一组样本数据xi(i=1,2,…,n),如将它们改为xi-m(i=1,2,…,n),其中m≠0,则下面结论正确的是(  )
A.平均数与方差都不变
B.平均数与方差都变了
C.平均数不变,方差变了
D.平均数变了,方差不变
[解析] 若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b(a≠0)的平均数为a+b,方差为a2s2,标准差为,于是知道正确答案应为D.
[答案] D
[易错防范]
(1)本题易误认为样本数据变化了,则样本的平均数与方差也会随之改变,从而误选B.
(2)若x1,x2,x3,…,xn的平均数为,方差为s2,标准差为s,则数据的平均数、方差和标准差有以下规律:
数据
平均数
方差
标准差
x1,x2,x3,…,xn
s2
s
x1+b,x2+b,…,xn+b(b为常数)
+b
s2
s
ax1,ax2,…,axn(a为常数)
a
a2s2
|a|s
ax1+b,ax2+b,…,axn+b(a,b为常数)
a+b
a2s2
|a|s
 
[成功破障]
一组数据的方差为s2,平均数为,将这组数据中的每一个数都乘以2,所得的一组新数据的方差和平均数为(  )
A.s2,    
B.2s2,2
C.4s2,2
D.s2,
解析:选C 将一组数据的每一个数都乘以a,则新数据组的方差为原来数据组方差的a2倍,平均数为原来数据组的a倍.
[随堂即时演练]
1.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有(  )
A.a>b>c     
B.b>c>a
C.c>a>b
D.c>b>a
解析:选D 将数据从小到大排列为10,12,14,14,15,15,16,17,17,17,则平均数a=(10+12+14×2+15×2+16+17×3)=14.7,中位数b=15,众数c=17,显然a<b<c.
2.在教学调查中,甲、乙、丙三个班的数学测试成绩分布如图,假设三个班的平均分都是75分,s1,s2,s3分别表示甲、乙、丙三个班数学测试成绩的标准差,则有(  )
A.s3>s1>s2
B.s2>s1>s3
C.s1>s2>s3
D.s3>s2>s1
解析:选D 所给图是成绩分布图,平均分是75分,在图1中,集中在75分附近的数据最多,图3中从50分到100分均匀分布,所有成绩不集中在任何一个数据附近,图2介于两者之间.由标准差的意义可得s3>s2>s1.
3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是________.
解析:数据从小到大排列后可得其中位数为=91.5,平均数为=91.5.
答案:91.5,91.5
4.样本中共有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为________.
解析:由题意知(a+0+1+2+3)=1,解得a=-1.
所以样本方差为s2=[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.
答案:2
5.甲、乙两人在相同条件下各打靶10次,每次打靶的成绩情况如图所示:
(1)请填写下表:
平均数
中位数
命中9环以上的次数(含9环)

7

(2)从下列三个不同角度对这次测试结果进行分析:
①从平均数和中位数相结合看,谁的成绩好些?
②从平均数和命中9环及9环以上的次数相结合看,谁的成绩好些?
③从折线图中两人射击命中环数的走势看,谁更有潜力?
解:(1)由题图可知,甲打靶的成绩为:2,4,6,8,7,7,8,9,9,10;乙打靶的成绩为:9,5,7,8,7,6,8,6,7,7.
甲的平均数是7,中位数是7.5,命中9环及9环以上的次数是3;
乙的平均数是7,中位数是7,命中9环及9环以上的次数是1.
(2)由(1)知,甲、乙的平均数相同.
①甲、乙的平均数相同,甲的中位数比乙的中位数大,所以甲成绩较好.
②甲、乙的平均数相同,甲命中9环及9环以上的次数比乙多,所以甲成绩较好.
③从折线图中看,在后半部分,甲呈上升趋势,而乙呈下降趋势,故甲更有潜力.
[课时达标检测]
一、选择题
1.下列说法不正确的是(  )
A.方差是标准差的平方
B.标准差的大小不会超过极差
C.若一组数据的值大小相等,没有波动变化,则标准差为0
D.标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散
答案:D
2.下图为甲、乙两名篮球运动员每场比赛得分情况的茎叶图,则甲和乙得分的中位数的和是(  )
A.56分      
B.57分
C.58分
D.59分
答案:B
3.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:
则7个剩余分数的方差为(  )
A.
B.
C.36
D.
答案:B
4.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则(  )
A.A>B,sA>sB
B.A<B,sA>sB
C.A>B,sA<sB
D.A<B,sA<sB
答案:B
5.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示.假设得分值的中位数为me,众数为m0,平均值为,则(  )
A.me=m0=
B.me=m0<
C.me<m0<
D.m0<me<
答案:D
二、填空题
6.五个数1,2,3,4,a的平均数是3,则a=_____________________________________,
这五个数的标准差是________.
解析:由=3得a=5;
由s2=[(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2]=2得,标准差s=.
答案:5 
7.已知样本9,10,11,x,y的平均数是10,标准差是
,则xy=________.
解析:由平均数得9+10+11+x+y=50,∴x+y=20,又由(9-10)2+(10-10)2+(11-10)2+(x-10)2+(y-10)2=()2×5=10,得x2+y2-20(x+y)=-192,(x+y)2-2xy-20(x+y)=-192,xy=96.
答案:96
8.对一个做直线运动的质点的运动过程观测了8次,得到如下表所示的数据:
观测序号i
1
2
3
4
5
6
7
8
观测数据ai
40
41
43
43
44
46
47
48
在上述统计数据的分析中,一部分计算见如图所示的算法流程图(其中是这8个数据的平均数),则输出的S的值是________.
解析:=(40+41+43+43+44+46+47+48)÷8=44,该程序框图是计算这8个数据的方差,经计算得S=7,则输出7.
答案:7
三、解答题
9.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
求:(1)高一参赛学生的成绩的众数、中位数.
(2)高一参赛学生的平均成绩.
解:(1)由图可知众数为65,
又∵第一个小矩形的面积为0.3,
∴设中位数为60+x,则0.3+x×0.04=0.5,得x=5,
∴中位数为60+5=65.
(2)依题意,平均成绩为
55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,
∴平均成绩约为67.
10.(全国乙卷)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
解:(1)当x≤19时,y=3
800;
当x>19时,y=3
800+500(x-19)=500x-5
700,
所以y与x的函数解析式为
y=(x∈N).
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3
800(元),20台的费用为4
300(元),10台的费用为4
800(元),因此这100台机器在购买易损零件上所需费用的平均数为(3
800×70+4
300×20+4
800×10)=4
000(元).
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4
000(元),10台的费用为4
500(元),因此这100台机器在购买易损零件上所需费用的平均数为(4
000×90+4
500×10)=4
050(元).比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
PAGE
-
1
-2.1.3 分层抽样
[提出问题]
某市为调查中小学生的近视情况,在全市范围内分别对小学生、初中生、高中生三个群体抽样,进而了解中小学生的总体情况和三个群体近视情况的差异大小.
问题1:上述问题中样本总体有什么特征?
提示:此总体,小学生、初中生、高中生三个群体在年龄、体质等方面存在着明显的差异.
问题2:若采用抽签法或系统抽样法会出现什么结果?
提示:抽取的样本可能集中于某一个群体,不具有代表性.
问题3:为使抽取的样本更合理,更有代表性,有更好的抽样方法解决该问题吗?
提示:有.可分不同群体抽取.
[导入新知]
1.分层抽样的概念
在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
2.分层抽样的适用条件
分层抽样尽量利用事先所掌握的各种信息,并充
分考虑保持样本结构与总体结构的一致性,这对提高样本的代表性非常重要.当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.
[化解疑难]
简单随机抽样、系统抽样、分层抽样的联系和区别
类别
简单随机抽样
系统抽样
分层抽样
各自特点
从总体中逐个抽取
将总体均分成几个部分,按事先确定的规则在各部分抽取
将总体分成几层,分层进行抽取
相互联系
在起始部分采用简单随机抽样
在各层抽样时采用简单随机抽样或系统抽样
适用范围
总体中的个体数较少
总体中的个体数较多
总体由存在明显差异的几部分组成
共同点
抽样过程中每个个体被抽到的可能性相等;②每次抽出个体后不再放回,即不放回抽样
分层抽样的概念
[例1] (1)某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适(  )
A.系统抽样法   
B.简单随机抽样法
C.分层抽样法
D.随机数法
(2)分层抽样又称类型抽样,即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层抽样为保证每个个体等可能抽样,必须进行(  )
A.每层等可能抽样
B.每层可以不等可能抽样
C.所有层按同一抽样比等可能抽样
D.所有层抽取的个体数量相同
[解析] (1)总体由差异明显的三部分构成,应选用分层抽样法.
(2)保证每个个体等可能的被抽取是三种基本抽样方式的共同特征,为了保证这一点,分层抽样时必须在所有层都按同一抽样比等可能抽取.
[答案] (1)C (2)C 
[类题通法]
1.使用分层抽样的前提
分层抽样的适用前提条件是总体可以分层、层与层之间有明显区别,而层内个体间差异较小.
2.使用分层抽样应遵循的原则
(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
[活学活用]
下列问题中,最适合用分层抽样抽取样本的是(  )
A.从10名同学中抽取3人参加座谈会
B.某社区有500个家庭,其中高收入的家庭125个,中等收入的家庭280个,低收入的家庭95个,为了了解生活购买力的某项指标,要从中抽取一个容量为100的样本
C.从1
000名工人中,抽取100名调查上班途中所用时间
D.从生产流水线上,抽取样本检查产品质量
解析:选B A中总体个体无明显差异且个数较少,适合用简单随机抽样;C和D中总体个体无明显差异且个数较多,适合用系统抽样;B中总体个体差异明显,适合用分层抽样.
分层抽样的应用
[例2] (1)将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层抽样方法抽取容量为100的样本,则应从C中抽取________个个体.
(2)一个地区共有5个乡镇,人口3万人,其人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.
[解] (1)∵A,B,C三层个体数之比为5∶3∶2,
又有总体中每个个体被抽到的概率相等,
∴分层抽样应从C中抽取100×=20(个)个体.
(2)因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法.
具体过程如下:
第一步,将3万人分为5层,其中一个乡镇为一层.
第二步,按照样本容量的比例求得各乡镇应抽取的人数分别为60人,40人,100人,40人,60人.
第三步,按照各层抽取的人数随机抽取各乡镇应抽取的样本.
第四步,将300人合到一起,即得到一个样本.
[答案] (1)20
[类题通法]
1.分层抽样的步骤
2.确定每层抽取的个体数的方法
(1)已知总体容量、样本容量及各层的个体数时,首先确定抽样比,其中N为总体容量,n为样本容量;然后确定每层抽取的个体的个数ni=Ni×,其中Ni为第i(i=1,2,…,k)层的个体数,ni为第i层应抽取的样本数.
(2)已知各层个体数之比为m1∶m2∶…∶mk,样本容量为n时,每层抽取的个体数为ni=n×.
[活学活用]
(北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为(  )
类别
人数
老年教师
900
中年教师
1
800
青年教师
1
600
合计
4
300
A.90      
B.100
C.180
D.300
解析:选C 设该样本中的老年教师人数为x,
由题意及分层抽样的特点得=,
故x=180.
三种抽样方法的综合应用
[例3] 某中学举行了为期3天的新世纪体育运动会,同时进行全校精神文明擂台赛.为了了解这次活动在全校师生中产生的影响,分别在全校500名教职员工、3
000名初中生、4
000名高中生中做问卷调查,如果要在所有答卷中抽出120份用于评估.
(1)应如何抽取才能得到比较客观的评价结论?
(2)要从3
000份初中生的答卷中抽取一个容量为48的样本,如果采用简单随机抽样,应如何操作?
(3)为了从4
000份高中生的答卷中抽取一个容量为64的样本,如何使用系统抽样抽取到所需的样本?
[解] (1)由于这次活动对教职员工、初中生和高中生产生的影响不相同,所以应当采取分层抽样的方法进行抽样.
因为样本容量=120,总体个数=500+3
000+4
000=7
500,则抽样比为=,
所以有500×=8,3
000×=48,
4
000×=64,
所以在教职员工、初中生、高中生中抽取的个体数分别是8,48,64.
分层抽样的步骤是:
①分层:分为教职员工、初中生、高中生,共三层.
②确定每层抽取个体的个数:在教职员工、初中生、高中生中抽取的个体数分别是8,48,64.
③各层分别按简单随机抽样或系统抽样的方法抽取样本.
④综合每层抽样,组成样本.
这样便完成了整个抽样过程,就能得到比较客观的评价结论.
(2)由于简单随机抽样有两种方法:抽签法和随机数法.如果用抽签法,要作3
000个号签,费时费力,因此采用随机数表法抽取样本,步骤是:
①编号:将3
000份答卷都编上号码:0
001,0
002,0
003,…,3
000.
②在随机数表上随机选取一个起始位置.
③规定读数方向:向右连续取数字,以4个数为一组,如果读取的4位数大于3
000,则去掉,如果遇到相同号码则只取一个,这样一直到取满48个号码为止.
(3)由于4
000÷64=62.5不是整数,则应先使用简单随机抽样从4
000名学生中随机剔除32个个体,再将剩余的3
968个个体进行编号:1,2,…,3
968,然后将整体分为64个部分,其中每个部分中含有62个个体,如第1部分个体的编号为1,2,…,62.从中随机抽取一个号码,如若抽取的是23,则从第23号开始,每隔62个抽取一个,这样得到容量为64的样本:23,85,147,209,271,333,395,457,…,3
929.
[类题通法]
选择抽样方法的步骤及注意事项
(1)选择抽样方法的步骤:
第一步,看总体是否由差异明显的几个层次组成.若是,则选用分层抽样;否则,考虑用简单随机抽样或系统抽样.
第二步,看总体容量和样本容量的大小.当总体容量较小时,采用抽签法;当总体容量较大、样本容量较小时,采用随机数表法;当总体容量较大、样本容量也较大时,采用系统抽样.
(2)注意事项:
①弄清三种抽样方法的使用范围和实际情况是灵活选用抽样方法的前提.
②三种抽样都是等可能抽样.
③简单随机抽样是系统抽样和分层抽样的基础,三种抽样方法经常交叉使用.例如,在分层抽样中,各层抽样时可采用系统抽样或简单随机抽样;在系统抽样中,起始部分可采用简单随机抽样.
[活学活用]
为了评估某学校的教学水平,将抽取这个学校高三年级的部分学生本学年的考试成绩进行考察.为全面反映实际情况,采取以下三种方式进行抽查(已知该学校高三年级共有20个教学班,并且每个班内的学生按随机方式编好了学号,假定该校每班学生人数都相同):
①从全年级20个班中任意抽取一个班,再从该班任意抽取20人,考察他们的学习成绩;
②每个班都抽取1人,共计20人,考察这20个学生的学习成绩;
③把学生按成绩分成优秀、良好、普通三个级别,从中共抽取100名学生进行考察(已知若按成绩分,该校高三学生中优秀生共150人,良好生共600人,普通生共250人).
根据上面的叙述,回答下列问题:
(1)上面三种抽取方式中,其总体、个体、样本分别指什么?按每一种抽取方式抽取的样本中,其样本容量分别是多少?
(2)上面三种抽取方式中,各自采用何种抽样方法?
(3)试分别写出上面三种抽取方式各自抽取样本的步骤.
解:(1)三种抽取方式中,其总体都是高三全体学生本学年的考试成绩,个体都是指高三年级每个学生本学年的考试成绩.其中第一种抽取方式中样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第二种抽取方式中样本为所抽取的20名学生本学年的考试成绩,样本容量为20;第
三种抽取方式中样本为所抽取的100名学生本学年的考试成绩,样本容量为100.
(2)三种抽取方式中,第一种方式采用的是简单随机抽样法;第二种方式采用的是系统抽样法和简单随机抽样法;第三种方式采用的是分层抽样法和简单随机抽样法.
(3)第一种方式抽样的步骤如下:
第一步,在这20个班中用抽签法任意抽取一个班;
第二步,从这个班中按学号用随机数法或抽签法抽取20名学生,考察其考试成绩.
第二种方式抽样的步骤如下:
第一步,在第一个班中,用简单随机抽样法任意抽取某一学生,记其学号为a;
第二步,在其余的19个班中,选取学号为a的学生,共计20人.
第三种方式抽样的步骤如下:
第一步,分层.由于按成绩分,其中优秀生共150人,良好生共600人,普通生共250人,故在抽取样本时,应把全体学生分成三层.
第二步,确定各个层抽取的人数.由于样本容量与总体的个体数的比为100∶1
000=1∶10,故在每层抽取的个体数依次为,,,即15,60,25.
第三步,按层分别抽取.在优秀生中用简单随机抽样法抽取15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.
    
[典例] 某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n的样本,如果采用系统抽样和分层抽样方法抽取,不用剔除个体;如果样本容量增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求得样本容量为________.
[解析] 总体容量N=36.
当样本容量为n时,系统抽样间隔为∈N
,所以n是36的约数;
分层抽样的抽样比为,求得工程师、技术员、技工的抽样人数分别为、、,所以n应是6的倍数,所以n=6或12或18或36.
当样本容量为n+1时,总体中先剔除1人时还有35人,系统抽样间隔为∈N
,所以n只能是6.
[答案] 6
[易错防范]
1.若没有考虑样本容量为n+1时的变化情况,会得到n=6或12或18或36的错误结论.
2.样本容量增加1个个体,若总体没有剔除1人,没有考虑到系统抽样的间隔为∈N
,而是利用n+1是36的约数,则易得n=5,从而导致解题错误.
[成功破障]
某企业三月中旬生产A,B,C三种产品共3
000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
由于不小心,表格中A、C两种产品的有关数据已被污染看不清楚了,统计员只记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C产品的数量是__________件.
解析:抽样比为130∶1
300=1∶10,即每10个产品中抽取1个个体,又A产品的样本容量比C产品的样本容量多10,故C产品的数量是[(3
000-1
300)-100]×=800(件).
答案:800
[随堂即时演练]
1.(四川高考)某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是(  )
A.抽签法      
B.系统抽样法
C.分层抽样法
D.随机数法
解析:选C 根据年级不同产生差异及按人数比例抽取易知应为分层抽样法.
2.某商场有四类食品,食品类别和种数见下表.现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是(  )
类别
粮食类
植物油类
动物性食品类
果蔬类
种数
40
10
30
20
A.7        
B.6
C.5
D.4
解析:选B 由已知可得抽样比为:=,∴抽取植物油类与果蔬类食品种数之和为(10+20)×=6.
3.已知某单位有职工120人,其中男职工90人,现采用分层抽样的方法(按男、女分层)抽取一个样本,若已知样本中有27名男职工,则样本容量为________.
解析:分层抽样中抽样比一定相同,设样本容量为n,由题意得,=,解得n=36.
答案:36
4.一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工________人.
解析:∵单位共有职工200人,取一个容量为25的样本,∴依题意知抽取超过45岁的职工人数为×80=10(人).
答案:10
5.对某单位1
000名职工进行某项专门调查,调查的项目与职工任职年限有关,人事部门提供了如下资料:
任职年限
人数
5年以下
300
5~10年
500
10年以上
200
试利用上述资料,设计一个抽样比为的抽样方法.
解:因为抽样比为,
故只需从1
000人中抽取1
000×=100(人).
故从任职5年以下的职工中抽取300×=30(人).
从任职5年~10年的职工中抽取500×=50(人).
从任职10年以上的职工中抽取200×=20(人).
[课时达标检测]
一、选择题
1.在抽样过程中,每次抽取的个体不再放回总体的为不放回抽样,那么分层抽样、系统抽样、简单随机抽样三种抽样中,是不放回抽样的有(  )
A.0个 
B.1个  
C.2个 
D.3个
答案:D
2.当前,国家正分批修建经济适用房以解决低收入家庭住房紧张的问题.已知甲、乙、丙三个社区现分别有低收入家庭360户、270户、180户.若第一批经济适用房中有90套住房用于解决这三个社区中90户低收入家庭的住房问题,先采用分层抽样的方法决定各社区户数,则应从甲社区中抽取低收入家庭的户数为(  )
A.40
B.30
C.20
D.36
答案:A
3.交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为(  )
A.101
B.808
C.1
212
D.2
012
答案:B
4.某学校高一、高二、高三三个年级共有学生3
500人,其中高三学生人数是高一学生人数的两倍,高二学生人数比高一学生人数多300人,现在按的抽样比用分层抽样的方法抽取样本,则应抽取的高一学生人数为(  )
A.8
B.11
C.16
D.10
答案:A
5.某校做了一次关于“感恩父母”的问卷调查,从8~10岁,11~12岁,13~14岁,15~16岁四个年龄段回收的问卷依次为:120份,180份,240份,x份.因调查需要,从回收的问卷中按年龄段分层抽取容量为300的样本,其中从11~12岁学生问卷中抽取60份,则从15~16岁学生中抽取的问卷份数为(  )
A.60
B.80
C.120
D.180
答案:C
二、填空题
6.某学院的A,B,C三个专业共有1
200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本.已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生.
解析:C专业的学生有1
200-380-420=400(名),由分层抽样原理,应抽取120×=40(名).
答案:40
7.一支田径队有男、女运动员98人,其中男运动员有56人.按男、女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员的人数是________.
解析:抽取女运动员的人数为×28=12.
答案:12
8.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.
解析:高二年级学生人数占总数的,样本容量为50,则50×=15.
答案:15
三、解答题
9.某高级中学共有学生3
000名,各年级男、女生人数如下表:
高一年级
高二年级
高三年级
女生
487
x
y
男生
513
560
z
已知从全校学生中随机抽取1名学生,抽到高二年级女生的概率是0.18.
(1)问高二年级有多少名女生?
(2)现对各年级用分层抽样的方法从全校抽取300名学生,问应从高三年级抽取多少名学生?
解:(1)由=0.18得x=540,
所以高二年级有540名女生.
(2)高三年级人数为:
y+z=3
000-(487+513+540+560)=900.
∴×300=90,故应从高三年级抽取90名学生.
10.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工只能参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%;登山组的职工占参加活动总人数的,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同年龄层的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取容量为200的样本.试求:
(1)游泳组中,青年人、中年人、老年人分别所占的比例;
(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.
解:(1)设登山组人数为x,游泳组中,青年人、中年人、老年人各占比例分别为a,b,c,
则有=47.5%,=10%.
解得b=50%,c=10%.
故a=1-50%-10%=40%.即游泳组中,青年人、中年人、老年人各占的比例为40%,50%,10%.
(2)游泳组中,抽取的青年人人数为200××40%=60;
抽取的中年人人数为200××50%=75;
抽取的老年人人数为200××10%=15.
11.经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的是5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多多少人?
解:因为采用的是分层抽样且三类同学的人数比例为5∶1∶3,所以可设三类同学的人数分别为5x、x、3x,依题意3x-x=12,得x=6.所以“喜欢”摄影的同学共有5×6=30人,全班共有9×6=54人,因此全班学生中“喜欢”摄影的比全班人数的一半还多3人.