1.抽样方法
(1)用随机数表法抽样时,对个体所编号码位数要相等,当问题所给位数不等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.
(2)用系统抽样法时,如果总体容量N能被样本容量n整除,抽样间隔为k=;如果总体容量N不能被样本容量n整除,先用简单随机抽样剔除多余个体,抽样间隔为k=.
(3)应用三种抽样方法时需要搞清楚它们的使用原则.
①当总体容量较小,样本容量也较小时,可采用抽签法.
②当总体容量较大,样本容量较小时,可用随机数表法.
③当总体容量较大,样本容量也较大时,可用系统抽样法.
④当总体由差异明显的几部分组成时,常用分层抽样.
2.用样本估计总体
(1)用样本频率分布估计总体频率分布时,通常要对给定一组数据进行列表、作图处理,作频率分布表与频率分布直方图时要注意其方法步骤.
(2)茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示,但数据较多时不方便.
(3)平均数反映了样本数据的平均水平,而标准差反映了样本数据相对平均数的波动程度.
3.变量间的相关关系
除了函数关系这种确定性的关系外,还大量存在因变量的取值带有一定随机性的两个变量之间的关系——相关关系,对于一元线性相关关系,通过建立线性回归方程就可以根据其部分观测值,获得对这两个变量之间的整体关系的了解,主要是作出散点图、写出线性回归方程.
[例1] 某工厂有1 003名工人,从中抽取10人参加体检,试采用简单随机抽样和系统抽样进行具体实施.
[解] (1)简单随机抽样:①将每一个人编一个号由0001至1003.
②制作大小相同的号签,并写上号码.
③放入一个大容器内,均匀搅拌.
④依次抽取10个号签.
具有这十个编号的人组成一个样本.
(2)系统抽样:
①将每个人编一个号由0001至1003.
②利用随机数表抽取3个号,将这3个人剔除.
③重新编号0001至1000.
④分段=100,所以0001至0100为第一段.
⑤在第一段内由简单随机抽样方法抽得一个号l.
⑥按编号将l,100+l,…,900+l,共10个号选出,这10个号所对应的人组成样本.
[借题发挥]
1.当总体容量N能被样本容量n整除时,分段间隔k=,利用系统抽样的方法抽样.
2.当总体总量不能被样本容量整除时,可先从总体中随机剔除n个个体.
3.要注意三种抽样方法的使用条件.
1.将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( )
A.26,16,8 B.25,17,8
C.25,16,9 D.24,17,9
解析:由题意知间隔为=12,故抽到的号码为12k+3(k=0,1,…,49),列出不等式可解得:第Ⅰ营区抽25人,第Ⅱ营区抽17人,第Ⅲ营区抽8人.
答案:B
[例2] 有一容量为200的样本,数据的分组以及各组的频数如下:
[-20,-15),7;[-15,-10),11;[-10,-5),15;[-5,0),40;[0,5),49;[5,10),41;[10,15),20;[15,20],17.
(1)列出样本的频率分布表;
(2)画出频率分布直方图和频率分布折线图;
(3)求样本数据不足0的频率.
[解] (1)频率分布表如下:
分组 频数 频率
[-20,-15) 7 0.035
[-15,-10) 11 0.055
[-10,-5) 15 0.075
[-5,0) 40 0.2
[0,5) 49 0.245
[5,10) 41 0.205
[10,15) 20 0.1
[15,20] 17 0.085
合计 200 1.00
(2)如图是频率分布直方图和频率分布折线图:
(3)样本数据不足0的频率为:
0.035+0.055+0.075+0.2=0.365.
[借题发挥]
1.频率分布直方图的绘制方法与步骤
(1)先制作频率分布表,然后作直角坐标系,横轴表示总体,纵轴表示.
(2)把横轴分成若干段,每一段对应一个组.以每个组距为底,以各频率除以组距的商为高,分别画成矩形.这样得到的直方图就是频率分布直方图.
2.频率分布折线图反映的是数据的变化趋势,可用来对数据进行估计和预测.
2.从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图所示).由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.
解析:∵0.005×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030.
设身高在[120,130),[130,140),[140,150]三组的学生各有x,y,z人,
则=0.030×10,解得x=30.同理,y=20,z=10.
故从[140,150]中抽取的学生人数为×18=3.
答案:0.030 3
3.某棉纺厂为了解一批棉花的质量,从中随机抽测了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标).所得数据均在区间[5,40]中,其频率分布直方图如图所示,则在抽测的100根中,有________根棉花纤维的长度小于20 mm.
解析:(0.04×5+0.01×5+0.01×5)×100=30.
答案:30
[例3] 甲:2,1,0,2,3,1,0,4,2,0;
乙:1,2,0,3,1,1,2,1,0,1.
分别计算这两个样本的平均数与方差,从计算结果看,应选哪一名工人参加技术表演?
[解] 甲==1.5;
乙=(1+2+0+3+1+1+2+1+0+1)=1.2;
s=[(2-1.5)2+(1-1.5)2+(0-1.5)2+(2-1.5)2+(3-1.5)2+(1-1.5)2+(0-1.5)2+(4-1.5)2+(2-1.5)2+(0-1.5)2]
=(0.52×5+1.52×4+2.52)=1.65;
s=[(1-1.2)2+(2-1.2)2+(0-1.2)2+(3-1.2)2+(1-1.2)2+(1-1.2)2+(2-1.2)2+(1-1.2)2+(0-1.2)2+(1-1.2)2]=0.76,
∵甲>乙,s>s.
∴应选乙工人参加比赛.
[借题发挥] 在实际问题中,仅靠平均数不能完全反映问题,还要研究数据偏离平均数的离散程度(即方差或标准差).标准差越大,说明数据的离散性越大;标准差越小,说明数据的离散性越小或数据越集中、稳定.
4.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是( )
A.57.2,3.6 B.57.2,56.4
C.62.8,63.6 D.62.8,3.6
解析:当一组数据中的每个数同时加上一个数后,平均数相应的增加,但方差不变,可知新数据的平均数为62.8,方差为3.6.
答案:D
5.甲、乙两位学生参加数学竞赛培训,在培训期间他们参加5项预赛,成绩记录如下:
甲:78 76 74 90 82
乙:90 70 75 85 80
(1)用茎叶图表示这两组数据;
(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?说明理由.
解:(1)用茎叶图表示如下:
甲 乙
4 6 8 7 0 5
2 8 0 5
0 9 0
(2)甲=80,乙=80,
而s=×[(78-80)2+(76-80)2+(74-80)2+(90-80)2+(82-80)2]=32,
s=×[(90-80)2+(70-80)2+(75-80)2+(85-80)2+(80-80)2]=50.
∵甲=乙,s∴从统计学的角度考虑,选甲参加更合适.
[例4] 某个体服装店经营某种服装在某周内获纯利y(元)与该周每天销售这种服装件数x之间有如下一组数据:
x 3 4 5 6 7 8 9
y 66 69 73 81 89 90 91
已知:=280,=45 309,iyi=3 487.
(1)求,;
(2)求纯利y与每天销售件数x之间的线性回归方程;
(3)估计每天销售10件这种服装时纯利润为多少元?
[解] (1)由已知得=(3+4+5+6+7+8+9)=6,
=(66+69+73+81+89+90+91)≈79.86.
(2)设线性回归方程为y=bx+a,则
b==≈4.75,
a=-b =79.86-4.75×6≈51.36.
∴所求线性回归方程为y=4.75x+51.36.
(3)当x=10时,y=98.86,估计每天销售这种服装10件可获纯利98.86元.
[借题发挥] 要对y与x进行线性相关检验,只要画出散点图,看各数据是否集中在某一条直线附近即可,采用数形结合思想,若线性相关,则根据公式求出回归方程.
6.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量和冶炼时间的关系.如果已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据如下表所示:
x(0.01%) 104 180 190 177 147 134 150 191 204 121
y(min) 100 200 210 185 155 135 170 205 235 125
(1)作出散点图,你能从中发现含碳量与冶炼时间的一般规律吗?
(2)求回归方程;
(3)预测当钢水含碳量为160时,应冶炼多少分钟.
解:(1)用x表示含碳量,y表示冶炼时间,可作散点图如下图所示.
从上图中可以看出,各点散布在一条直线附近,即它们线性相关.
(2)列出下表,并用科学计算器进行计算:
i 1 2 3 4 5
xi 104 180 190 177 147
yi 100 200 210 185 155
xiyi 10 400 36 000 39 900 32 745 22 785
i 6 7 8 9 10
xi 134 150 191 204 121
yi 135 170 205 235 125
xiyi 18 090 25 500 39 155 47 940 15 125
=159.8,=172;x=265 448,xiyi=287 640
设所求回归方程为y=bx+a.
b=≈1.267,
a=-b≈-30.47.
即所求的回归方程为y=1.267x-30.47.
(3)当x=160时,
y=1.267×160-30.47≈172(min),
即大约冶炼172 min.
一、选择题(本大题共10小题,每小题5分,共50分)
1.为了了解1 200名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,考虑用系统抽样,则分段的间隔k为( )
A.40 B.30
C.20 D.12
解析:系统抽样也叫间隔抽样,抽多少个就分成多少组,总数÷组数=间隔数,即k==30.
答案:B
2.某学校为了调查高一年级的200名学生完成课后作业所需时间,采取了两种抽样调查的方式:第一种由学生会的同学随机抽取20名同学进行抽查;第二种由教务处对该年级的学生进行编号,从001到200,抽取学号最后一位为2的同学进行调查.则这两种抽样的方法依次是( )
A.分层抽样,简单随机抽样
B.简单随机抽样,分层抽样
C.分层抽样,系统抽样
D.简单随机抽样,系统抽样
解析:由抽样方法的概念知选D.
答案:D
3.一个容量为80的样本中数据的最大值是140,最小值是51,组距是10,则应将样本数据分为( )
A.10组 B.9组
C.8组 D.7组
解析:根据列频率分布表的步骤,==8.9,所以分9组.
答案:B
4.将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是( )
A.09,14,19,24 B.16,28,40,52
C.10,16,22,28 D.08,12,16,20
解析:分成5组,每组12名学生,按等间距12抽取.
答案:B
5.某大学数学系共有本科生5 000人,其中一、二、三、四年级的人数比为4∶3∶2∶1,要用分层抽样的方法从所有本科生中抽取一个容量为200的样本,则应抽取三年级的学生人数为( )
A.80 B.40
C.60 D.20
解析:应抽取三年级的学生人数为200×=40.
答案:B
6.已知200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,时速在[60,70)的汽车辆数为( )
A.8 B.80
C.65 D.70
解析:时速在[60,70)的汽车频率为0.04×10=0.4,时速在[60,70)的汽车大约有200×0.4=80(辆).
答案:B
7.已知回归直线斜率的估计值为1.23,样本点的中心为(4,5),则回归方程为( )
A.y=1.23x+4
B.y=1.23x+5
C.y=1.23x+0.08
D.y=0.08x+1.23
解析:回归直线的斜率就是b,则回归方程为y=1.23x+a,将(4,5)代入方程得a=0.08.
答案:C
8.(2013·福州高一检测)某班的数学考试成绩的平均分为70分,方差为s2.后来发现成绩记录有误,同学甲得80分却误记为50分,同学乙得70分却误记为100分,更正后计算得方差为s,则s2与s的大小关系是( )
A.s2>s B.s2=s
C.s2解析:根据方差的计算公式,s2的算式中含有(50-70)2+(100-70)2,s的算式中含有(80-70)2+(70-70)2,而两算式的其他部分完全相同,故易知s2>s.
答案:A
甲 乙
8 7 2 7 8
62 89 2 81 5
9.(2013·沈阳模拟)甲、乙两名同学在5次体育测试中的成绩统计如图的茎叶图所示,若甲、乙两人的平均成绩分别是X甲,X乙,则下列结论正确的是( )
A.X甲B.X甲>X乙;甲比乙成绩稳定
C.X甲>X乙;乙比甲成绩稳定
D.X甲解析:∵甲同学的成绩为78,77,72,86,92,乙同学的成绩为78,82,88,91,95,
∴X甲==81,
X乙==86.8,
∴X甲从茎叶图中数据的分布情况看,乙同学的成绩更集中于平均数附近,这说明乙比甲成绩稳定.
答案:A
10.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体平均值为3,中位数为4
B.乙地:总体平均值为1,总体方差大于0
C.丙地:中位数为2,众数为3
D.丁地:总体平均值为2,总体方差为3
解析:根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A中,中位数为4,可能存在大于7的数;同理,在选项C中也有可能;选项B中的总体方差大于0,叙述不明确,如果数目太大,也有可能存在大于7的数;选项D中,根据方差公式,如果有大于7的数存在,那么方差不会为3.
答案:D
二、填空题(本大题共4小题,每小题5分,共20分)
11.某社区对居民进行2013辽宁全运会知晓情况的分层抽样调查.已知该社区的青年人、中年人和老年人分别有800人、1 600人、1 400人.若在老年人中的抽样人数是70,则在中年人中的抽样人数应该是________.
解析:抽取的比例为k==,故在中年人中应该抽取的人数为1 600×=80.
答案:80
12.对具有线性相关关系的变量x和Y,测得一组数据如下:
x 2 4 5 6 8
Y 30 40 60 50 70
若已求得它们的回归方程的斜率为6.5,则这条直线的回归方程为________.
解析:设回归方程为y=6.5x+a.
由已知,=×(2+4+5+6+8)=5.
=×(30+40+60+50+70)=50.
∴a=-6.5=50-6.5×5=17.5.
∴y=6.5x+17.5.
答案:y=6.5x+17.5
13.下图是某班50名学生身高的频率分布直方图(精确到1 cm),从左边第一、二、三、四个小长方形的高的比是1∶3∶5∶1,那么身高150 cm以下(不含150 cm)的学生有______人,身高为160 cm及160 cm以上的学生占全班学生人数的________.
解析:由题意可知,第一个长方形的面积占所有面积的10%,所以150 cm以下的学生有50×10%=5(人).第三个和第四个长方形的面积占总面积的60%,所以160 cm及以上的学生占全班学生人数的60%.
答案:5 60%
甲 乙
9 8 6 3 8 9 9
2 1 0 7 1
14.甲、乙两位同学某学科连续五次考试成绩用茎叶图表示,如图所示,则平均数较高的是______,成绩较为稳定的是________.
解析:甲的平均分为==70,
乙的平均分为==68;甲的方差为:
s==2,同理乙的方差为s=7.2,故甲的平均分高于乙,甲的成绩比乙稳定.
答案:甲 甲
三、解答题(本大题共4小题,共50分)
15.(12分)某车间有189名职工,现要按1∶21的比例选质量检查员,采用系统抽样的方式进行,写出抽样过程.
解:以随机方式对189名职工编号(比如可直接采用工资表上号码编号),设其分别为1,2,3…,189,
由已知样本容量是总体个数的,故样本容量为189×=9(个),将1,2,3,…,189编9段,每段21个号.如1~21为第一段,22~42为第二段,…,169~189为第九段,在第一段1~21个号码中随机抽样产生一个号码,如设为l,则l,l+21,l+42,…,l+168就是所产生的9个样本号码,对应的就是质量检查员.
16.(12分)农科院的专家为了了解新培育的甲、乙两种麦苗的长势情况,从甲、乙两种麦苗的试验田中各抽取6株麦苗测量麦苗的株高,数据如下:(单位:cm)
甲:9,10,11,12,10,20
乙:8,14,13,10,12,21.
(1)绘出所抽取的甲、乙两种麦苗株高的茎叶图;
(2)分别计算所抽取的甲、乙两种麦苗株高的平均数与方差,并由此判断甲、乙两种麦苗的长势情况.
解:(1)茎叶图如图所示:
(2)甲==12,
乙==13,
s≈13.67,s≈16.67.因为甲<乙,所以乙种麦苗平均株高较高,又因为s17.(12分)为了了解中学生的身体发育情况,对某一中学同年龄的50名男生的身高进行了测量,结果如下:
[157,161)3人;[161,165)4人;[165,169)12人;
[169,173)13人;[173,177)12人;[177,181]6人.
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)估计总体在[165,177)间的比例.
解:(1)列出频率分布表:
分组 频数 频率
[157,161) 3 0.06 0.015
[161,165) 4 0.08 0.02
[165,169) 12 0.24 0.06
[169,173) 13 0.26 0.065
[173,177) 12 0.24 0.06
[177,181] 6 0.12 0.03
合计 50 1.00
(2)画出频率分布直方图如图:
(3)因0.24+0.26+0.24=0.74,
所以总体在[165,177)间的比例为74%.
18.(14分)某学校高一(3)班甲、乙两名同学的最近5次数学测验成绩(单位:分)统计如下:
甲 65 98 94 98 95
乙 62 98 99 100 71
(1)分别写出甲、乙成绩的平均数和中位数;
(2)分别用平均数和中位数分析甲、乙两位同学中,哪位同学成绩较好;
(3)又知同班同学丙的最近5次数学测验成绩(单位:分)如下:
丙 80 90 86 99 95
分别从平均数、中位数和方差等方面分析甲与丙的成绩谁好谁坏,并说明理由.
解:(1)平均分:甲=×(65+98+94+98+95)=90,
乙=×(62+98+99+100+71)=86.
甲的中位数是95,乙的中位数是98.
(2)从平均分看,甲的平均分高,甲的成绩较好;从中位数看,乙的中位数大,乙的成绩较好.
(3)丙=×(80+90+86+99+95)=90,丙的中位数为90.
s=×[(80-90)2+(90-90)2+(86-90)2+(99-90)2+(95-90)2]=44.4;
s=×[(65-90)2+(98-90)2+(94-90)2+(98-90)2+(95-90)2]=158.8.
由于两人的平均分相同,所以从平均分看,甲、丙成绩同样好;从中位数看,甲的中位数高,甲的成绩好;从方差看,丙的方差小,丙的成绩较稳定,所以丙的成绩好.