章末复习
一、抽样方法的选取及应用
1.两种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数法;当总体中个体差异较显著时,可采用分层随机抽样.
2.掌握两种抽样方法,提升数据分析素养.
例1 (1)一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其他人员120人.为了解职工收入情况,决定采用分层随机抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是( )
A.12,24,15,9 B.9,12,12,7
C.8,15,12,5 D.8,16,10,6
(2)某企业三月中旬生产A,B,C三种产品共3 000件,根据分层随机抽样的结果,企业统计员制作了如下的表格:
产品类别 A B C
产品数量(件) 1 300
样本数量(件) 130
由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员记得A产品的样本数量比C产品的样本数量多10,根据以上信息,可得C产品的数量是________件.
答案 (1)D (2)800
解析 (1)由题意知,各种职称的人数比为160∶320∶200∶120=4∶8∶5∶3,所以抽取的具有高、中、初级职称的人数和其他人员的人数分别为40×=8,40×=16,40×=10,40×=6.
(2)设C产品的样本数量为n,则A产品的样本数量为n+10,由题意知=,解得n=80.
故C产品的数量为80÷=800(件).
反思感悟 分层随机抽样的特点是“按比例分配”,即=.
跟踪训练1 (1)以下抽样方法是简单随机抽样的是( )
A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖
B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格
C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见
D.用抽签方法从10件产品中选取3件进行质量检验
(2)某校为了了解学生学习的情况,采用分层随机抽样的方法从高一1 000人,高二1 200人,高三n人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n等于( )
A.860 B.720
C.1 020 D.1 040
答案 (1)D (2)D
解析 (1)选项A,B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.
(2)分层随机抽样是按比例抽样的,
所以81×=30,解得n=1 040.
二、频率分布直方图
1.根据样本容量的大小,我们可以选择利用样本的频率分布表、频率分布直方图、频率折线图对总体情况作出估计.
2.掌握频率分布直方图的绘制及应用,提升数据分析和数学运算素养.
例2 为了解高一年级学生的智力水平,某校按1∶10的比例对700名高一学生按性别分别进行“智力评分”抽样检查,测得“智力评分”的频数分布表如表1、表2.
表1:男生“智力评分”频数分布表
智力评分(分) [160,165) [165,170) [170,175)
频数 2 5 14
智力评分(分) [175,180) [180,185) [185,190]
频数 13 4 2
表2:女生“智力评分”频数分布表
智力评分(分) [150,155) [155,160) [160,165)
频数 1 7 12
智力评分(分) [165,170) [170,175) [175,180]
频数 6 3 1
(1)求高一年级的男生人数,并完成下面男生“智力评分”的频率分布直方图;
(2)估计该校高一年级学生“智力评分”在[165,175)内的人数.
解 (1)样本中男生人数是40,由抽样比例是1∶10可得高一年级男生人数是400,
男生“智力评分”的频率分布直方图如图所示.
(2)样本中“智力评分”在[165,175)内的频数为28,所以估计该校高一年级学生“智力评分”在[165,175)内的学生人数为28×10=280.
反思感悟 (1)绘制频率分布直方图时需注意的两点
①制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确.
②频率分布直方图的纵坐标是,而不是频率.
(2)与频率分布直方图计算有关的两个关系式
①×组距=频率.
②=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
跟踪训练2 某电子商务公司对10 000名网络购物者2018年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
答案 (1)3 (2)6 000
解析 (1)由0.1×1.5+0.1×2.5+0.1a+0.1×2.0+0.1×0.8+0.1×0.2=1,解得a=3.
(2)消费金额在区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故在[0.5,0.9]内的频率为1-0.4=0.6.
因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
三、总体集中趋势的估计
1.为了从整体上更好地把握总体的规律,我们可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计;用方差s2反映样本数据分散程度的大小.
2.掌握样本数据的众数、中位数、平均数及方差的计算方法,提升数据分析和数学运算素养.
例3 某工厂36名工人的年龄数据如下表:
工人编号 年龄 工人编号 年龄 工人编号 年龄 工人编号 年龄
01 40 10 36 19 27 28 34
02 44 11 31 20 43 29 39
03 40 12 38 21 41 30 43
04 41 13 39 22 37 31 38
05 33 14 43 23 24 32 42
06 40 15 45 24 42 33 53
07 45 16 39 25 37 34 37
08 42 17 38 26 44 35 49
09 43 18 36 27 42 36 39
利用随机抽样法抽取容量为9的样本,其年龄数据为44,40,36,43,36,37,44,43,37.
(1)计算样本的平均数和方差s2;
(2)36名工人中年龄在-s与+s之间有多少人?所占的百分比是多少?(精确到0.01%)
解 (1)由平均数公式知,==40,
由方差公式知,s2=[(44-40)2+(40-40)2+…+(37-40)2]=.
(2)因为s2=,s=,
所以36名工人中年龄在-s和+s之间的人数等于年龄在区间[37,43]上的人数,
即40,40,41,…,39,共23人.
所以36名工人中年龄在-s和+s之间的人数所占的百分比为×100%≈63.89%.
反思感悟 通常我们用样本的平均数和方差(标准差)来近似代替总体的平均数和方差(标准差),呈现样本数据的集中趋势及波动大小,从而实现对总体的估计.
(1)一般情况下,需要将平均数和标准差结合,得到更多样本数据的信息,从而对总体作出较好的估计.因为平均数容易掩盖一些极端情况,使我们对总体作出片面的判断,而标准差较好地避免了极端情况.
(2)若两组数据的平均数差别很大,也可以只比较平均数,估计总体的平均水平,从而作出判断.
跟踪训练3 某汽车租赁公司为了调查A型汽车与B型汽车的出租情况,现随机抽取这两种车各50辆,分别统计每辆车在某个星期内的出租天数,统计数据如下表:
A型汽车
出租天数 3 4 5 6 7
车辆数 3 30 5 7 5
B型汽车
出租天数 3 4 5 6 7
车辆数 10 10 15 10 5
(1)试根据上面的统计数据,判断这两种车在某个星期内的出租天数的方差的大小关系(只需写出结果);
(2)如果A型汽车与B型汽车每辆车每天出租获得的利润相同,该公司需要购买一辆汽车,请你根据所学的统计知识,给出建议应该购买哪一种车,并说明你的理由.
解 (1)由数据的离散程度,可以看出B型汽车在某个星期内出租天数的方差较大.
(2)50辆A型汽车出租天数的平均数为
A==4.62,
50辆B型汽车出租天数的平均数为
B==4.8,
答案一:一辆A型汽车在某个星期内出租天数的平均值为4.62,B型汽车在某个星期内出租天数的平均值为4.8,选择B型汽车的出租车的利润较大,应该购买B型汽车.
答案二:一辆A型汽车在某个星期内出租天数的平均值为4.62,B型汽车在某个星期内出租天数的平均值为4.8,而B型汽车出租天数的方差较大,所以应该购买A型汽车.
1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生视力是否存在显著差异,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法 B.随机数法
C.分层随机抽样法 D.其他方法
答案 C
2.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.16 C.18 D.32
答案 B
解析 已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选B.
3.样本a,3,5,7的平均数是b,且a,b是方程x2-5x+4=0的两根,则这个样本的方差是( )
A.3 B.4 C.5 D.6
答案 C
解析 x2-5x+4=0的两根是1,4.
当a=1时,a,3,5,7的平均数是4;
当a=4时,a,3,5,7的平均数不是1.
∴a=1,b=4,则方差s2=×[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.
4.数据4.7,4.8,5.1,5.4,5.5,3.8,2.4,7.9,8.3的80%分位数是________.
答案 7.9
解析 把这组数据从小到大排列得
2.4,3.8,4.7,4.8,5.1,5.4,5.5,7.9,8.3,
由9×80%=7.2可知,该组数据的80%分位数是第8项数据为7.9.
5.某公司为了了解广告投入对销售收益的影响,在若干地区各投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.
(1)根据频率分布直方图计算图中各小长方形的宽度;
(2)估计该公司在若干地区各投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值).
解 (1)设各小长方形的宽度为m,
由频率分布直方图知各小长方形面积之和为1,
可知(0.08+0.10+0.14+0.12+0.04+0.02)m=0.5m=1,
故m=2.
(2)由(1)知各小组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],
其中点分别为1,3,5,7,9,11,
对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,
故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.