第二章 统计
应用抽样方法抽取样本时,应注意以下几点:
(1)用随机数法抽样时,对个体所编的号码位数要相等.当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.
(2)用系统抽样抽样时,如果总体容量N能被样本容量n整除,抽样间隔为k=,如果总体容量N不能被样本容量n整除,先用简单随机抽样剔除多余个体,抽样间隔为k=.
(3)几种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数法;当总体容量较大,样本容量也较大时,可采用系统抽样;当总体中个体差异较显著时,可采用分层抽样.
[典例1] 选择合适的抽样方法抽样,写出抽样过程.
(1)有30个篮球,其中甲厂生产的有21个,乙厂生产的有9个,抽取10个入样;
(2)有甲厂生产的30个篮球,其中一箱21个,另一箱9个,抽取3个入样;
(3)有甲厂生产的300个篮球,抽取10个入样;
(4)有甲厂生产的300个篮球,抽取30个入样.
解:(1)总体由差异明显的两个层次组成,需选用分层抽样法.
第一步:确定抽取个数.因为=,所以甲厂生产的篮球应抽取21×=7(个),乙厂生产的篮球应抽取9×=3(个);
第二步:用抽签法分别抽取甲厂生产的篮球7个,乙厂生产的篮球3个,这些篮球便组成了我们要抽取的样本.
(2)总体容量较小,用抽签法.
第一步:将30个篮球用随机方式分段,分段为1,2,…,30;
第二步:将以上30个分段分别写在大小、形状相同的小纸条上,揉成小球,制成号签;
第三步:把号签放入一个不透明的袋子中,充分搅匀;
第四步:从袋子中逐个不放回抽取3个号签,并记录上面的号码;
第五步:找出和所得号码对应的篮球,这些篮球便组成了我们要抽取的样本.
(3)总体容量较大,样本容量较小,宜用随机数表法.
第一步:将300个篮球用随机方式分段,分段为001,002,…,300;
第二步:在随机数表中随机的确定一个数作为开始,如第8行第29列的数“7”开始,任选一个方向作为读数方向,比如向右读;
第三步:从数“7”开始向右读,每次读三位,凡不在001~300中的数跳过去不读,遇到已经读过的数也跳过去不读,便可依次得到286,211,234,297,207,013,027,086,284,281这10个号码,这就是所要抽取的10个样本个体的号码,找出和所得号码对应的篮球便组成我们要抽取的样本.
(4)总体容量较大,样本容量也较大宜用系统抽样法.
第一步:将300个篮球用随机方式分段,分段为000,001,002,…,299,并分成30段.
第二步:在第一段000,001,002,…,009这十个分段中用简单随机抽样抽出一个(如002)作为始号码;
第三步:将分段为002,012,022,…,292的个体抽出,组成样本.
[对点训练]
1.某高级中学有学生270人,其中一年级108人,二、三年级各81人.现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一分段为1,2,…,270;使用系统抽样时,将学生统一随机分段为1,2,…,270,并将整个分段依次分为10段.如果抽得的号码有下列四种情况:
①7,34,61,88,115,142,169,196,223,250;
②5,9,100,107,111,121,180,195,200,265;
③11,38,65,92,119,146,173,200,227,254;
④30,57,84,111,138,165,192,219,246,270.
关于上述样本的下列结论中,正确的是( )
A.②③都不能为系统抽样 B.②④都不能为分层抽样
C.①④都可能为系统抽样 D.①③都可能为分层抽样
解析:选D 按分层抽样时,在一年级抽取108×=4(人),在二年级、三年级各抽取81×=3(人),则在号码段1,2,…,108中抽取4个号码,在号码段109,110,…,189中抽取3个号码,在号码段190,191,…,270中抽取3个号码,①②③符合,所以①②③可能是分层抽样,④不符合,所以④不可能是分层抽样;按系统抽样时,抽取出的号码应该是“等距”的,①③符合,②④不符合,所以①③都可能为系统抽样,②④都不能为系统抽样.
本考点主要利用统计表、统计图分析估计总体的分布规律.要熟练掌握绘制统计图表的方法,明确图表中有关数据的意义是正确分析问题的关键,从图形与图表中获取有关信息并加以整理,是近年来高考命题的热点.
[典例2] 样本容量为100的频率分布直方图如图所示.
根据样本的频率分布直方图估计样本数据落在[6,10)内的频数为a,样本数据落在[2,10)内的频率为b,则a,b分别是( )
A.32,0.4 B.8,0.1
C.32,0.1 D.8,0.4
解析:选A 落在[6,10)内的频率为0.08×4=0.32,
100×0.32=32,∴a=32,
落在[2,10)内的频率为(0.02+0.08)×4=0.4.∴b=0.4.
[对点训练]
2.如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数是11,则样本中平均气温不低于25.5 ℃的城市个数为________.
解析:设样本容量为n,则n×(0.1+0.12)×1=11,所以n=50,故所求的城市数为50×0.18=9.
答案:9
样本的数字特征可分为两大类,一类反映样本数据的集中趋势,包括样本平均数、众数、中位数;另一类反映样本数据的波动大小,包括样本方差及标准差.通常,我们用样本的数字特征估计总体的数字特征.有关样本平均数及方差的计算和应用是高考考查的热点.
[典例3] 甲、乙两人在相同的条件下各射靶10次,每次射靶成绩(单位:环)如图所示:
(1)填写下表:
平均数
中位数
命中9环以上
甲
7
________
1
乙
________
________
3
(2)请从四个不同的角度对这次测试进行分析:
①结合平均数和方差,分析偏离程度;
②结合平均数和中位数,分析谁的成绩好些;
③结合平均数和命中9环以上的次数,看谁的成绩好些;
④结合折线图上两人射击命中环数及走势,分析谁更有潜力.
解:(1)甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,
∴中位数为7环.
乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,
∴乙=(2+4+6+8+7+7+8+9+9+10)=7(环).
乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,
∴中位数是=7.5(环).
于是填充后的表格,如图所示:
平均数
中位数
命中9环以上
甲
7
7
1
乙
7
7.5
3
(2)s=[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=1.2,
s=[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]=5.4.
①甲、乙的平均数相同,均为7,但s<s,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.
②甲、乙的平均数相同,而乙的中位数比甲大,说明乙射靶环数的优秀次数比甲多.
③甲、乙的平均数相同,而乙命中9环以上(包含9环)的次数比甲多2次,可知乙的射靶成绩比甲好.
④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,更有潜力.
[对点训练]
3.从一堆苹果中任取5只,称得它们的质量如下(单位:克):125,124,121,123,127,则该样本标准差s=________(克)(用数字作答).
解析:先求平均数==124(克),则样本标准差
s=
= =2.
答案:2
1.分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归方程.把样本数据表示的点在直角坐标系中作出,构成的图叫做散点图.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线方程叫做回归方程.
2.回归方程的应用
利用回归方程可以对总体进行预测,虽然得到的结果不是准确值,但我们是根据统计规律得到的,因而所得结果的正确率是最大的,所以可以大胆地利用回归方程进行预测.
[典例4] 某产品的广告支出x(单位:万元)与销售收入y(单位:万元)之间有下列所示对应的数据:
广告支出x(万元)
1
2
3
4
销售收入y(万元)
12
28
44
60
(1)画出表中数据的散点图;
(2)求出y对x的回归方程;
(3)若广告费为9万元,则销售收入约为多少万元?
解:(1)依表中数据,画出散点图如图.
(2)观察散点图可知,各点大致分布在一条直线附近,所以变量x,y线性相关.将相关数据列表如下:
i
1
2
3
4
xi
1
2
3
4
yi
12
28
44
60
xiyi
12
56
132
240
x
1
4
9
16
=2.5,=36,
iyi=440,=30
设回归方程为=x+,于是
===16,
=-=36-16×2.5=-4,
∴y对x的回归方程为=16x-4.
(3)当广告费为9万元时,=16×9-4=140(万元),
即广告费为9万元时,销售收入约为140万元.
[对点训练]
4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x/ cm
174
176
176
176
178
儿子身高y/ cm
175
175
176
177
177
则y对x的线性回归方程为( )
A.=x-1 B.=x+1
C.=88+x D.=176
解析:选C 由题意得==176(cm),==176(cm),由于(,)一定满足线性回归方程,经验证知选C.
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列各选项中的两个变量具有相关关系的是( )
A.长方体的体积与边长
B.大气压强与水的沸点
C.人们着装越鲜艳,经济越景气
D.球的半径与表面积
解析:选C A、B、D均为函数关系,C是相关关系.
2.下列说法错误的是( )
A.在统计里,最常用的简单随机抽样方法有抽签法和随机数法
B.一组数据的平均数一定大于这组数据中的每个数据
C.平均数、众数与中位数从不同的角度描述了一组数据的集中趋势
D.一组数据的方差越大,说明这组数据的波动越大
解析:选B 平均数不大于最大值,不小于最小值.
3.(2016·开封高一检测)某学校有老师200人,男学生1 200人,女学生1 000人,现用分层抽样的方法从全体师生中抽取一个容量为n的样本,已知女学生一共抽取了80人,则n的值是( )
A.193 B.192 C.191 D.190
解析:选B =80,解得n=192.
4.某班学生父母年龄的茎叶图如图,左边是父亲年龄,右边是母亲年龄,则该班同学父亲的平均年龄比母亲的平均年龄大( )
A.2.7岁 B.3.1岁 C.3.2岁 D.4岁
解析:选C 分别求出父亲年龄和母亲年龄的平均值,可得父亲的平均年龄比母亲的平均年龄大3.2岁,故选C.
5.如果在一次实验中,测得(x,y)的四组数值分别是A(1,3),B(2,3.8),C(3,5.2),D(4,6),则y与x之间的回归直线方程是( )
A.=x+1.9 B.=1.04x+1.9
C.=0.95x+1.04 D.=1.05x-0.9
解析:选B =(1+2+3+4)=2.5,=(3+3.8+5.2+6)=4.5.因为回归直线方程过样本点中心(,),代入验证知,应选B.
6.观察新生婴儿的体重,其频率分布直方图如图,则新生婴儿体重在(2 700,3 000)的频率为( )
A.0.001 B.0.1 C.0.2 D.0.3
解析:选D 由直方图可知,所求频率为0.001×300=0.3.
7.某班级有50名学生,其中有30名男生和20名女生,随机询问了该班五名男生和五名女生在某次数学测验中的成绩,五名男生的成绩分别为86,94,88,92,90,五名女生的成绩分别为88,93,93,88,93,下列说法正确的是( )
A.这种抽样方法是一种分层抽样
B.这种抽样方法是一种系统抽样
C.这五名男生成绩的方差大于这五名女生成绩的方差
D.该班男生成绩的平均数大于该班女生成绩的平均数
解析:选C A不是分层抽样,因为抽样比不同.B不是系统抽样,因为是随机询问,抽样间隔未知.C中五名男生成绩的平均数是==90,五名女生成绩的平均数是==91,五名男生成绩的方差为s=(16+16+4+4+0)=8,五名女生成绩的方差为s=(9+4+4+9+4)=6,显然,五名男生成绩的方差大于五名女生成绩的方差.D中由于五名男生和五名女生的成绩无代表性,不能确定该班男生和女生的平均成绩.
8.小波一星期的总开支分布如图1所示,一星期的食品开支如图2所示,则小波一星期的鸡蛋开支占总开支的百分比为( )
图1
图2
A.1% B.2% C.3% D.5%
解析:选C 由图2知,小波一星期的食品开支为300元,其中鸡蛋开支为30元,占食品开支的10%,而食品开支占总开支的30%,所以小波一星期的鸡蛋开支占总开支的百分比为3%,故选C.
9.某校高一、高二年级各有7个班参加歌咏比赛,他们的得分的茎叶图如图所示,对这组数据分析正确的是( )
A.高一的中位数大,高二的平均数大
B.高一的平均数大,高二的中位数大
C.高一的平均数、中位数都大
D.高二的平均数、中位数都大
解析:选A 由茎叶图可以看出,高一的中位数为93,高二的中位数为89,所以高一的中位数大.由计算得,高一的平均数为91,高二的平均数为,所以高二的平均数大.故选A.
10.在样本频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形面积和的,且样本容量为160,则中间一组的频数为( )
A.32 B.0.2 C.40 D.0.25
解析:选A 由频率分布直方图的性质,可设中间一组的频率为x,则x+4x=1,∴x=0.2,故中间一组的频数为160×0.2=32,选A.
11.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别分段为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
解析:选C 志愿者的总人数为=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.
12.设矩形的长为a,宽为b,若其比满足=≈0.618,则这种矩形称为黄金矩形.黄金矩形给人以美感,常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本:
甲批次:0.598 0.625 0.628 0.595 0.639
乙批次:0.618 0.613 0.592 0.622 0.620
根据上述两个样本来估计两个批次的总体平均数与标准值0.618比较,正确结论是( )
A.甲批次的总体平均数与标准值更接近
B.乙批次的总体平均数与标准值更接近
C.两个批次总体平均数与标准值接近程度相同
D.两个批次总体平均数与标准值接近程度不能确定
解析:选A 甲批次的样本平均数为×(0.598+0.625+0.628+0.595+0.639)=0.617;
乙批次的样本平均数为×(0.618+0.613+0.592+0.622+0.620)=0.613.所以可估计:甲批次的总体平均数与标准值更接近.
二、填空题(本大题共4小题,每小题5分,共20分)
13.甲、乙、丙、丁四名射击手在选拔赛中的平均环数及其标准差s如下表所示,则选送决赛的最佳人选应是________.
甲
乙
丙
丁
7
8
8
7
s
2.5
2.5
2.8
3
解析:平均数反映平均水平大小,标准差表明稳定性.标准差越小,稳定性越好.
答案:乙
14.在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的数字特征(众数、中位数、平均数、方差)对应相同的是________.
解析:由s2=[(x1-x)2+(x2-x)2+…+(xn-x)2],可知B样本数据每个变量增加2,平均数也增加了,但s2 不变,故方差不变.
答案:方差
15.某校开展“爱我母校,爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数茎叶图如图,记分员去掉一个最高分和一个最低分后,算得平均分为91分,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是________.
解析:由于需要去掉一个最高分和一个最低分,故需要讨论:
①若x≤4,∵平均分为91,∴总分应为637分.即89+89+92+93+92+91+90+x=637,∴x=1.
②若x>4,则89+89+92+93+92+91+94=640≠637,不符合题意,故填1.
答案:1
16.某校从参加高一年级期中考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的部分频率分布直方图.在统计方法中,同一组数据常用该组区间的中点值作为代表,观察图形的信息,据此估计本次考试的平均分为________.
解析:在频率分布直方图中,所有小长方形的面积和为1,
设[70,80)的小长方形面积为x,则(0.01+0.015×2+0.025+0.005)×10+x=1,解得x=0.3,即该组频率为0.3,所以本次考试的平均分为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.
答案:71
三、解答题(本大题共6小题,共70分.解答应写出文字说明,证明过程或演算步骤)
17.(10分)已知一组数据从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,求这组数据的平均数与方差.
解:由于数据-1,0,4,x,7,14的中位数为5,
所以=5,x=6.
设这组数据的平均数为,方差为s2,由题意得
=×(-1+0+4+6+7+14)=5,
s2=×[(-1-5)2+(0-5)2+(4-5)2+(6-5)2+(7-5)2+(14-5)2]=.
18.(12分)2015年春节前,有超过20万名来自广西、四川的外来务工人员选择驾乘摩托车沿321国道返乡过年,为防止摩托车驾驶人员因长途疲劳驾驶而引发交通事故,肇庆市公安交警部门在321国道沿线设立了多个休息站,让过往的摩托车驾驶人员有一个停车休息的场所.交警小李在某休息站连续5天对进站休息的摩托车驾驶人员每隔50人询问一次省籍,询问结果如图所示:
(1)交警小李对进站休息的驾驶人员的省籍询问采用的是什么抽样方法?
(2)用分层抽样的方法对被询问了省籍的驾驶人员进行抽样,若广西籍的有5名,则四川籍的应抽取几名?
解:(1)根据题意,因为有相同的间隔,符合系统抽样的特点,所以交警小李对进站休息的驾驶人员的省籍询问采用的是系统抽样方法.
(2)从图中可知,被询问了省籍的驾驶人员中
广西籍的有5+20+25+20+30=100(人),
四川籍的有15+10+5+5+5=40(人),
设四川籍的驾驶人员应抽取x名,依题意得=,
解得x=2,即四川籍的应抽取2名.
19.(12分)某制造商为运动会生产一批直径为40 mm的乒乓球,现随机抽样检查20只,测得每只球的直径(单位: mm,保留两位小数)如下:
40.02 40.00 39.98 40.00 39.99
40.00 39.98 40.01 39.98 39.99
40.00 39.99 39.95 40.01 40.02
39.98 40.00 39.99 40.00 39.96
(1)完成下面的频率分布表,并画出频率分布直方图;
分组
频数
频率
[39.95,39.97)
[39.97,39.99)
[39.99,40.01)
[40.01,40.03]
合计
(2)假定乒乓球的直径误差不超过0.02 mm为合格品,若这批乒乓球的总数为10 000只,试根据抽样检查结果估计这批产品的合格只数.
解:(1)
分组
频数
频率
[39.95,39.97)
2
0.10
5
[39.97,39.99)
4
0.20
10
[39.99,40.01)
10
0.50
25
[40.01,40.03]
4
0.20
10
合计
20
1
50
(2)∵抽样的20只产品中在[39.98,40.02]范围内有18只,∴合格率为×100%=90%,
∴10 000×90%=9 000(只).
即根据抽样检查结果,可以估计这批产品的合格只数为9 000.
20.(12分)某零售店近5个月的销售额和利润额资料如下表:
商店名称
A
B
C
D
E
销售额x/千万元
3
5
6
7
9
利润额y/百万元
2
3
3
4
5
(1)画出散点图.观察散点图,说明两个变量有怎样的相关关系;
(2)用最小二乘法计算利润额y关于销售额x的回归直线方程;
(3)当销售额为4千万元时,利用(2)的结论估计该零售店的利润额(百万元).
解:(1)散点图如图所示,两个变量有线性相关关系.
(2)设回归直线方程是=x+.
由题中的数据可知=3.4,=6.
所以=
=
==0.5.
=-=3.4-0.5×6=0.4.
所以利润额y关于销售额x的回归直线方程为
=0.5x+0.4.
(3)由(2)知,当x=4时,y=0.5×4+0.4=2.4,所以当销售额为4千万元时,可以估计该商场的利润额为2.4百万元.
21.(12分)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲:82 81 79 78 95 88 93 84
乙:92 95 80 75 83 80 90 85
(1)用茎叶图表示这两组数据;
(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.
解:(1)作出茎叶图:
(2)甲=(78+79+81+82+84+88+93+95)=85,
乙=(75+80+80+83+85+90+92+95)=85.
s=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41.
∵甲=乙,s<s,
∴甲的成绩较稳定,派甲参赛比较合适.
22.(12分)已知某池塘养殖着鲤鱼和鲫鱼,为了估计这两种鱼的数量,养殖者从池塘中捕出这两种鱼各1 000条,给每条鱼做上不影响其存活的标记,然后放回池塘,待完全混合后,再每次从池塘中随机地捕出1 000条鱼,记录下其中有记号的鱼的数目,立即放回池塘中.这样的记录做了10次,并将记录获取的数据制作成如图甲所示的茎叶图.
(1)根据茎叶图计算有记号的鲤鱼和鲫鱼数目的平均数,并估计池塘中的鲤鱼和鲫鱼的数量;
(2)为了估计池塘中鱼的总重量,现按照(1)中的比例对100条鱼进行称重,根据称重鱼的重量介于[0,4.5](单位:千克)之间,将测量结果按如下方式分成九组:第一组[0,0.5),第二组[0.5,1),…,第九组[4,4.5].如图乙是按上述分组方法得到的频率分布直方图的一部分.
①估汁池塘中鱼的重量在3千克以上(含3千克)的条数;
②若第三组鱼的条数比第二组多7条、第四组鱼的条数也比第三组多7条,请将频率分布直方图补充完整;
③在②的条件下估计池塘中鱼的重量的众数及池塘中鱼的总重量.
图甲 图乙
解:(1)根据茎叶图可知,鲤鱼与鲫鱼的平均数目分别为80,20.
由题意知,池塘中鱼的总数目为1 000÷=20 000(条),
则估计鲤鱼数目为20 000×=16 000(条),鲫鱼数目为20 000-16 000=4 000(条).
(2)①根据题意,结合直方图可知,池塘中鱼的重量在3千克以上(含3千克)的条数约为20 000×(0.12+0.08+0.04)×0.5=2 400(条).
②设第二组鱼的条数为x,则第三、四组鱼的条数分别为x+7、x+14,则有x+x+7+x+14=100×(1-0.55),解得x=8,
故第二、三、四组的频率分别为0.08、0.15、0.22,它们在频率分布直方图中的小矩形的高度分别为0.16,0.30,0.44,据此可将频率分布直方图补充完整(如图).
③众数为2.25千克,平均数为0.25×0.04+0.75×0.08+1.25×0.15+…+4.25×0.02=2.02(千克),
所以鱼的总重量为2.02×20 000=40 400(千克).
第1课时 简单随机抽样
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P54~P57,回答下列问题.
(1)在教材P55的“探究”中,怎样获得样本?
提示:将这批小包装饼干放入一个不透明的袋子中,搅拌均匀,然后不放回地摸取.
(2)最常用的简单随机抽样方法有哪些?
提示:抽签法和随机数法.
(3)你认为抽签法有什么优点和缺点?
提示:抽签法的优点是简单易行,当总体中个体数不多时较为方便,缺点是当总体中个体数较多时不宜采用.
(4)用随机数法读数时可沿哪个方向读取?
提示:可以沿向左、向右、向上、向下等方向读数.
2.归纳总结,核心必记
(1)简单随机抽样:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样方法有两种——抽签法和随机数法.
(3)一般地,抽签法就是把总体中的N个个体分段,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
(4)随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样.
(5)简单随机抽样有操作简便易行的优点,在总体个数不多的情况下是行之有效的.
[问题思考]
(1)在简单随机抽样中,某一个个体被抽到的可能性与第几次被抽到有关吗?
提示:在简单随机抽样中,总体中的每个个体在每次抽取时被抽到的可能性相同,与第几次被抽到无关.
(2)抽签法与随机数法有什么异同点?
提示:
相同点
①都属于简单随机抽样,并且要求被抽取样本的
总体的个体数有限;
②都是从总体中逐个不放回地进行抽取
不同点
①抽签法比随机数法操作简单;
②随机数法更适用于总体中个体数较多的时候,而抽签法适用于总体中个体数较少的情况,所以当总体中的个体数较多时,应当选用随机数法,可以节约大量的人力和制作号签的成本
[课前反思]
通过以上预习,必须掌握的几个知识点:
(1)简单随机抽样的特征是: ;
(2)抽签法的步骤: ;
(3)随机数法的步骤: .
[思考1] 要判断一锅汤的味道需要把整锅汤都喝完吗?该怎样判断?
提示:不需要,只要将锅里的汤“搅拌均匀”,品尝一小勺就可知道汤的味道.
[思考2] 假设你作为一名食品卫生工作人员,要对某食品店内的一批水果罐头进行卫生达标检验,你准备怎样做?
提示:从中抽取一定数量的罐头作为检验的样本.
[思考3] 怎样认识简单随机抽样?
名师指津:简单随机抽样有如下四个特征:
(1)它要求被抽取样本的总体的个数确定,且较少,个体之间差异不明显.
(2)它是从总体中逐个地抽取.
(3)它是一种不放回地抽取.
(4)它是一种等机率抽样.不仅每次从总体中抽取一个个体时,各个个体被抽取的可能性相等,而且在整个抽样过程中,各个个体被抽取的可能性也相等,从而保证了这种抽样方法的公平性.
?讲一讲
1.下列抽取样本的方法是简单随机抽样吗?为什么?
(1)从无限多个个体中抽取50个个体作为样本.
(2)箱子里共有100个零件,今从中选取10个零件进行检验,在抽样操作时,从中任意地拿出一个零件进行质量检验后再把它放回箱子里.
(3)从50个个体中一次性抽取5个个体作为样本.
(4)一彩民选号,从装有36个大小、形状都相同的号签的箱子中无放回的抽取6个号签.
[尝试解答] (1)不是简单随机抽样,因为被抽取的样本的总体的个数是无限的而不是有限的.
(2)不是简单随机抽样,因为它是有放回地抽样.
(3)不是简单随机抽样,因为它是一次性抽取,而不是“逐个”抽取.
(4)是简单随机抽样,因为总体中的个体是有限的,并且是从总体中逐个抽取、不放回的、等可能的抽样.
简单随机抽样的判断方法
判断所给的抽样是否为简单随机抽样的依据是简单随机抽样的四个特征:
上述四点特征,如果有一点不满足,就不是简单随机抽样.
?练一练
1.判断下面的抽样方法是否为简单随机抽样,并说明理由.
(1)某班45名同学,指定个子最矮的5名同学参加学校组织的某项活动.
(2)从20个零件中一次性抽出3个进行质量检查.
解:(1)不是简单随机抽样.
因为指定个子最矮的5名同学,是在45名同学中特指的,不存在随机性,不是等可能抽样.
(2)不是简单随机抽样.
因为一次性抽取3个不是逐个抽取,不符合简单随机抽样的特征.
?讲一讲
2.某单位对口支援西部开发,现从报名的18名志愿者中选取6人组成志愿小组到西藏工作3年,请用抽签法设计抽样方案.
[思路点拨] 制签→制签→搅匀→抽签→定样.
[尝试解答] 方案如下:
第一步,将18名志愿者分段,号码为:01,02,03,…,18.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放到一个不透明的盒子中,充分搅匀.
第四步,从盒子中依次取出6个号签,并记录上面的分段.
第五步,与所得号码对应的志愿者就是医疗小组成员.
抽签法的应用条件及注意点
(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
(2)应用抽签法时应注意以下几点:
①分段时,如果已有分段可不必重新分段;
②签要求大小、形状完全相同;
③号签要均匀搅拌;
④要逐一不放回的抽取.
?练一练
2.现要从20名学生中抽取5名进行问卷调查,写出抽取样本的过程.
解:(1)先将20名学生进行分段,从1编到20;
(2)把号码写在形状、大小均相同的号签上;
(3)将号签放在一个不透明的箱子中进行充分搅拌,力求均匀,然后从箱子中依次抽取5个号签,这5个号签上的号码对应的学生,即为所求的样本.
?讲一讲
3.设某校共有100名教师,为了支援西部教育事业,现要从中随机抽取12名教师组成暑期西部讲师团,请写出用随机数法抽取该样本的过程.
[思路点拨] 用随机数表抽取样本.过程:读取→读取→组团.
[尝试解答] 其步骤如下:
第一步,将100名教师进行分段:00,01,02,…,99.
第二步,在随机数表中任取一数作为开始,如从12行第9列开始.
第三步,依次向右读取(两位,两位读取),可以得到75,84,16,07,44,99,83,11,46,32,24,20.
与这12个分段对应的教师组成样本.
利用随机数表法抽样时应注意的问题
利用随机数表法抽取个体时,关键是事先确定以表中的哪个数(哪行哪列)作为起点,以及读数的方向,向左、向右、向上或向下都可以,同时,读数时结合分段特点进行读取,分段为两位数,则两位、两位地读取,分段为三位数,则三位、三位地读取,如果出现重号则跳过,接着读取,取满为止.
?练一练
3.设某总体是由分段为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的分段是________.
7816 6572 0802 6314 0702 4369 9728 1098
3204 9234 4935 8200 3623 4869 6938 7491
解析:从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字中小于20的分段依次为08,02,14,07,02,10,其中第二个和第五个都是02,重复.可知对应的数值为08,02,14,07,10,则第5个个体的分段为10.
答案:10
——————————————[课堂归纳·感悟提升]———————————————
1.本节课的重点是理解并掌握简单随机抽样的定义、特点和适用范围,掌握两种简单随机抽样的步骤,并能用简单随机抽样方法抽取样本,难点是掌握两种简单随机抽样的步骤及应用.
2.本节课要重点掌握的规律方法
(1)判断简单随机抽样的方法,见讲1.
(2)抽签法的应用条件及注意点,见讲2.
(3)利用随机数表法的注意点,见讲3.
3.本节课的易错点是理解简单随机抽样的概念时易出错,见讲1.
课下能力提升(九)
[学业水平达标练]
题组1 简单随机抽样的概念
1.(2014·四川高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )
A.总体 B.个体
C.样本的容量 D.从总体中抽取的一个样本
解析:选A 5 000名居民的阅读时间的全体是总体,每名居民的阅读时间是个体,200是样本容量,故选A.
2.要检查一个工厂产品的合格率,从1 000件产品中抽出50件进行检查,检查者在其中随机逐个抽取了50件,这种抽样方法可称为________.
解析:由简单随机抽样的特点可知,该抽样方法是简单随机抽样.
答案:简单随机抽样
3.下面的抽样方法是简单随机抽样的是________.
①从某城市的流动人口中随机抽取100人作调查;
②在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方法确定号码的后四位为2 709的为三等奖;
③在待检验的30件零件中随机逐个拿出5件进行检验.
解析:①中总体容量较大,不宜用简单随机抽样;②中抽取的个体的间隔是固定的,不是简单随机抽样.
答案:③
题组2 简单随机抽样的应用
4.抽签法中确保样本代表性的关键是( )
A.制签 B.搅拌均匀
C.逐一抽取 D.抽取不放回
解析:选B 逐一抽取、抽取不放回是简单随机抽样的特点,但不是确保代表性的关键,一次抽取与有放回抽取也不影响样本的代表性,制签也一样,故选B.
5.用随机数表法进行抽样有以下几个步骤:
①将总体中的个体分段;②获取样本号码;③选定开始的数字;④选定读数的方向.这些步骤的先后顺序应为( )
A.①②③④ B.①③④②
C.③②①④ D.④③①②
解析:选B 由随机数表法的步骤知选B.
6.采用抽签法从含有3个个体的总体{1,3,8}中抽取一个容量为2的样本,则所有可能的样本是________.
解析:从三个总体中任取两个即可组成样本,
∴所有可能的样本为{1,3},{1,8},{3,8}.
答案:{1,3},{1,8},{3,8}
7.上海某中学从40名学生中选1人作为上海男篮拉拉队的成员,采用下面两种选法:
选法一 将这40名学生从1~40进行分段,相应地制作1~40的40个号签,把这40个号签放在一个暗箱中搅匀,最后随机地从中抽取1个号签,与这个号签分段一致的学生幸运入选;
选法二 将39个白球与1个红球(球除颜色外,其他完全相同)混合放在一个暗箱中搅匀,让40名学生逐一从中摸取一球,摸到红球的学生成为拉拉队成员.
试问这两种选法是否都是抽签法?为什么?这两种选法有何异同?
解: 选法一满足抽签法的特征,是抽签法;选法二不是抽签法.因为抽签法要求所有的号签分段互不相同,而选法二中39个白球无法相互区分.这两种选法相同之处在于每名学生被选中的可能性都相等,均为.
8.现有一批分段为10,11,…,99,100,…,600的元件,打算从中抽取一个容量为6的样本进行质量检测,如何用随机数法设计抽样方案?
解: 第一步,将元件的分段调整为010,011,012,…,099,100,…,600.
第二步,在随机数表中任取一数作为开始,任选一方向作为读数方向,比如,选第6行第7个数“9”,向右读.
第三步,从数“9”开始,向右读,每次读取三位,凡不在010~600中的跳过去不读,前面已经读过的数也跳过去不读,依次可得到544,354,378,520,384,263.
第四步,以上这6个号码对应的元件就是要抽取的对象.
[能力提升综合练]
1.在简单随机抽样中,某一个个体被抽到的可能性( )
A.与第几次抽样有关,第一次被抽到的可能性最大
B.与第几次抽样有关,第一次被抽到的可能性最小
C.与第几次抽样无关,每一次被抽到的可能性相等
D.与第几次抽样无关,与抽取几个样本有关
解析:选C 在简单随机抽样中,总体中的每个个体在每次抽取时被抽到的可能性相同,故选C.
2.某工厂的质检人员对生产的100件产品,采用随机数表法抽取10件检查,对100件产品采用下面的分段方法:①01,02,03,…,100;②001,002,003,…,100;③00,01,02,…,99.其中正确的序号是( )
A.①② B.①③ C.②③ D.③
解析:选C 根据随机数表的要求,只有分段时数字位数相同,才能达到随机等可能抽样.
3.下列抽样试验中,用抽签法方便的是( )
A.从某工厂生产的3 000件产品中抽取600件进行质量检验
B.从某工厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
D.从某厂生产的3 000件产品中抽取10件进行质量检验
解析:选B A总体容量较大,样本容量也较大,不适宜用抽签法;B总体容量较小,样本容量也较小,可用抽签法;C中甲、乙两厂生产的两箱产品有明显区别,不能用抽签法;D总体容量较大,不适宜用抽签法.故选B.
4.某班有34位同学,座位号记为01,02,…,34,用如图的随机数表选取5组数作为参加青年志愿者活动的五位同学的座位号.选取方法是从随机数表第一行的第6列和第7列数字开始,由左到右依次选取两个数字,则选出来的第4个志愿者的座位号是( )
49 54 43 54 82 17 37 93 23 78 87 35 20
96 43 84 26 34 91 64 57 24 55 06 88 77
04 74 47 67 21 76 33 50 25 83 92 12 06
A.23 B.09 C.02 D.16
解析:选D 从随机数表第1行的第6列和第7列数字开始由左到右依次选取两个数字中小于34的分段依次为21,32,09,16,其中第4个为16,故选D.
5.某中学高一年级有1 400人,高二年级有1 320人,高三年级有1 280人,从该中学学生中抽取一个容量为n的样本,每人被抽到的机会为0.02,则n=________.
解析:三个年级的总人数为1 400+1 320+1 280=4 000,每人被抽到的机会均为0.02,∴n=4 000×0.02=80.
答案:80
6.为了检验某种产品的质量,决定从1 001件产品中抽取10件进行检查,用随机数表法抽取样本的过程中,所编的号码的位数最少是________位.
解析:由于所分段码的位数和读数的位数要一致,因此所分段码的位数最少是四位.从0 000到1 000,或者是从0 001到1 001等.
答案:四
7.某电视台举行颁奖典礼,邀请20名港台、内地艺人演出,其中从30名内地艺人中随机选出10人,从18名香港艺人中随机挑选6人,从10名台湾艺人中随机挑选4人.试用抽签法确定选中的艺人,并确定他们的表演顺序.
解:第一步:先确定艺人:(1)将30名内地艺人从1到30分段,然后用相同的纸条做成30个号签,在每个号签上写上这些分段,然后放入一个不透明小筒中摇匀,从中依次抽出10个号签,则相应分段的艺人参加演出;(2)运用相同的方法分别从10名台湾艺人中抽取4人,从18名香港艺人中抽取6人.
第二步:确定演出顺序:确定了演出人员后,再用相同的纸条做成20个号签,上面写上1到20这20个数字,代表演出的顺序,让每个演员抽一张,每人抽到的号签上的数字就是这位演员的演出顺序,再汇总即可.
8.某学生在一次理科竞赛中要回答的8道题是这样产生的:从15道物理题中随机抽3道;从20道化学题中随机抽3道;从12道生物题中随机抽2道.选用合适的抽样方法确定这个学生所要回答的三门学科的题的序号(物理题的序号为1~15,化学题的序号为16~35,生物题的序号为36~47).
解:法一(抽签法):
第一步,将试题的分段1~47分别写在纸条上.
第二步,将纸条揉成团,制成号签.
第三步,将物理、化学、生物题的号签分别放在三个不透明的袋子中,充分搅拌.
第四步,从装有物理题的袋子中逐个抽取3个号签,从装有化学题的袋子中逐个抽取3个号签,从装有生物题的袋子中逐个抽取2个号签,并记录所得号签上的分段,这便是所要回答的问题的序号.
法二:(随机数表法):
第一步,将物理题的序号对应改成01,02,…,15,其余两科题的序号不变.
第二步,在教材所附的随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第10行第11个数0,并向右开始读取.
第三步,从数0开始向右读,每次读取两位,若得到的号码不在01~47中,则跳过,前面已经取出的也跳过.从01~15中选3个号码,从16~35中选3个号码,从36~47中选2个号码.依次可得到09,47,27,17,08,02,43,28.
第四步,对应以上号码找出所要回答的问题的序号.物理题的序号为:2,8,9;化学题的序号为:17,27,28;生物题的序号为:43,47.
第2课时 系统抽样
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P58~P59,回答下列问题.
(1)在教材P58的“探究”中,除了用简单随机抽样获取样本外,你能否设计其他抽取样本的方法?
提示:可以用系统抽样的方法获取样本.
(2)系统抽样与简单随机抽样有什么差别?
提示:①系统抽样比简单随机抽样更容易实施,可以节约成本;②系统抽样比简单随机抽样的应用范围更广泛.
2.归纳总结,核心必记
(1)系统抽样
先将总体中的个体逐一编号,然后按号码顺序以一定的间隔k进行抽取,先从第一个间隔中随机地抽取一个号码,然后按此间隔逐个抽取即得到所需样本.
(2)系统抽样的步骤及规则
①系统抽样的步骤
假设要从容量为N的总体中抽取容量为n的样本,步骤为:
(ⅰ)编号:先将总体的N个个体编号.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;
(ⅱ)分段:确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;
(ⅲ)确定初始编号:在第1段用简单随机抽样确定第一个个体编号l(l≤k);
(ⅳ)抽取样本:按照一定的规则抽取样本.
②抽取样本的规则
通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
[问题思考]
(1)系统抽样如何提高样本的代表性?
提示:系统抽样所得样本的代表性和具体的分段有关,因此在系统抽样中就要提高分段的质量.例如,不要让分段呈现周期性.
(2)从1 003名学生成绩中,按系统抽样抽取50名学生的成绩时,需先剔除3个个体,这样每个个体被抽取的可能性就不相等了,你认为正确吗?
提示:不正确.因为总体个体数不能被50整除,需剔除3个个体,按照简单随机抽样的方法,在总体中的每个个体被剔除的概率是相等的,都是,每个个体不被剔除的概率也是相等的,都是;在剩余的1 000个个体中,采用系统抽样时每个个体被抽取的概率都是;所以在整个抽样过程中每个个体被抽取的概率仍相等,都是×=.所以系统抽样是公平的、均等的.
[课前反思]
通过以上预习,必须掌握的几个知识点:
(1)什么是系统抽样?
;
(2)系统抽样的步骤: .
为了解高一1 500名学生对食堂饭菜的满意情况,打算从中抽取一个容量为50的样本.
[思考1] 上述抽样方法能否用系统抽样?
提示:因为总体容量较大,因此可以用系统抽样方法抽取样本.
[思考2] 系统抽样有什么特征?与简单随机抽样有什么区别?
名师指津:(1)系统抽样的主要特征有三个:①总体已知且数量较大;②抽样必须等距;③每个个体入样的机会均等.不满足任何一条就不是系统抽样.
(2)系统抽样有别于简单随机抽样的一个显著特点是总体中的个体的数量,一般来说,简单随机抽样,总体中个体较少;系统抽样,总体中个体较多.
?讲一讲
1.(1)下列问题中,最适合用系统抽样法抽样的是( )
A.从某厂生产的30个零件中随机抽取6个入样
B.一个城市有210家超市,其中大型超市20家,中型超市40家,小型超市150家.为了掌握各超市的营业情况,要从中抽取一个容量为21的样本
C.从参加竞赛的1 500名初中生中随机抽取100人分析试题作答情况
D.从参加期末考试的2 400名高中生中随机抽取10人了解某些情况
(2)分段为000 001~100 000的体育彩票,凡彩票号码最后三位数为345的中一等奖,这种抽奖过程是系统抽样吗?为什么?
[尝试解答] (1)A总体容量较小,样本容量也较小,可采用抽签法;B总体中的个体有明显的层次,不适宜用系统抽样法;C总体容量较大,样本容量也较大,可用系统抽样法;D总体容量较大,样本容量较小,可用随机数表法.故选C.
(2)中奖号码的获得方法可以看做分段间隔为1 000,把总体分为=100段,在第1段中抽取000 345,在第2段中抽取001 345,…,在第100段中抽取099 345,组成样本.
显然该抽样方法符合系统抽样的特点,因此采用的是系统抽样.
答案:(1)C
系统抽样的适用条件及判断方法
适用条件:系统抽样适用于个体数较多的总体.
判断方法:判断一种抽样是否为系统抽样,首先看在抽样前是否知道总体是由什么构成的.抽样的方法能否保证将总体分成几个均衡的部分,并保证每个个体等可能入样.
?练一练
1.下列抽样方法不是系统抽样的是( )
A.从标有1~15号的15个球中,任选三个作样本,按从小号到大号的顺序,随机选起点i0,以后选i0+5,i0+10(超过15则从1再数起)号入选
B.工厂生产的产品用传送带将产品送入包装车间前,在一天时间内检验人员从传送带上每隔五分钟抽一件产品进行检验
C.做某项市场调查,规定在商场门口随机抽一个人进行询问调查,直到达到事先规定的调查人数为止
D.电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下来座谈
解析:选C A分段间隔相同,B时间间隔相同.D相邻两排座位号的间隔相同,均满足系统抽样的特征.只有C项无明显的系统抽样的特征.
?讲一讲
2.某单位在职职工共624人,为了调查职工用于上班途中的时间,决定抽取10%的职工进行调查,试采用系统抽样方法抽取所需的样本.
[思路点拨] 624×10%=62.4.需从总体中剔除4人,再重新分段用系统抽样抽取62人.
[尝试解答] (1)将624名职工分段,从001至624.
(2)从总体中用随机数法剔除4人,将剩下的620名职工重新分段,从000至619.
(3)分段,取间隔k==10,将总体均分为62组,每组含10名职工.
(4)在第一段000到009这十个分段中用简单随机抽样确定起始号码l.
(5)将为l,l+10,l+20,…,l+610的个体抽出,组成样本.
系统抽样设计中的注意点
(1)当总体容量不能被样本容量整除时,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除.
(2)被剔除的部分个体可采用简单随机抽样法抽取.
(3)剔除部分个体后应重新分段.
(4)每个个体被抽到的机会均等,被剔除的机会也均等.
?练一练
2.某校高中三年级的295名学生已经分段为1,2,…,295,为了了解学生的学习情况,要按1∶5的比例抽取一个样本,请用系统抽样的方法进行抽取,并写出过程.
解:按照1∶5的比例抽取样本,则样本容量为×295=59.
抽样步骤是:
(1)分段:按现有的号码.
(2)确定分段间隔k=5,把295名同学分成59组,每组5人;第1段是分段为1~5的5名学生,第2段是分段为6~10的5名学生,依次下去,第59段是分段为291~295的5名学生.
(3)采用简单随机抽样的方法,从第一段5名学生中抽出一名学生,不妨设分段为l(1≤l≤5).
(4)那么抽取的学生分段为l+5k(k=0,1,2,…,58),得到59个个体作为样本,如当l=3时的样本分段为3,8,13,…,288,293.
——————————————[课堂归纳·感悟提升]———————————————
1.本节课的重点是记住系统抽样的方法和步骤,难点是会用系统抽样从总体中抽取样本.
2.本节课要理解并记住系统抽样的三个特征:
①总体已知且数量较大;②抽样必须等距;③每个个体入样的机会均等.见讲1.
3.本节课要掌握设计系统抽样的四个步骤:
分段→分段→确定初始分段→抽取样本,见讲2.
4.本节课的易错点有:
(1)概念理解错误致错,如讲1;
(2)忽视每个个体被抽到的机会相等而致误,如讲2.
课下能力提升(十)
[学业水平达标练]
题组1 系统抽样的概念
1.为了了解某地参加计算机水平测试的5 008名学生的成绩,从中抽取了200名学生的成绩进行统计分析,运用系统抽样方法抽取样本时,每组的容量为( )
A.24 B.25 C.26 D.28
解析:选B 5 008除以200的整数商为25,∴选B.
2.下列抽样试验中,最适宜用系统抽样法的是( )
A.某市的4个区共有2 000名学生,4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样
B.从某厂生产的2 000个电子元件中随机抽取5个入样
C.从某厂生产的2 000个电子元件中随机抽取200个入样
D.从某厂生产的20个电子元件中随机抽取5个入样
解析:选C A项中总体有明显层次,不适宜用系统抽样法;B项中样本容量很小,适宜用随机数法;D项中总体容量很小,适宜用抽签法.故选C.
3.某商场想通过检查发票及销售记录的2%来快速估计每月的销售金额,采用如下方法:从某本发票的存根中随机抽一张如15号,然后按顺序往后将65号,115号,165号,……发票上的销售金额组成一个调查样本.这种抽取样本的方法是( )
A.抽签法 B.随机数表法
C.系统抽样法 D.其他的抽样法
解析:选C 上述抽样方法是将发票平均分成若干组,每组50张,从第一组中抽出了15号,即各组抽15+50n(n为自然数)号,符合系统抽样的特点.
4.为了了解参加某次知识竞赛的1 252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么从总体中应随机剔除的个体数目为( )
A.2 B.3 C.4 D.5
解析:选A 因为1 252=50×25+2,所以应随机剔除2个个体.
5.(2014·广东高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A.50 B.40 C.25 D.20
解析:选C 由=25,可得分段的间隔为25.故选C.
题组2 系统抽样设计
6.“五一”国际劳动节期间,某超市举办了一次有奖购物促销活动.期间准备了一些有机会中奖的号码(分段为001~999),在公证部门的监督下按照随机抽样方法进行抽取,确定后两位为88的号码为本次的中奖号码.则这些中奖号码为:________.
解析:根据该问题提供的数据信息,可以发现本次活动的中奖号码是每隔一定的距离出现的,根据系统抽样的有关概念,可知该问题中是运用系统抽样法确定中奖号码的,其间隔数为100.所以,中奖号码依次为088,188,288,388,488,588,688,788,888,988.
答案:088,188,288,388,488,588,688,788,888,988
7.用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生从1~160分段,按分段顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组应抽出的号码为126,求第一组中用抽签方法确定的号码.
解:S+15×8=126,得S=6.
8.为了了解某地区今年高一学生期末考试数学学科的成绩,拟从参加考试的15 000名学生的数学成绩中抽取容量为150的样本.请用系统抽样写出抽取过程.
解:(1)对全体学生的数学成绩进行分段:1,2,3,…,15 000.
(2)分段:由于样本容量与总体容量的比是1∶100,所以我们将总体平均分为150个部分,其中每一部分包含100个个体.
(3)在第一部分即1号到100号用简单随机抽样,抽取一个号码,比如是56.
(4)以56作为起始数,然后顺次抽取156,256,356,…,14 956,这样就得到一个容量为150的样本.
9.某校有2 008名学生,从中抽取20人参加体检,试用系统抽样进行具体实施.
解:(1)将每个人随机编一个号由 0 001 至 2 008;
(2)利用随机数表法找到8个号将这8名学生剔除;
(3)将剩余的2 000名学生重新随机分段 0 001 至 2 000;
(4)分段,取间隔k==100,将总体平均分为20段,每段含100个学生;
(5)从第一段即0 001号到0 100号中随机抽取一个号l;
(6)按分段将l,100+l,200+l,…,1 900+l共20个号码选出,这20个号码所对应的学生组成样本.
[能力提升综合练]
1.某牛奶生产线上每隔30分钟抽取一袋进行检验,该抽样方法记为①;从某中学的30名数学爱好者中抽取3人了解学业负担情况,该抽样方法记为②.那么( )
A.①是系统抽样,②是简单随机抽样
B.①是简单随机抽样,②是简单随机抽样
C.①是简单随机抽样,②是系统抽样
D.①是系统抽样,②是系统抽样
解析:选A 对于①,因为每隔30分钟抽取一袋,是等间距抽样,故①为系统抽样;对于②,总体容量小,样本容量也小,故②为简单随机抽样.
2.(2016·衡阳高一检测)将参加夏令营的600名学生分段为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( )
A.26,16,8 B.25,17,8
C.25,16,9 D.24,17,9
解析:选B 由题意知间隔为=12,故抽到的号码为12k+3(k=0,1,…,49),列出不等式可解得:第Ⅰ营区抽25人,第Ⅱ营区抽17人,第Ⅲ营区抽8人.
3.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机分段,则抽取的42人中,分段落入区间[481,720]的人数为( )
A.11 B.12 C.13 D.14
解析:选B 由系统抽样定义可知,所分组距为=20,每组抽取一个,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.
4.某学校从高三全体500名学生中抽50名学生做学习状况问卷调查,现将500名学生从1到500进行分段,求得间隔数k==10,即每10人抽取一个人,在1~10中随机抽取一个数,如果抽到的是6,则从125~140中应取的数是( )
A.126 B.136
C.126或136 D.126和136
解析:选D 根据系统抽样的定义和方法,所抽取的样本的分段都是“等距”的,由于在1~10中随机抽取的数是6,故从125~140中应取的数是126和136,应选D.
5.人们打桥牌时,将洗好的扑克牌(52张)随机确定一张为起始牌,这时,开始按次序搬牌,对每一家来说,都是从52张总体中抽取一个13张的样本.则这种抽样方法是________.
解析:简单随机抽样的实质是逐个地从总体中随机抽取.而这里只是随机确定了起始张,这时其他各张虽然是逐张起牌的,其实各张在谁手里已被确定.所以不是简单随机抽样,据其等距起牌的特点应将其定位为系统抽样.
答案:系统抽样
6.一个总体中有100个个体,随机分段为00,01,02,…,99,依分段顺序平均分成10个小组,组号分别为1,2,3,…,10.现抽取一个容量为10的样本,规定如果在第1组中随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是________.
解析:由题意知第7组中的数为“60~69”10个数.由题意知m=6,k=7,故m+k=13,其个位数字为3,即第7组中抽取的号码的个位数是3,综上知第7组中抽取的号码为63.
答案:63
7.下面给出某村委会调查本村各户收入情况作的抽样,阅读并回答问题.本村人口:
1 200,户数300,每户平均人口数4人;
应抽户数:30;
抽样间隔:1 200/30=40;
确定随机数字:取一张人民币,其分段后两位数为12;
确定第一样本户:分段12的住户为第一样本户;
确定第二样本户:12+40=52,52号为第二样本户.
……
(1)该村委会采用了何种抽样方法?
(2)抽样过程存在哪些问题,试修改;
(3)何处用了简单随机抽样?
解:(1)系统抽样.
(2)本题是对某村各户进行抽样,而不是对某村人口抽样.抽样间隔应为300/30=10,其他步骤相应改为确定随机数字:取一张人民币,其分段末位数为2.(假设)确定第一样本户:分段02的住户为第一样本户;确定第二样本户:2+10=12,12号为第二样本户……
(3)确定随机数字:取一张人民币,取其末位数2.
8.某工厂有工人1 021人,其中高级工程师20人,现抽取普通工人40人,高级工程师4人组成代表队去参加某项活动,应怎样抽样?
解:(1)将1 001名普通工人用随机方式分段.
(2)从总体中剔除1人(剔除方法可用随机数法),将剩下的1 000名职工重新分段(分别为
0 001,0 002,…,1 000),并平均分成40段,其中每一段包含=25个个体.
(3)在第一段 0 001,0 002,…,0 025 这25个分段中用简单随机抽样法抽出一个(如 0 003)作为起始号码.
(4)将分段为 0 003,0 028,0 053,…,0 978 的个体抽出.
(5)将20名高级工程师用随机方式分段为1,2,…,20.
(6)将这20个号码分别写在大小、形状相同的小纸条上,揉成小球,制成号签.
(7)将得到的号签放入一个不透明的容器中,充分搅拌均匀.
(8)从容器中逐个抽取4个号签,并记录上面的分段.
(9)从总体中将与所抽号签的分段相一致的个体取出.
以上得到的个体便是代表队成员.
第3课时 分层抽样
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P60~P61,回答下列问题.
(1)教材探究中你认为应当怎样抽取样本?
提示:利用分层抽样方法抽取样本.
(2)什么情况下适用分层抽样?
提示:当总体中个体之间差异较大时可使用分层抽样抽取样本.
2.归纳总结,核心必记
(1)分层抽样
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法是一种分层抽样.
当总体是由差异明显的几部分组成时,往往选用分层抽样的方法.
(2)分层抽样的步骤
①根据已经掌握的信息,将总体分成互不相交的层;
②根据总体中的个体数N和样本容量n计算抽样比k=;
③确定第i层应该抽取的个体数目ni≈Ni×k(Ni为第i层所包含的个体数),使得各ni之和为n;
④在各个层中,按步骤③中确定的数目在各层中随机抽取个体,合在一起得到容量为n的样本.
[问题思考]
(1)分层抽样中的总体有什么特征?
提示:分层抽样中的总体是由差异明显的几部分组成.
(2)有人说系统抽样时,将总体分成均等的几部分,每部分抽取一个,符合分层抽样的概念,故系统抽样是一种特殊的分层抽样,对吗?
提示:不对.因为分层抽样是从各层独立地抽取个体,而系统抽样各段上抽取时是按事先定好的规则进行的,各层分段有联系,不是独立的,故系统抽样不同于分层抽样.
[课前反思]
通过以上预习,必须掌握的几个知识点:
(1)什么是分层抽样?
;
(2)分层抽样的步骤: .
背景:为了解学生视力情况,某校在开学初对400名学生进行视力抽查.其中高一学生 1 200 人,高二有 1 300 人,高三有 1 500 人.
[思考1] 学校应怎样抽查这400名学生的视力?
提示:由于高一、高二、高三年级学生的视力情况差别较大,因而可利用分层抽样的方法抽取学生进行视力抽查.
[思考2] 分层抽样有什么特点?
名师指津:分层抽样的特点:
①适用于总体由差异明显的几部分组成的情况;
②更充分地反映了总体的情况;
③等可能抽样,每个个体被抽到的可能性都相等.
?讲一讲
1.下列问题中,最适合用分层抽样抽取样本的是( )
A.从10名同学中抽取3人参加座谈会
B.红星中学共有学生1 600名,其中男生840名,防疫站对此校学生进行身体健康调查,抽取一个容量为200的样本
C.从1 000名工人中,抽取100人调查上班途中所用时间
D.从生产流水线上,抽取样本检查产品质量
[尝试解答] A中总体所含个体无差异且个数较少,适合用简单随机抽样;C和D中总体所含个体无差异且个数较多,适合用系统抽样;B中总体所含个体差异明显,适合用分层抽样.
答案:B
分层抽样的适用条件
当已知总体由差异明显的几部分组成时,为保证所抽取的样本具有代表性,应采用分层抽样抽取样本.
?练一练
1.某社区有500户家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95户.为了调查社会购买力的某项指标,要从中抽取一个容量为100的样本,记作①;某学校高一年级有18名女排运动员,要从中选出4人调查训练情况,记作②.那么完成上述两项调查应分别采用的抽样方法是( )
A.①用简单随机抽样法,②用系统抽样法
B.①用分层抽样法,②用简单随机抽样法
C.①用系统抽样法,②用分层抽样法
D.①用分层抽样法,②用系统抽样法
解析:选B ①因家庭收入不同其社会购买力也不同,宜用分层抽样的方法.②因总体个数较少,宜用简单随机抽样法.
[思考] 怎样确定分层抽样中各层入样的个体数?
名师指津:在实际操作时,应先计算出抽样比=,获得各层入样数的百分比,再按抽样比确定每层需要抽取的个体数:抽样比×该层个体数目=×该层个体数目.
?讲一讲
2.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工只能参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%;登山组的职工占参加活动总人数的,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同年龄层的职工对本次活动的满意程度,现用分层抽样的方法从参加活动的全体职工中抽取容量为200的样本.试求:
(1)游泳组中,青年人、中年人、老年人分别所占的比例;
(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.
[尝试解答] (1)设登山组人数为x,游泳组中青年人、中年人、老年人所占比例分别为a,b,c,则有=47.5%,=10%,
解得b=50%,c=10%,故a=100%-50%-10%=40%,
即游泳组中,青年人、中年人、老年人各占比例为40%,50%,10%.
(2)游泳组中,抽取的青年人人数为200××40%=60;
抽取的中年人人数为200××50%=75;
抽取的老年人人数为200××10%=15.
即游泳组中,青年人、中年人、老年人分别应抽取的人数为60,75,15.
分层抽样的步骤
?练一练
2.一个地区共有5个乡镇,人口3万人,其人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.
解:因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法.
具体过程如下:
(1)将3万人分为5层,其中一个乡镇为一层.
(2)按照样本容量的比例求得各乡镇应抽取的人数分别为60人,40人,100人,40人,60人.
(3)按照各层抽取的人数随机抽取各乡镇应抽取的样本.
(4)将300人合到一起,即得到一个样本.
?讲一讲
3.①教育局督学组到校检查工作,临时需在每班各抽调两人参加座谈;②某班数学期中考试有14人在120分以上,35人在90~119分,7人不及格,现从中抽出8人研讨进一步改进教与学;③某班春节聚会,要产生两位“幸运者”.就这三件事,合适的抽样方法分别为( )
A.分层抽样,分层抽样,简单随机抽样
B.系统抽样,系统抽样,简单随机抽样
C.分层抽样,简单随机抽样,简单随机抽样
D.系统抽样,分层抽样,简单随机抽样
[思路点拨] 根据三种抽样方法的特征、适用范围判断.
[尝试解答] ①每班各抽两人需用系统抽样.②由于学生分成了差异比较大的几层,应用分层抽样.③由于总体与样本容量较小,应用简单随机抽样.故选D.
答案:D
三种抽样方法的适用范围
三种抽样方法均为不放回、逐个、等可能抽样.当总体中的个体较少时,常用简单随机抽样;当总体中的个体较多,样本容量较大时,常用系统抽样,但在第一段内抽取个体时,用简单随机抽样;当总体是由差异明显的几部分组成时,采用分层抽样,但在各层内抽取个体时,可用简单随机抽样或系统抽样.
?练一练
3.某学院A、B、C三个专业共有1 200名学生,其中A专业有380名学生,B专业有420名学生,为调查这些学生勤工俭学的情况,要从中抽取一个容量为120的样本,记为①;某中学高二年级有12名足球运动员,要从中选出3人调查学习负担情况,记作②;从某厂生产的802辆轿车中抽取8辆测试某项性能,记作③.则完成上述3项应分别采用的抽样方法是( )
A.①用简单随机抽样,②用系统抽样,③用分层抽样
B.①用分层抽样,②用简单随机抽样,③用系统抽样
C.①用简单随机抽样,②用分层抽样,③用系统抽样
D.①用分层抽样,②用系统抽样,③用简单随机抽样
解析:选B 对于①,总体由差异明显的三部分组成,应采用分层抽样.对于②,总体中的个体数较少,而且所调查内容对12名调查对象是平等的,应用简单随机抽样.对于③,总体中的个体数较多,应用系统抽样.故选B.
——————————————[课堂归纳·感悟提升]———————————————
1.本节课的重点是记住分层抽样的特点和步骤,难点是会用分层抽样从总体中抽取样本.
2.本节课要牢记分层抽样中的两个比例关系:
(1)=;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
3.要掌握分层抽样的两类问题:
(1)根据分层抽样的特征判断分层抽样,见讲1.
(2)根据分层抽样的步骤设计分层抽样,特别是当总体容量不能被样本容量整除时注意剔除个体.
4.本节课的易错点有:
(1)概念理解错误致错,如讲3;
(2)忽视每个个体被抽到的机会相等而致误,如讲2.
课下能力提升(十一)
[学业水平达标练]
题组1 分层抽样的概念
1.某学校有男、女学生各500名,为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )
A.抽签法 B.随机数法
C.系统抽样法 D.分层抽样法
解析:选D 由于是调查男、女学生在学习兴趣与业余爱好方面是否存在差异,因此用分层抽样方法.
2.下列问题中,最适合用分层抽样方法抽样的是( )
A.某电影院有32排座位,每排有40个座位,座位号是1~40.有一次报告会坐满了听众,报告会结束以后为听取意见,要留下32名听众进行座谈
B.从10台冰箱中抽出3台进行质量检查
C.某乡农田有山地8 000亩,丘陵12 000亩,平地24 000亩,洼地4 000亩,现抽取农田480亩估计全乡农田平均产量
D.从50个零件中抽取5个做质量检验
解析:选C A的总体容量较大,宜采用系统抽样方法;B的总体容量较小,用简单随机抽样法比较方便;C总体容量较大,且各类田地的产量差别很大,宜采用分层抽样方法;D与B类似.
3.某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体状况,从他们中抽取容量为36的样本,最适合抽取样本的方法是( )
A.简单随机抽样
B.系统抽样
C.分层抽样
D.先从老年人中剔除1人,再用分层抽样
解析:选D 总体总人数为28+54+81=163.样本容量为36,由于总体由差异明显的三部分组成,考虑用分层抽样.若按36∶163取样,无法得到整数解.故考虑先剔除1人,抽取比变为36∶162=2∶9,则中年人取54×=12(人),青年人取81×=18(人),从老年人中剔除1人,老年人取27×=6(人),组成容量为36的样本,故选D.
4.某班有40名男生,20名女生,已知男女身高有明显不同,现欲调查平均身高,准备抽取,采用分层抽样方法,抽取男生1名,女生1名,你认为这种做法是否妥当?如果让你来调查,你准备怎样做?
解:这种做法不妥当.原因:取样比例数过小,很难准确反映总体情况,况且男、女身高差异较大,抽取人数相同,也不合理.
考虑到本题的情况,可以采用分层抽样,可抽取.
男生抽取40×=8(名),女生抽取20×=4(名),各自用抽签法或随机数法抽取组成样本.
题组2 分层抽样设计
5.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为( )
A.5,10,15 B.3,9,18
C.3,10,17 D.5,9,16
解析:选B 高级、中级、初级职称的人数所占的比例分别为=10%,=30%,=60%,则所抽取的高级、中级、初级职称的人数分别为10%×30=3,30%×30=9,60%×30=18.
6.某公司生产三种型号的轿车,产量分别是1 200辆,6 000 辆和2 000辆,为检验该公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取________辆、________辆、________辆.
解析:三种型号的轿车共9 200辆,抽取样本为46辆,则按=的比例抽样,所以依次应抽取1 200×=6(辆),6 000×=30(辆),2 000×=10(辆).
答案:6 30 10
7.某市化工厂三个车间共有工人1 000名,各车间男、女工人数如下表:
第一车间
第二车间
第三车间
女工
173
100
y
男工
177
x
z
已知在全厂工人中随机抽取1名,抽到第二车间男工的可能性是0.15.
(1)求x的值;
(2)现用分层抽样的方法在全厂抽取50名工人,问应在第三车间抽取多少名?
解:(1)由=0.15,得x=150.
(2)∵第一车间的工人数是173+177=350,第二车间的工人数是100+150=250,
∴第三车间的工人数是1 000-350-250=400.
设应从第三车间抽取m名工人,则由=,得m=20.
∴应在第三车间抽取20名工人.
8.某单位有技师18人,技术员12人,工程师6人,需要从这些人中抽取一个容量为n的样本,如果采用系统抽样和分层抽样方法抽取,都不用剔除个体;如果样本容量增加1,则在采用系统抽样时,需要在总体中剔除1个个体,求样本容量n.
解:因为采用系统抽样和分层抽样时不用剔除个体,所以n是36的约数,且是6的约数,即n又是6的倍数,n=6,12,18或36,又n+1是35的约数,故n只能是4,6,34,综合得n=6,即样本容量为6.
题组3 抽样方法的综合应用
9.为了考察某校的教学水平,抽查了该学校高三年级部分学生的本年度考试成绩.为了全面地反映实际情况,采取以下三种考察方式(已知该校高三年级共有14个教学班,并且每个班内的学生都已经按随机方式编好了学号,假定该校每班人数都相同).
①从全年级14个班中任意抽取一个班,再从该班中任意抽取14人,考察他们的学习成绩;
②每个班都抽取1人,共计14人,考察这14个学生的成绩;
③把该校高三年级的学生按成绩分成优秀,良好,普通三个级别,从中抽取100名学生进行考查(已知若按成绩分,该校高三学生中优秀学生有105名,良好学生有420名,普通学生有175名).
根据上面的叙述,试回答下列问题:
(1)上面三种抽取方式中,其总体、个体、样本分别指什么?每一种抽取方式抽取的样本中,其样本容量分别是多少?
(2)上面三种抽取方式各自采用何种抽取样本的方法?
(3)试分别写出上面三种抽取方法各自抽取样本的步骤.
解:(1)这三种抽取方式中,其总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式中样本为所抽取的14名学生本年度的考试成绩,样本容量为14;第二种抽取方式中样本为所抽取的14名学生本年度的考试成绩,样本容量为14;第三种抽取方式中样本为所抽取的100名学生本年度的考试成绩,样本容量为100.
(2)上面三种抽取方式中,第一种方式采用的方法是简单随机抽样法;第二种方式采用的方法是系统抽样法和简单随机抽样法;第三种方式采用的方法是分层抽样法和简单随机抽样法.
(3)第一种方式抽样的步骤如下:
第一步:在这14个班中用抽签法任意抽取一个班;
第二步:从这个班中按学号用随机数表法或抽签法抽取14名学生,考察其考试成绩.
第二种方式抽样的步骤如下:
第一步:在第一个班中,用简单随机抽样法任意抽取某一学生,记其学号为x;
第二步:在其余的13个班中,选取学号为x+50k(1≤k≤12,k∈Z)的学生,共计14人.
第三种方式抽样的步骤如下:
第一步:分层,因为若按成绩分,其中优秀生共105人,良好生共420人,普通生共175人,所以在抽取样本中,应该把全体学生分成三个层次;
第二步:确定各个层次抽取的人数,因为样本容量与总体数的比为100∶700=1∶7,所以在每个层抽取的个体数依次为,,,即15,60,25;
第三步:按层分别抽取,在优秀生中用简单随机抽样法抽取15人,在良好生中用简单随机抽样法抽取60人,在普通生中用简单随机抽样法抽取25人.
第四步:将所抽取的个体组合在一起构成样本.
[能力提升综合练]
1.(2014·湖南高考)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1、p2、p3,则( )
A.p1=p2
B.p2=p3C.p1=p3D.p1=p2=p3
解析:选D 根据抽样方法的概念可知,简单随机抽样、系统抽样和分层抽样三种抽样方法,每个个体被抽到的概率都是,故p1=p2=p3,故选D.
2.(2015·北京高考)某校老年、中年和青年教师的人数如表所示,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本的老年教师人数为( )
类别
人数
老年教师
900
中年教师
1 800
青年教师
1 600
合计
4 300
A.90 B.100 C.180 D.300
解析:选C 设该样本中的老年教师人数为x,由题意及分层抽样的特点得=,故x=180.
3.(2014·重庆高考)某中学有高中生3 500人,初中生1 500人.为了了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100 B.150 C.200 D.250
解析:选A 样本抽取比例为=,该校总人数为1 500+3 500=5 000,则=,故n=100,选A.
4.(2016·无锡质检)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.
解析:设应从高二年级抽取x名学生,则x∶50=3∶10.解得x=15.
答案:15
5.(2014·湖北高考)甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
解析:分层抽样中各层的抽样比相同.样本中甲设备生产的有50件,则乙设备生产的有30件.在4 800件产品中,甲、乙设备生产的产品总数比为5∶3,所以乙设备生产的产品的总数为1 800件.
答案:1 800
6.为了对某课题进行讨论研究,用分层抽样的方法从三所高校A,B,C的相关人员中,抽取若干人组成研究小组,有关数据见下表(单位:人)
高校
相关人数
抽取人数
A
x
1
B
36
y
C
54
3
(1)求x,y;
(2)若从高校B相关的人中选2人进行专题发言,应采用什么抽样方法,请写出合理的抽样过程.
解:(1)分层抽样是按各层相关人数和抽取人数的比例进行的,所以有:=?x=18,=?y=2,故x=18,y=2.
(2)总体容量和样本容量较小,所以应采用抽签法,过程如下:
第一步 将36人随机分段,号码为1,2,3,…,36;
第二步 将号码分别写在相同的纸片上,揉成团,制成号签;
第三步 将号签放入一个不透明的容器中,充分搅匀,依次抽取2个号码,并记录上面的分段;
第四步 把与号码相对应的人抽出,即可得到所要的样本.
第1课时 用样本的频率分布估计总体分布
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P65~P70,回答下列问题.
(1)画频率分布直方图的步骤有哪些?
提示:求极差→决定组距与组数→决定组距与组数→将数据分组→列频率分布表→画频率分布直方图.
(2)频率分布直方图的纵轴表示什么?各矩形面积之和等于什么?
提示:频率分布直方图的纵轴表示频率/组距,各小长方形面积之和为1.
(3)频率分布折线图和总体密度曲线各指什么?
提示:连接频率分布直方图中各小长方形上端的中点就得到频率分布折线图;当频率分布直方图中组数增加,组距减小,相应的频率分布折线图会越来越接近于一条光滑的曲线,称之为总体密度曲线.
2.归纳总结,核心必记
(1)用样本估计总体、数据分析的基本方法
①用样本估计总体的两种情况
(ⅰ)用样本的频率分布估计总体分布.
(ⅱ)用样本的数字特征估计总体的数字特征.
②数据分析的基本方法
(ⅰ)借助于图形
分析数据的一种基本方法是用图将它们画出来,此方法可以达到两个目的,一是从数据中提取信息,二是利用图形传递信息.
(ⅱ)借助于表格
分析数据的另一种方法是用紧凑的表格改变数据的排列方式,此方法是通过改变数据的构成形式,为我们提供解释数据的新方式.
(2)绘制频率分布直方图的步骤
(3)频率分布折线图和总体密度曲线
(4)茎叶图
①茎叶图的制作方法(以两位数据为例):
将所有两位数的十位数字作为茎,个位数字作为叶,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出.
②茎叶图的优缺点
在样本数据较少时,用茎叶图表示数据的效果较好.它不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.但是当样本数据较多时,茎叶图就显得不太方便,因为每一个数据都要在图中占据一个空间,如果数据很多,茎叶就会很长.
[问题思考]
(1)频率分布直方图直观形象地表示了频率分布表,在频率分布直方图中是用哪些量来表示各组频率的?
提示:在频率分布直方图中用每个矩形的面积表示相应组的频率,即×组距=频率,各组频率的和等于1,因此各小矩形的面积的和等于1.
(2)茎叶图中对“叶”和“茎”有什么要求?
提示:茎叶图中,“叶”是数据的最后一个数字,其前面的数字作为“茎”.
[课前反思]
通过以上预习,必须掌握的几个知识点:
(1)绘制频率分布直方图的步骤: ;
(2)频率分布折线图和总体密度曲线的制作方法: ;
(3)茎叶图的制作方法: .
[思考] 频率分布表、频率分布直方图各有什么优缺点?
名师指津:(1)频率分布表在数量表示上比较确切,但不够直观、形象,分析数据分布的总体态势不太方便.
(2)频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式.但是从直方图本身得不出原始数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了.
?讲一讲
1.美国历届总统中,就任时年纪最小的是罗斯福,他于1901年就任,当时年仅42岁;就任时年纪最大的是里根,他于1981年就任,当时69岁.下面按时间顺序(从1789年的华盛顿到2009年的奥巴马,共44任)给出了历届美国总统就任时的年龄:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48
将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.
[尝试解答] 以4为组距,列表如下:
频率分布直方图如图(1)所示,频率分布折线图如图(2)所示.
(1)频率分布表中极差、组距、组数的关系
①若为整数,则=组数;
②若不为整数,则的整数部分+1=组数.
(2)确定频率分布直方图中组距和组数的注意点
组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
?练一练
1.有一容量为50的样本,数据的分组及各组的数据如下:[10,15),4;[15,20),5;[20,25),10;[25,30),11;[30,35),9;[35,40),8;[40,45],3.
(1)列出样本频率分布表;
(2)画出频率分布直方图及折线图.
解:(1)由所给的数据,不难得出以下样本的频率分布表:
数据段
[10,15)
[15,20)
[20,25)
[25,30)
频数
4
5
10
11
频率
0.08
0.10
0.20
0.22
数据段
[30,35)
[35,40)
[40,45]
总计
频数
9
8
3
50
频率
0.18
0.16
0.06
1
(2)频率分布直方图如图(1)所示,频率分布折线图如图(2)所示.
观察下面茎叶图,它的中间部分像一棵树的茎,两边部分像这棵树的茎上长出来的叶子.
[思考] 怎样理解认识茎叶图?
名师指津:茎叶图也是用来表示数据的一种图,它的思路是将数组中的数按位数进行比较,将高位数字作为一个主干(茎),将低位数字作为分枝(叶),列在主干的一侧,这样就可以清楚地看到每个主干后面有几个数,每个数具体是多少.
?讲一讲
2.某赛季甲、乙两名篮球运动员每场比赛得分情况如下:
甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50;
乙的得分:8,13,14,16,23,26,28,33,38,39,51.
(1)画出甲、乙两名运动员得分数据的茎叶图;
(2)根据茎叶图分析甲、乙两运动员的水平.
[尝试解答] (1)作出茎叶图如图所示:
(2)由(1)中的茎叶图可以看出,甲运动员的得分情况是大致对称的,中位数是36;乙运动员的得分情况除一个特殊得分外,也大致对称,中位数是26.因此甲运动员的发挥比较稳定,总体得分情况比乙运动员好.
画茎叶图的步骤
第一步,将数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将表示“茎”的数字按大小顺序由上到下排成一列;第三步,将各个数据的“叶”按次序写在其茎的左、右两侧.
?练一练
2.甲、乙两名同学最近几次的数学考试成绩情况如下:
甲的得分:95,81,75,89,71,65,76,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
解:甲、乙两人数学成绩的茎叶图如图所示.
从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98分;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是88分,但分数分布相对于乙来说,趋向于低分阶段.因此乙同学发挥比较稳定,总体得分情况比甲同学好.
?讲一讲
3.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.
(1)求直方图中x的值;
(2)在这些用户中,求用电量落在区间[100,250)内的户数.
[思路点拨] (1)根据各小长方形的面积和为1求解.
(2)先求数据落在[100,250)内的频率,再由频率公式求值.
[尝试解答] (1)由频率分布直方图知[200,250)小组的频率为1-(0.002 4+0.003 6+0.006 0+0.002 4+0.001 2)×50=0.22,于是x==0.004 4.
(2)∵数据落在[100,250)内的频率为
(0.003 6+0.006 0+0.004 4)×50=0.7,
∴所求户数为0.7×100=70.
频率分布直方图的性质
(1)每个小矩形的面积表示样本数据落在该组内的频率.
(2)所有小矩形的面积和等于1.
(3)利用一组的频数和频率,可以求样本容量.
提醒:频率分布直方图中的纵轴不是频率,而是频率/组距.
?练一练
3.为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
解:(1)频率分布直方图是以面积的形式反映了数据落在各小组内的频率大小的,因此第二小组的频率为=0.08.
又因为第二小组的频率=,
所以样本容量===150.
(2)由直方图可估计该校高一年级学生的达标率为
×100%=88%.
——————————————[课堂归纳·感悟提升]———————————————
1.本节课的重点是会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,难点是理解用样本的频率分布估计总体分布的方法.
2.本节课要重点掌握的规律方法
(1)绘制频率分布直方图的步骤,见讲1.
(2)绘制茎叶图的步骤及其意义,见讲2.
(3)会应用频率分布直方图的意义解决问题,见讲3.
3.本节课的易错点
将频率分布直方图中的纵轴的单位看错而致错是本节课的主要易错点,如讲3.
课下能力提升(十二)
[学业水平达标练]
题组1 列频率分布表、画频率分布直方图
1.用样本频率分布估计总体频率分布的过程中,下列说法正确的是( )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
解析:选C 由用样本估计总体的性质可得.
2.在画频率分布直方图时,某组的频数为10,样本容量为50,总体容量为600,则该组的频率是( )
A. B.
C. D.不确定
解析:选A 该组的频率为=,故选A.
3.调查某校高三年级男生的身高,随机抽取40名高三男生,实测身高数据(单位: cm)如下:
171 163 163 166 166 168 168 160 168 165
171 169 167 169 151 168 170 168 160 174
165 168 174 159 167 156 157 164 169 180
176 157 162 161 158 164 163 163 167 161
(1)作出频率分布表;
(2)画出频率分布直方图.
解:(1)最低身高151 cm,最高身高180 cm,它们的差是180-151=29,即极差为29;确定组距为4,组数为8,列表如下:
分组
频数
频率
[149.5,153.5)
1
0.025
[153.5,157.5)
3
0.075
[157.5,161.5)
6
0.15
[161.5,165.5)
9
0.225
[165.5,169.5)
14
0.35
[169.5,173.5)
3
0.075
[173.5,177.5)
3
0.075
[177.5,181.5]
1
0.025
合计
40
1
(2)频率分布直方图如图所示.
题组2 茎叶图及应用
4.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为( )
A.0.2 B.0.4 C.0.5 D.0.6
解析:选B ∵数据总个数n=10,又落在区间[22,30)内的数据个数为4,∴所求的频率为=0.4.故选B.
5.对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )
A.46,45,56 B.46,45,53
C.47,45,56 D.45,47,53
解析:选A 直接列举求解.由题意知各数为12,15,20,22,23,23,31,32,34,34,38,39,45,45,45,47,47,48,48,49,50,50,51,51,54,57,59,61,67,68,中位数是46,众数是45,最大数为68,最小数为12,极差为68-12=56.
题组3 频率分布直方图的应用
6.(2016·金华高一检测)如图所示是一容量为100的样本的频率分布直方图,则由图形中的数据,样本落在[15,20)内的频数为( )
A.20 B.30 C.40 D.50
解析:选B 样本数据落在[15,20]内的频数为100×[1-5×(0.04+0.1)]=30.
7.某车站在春运期间为了了解旅客购票情况,随机抽样调查了100名旅客从开始在售票窗口排队到购到车票所用的时间t(以下简称为购票用时,单位为min),下面是这次调查统计分析得到的频率分布表和频率分布直方图(如图所示).
分组
频数
频率
一组
0≤t<5
0
0
二组
5≤t<10
10
0.10
三组
10≤t<15
10
②
四组
15≤t<20
①
0.50
五组
20≤t≤25
30
0.30
合计
100
1.00
解答下列问题:
(1)这次抽样的样本容量是多少?
(2)在表中填写出缺失的数据并补全频率分布直方图;
(3)旅客购票用时的平均数可能落在哪一组?
解:(1)样本容量是100.
(2)①50 ②0.10
所补频率分布直方图如图中的阴影部分.
(3)设旅客平均购票用时为t min,则有
≤t<
,
即15≤t<20.所以旅客购票用时的平均数可能落在第四组.
[能力提升综合练]
1.将容量为100的样本数据,按由小到大排列分成8个小组,如下表所示:
组号
1
2
3
4
5
6
7
8
频数
10
13
14
14
15
13
12
9
第3组的频率和累积频率为( )
A.0.14和0.37 B.和
C.0.03和0.06 D.和
解析:选A 由表可知,第三小组的频率为=0.14,累积频率为=0.37.
2.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )
A B
C D
解析:选A 由分组可知C,D两项一定不对;由茎叶图可知[0,5)有1人,[5,10)有1人,∴第一、二小组频率相同,频率分布直方图中矩形的高应相同,可排除B.故选A.
3.为了解电视对生活的影响,一个社会调查机构就平均每天看电视的时间对某地10 000名居民进行了调查,并根据所得数据画出了样本的频率分布直方图(如图),为了分析该地居民平均每天看电视的时间与年龄、学历、职业等方面的关系,要从10 000人中再用分层抽样的方法抽出100人做进一步调查,则在[2.5,3)(小时)时间段内应抽出的人数是( )
A.25 B.30 C.50 D.75
解析:选A 抽出的100人中平均每天看电视的时间在[2.5,3)(小时)时间段内的频率是0.5×0.5=0.25,所以这10 000人中平均每天看电视时间在[2.5,3)(小时)时间段内的人数为10 000×0.25=2 500,又抽样比为=,故在[2.5,3)(小时)时间段内应抽出人数为 2 500×=25.
4.某工厂对一批产品进行了抽样检测.如图是根据抽样检测后的产品净重(单位:克)数据绘制的频率分布直方图,其中产品净重的范围是[96,106],样本数据分组为[96,98),[98,100),[100,102),[102,104),[104,106],已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克并且小于104克的产品的个数是( )
A.90 B.75 C.60 D.45
解析:选A ∵样本中产品净重小于100克的频率为(0.050+0.100)×2=0.3,频数为36,∴样本总数为=120.∵样本中净重大于或等于98克并且小于104克的产品的频率为(0.100+0.150+0.125)×2=0.75,∴样本中净重大于或等于98克并且小于104克的产品的个数为120×0.75=90.
5.为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校200名教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如图:
据此可估计该校上学期200名教师中,使用多媒体进行教学次数在[15,25)内的人数为________.
解析:在抽取的20名教师中,在[15,25)内的人数为6,据此可估计该校上学期200名教师中,使用多媒体进行教学的次数在[15,25)内的人数为60.
答案:60
6.在我市2016年“创建文明城市”知识竞赛中,考评组从中抽取200份试卷进行分析,其分数的频率分布直方图如图所示,则分数在区间[60,70)上的人数大约有________.
解析:根据频率分布直方图,分数在区间[60,70)上的频率为0.04×10=0.4,∴分数在区间[60,70)上的人数为200×0.4=80.
答案:80
7.在某电脑杂志的一篇文章中,每个句子的字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,24,27,17
在某报纸的一篇文章中,每个句子的字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22
(1)将这两组数据用茎叶图表示;
(2)将这两组数据进行比较分析,你会得到什么结论?
解:(1)
(2)电脑杂志上每个句子的字数集中在10~30之间;而报纸上每个句子的字数集中在20~40之间.还可以看出电脑杂志上每个句子的平均字数比报纸上每个句子的平均字数要少.说明电脑杂志作为科普读物更加通俗易懂、简单明了.
8.某市2016年4月1日-4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,
45.
(1)完成频率分布表;
(2)作出频率分布直方图;
(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.
请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.
解:(1)频率分布表:
分组
频数
频率
[41,51)
2
[51,61)
1
[61,71)
4
[71,81)
6
[81,91)
10
[91,101)
5
[101,111]
2
(2)频率分布直方图如图所示.
(3)答对下述两条中的一条即可:
①该市一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数为28,占当月天数的.说明该市空气质量基本良好.
②轻微污染有2天,占当月天数的;污染指数在80以上的接近轻微污染的天数15,加上处于轻微污染的天数2,占当月天数的,超过50%.说明该市空气质量有待进一步改善.
第2课时 用样本的数字特征估计总体的数字特征
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P71~P78,回答下列问题.
(1)众数、中位数、平均数各是什么样的数?
提示:见本课时[归纳总结,核心必记](1).
(2)你能说出教材P72思考中样本的中位数与样本中位数估计值为什么不一样吗?
提示:频率分布直方图已经损失了一些基本的信息,因而通过频率分布直方图只能估计样本的中位数,而不能得到样本的准确的中位数.
(3)标准差和方差各指什么?
提示:见本课时[归纳总结,核心必记](2).
2.归纳总结,核心必记
(1)众数、中位数、平均数
①众数:在一组数据中,出现次数最多的数叫做众数.
②中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
③平均数:一组数据的总和除以这组数据的个数取得的商叫做这组数据的平均数,一般记为=(x1+x2+…+xn).
(2)标准差、方差
①标准差:标准差是样本数据到平均数的一种平均距离,一般用s表示.假设样本数据是x1,x2,…,xn,表示这组数据的平均数,
则s=.
②方差:标准差的平方s2 即为方差, 则s2=[(x1-)2+(x2-)2+…+(xn-)2].
[问题思考]
(1)一组数据的众数可以有多个吗?中位数是否也有相同的结论?
提示:一组数据的众数可能有一个,也可能有多个,但中位数有且只有一个.
(2)在频率分布直方图中如何求众数、中位数、平均数?
提示:①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
[课前反思]
通过以上预习,必须掌握的几个知识点:
(1)众数、中位数、平均数的概念: ;
(2)标准差、方差的公式: .
现从甲、乙、丙三个厂家生产的同一种产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下(单位:年)
甲:3, 4, 5, 6, 8, 8, 8, 10
乙:4, 6, 6, 6, 8, 9, 12, 13
丙:3, 3, 4, 7, 9, 10, 11, 12
[思考1] 三家广告中都称其产品使用寿命为8年,你能说明为什么吗?
名师指津:三个厂家从不同的角度进行了说明,以宣传自己的产品.其中甲:众数为8年,乙:平均数为8年,丙:中位数为8年.
[思考2] 众数、中位数、平均数各有什么优缺点?
名师指津:三种数字特征的比较:
众数:优点是体现了样本数据的最大集中点,容易计算;缺点是只能表达样本数据中很少的一部分信息,无法客观地反映总体的特征.
中位数:优点是不受少数几个极端数据(即排序靠前或靠后的数据)的影响,容易计算,便于利用中间数据的信息;缺点是对极端值不敏感.
平均数:优点是代表性较好,是反映数据集中趋势的量,一般情况下可以反映出更多的关于样本数据全体的信息;缺点是任何一个数据的改变都会引起平均数的改变,数据越“离群”对平均值的影响越大.
?讲一讲
1.某工厂人员及月工资构成如下:
人员
经理
管理
人员
高级
技工
工人
学徒
合计
月工
资(元)
22 000
2 500
2 200
2 000
1 000
29 700
人数
1
6
5
10
1
23
合计
22 000
15 000
11 000
20 000
1 000
69 000
(1)指出这个表格中月工资的众数、中位数、平均数;
(2)这个表格中,平均数能客观地反映该工厂的月工资水平吗?为什么?
[尝试解答] (1)由表格可知,众数为2 000元.
把23个数据按从小到大(或从大到小)的顺序排列,排在中间的数应是第12个数,其值为2 200,故中位数为2 200元.
平均数为69 000÷23=3 000(元).
(2)虽然平均数为3 000元,但由表格中所列出的数据可见,只有经理的工资在平均数以上,其余人的工资都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
对众数、中位数、平均数的几点说明
(1)如果样本平均数大于样本中位数,说明数据中存在较大的极端值.在实际应用中,样本中位数和样本平均数可以使我们了解样本数据中的极端数据信息,帮助我们作出决策.
(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各个数据的重心.
?练一练
1.某校在一次考试中,甲、乙两班学生的数学成绩统计如下:
分数
50
60
70
80
90
100
人数
甲班
1
6
12
11
15
5
乙班
3
5
15
3
13
11
选用平均数与众数、中位数评估这两个班的成绩.
解:甲班平均数79.6分,乙班平均数80.2分,从平均分看成绩较好的是乙班;
甲班众数为90分,乙班众数为70分,从众数看成绩较好的是甲班;
按从高到低(或从低到高)的顺序排列之后,甲班的第25个和第26个数据都是80,所以中位数是80分,同理乙班中位数也是80分,但是甲班成绩在中位数以上(含中位数)的学生有31人,占全班学生的62%,同理乙班有27人,占全班学生的54%,所以从中位数看成绩较好的是甲班.
如果记90分以上(含90分)为优秀,甲班有20人,优秀率为40%,乙班有24人,优秀率为48%,从优秀率来看成绩较好的是乙班.可见,一个班学生成绩的评估方法很多,需视要求而定.如果不考虑优秀率的话,显然以中位数去评估比较合适.
甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
[思考1] 通过计算可以知道,甲、乙两人的平均成绩相等,那么甲、乙两人的成绩谁的更稳定一些?怎样用数字刻画这种稳定性?
名师指津:乙的成绩相对稳定,样本数据的稳定性(或分散程度)常用标准差来刻画.
[思考2] 怎样理解方差与标准差?
名师指津:(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.
(2)标准差、方差的取值范围:[0,+∞).
(3)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.
?讲一讲
2.甲、乙两机床同时加工直径为100 cm的零件,为检验质量,各从中抽取6件测量,数据为:
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
[尝试解答] (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100.
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)两台机床所加工零件的直径的平均值相同,
又s>s,
所以乙机床加工零件的质量更稳定.
(1)求一组数据的方差和标准差的步骤:
①先求平均数.
②代入公式得方差和标准差
s2=[(x1-)2+(x2-)2+…+(xn-)2],
s=.
(2)实际问题中方差、标准差的意义
在实际问题中,仅靠平均数不能完全反映问题,还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,稳定性越高.
?练一练
2.甲、乙两台机床在相同的条件下同时生产一种零件,现在从中各抽测10个,它们的尺寸分别为(单位: mm):
甲:10.2 10.1 10.9 8.9 9.9 10.3 9.7 10 9.9 10.1
乙:10.3 10.4 9.6 9.9 10.1 10 9.8 9.7 10.2 10
分别计算上面两个样本的平均数与标准差.如果图纸上的设计尺寸为10 mm,从计算结果看,用哪台机床加工这种零件较合适?
解:甲=(10.2+10.1+10.9+…+10.1)=10(mm),
乙=(10.3+10.4+9.6+…+10)=10(mm),
s甲=
==0.477(mm).
s乙=
==0.245(mm).
∵甲=乙=10,s甲>s乙,∴乙比甲稳定,用乙较合适.
?讲一讲
3.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数;
(3)求这次测试数学成绩的平均分.
[尝试解答] (1)由图知众数为=75.
(2)由图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
(3)由图知这次数学成绩的平均分为:
×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
用频率分布直方图估计众数、中位数、平均数
(1)众数:取最高小长方形底边中点的横坐标作为众数.
(2)中位数:在频率分布直方图中,把频率分布直方图划分为左右两个面积相等的部分的分界线与x轴交点的横坐标称为中位数.
(3)平均数:平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.?
练一练
3.为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图,
则:(1)这20名工人中一天生产该产品的数量在[55,75)的人数是________;
(2)这20名工人中一天生产该产品的数量的中位数为________;
(3)这20名工人中一天生产该产品的数量的平均数为________.
解析:(1)(0.04×10+0.025×10)×20=13.
(2)设中位数为x,则0.2+(x-55)×0.04=0.5,x=62.5.
(3)0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.
答案:(1)13 (2)62.5 (3)64
——————————————[课堂归纳·感悟提升]———————————————
1.本节课的重点是会求样本的众数、中位数、平均数、标准差、方差,难点是理解用样本的数字特征来估计总体数字特征的方法.
2.本节课要掌握以下几类问题:
(1)当平均数大于中位数时,说明数据中存在较大的极端值;反之,说明数据中存在较小的极端值,见讲1.
(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,见讲2.
(3)利用频率分布直方图求出的众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数,见讲3.
3.本节课的易错点有两个:
(1)计算标准差或方差时易将公式记错而致误,如讲2;
(2)利用频率分布直方图求数字特征时易出现理解错误而致错,如讲3.
课下能力提升(十三)
[学业水平达标练]
题组1 众数、中位数、平均数的简单应用
1.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各有1人,则该小组成绩的平均数、众数、中位数分别是( )
A.85,85,85 B.87,85,86
C.87,85,85 D.87,85,90
解析:选C 从小到大列出所有数学成绩:75,80,85,85,85,85,90,90,95,100,观察知众数和中位数均为85,计算得平均数为87.
2.某高校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则该校数学建模兴趣班的平均成绩是________分.
解析:由题意得,该校数学建模兴趣班的平均成绩是=85(分).
答案:85
题组2 标准差(方差)的计算及应用
3.现有10个数,其平均数为3,且这10个数的平方和是100,那么这组数据的标准差是( )
A.1 B.2 C.3 D.4
解析:选A 由s2=(x+x+…+x)-2,得s2=×100-32=1,即标准差s=1.
4.国家射击队要从甲、乙、丙、丁四名队员中选出一名选手去参加射击比赛,四人的平均成绩和方差如下表:
甲
乙
丙
丁
平均成绩
8.5
8.8
8.8
8
方差s2
3.5
3.5
2.1
8.7
则应派________参赛最为合适.
解析:由表可知,丙的平均成绩较高,且发挥比较稳定,应派丙去参赛最合适.
答案:丙
5.用一组样本数据8,x,10,11,9来估计总体的标准差,若该组样本数据的平均数为10,则总体标准差s=________.
解析:∵该组样本数据的平均数为10,
∴(8+x+10+11+9)÷5=10,∴x=12,
∴s2=(4+4+0+1+1)=2,∴s=.
答案:
题组3 频率分布与数字特征的综合应用
6.如图是某赛季甲、乙两名篮球运动员每场比赛得分的茎叶图,
则甲、乙两人这几场比赛得分的中位数之和是________.
解析:甲的中位数为28,乙的中位数为36,所以甲、乙两人得分的中位数之和为64.
答案:64
7.样本容量为100的频率分布直方图如图所示,根据样本频率分布直方图,则平均数为________.
解析:平均数=10×0.06+12×0.2+14×0.4+16×0.24+18×0.1=14.24.
答案:14.24
8.某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:
品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,
445,451,454
品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,
416,422,430.
(1)完成数据的茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
解:(1)如图
(2)由于每个品种的数据都只有25个,样本不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且还可以随时记录新的数据.
(3)通过观察茎叶图可以看出:①品种A的亩产平均数比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.
[能力提升综合练]
1.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x,已知这组数据的平均数为6,则这组数据的方差为( )
A.6 B.
C.66 D.6.5
解析:选A ∵=(2+4+4+5+5+6+7+8+9+11+x)=(61+x)=6,∴x=5.方差数为:s2===6.
2.(2016·衡阳高一检测)甲乙两名学生六次数学测验成绩(百分制)如图所示.
①甲同学成绩的中位数大于乙同学成绩的中位数;
②甲同学的平均分比乙同学高;
③甲同学的平均分比乙同学低;
④甲同学成绩的方差小于乙同学成绩的方差.
上面说法正确的是( )
A.③④ B.①②④
C.②④ D.①③
解析:选A 甲的中位数81,乙的中位数87.5,故①错,排除B、D;甲的平均分=(76+72+80+82+86+90)=81,乙的平均分′=(69+78+87+88+92+96)=85,故②错,③对,排除C,故选A.
3.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
解析:选C 由条形图易知甲的平均数为甲==6,方差为s==2,中位数为6,极差为4;乙的平均数为乙==6,方差为s==,中位数为5,极差为4,故甲=乙,s>s,且甲的成绩的中位数大于乙的成绩的中位数,两人成绩的极差相等.
4.某中学举行电脑知识竞赛,现将高一两个班参赛学生的成绩进行整理后分成5组,绘制成如图所示的频率分布直方图.已知图中从左到右的第一、第二、第三、第四、第五小组的频率分别是0.30,0.40,0.15,0.10,0.05,则参赛的选手成绩的众数和中位数可能是( )
A.65,65 B.70,65
C.65,50 D.70,50
解析:选A 众数为第二组中间值65.设中位数为x,则0.03×10+(x-60)×0.04=0.5,解得x=65.故选A.
5.已知k1,k2,…,kn的方差为5,则3(k1-4),3(k2-4),…,3(kn-4)的方差为________.
解析:设k1、k2、…kn的平均数为,则3(k1-4),3(k2-4),…,3(kn-4)的平均数为3(-4),∴s2=3(ki-4)-3(-4)]2=3(ki-)]2=9×(ki-)2=9×5=45.
答案:45
6.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:
则7个剩余分数的方差为________.
解析:根据茎叶图,去掉1个最低分87,1个最高分99,
则[87+94+90+91+90+(90+x)+91]=91,∴x=4.
∴s2=[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=.
答案:
7.甲、乙两人参加某体育项目训练,近期的五次测试成绩情况如图.
(1)分别求出两人得分的平均数与方差;
(2)根据图中数据算得的结果,对两人的训练成绩作出评价.
解:(1)甲、乙两人五次测试的成绩分别为:
甲 10分 13分 12分 14分 16分
乙 13分 14分 12分 12分 14分
甲得分的平均数为=13,
乙得分的平均数为=13.
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(2)由s>s可知乙的成绩较稳定.
从折线图看,甲的成绩基本上呈上升状态,而乙的成绩在平均线上下波动,可知甲的成绩在不断提高,而乙的成绩无明显提高.
8.甲、乙两人数学成绩的茎叶图如图所示:
(1)求出这两名同学的数学成绩的平均数、标准差;
(2)比较两名同学的成绩,谈谈你的看法.
解:(1)甲=(65+70+80+86+89+95+91+94+107+113)=89.
s=[(65-89)2+(70-89)2+(80-89)2+(86-89)2+(89-89)2+(95-89)2+(91-89)2+(94-89)2+(107-89)2+(113-89)2]=199.2,
∴s甲≈14.1.
乙=(79+86+83+88+93+99+98+98+102+114)=94.
s=[(79-94)2+(86-94)2+(83-94)2+(88-94)2+(93-94)2+(99-94)2+(98-94)2+(98-94)2+(102-94)2+(114-94)2]=96.8.
∴s乙≈9.8.
(2)∵甲<乙且s甲>s乙,
∴乙同学的平均成绩较高且标准差较小.
说明乙同学比甲同学的成绩扎实,稳定.
第3节 变量间的相关关系
[核心必知]
1.预习教材,问题导入
根据以下提纲,预习教材P84~P91,回答下列问题.
(1)两个变量之间除了函数关系还有其他关系吗?
提示:相关关系.
(2)当两个变量呈负相关关系时,散点图有什么特点?
提示:当两个变量之间呈负相关关系时,散点图中的点散布的位置是从左上角到右下角的区域.
(3)求回归直线方程的主要方法是什么?
提示:求回归直线方程的主要方法是最小二乘法.
2.归纳总结,核心必记
(1)变量之间的相关关系
变量与变量之间的关系常见的有两类:一类是确定性的函数关系,变量之间的关系可以用解析式表示;另一类是相关关系,变量之间有一定的联系,但不能完全用解析式来表达.
(2)两个变量的线性相关
①散点图
将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.
②正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
③负相关
在散点图中,点散布在从左上角到右下角的区域,对于两个变量的这种相关关系,我们将它称为负相关.
④线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,这条直线的方程叫做回归直线方程,简称回归方程.
(3)回归直线方程
①回归直线方程
假设我们已经得到两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),则所求回归方程是=x+,其中是回归方程的斜率,是截距.
其中
②最小二乘法
通过求Q=(y1-bx1-a)2+(y2-bx2-a)2+…+(yn-bxn-a)2 的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
[问题思考]
(1)任意两个统计数据是否均可以作出散点图?
提示:可以,不管这两个统计量是否具备相关性,以一个变量值作为横坐标,另一个作为纵坐标,均可画出它的散点图.
(2)任何一组数据都可以由最小二乘法得出回归直线方程吗?
提示:用最小二乘法求回归直线方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程无意义.
(3)根据=-及回归直线方程=x+,判断点(,)与回归直线的关系是什么?
提示:由=-得=+,因此点(,)在回归直线上.
[课前反思]
通过以上预习,必须掌握的几个知识点:
(1)相关关系: ;
(2)散点图: ;
(3)回归直线方程及求回归直线方程的方法步骤: .
瑞雪兆丰年,这不禁使我们想到这样一句谚语:“冬天麦盖三层被,来年枕着馒头睡”,意思是冬天“棉被”盖得越厚,春天小麦就长得越好.
[思考1] 下雪与小麦丰收有关系吗?
提示:有关系,但这种关系具有不确定性.
[思考2] 若把下雪量和小麦产量看作两个变量,则这两个变量之间的关系是确定的吗?若不是确定的,那会是什么关系?
名师指津:这两个变量之间的关系是不确定的,这两个变量之间的关系是相关关系.
[思考3] 怎样理解两个变量之间的关系?
名师指津:两个变量间的关系分为三类:
(1)确定性的函数关系,如正方形的边长与面积的关系;
(2)相关关系,变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,这种关系就是相关关系,例如,某位同学的“物理成绩”与“数学成绩”之间的关系;
(3)不相关,即两个变量间没有任何关系.
?讲一讲
1.下列关系中,属于相关关系的是________.
①人的身高与视力的关系;
②做自由落体运动的物体的质量与落地时间的关系;
③降雪量与交通事故的发生率之间的关系.
[尝试解答]
题号
判断
原因分析
①
不是相关关系
身高与视力无关,不具有函数关系,也不具有相关关系
续表
题号
判断
原因分析
②
不是相关关系
自由落体的物体的质量与落地时间无关,不具有相关关系
③
相关关系
降雪量越大,交通事故发生率越高,不确定性的关系
答案:③
相关关系与函数关系区别
函数关系是一种确定的关系,而相关关系是两个变量间一种不完全确定的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
?练一练
1.在下列两个变量的关系中,哪些是相关关系?
①正方形边长与面积之间的关系;
②作文水平与课外阅读量之间的关系;
③人的身高与年龄之间的关系;
解:两变量之间的关系有三种:函数关系、相关关系和不相关.
①正方形的边长与面积之间的关系是函数关系.
②作文水平与课外阅读量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.
③人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而他们不具备相关关系.
下表为某地搜集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据:
x
115
110
80
135
105
y
44.8
41.6
38.4
49.2
42
[思考1] 能否以x为横坐标,以y为纵坐标在平面直角坐标系中作出表示以上数据的点?此图称为什么图形?
名师指津:能,如图所示,此图称为散点图.
[思考2] 从散点图看应怎样描述房屋的销售价格与房屋面积之间的变化关系?
名师指津:从大体上看,面积越大,销售价格越高,但不是正比例函数关系.
[思考3] 怎样认识散点图?
名师指津:(1)散点图与相关性的关系:
散点图形象地反映了各对数据的密切程度.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.
(2)散点图与正、负相关性的关系:
如果散点图中的点散布在从左下角到右上角的区域内,称这两个变量正相关,即两个变量具有相同的变化趋势;如果散点图中的点散布在从左上角到右下角的区域内,称这两个变量负相关,即两个变量具有相反的变化趋势.
?讲一讲
2.下表是某地的年降雨量与年平均气温,判断两者是相关关系吗?求回归直线方程有意义吗?
年平均气温(℃)
12.51
12.74
12.74
13.69
13.33
12.84
13.05
年降雨量(mm)
748
542
507
813
574
701
432
[尝试解答] 以x轴为年平均气温,y轴为年降雨量,可得相应的散点图,如图所示:
因为图中各点并不在一条直线附近,所以两者不具有相关关系,求回归直线方程也是没有意义的.
用散点图判断两个变量x与y的相关关系
(1)判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果图上发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
(2)画散点图时应注意合理选择单位长度,避免图形过大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
?练一练
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图①;对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C 在从散点图来看,图①中的点自左上方向右下方分布,说明变量x与y负相关;图②中的点自左下方向右上方分布,说明u与v正相关.
观察知识点2中的背景实例.
[思考] 根据表格中的数据,能否估计出房屋面积为120 m2 时的销售价格?如何估计?
名师指津:能.可根据散点图作出一条直线,求出直线方程,再进行预测.根据两个变量的取值,画出散点图后作出一条直线,利用最小二乘法求出此直线方程,代入相关数据即可对另一个变量取值进行估计.
?讲一讲
3.一般来说,一个人脚掌越长,他的身高就越高,现对10名成年人的脚掌长x与身高y进行测量,得到数据(单位均为 cm)作为一个样本如下表所示:
脚掌长/x
20
21
22
23
24
25
26
27
28
29
身高/y
141
146
154
160
169
176
181
188
197
203
(1)在上表数据中,以“脚掌长”为横坐标,“身高”为纵坐标,作出散点图后,发现散点在一条直线附近,试求“身高”与“脚掌长”之间的线性回归方程=x+;
(2)若某人的脚掌长为26.5 cm,试估计此人的身高.
(参考数据:(xi-)(yi-)=577.5,(xi-)2=82.5)
[尝试解答] (1)记样本中10人的“脚掌长”为xi(i=1,2,…,10),“身高”为yi(i=1,2,…,10),
则===7,
∵==24.5,
==171.5,
∴=-=0.∴=7x.
(2)由(1)知=7x,则当x=26.5时,
=7×26.5=185.5(cm).
故估计此人的身高为185.5 cm.
用线性回归方程估计总体的一般步骤
(1)作出散点图,判断散点是否在一条直线附近;
(2)如果散点在一条直线附近,用公式求出,,并写出线性回归方程(否则求出的回归方程是没有意义的);
(3)根据线性回归方程对总体进行估计.
?练一练
3.2016年元旦前夕,某市统计局统计了该市2015年10户家庭的年收入和年饮食支出的统计资料如下表:
年收入x
(万元)
2
4
4
6
6
6
7
7
8
10
年饮食支出
y(万元)
0.9
1.4
1.6
2.0
2.1
1.9
1.8
2.1
2.2
2.3
(1)如果已知y与x是线性相关的,求回归方程;
(2)若某家庭年收入为9万元,预测其年饮食支出.
(参考数据:iyi=117.7,=406)
解:(1)由题意可计算得:=6,=1.83,2=36,
=10.98,又∵iyi=117.7,=406,
∴b=≈0.17,a=-b=0.81,
∴=0.17x+0.81.
∴所求的回归方程为=0.17x+0.81.
(2)当x=9时,=0.17×9+0.81=2.34(万元),
可估计该年收入为9万元的家庭每年饮食支出约为2.34万元.
——————————————[课堂归纳·感悟提升]———————————————
1.本节课的重点是会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系,能根据给出的线性回归方程系数公式建立线性回归方程.难点是了解相关关系、线性相关、回归直线的概念,了解最小二乘法的思想.
2.本节课要掌握以下几类问题:
(1)准确区分相关关系与函数关系,见讲1.
(2)会利用散点图判断两个变量间的相关关系,见讲2.
(3)掌握用线性回归方程估计总体的一般步骤,见讲3.
3.本节课的易错点有两个:
(1)区分不清相关关系与函数关系,如讲1;
(2)求回归直线方程中易出现计算错误,如讲3.
课下能力提升(十四)
[学业水平达标练]
题组1 变量间的相关关系
1.下列两个变量之间的关系,哪个不是函数关系( )
A.正方体的棱长和体积
B.圆半径和圆的面积
C.正n边形的边数和内角度数之和
D.人的年龄和身高
解析:选D A、B、C都是函数关系,对于A,V=a3;对于B,S=πr2;对于C,g(n)=(n-2)π.而对于年龄确定的不同的人可以有不同的身高,∴选D.
2.下列语句所表示的事件中的因素不具有相关关系的是( )
A.瑞雪兆丰年
B.上梁不正下梁歪
C.吸烟有害健康
D.喜鹊叫喜,乌鸦叫丧
解析:选D 选项A,B,C中描述的变量间都具有相关关系,而选项D是迷信说法,没有科学依据.
题组2 散点图
3.下列图形中,两个变量具有线性相关关系的是( )
解析:选B 线性相关关系要求两个变量的散点图大致在一条直线上,且不是函数关系.
4.如图是两个变量统计数据的散点图,判断两个变量之间是否具有相关关系?
解:不具有相关关系,因为散点图散乱地分布在坐标平面内,不呈线形.
5.某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元):
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)从散点图中判断销售金额与广告费支出成什么样的关系?
解:(1)以x对应的数据为横坐标,以y对应的数据为纵坐标,所作的散点图如图所示:
(2)从图中可以发现广告费支出与销售金额之间具有相关关系,并且当广告费支出由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y成正相关关系.
题组3 线性回归方程的求法及应用
6.下列有关回归方程=x+的叙述正确的是( )
①反映与x之间的函数关系;
②反映y与x之间的函数关系;
③表示与x之间的不确定关系;
④表示最接近y与x之间真实关系的一条直线.
A.①② B.②③
C.③④ D.①④
解析:选D =x+表示与x之间的函数关系,而不是y与x之间的函数关系.且它所反映的关系最接近y与x之间的真实关系.故选D.
7.设有一个回归方程为=-1.5x+2,则变量x增加一个单位时( )
A.y平均增加1.5个单位
B.y平均增加2个单位
C.y平均减少1.5个单位
D.y平均减少2个单位
解析:选C ∵两个变量线性负相关,∴变量x增加一个单位,y平均减少1.5个单位.
8.某产品的广告费用x与销售额y的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
解析:选B 样本中心点是(3.5,42),则=-=42-9.4×3.5=9.1,所以回归直线方程是=9.4x+9.1,把x=6代入得=65.5,故选B.
9.已知工厂加工零件的个数x与花费时间y(h)之间的线性回归方程为=0.01x+0.5,则加工200个零件大约需要________小时.
解析:将200代入线性回归方程=0.01x+0.5,得y=2.5.
答案:2.5
10.有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:
人均GDP/万元
10
8
6
4
3
1
患白血病的儿童数/人
351
312
207
175
132
180
(1)画出散点图,并判定这两个变量是否具有线性相关关系;
(2)通过计算可知这两个变量的回归直线方程为=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
解:(1)根据表中数据画散点图,如图所示.
从图中可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系.
(2)上述断言是错误的,将x=12代入=23.25x+102.15得=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况下所作的一个估计,该城市患白血病的儿童可能超过380人,也可能低于380人.
[能力提升综合练]
1.(2014·湖北高考)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析:选B 由表中数据画出散点图,如图,
由散点图可知b<0,a>0,选B.
2.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其回归方程可能为( )
A.=1.5x+2 B.=-1.5x+2
C.=1.5x-2 D.=-1.5x-2
解析:选B 设回归方程为=bx+a,由散点图可知变量x、y之间负相关,回归直线在y轴上的截距为正数,所以b<0,a>0,因此方程可能为=-1.5x+2.
3.在2015年5月1日,某市物价部门对本市的5家商场某商品的一天销售量及其价格进行了调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x(元)
9
9.5
10
10.5
11
销售量y(件)
11
10
8
6
5
由散点图可知,销售量y与价格x之间有较好的线性相关关系,其线性回归直线方程是:=-3.2x+a(参考公式:回归方程=bx+a,a=-b),则a=( )
A.-24 B.35.6
C.40.5 D.40
解析:选D 价格的平均数是==10,销售量的平均数是==8,由=-3.2x+a知b=-3.2,所以a=-b=8+3.2×10=40,故选D.
4.设某大学的女生体重y(单位:kg)与身高x(单位: cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:选D 由于回归直线的斜率为正值,故y与x具有正的线性相关关系,选项A中的结论正确;回归直线过样本点的中心,选项B中的结论正确;根据回归直线斜率的意义易知选项C中的结论正确;由于回归分析得出的是估计值,故选项D中的结论不正确.
5.假设学生在初中的英语成绩和高一英语成绩是线性相关的.现有10名学生的初中英语成绩(x)和高一英语成绩(y)如下:
x
74
71
72
68
76
73
67
70
65
74
y
76
75
71
70
76
79
65
77
62
72
由此得到的回归直线的斜率约为1.22,则回归方程为________.
解析:将=71,=72.3,=1.22,代入=+,得=72.3-1.22×71=-14.32.
答案:=1.22x-14.32
6.对某台机器购置后的运行年限x(x=1,2,3,…)与当年利润y的统计分析知x,y具有线性相关关系,回归方程为=10.47-1.3x,估计该台机器最为划算的使用年限为________年.
解析:当年利润小于或等于零时应该报废该机器,当y=0时,令10.47-1.3x=0,解得x≈8,故估计该台机器最为划算的使用年限为8年.
答案:8
7.一项关于16艘轮船的研究中,船的吨位区间为[192,3 246](单位:吨),船员的人数5~32人,船员人数y关于吨位x的回归方程为=9.5+0.006 2x,
(1)若两艘船的吨位相差1 000,求船员平均相差的人数;
(2)估计吨位最大的船和最小的船的船员人数.
解:(1)设两艘船的吨位分别为x1,x2 ,则船员人数为1,2,
1-2=9.5+0.006 2x1-(9.5+0.006 2x2)
=0.006 2×1 000≈6,
即船员平均相差6人.
(2)当x=192时,=9.5+0.006 2×192≈11,
当x=3 246时,=9.5+0.006 2×3 246≈30.
即估计吨位最大和最小的船的船员数分别为11人和30人.
8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
8
8.2
8.4
8.6
8.8
9
销量y(件)
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
解:(1)由于=(x1+x2+x3+x4+x5+x6)=8.5,
=(y1+y2+y3+y4+y5+y6)=80.
所以=-=80+20×8.5=250,
从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000
=-20(x-8.25)2+361.25.
当且仅当x=8.25时,L取得最大值,
故当单价定为8.25元时,工厂可获得最大利润