章末检测试卷(二)
(时间:120分钟 满分:150分)
一、选择题(本大题共12小题,每小题5分,共60分)
1.①某学校高二年级共有526人,为了调查学生每天用于休息的时间,决定抽取10%的学生进行调查;②一次数学考试中,某班有10人的成绩在100分以上,32人的成绩在90~100分,12人的成绩低于90分,现从中抽取9人了解有关情况;③运动会的工作人员为参加4×100 m接力赛的6支队伍安排跑道.针对这三件事,恰当的抽样方法分别为( )
A.分层抽样,分层抽样,简单随机抽样
B.系统抽样,系统抽样,简单随机抽样
C.分层抽样,简单随机抽样,简单随机抽样
D.系统抽样,分层抽样,简单随机抽样
答案 D
解析 ①中,总体容量较大,抽取的样本容量较大,用系统抽样比较恰当;②中,考试成绩在不同分数段之间的同学有明显的差异,用分层抽样比较恰当;③中,总体包含的个体较少,用简单随机抽样比较恰当.
2.某中学从高三甲、乙两个班中各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图(单位:分),其中甲班学生成绩的众数是85,乙班学生成绩的中位数是83,则x+y的值为( )
A.7 B.8 C.9 D.10
答案 B
解析 由茎叶图及甲班学生成绩的众数是85,可知x=5,而乙班学生成绩的中位数是83,所以y=3,所以x+y=5+3=8.故选B.
3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 将这组数据从小到大排列,得87,89,90,91,92,93,94,96.故中位数为=91.5.平均数为=91+=91.5.
4.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a,b)是其中的一组,抽查出的个体在该组上的频率为m,直方图中该组对应的小长方形的高为h,则|a-b|等于( )
A.hm B.
C. D.h+m
答案 B
解析 =h,∴|a-b|=组距==.
5.在样本频率分布直方图中,共有9个小长方形.若中间一个小长方形的面积等于其他8个小长方形面积和的,且样本容量为140,则中间一组的频数为( )
A.28 B.40 C.56 D.60
答案 B
解析 频率分布直方图中,所有小长方形的面积和为1.设中间小长方形的面积为x,则有x+x=1,解得x=.因为样本容量为140,所以中间一组的频数为140×=40.故选B.
6.一个容量为80的样本中,数据的最大值是140,最小值是50,组距是10,则应该将样本数据分为( )
A.10组 B.9组
C.8组 D.7组
答案 B
解析 组数===9.
7.若数据x1,x2,…,xn的平均数为,方差为s2,则3x1+5,3x2+5,…,3xn+5的平均数和标准差分别为( )
A.,s B.3+5,s
C.3+5,3s D.3+5,
答案 C
解析 ∵x1,x2,…,xn的平均数为,
∴3x1+5,3x2+5,…,3xn+5的平均数为3+5,
s′2=[(3x1+5-3-5)2+…+(3xn+5-3-5)2]
=×32[(x1-)2+…+(xn-)2]=9s2.
∴s′=3s.
8.如图为某个容量为100的样本的频率分布直方图,分组为[96,98),[98,100),[100,102),[102,104),[104,106],则在区间[98,100)上的频数为( )
A.0.100 B.0.200
C.20 D.0.010
答案 C
解析 区间[98,100)上小矩形的面积为0.100×2=0.200,所以区间[98,100)上的频数为100×0.200=20,故选C.
9.甲、乙两名同学在5次数学考试中,成绩统计图用茎叶图表示如图所示,若甲、乙两人的平均成绩分别用甲、乙表示,则下列结论正确的是( )
A.甲>乙,且甲比乙成绩稳定
B.甲>乙,且乙比甲成绩稳定
C.甲<乙,且甲比乙成绩稳定
D.甲<乙,且乙比甲成绩稳定
答案 A
解析 甲=90,乙=88,∴甲>乙,甲的成绩的方差是×(4+1+0+1+4)=2,乙的成绩的方差是×(25+0+1+1+9)=7.2,故甲成绩稳定.
10.某校为了对初三学生的体重进行摸底调查,随机抽取了50名学生的体重(kg),将所得数据整理后,画出了频率分布直方图如图所示,体重在[45,50)内适合跑步训练,体重在[50,55)内适合跳远训练,体重在[55,60)内适合投掷相关方面训练,估计该校初三学生适合参加跑步、跳远、投掷三项训练的集训人数之比为( )
A.4∶3∶1 B.5∶3∶1
C.5∶3∶2 D.3∶2∶1
答案 B
解析 体重在[45,50)内的频率为0.1×5=0.5,体重在[50,55)内的频率为0.06×5=0.30,体重在[55,60)内的频率为0.02×5=0.1,
∵0.5∶0.3∶0.1=5∶3∶1,
∴可估计该校初三学生适合参加跑步、跳远、投掷三项训练的集训人数之比为5∶3∶1,故选B.
11.下列关于线性回归的判断,正确的个数为( )
①若散点图中所有的点都在一条直线附近,则这条直线为回归直线;
②散点图中的绝大多数点都线性相关,个别特殊点不影响线性回归,如图中的点A,B,C;
③已知回归直线方程=0.50x-0.81,则当x=25时,y的估计值为11.69;
④回归直线方程的意义是它反映了样本整体的变化趋势.
A.0 B.1 C.2 D.3
答案 D
解析 能使所有数据点都在它附近的直线不止一条,而由回归直线的定义知,只有按最小二乘法求得回归系数,,得到的直线=x+才是回归直线,所以①不对;②正确;将x=25代入=0.50x-0.81,解得=11.69,所以③正确;④正确,所以选D.
12.在某地区某高传染性病毒流行期间,为了建立指标显示疫情已受控制,以便向该地区居民显示可以过正常生活,有公共卫生专家建议的指标是“连续7天每天新增感染人数不超过5人”,根据连续7天的新增病例数计算,下列各项中,一定符合上述指标的是( )
①平均数≤3;②标准差s≤2;③平均数≤3且标准差s≤2;④平均数≤3且极差小于或等于2;⑤众数等于1且极差小于或等于1.
A.①② B.③④ C.③④⑤ D.④⑤
答案 D
解析 ①②③不符合,④符合,若极差等于0或1,在≤3的条件下,显然符合指标;若极差等于2且≤3,则每天新增感染人数的最小值与最大值有下列可能:(1)0,2,(2)1,3,(3)2,4,符合指标.⑤符合,若众数等于1且极差小于或等于4,则最大值不超过5,符合指标,故选D.
二、填空题(本大题共4小题,每小题5分,共20分)
13.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人):
篮球组
书画组
乐器组
高一
45
30
a
高二
15
10
20
学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.
答案 30
解析 由题意知,=,解得a=30.
14.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命(单位:年)跟踪调查结果如下:
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数:甲______,乙______,丙________.
答案 众数 平均数 中位数
解析 甲、乙、丙三个厂家从不同角度描述了一组数据的特征.甲:该组数据8出现的次数最多;乙:该组数据的平均数==8;丙:该组数据的中位数是=8.
15.抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:
运动员
第1次
第2次
第3次
第4次
第5次
甲
87
91
90
89
93
乙
89
90
91
88
92
则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.
答案 2
解析 由表中数据计算可得甲=90,乙=90,且
s=[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,
s=[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2,
由于s>s,故乙的成绩较为稳定,其方差为2.
16.某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元)
3
4
5
6
销售额y(万元)
25
30
40
45
根据上表可得回归直线方程=x+中的为7.据此模型预测广告费用为10万元时销售额为________万元.
答案 73.5
解析 由题表可知,=4.5,=35,
代入回归直线方程=7x+,得=3.5,
所以回归直线方程为=7x+3.5,
所以当x=10时,=7×10+3.5=73.5(万元).
三、解答题(本大题共6小题,共70分)
17.(10分)某市化工厂三个车间共有工人1 000名,各车间男、女工人数如下表:
第一车间
第二车间
第三车间
女工
173
100
y
男工
177
x
z
已知在全厂工人中随机抽取1名,抽到第二车间男工的可能性是0.15.
(1)求x的值;
(2)现用分层抽样的方法在全厂抽取50名工人,则应在第三车间抽取多少名工人?
解 (1)依题意有=0.15,解得x=150.
(2)∵第一车间的工人数是173+177=350,第二车间的工人数是100+150=250,
∴第三车间的工人数是1 000-350-250=400.
设应从第三车间抽取m名工人,则有=,
解得m=20,
∴应在第三车间抽取20名工人.
18.(12分)有关部门要了解甲型H1N1流感预防知识在学校的普及情况,特制了一份有10道题的问卷到各学校进行问卷调查.某中学A,B两个班各被随机抽取了5名学生接受问卷调查.A班5名学生得分为:5,8,9,9,9;
B班5名学生得分为:6,7,8,9,10(单位:分).
请你估计A,B两个班中哪个班的问卷得分要稳定一些.
解 A班的5名学生的平均得分为(5+8+9+9+9)÷5=8,
方差s=×[(5-8)2+(8-8)2+(9-8)2+(9-8)2+(9-8)2]=2.4;
B班的5名学生的平均得分为(6+7+8+9+10)÷5=8,
方差s=×[(6-8)2+(7-8)2+(8-8)2+(9-8)2+(10-8)2]=2.
∴s>s,
∴B班的预防知识的问卷得分要稳定一些.
19.(12分)抽样调查30个工人家庭的人均月收入,得到如下数据(单位:元):
404 444 556 430 380 420 500 430 420 384
420 404 424 340 424 412 388 472 358 476
376 396 428 444 366 436 364 438 330 426
(1)取组距为60,起点为320,列出样本的频率分布表;
(2)画出频率分布直方图;
(3)根据频率分布直方图估计人均月收入在[440,560]上的家庭所占的百分比.
解 (1)频率分布表如下:
分组
频数
频率
[320,380)
6
0.20
[380,440)
18
0.60
[440,500)
4
0.13
[500,560]
2
0.07
合计
30
1.00
(2)频率分布直方图如图:
(3)人均月收入落在[440,560]上的家庭所占的频率为0.13+0.07=0.2=20%.所以估计人均月收入在[440,560]上的家庭所占的百分比为20%.
20.(12分)从全校参加科技知识竞赛的学生试卷中,抽取一个样本,考察竞赛的成绩分布.将样本分成5组,绘成频率分布直方图(如图),图中从左到右各小组的小长方形的高的比是1∶3∶6∶4∶2,最后一组的频数是6.
请结合频率分布直方图提供的信息,解答下列问题:
(1)样本的容量是多少?
(2)列出频率分布表;
(3)成绩落在哪个范围内的人数最多?并求该小组的频数、频率;
(4)估计这次竞赛中,成绩不低于60分的学生占总人数的百分比.
解 (1)由于各组的组距相等,所以各组的频率与各小长方形的高成正比且各组频率的和等于1,那么各组的频率分别为,,,,.设该样本容量为n,则=,所以样本容量n=48.
(2)由(1)及已知得频率分布表如下:
成绩
频数
频率
[50.5,60.5)
3
[60.5,70.5)
9
[70.5,80.5)
18
[80.5,90.5)
12
[90.5,100.5]
6
合计
48
1
(3)成绩落在区间[70.5,80.5)内的人数最多,该组的频数和频率分别是18和.
(4)不低于60分的学生占总人数的百分比约为×100%=93.75%.
21.(12分)为了比较两种治疗失眠症的药(分别称为A药、B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2
3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1
2.3 2.4
服用B药的20位患者日平均增加的睡眠时间:
3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3
1.4 1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2
2.7 0.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成如图所示的茎叶图,从茎叶图看,哪种药的疗效更好?
解 (1)设A药观测数据的平均数为,B药观测数据的平均数为.
由观测结果可得:
=×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,
=×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6,
由以上计算结果可得>,因此可看出A药的疗效更好.
(2)由观测结果可绘制茎叶图如图.
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎“2.”,“3.”上,而B药疗效的试验结果有的叶集中在茎“0.”,“1.”上,由此可看出A药的疗效更好.
22.(12分)某地区2011年至2017年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2011
2012
2013
2014
2015
2016
2017
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)已知两变量线性相关,求y关于t的回归直线方程;
(2)利用(1)中的回归直线方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:=,=-.
解 (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
故所求回归直线方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2019年的年份代号t=9代入(1)中的回归直线方程,
得=0.5×9+2.3=6.8,
故预测该地区2019年农村居民家庭人均纯收入为6.8千元.
2.1 随机抽样
2.1.1 简单随机抽样
学习目标 1.了解随机抽样的必要性和重要性.2.理解随机抽样的目的和基本要求.3.掌握简单随机抽样中的抽签法、随机数表法的一般步骤.
知识点一 统计的基本概念
思考 样本与样本容量有什么区别?
答案 样本与样本容量是两个不同的概念.样本是从总体中抽取的个体组成的集合,是对象;样本容量是样本中个体的数目,是一个数.
梳理 (1)总体:一般把所考察对象的某一数值指标的全体构成的集合看作总体.
(2)个体:构成总体的每一个元素作为个体.
(3)样本:从总体中抽出若干个个体所组成的集合叫样本.
(4)样本容量:样本中个体的数目叫样本容量.
知识点二 简单随机抽样
思考 从含有甲、乙的9件产品中随机抽取一件,总体内的各个个体被抽到的机会相同吗?为什么?甲被抽到的机会是多少?
答案 总体内的各个个体被抽到的机会是相同的.因为是从9件产品中随机抽取一件,这9件产品每件产品被抽到的机会都是,甲也是.
梳理 1.一般地,从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
2.简单随机抽样的四个特点
(1)它要求被抽取样本的总体的个数有限,这样便于通过随机抽取的样本对总体进行分析.
(2)它是从总体中逐个抽取,这样便于在抽样实践中进行操作.
(3)它是一种不放回抽样,由于抽样实践中多采用不放回抽样,使其具有较广泛的实用性,而且由于所抽取的样本中没有被重复抽取的个体,便于进行有关的分析和计算.
(4)它是一种等机会抽样,不仅每次从总体中抽取一个个体时,各个个体被抽到的机会相等,而且在整个抽样的过程中,各个个体被抽取的机会也相等,从而保证了这种抽样方法的公平性.
知识点三 抽签法和随机数表法
思考 采用抽签法抽取样本时,为什么将编号写在形状、大小相同的号签上,并且将号签放在同一个箱子里搅拌均匀?
答案 为了使每个号签被抽取的可能性相等,保证抽样的公平性.
梳理 1.抽签法:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本.
2.随机数表法:随机抽样中,另一个经常被采用的方法是随机数表法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.
3.利用随机数表法抽取个体时的注意事项
(1)定起点:事先应确定以表中的哪个数(哪行哪列)作为起点.
(2)定方向:读数的方向(向左、向右、向上或向下都可以).
(3)读数规则:读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.
1.简单随机抽样也可以是有放回的抽样.( × )
2.简单随机抽样中每个个体被抽到的机会相等.( √ )
3.采用随机数表法抽取样本时,个体编号的位数必须相同.( √ )
题型一 简单随机抽样的判断
例1 下面的抽样是简单随机抽样吗?为什么?
(1)小乐从玩具箱中的10件玩具中随意拿出一件玩,玩后放回,再拿出一件,连续拿出四件;
(2)某学校从300名学生中一次性抽取20名学生调查睡眠情况.
解 (1)不是简单随机抽样,因为玩具被放回了,不符合“不放回抽样”这一特点.
(2)不是简单随机抽样,因为一次性抽取不符合“逐个抽取”这一特点.
反思与感悟 当抽样具有:(1)总体中个体数是有限的,(2)逐个抽取,(3)不放回抽取,(4)每个个体被抽到的机会等可能时,为简单随机抽样,否则不是简单随机抽样.
跟踪训练1 下面的抽样方法是简单随机抽样的是( )
A.盒子中有80个零件,从中选出5个零件进行质量检验,在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里
B.某车间包装一种产品,在自动包装传送带上,每隔5分钟抽一包产品,称其重量是否合格
C.某校分别从行政人员、教师、后勤人员中抽取2人,14人,4人了解他们对学校机构改革的意见
D.从8台电脑中不放回地随机抽取2台进行质量检验(假设8台电脑已编好号,对编号随机抽取)
答案 D
解析 依据简单随机抽样的特点知,只有D符合.
题型二 简单随机抽样等可能性应用
例2 一个布袋中有10个同样质地的小球,从中不放回地依次抽取3个小球,则某一特定小球被抽到的可能性是________,第三次抽取时,剩余每个小球被抽到的可能性是________.
答案
解析 因为简单随机抽样过程中每个个体被抽到的可能性均为,所以第一个空填.因为本题中的抽样是不放回抽样,所以第一次抽取时,每个小球被抽到的可能性为,第二次抽取时,剩余9个小球,每个小球被抽到的可能性为,第三次抽取时,剩余8个小球,每个小球被抽到的可能性为.
反思与感悟 简单随机抽样,每次抽取时,总体中各个个体被抽到的可能性相同,在整个抽样过程中各个个体被抽到的机会也都相等.
跟踪训练2 从总体容量为N的一批零件中,抽取一个容量为30的样本,若每个零件被抽到的可能性为0.25,则N的值为( )
A.120 B.200 C.150 D.100
答案 A
解析 因为从含有N个个体的总体中抽取一个容量为30的样本时,在每次抽取一个个体的过程中任意一个个体被抽到的可能性均为,在整个抽样过程中每个个体被抽到的可能性为,所以=0.25,从而有N=120.故选A.
题型三 抽签法与随机数表法及应用
例3 某卫生单位为了支援抗震救灾,要在18名志愿者中选取6人组成医疗小组去参加救治工作,请用抽签法设计抽样方案.
解 方案如下:
第一步,将18名志愿者编号,号码为01,02,03,…,18.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放到一个不透明的盒子中,充分搅匀.
第四步,从盒子中依次取出6个号签,并记录上面的编号.
第五步,与所得号码对应的志愿者就是医疗小组成员.
反思与感悟 一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
跟踪训练3 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
解 第一步,将20架钢琴编号,号码是01,02,…,20.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步,从袋子中逐个不放回地抽取5个号签,并记录上面的编号.
第五步,与所得号码对应的5架钢琴就是要进行质量检查的对象.
例4 假设我们要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,应如何操作?
解 第一步,将800袋牛奶编号为000,001,…,799.
第二步,在随机数表中任选一个数作为起始数(例如选出第8行第7列的数7).
第三步,从选定的数7开始依次向右读(读数的方向也可以是向左、向上、向下等),将编号范围内的数取出,编号范围外的数去掉,直到取满60个号码为止,就得到一个容量为60的样本.
反思与感悟 抽签法和随机数表法对个体的编号是不同的,抽签法可以利用个体已有的编号,如学生的学籍号、产品的记数编号等,也可以重新编号,例如总体个数为100,编号可以为1,2,3,…,100.随机数表法对个体的编号要看总体的个数,总体数为100,通常为00,01,…,99.总体数大于100小于1 000,从000开始编起,然后是001,002,….
跟踪训练4 总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法:从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
A.08 B.07 C.02 D.01
答案 D
解析 从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字开始向右读,第一个数为65,不符合条件,第二个数为72,不符合条件,第三个数为08,符合条件,以下符合条件的数字依次为02,14,07,01,故第5个数为01.故选D.
1.对于简单随机抽样,每个个体被抽到的机会( )
A.不相等 B.相等
C.不确定 D.与抽样次序有关
答案 B
解析 简单随机抽样中每一个个体被抽到的机会相等.
2.下面抽样方法是简单随机抽样的是( )
A.从平面直角坐标系中抽取5个点作为样本
B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编好号,对编号随机抽取)
答案 D
解析 选项A中,平面直角坐标系中有无数个点,这与要求总体中的个体数有限不相符,故错误;B中,一次性抽取不符合简单随机抽样逐个抽取的特点,故错误;C中,50名战士是最优秀的,不符合简单随机抽样的等可能性,故错误.
3.一个总体中含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5的样本,则指定的某个个体被抽到的可能性为________.
答案
解析 因为是简单随机抽样,故每个个体被抽到的机会相等,所以指定的某个个体被抽到的可能性为.
4.某地有2 000人参加自学考试,为了了解他们的成绩,从中抽取一个样本,若每个考生被抽到的概率都是0.04,则这个样本的容量是________.
答案 80
解析 设样本容量为n,根据简单随机抽样,得=0.04,解得n=80.
5.学校举办元旦晚会,需要从每班选10名男生,8名女生参加合唱节目,某班有男生32名,女生28名,试用抽签法确定该班参加合唱的同学.
解 第一步,将32名男生从0到31进行编号.
第二步,用相同的纸条制成32个号签,在每个号签上写上这些编号.
第三步,将写好的号签放在一个不透明的容器内摇匀,不放回地从中逐个抽出10个号签.
第四步,相应编号的男生参加合唱.
第五步,用相同的办法从28名女生中选出8名,则此8名女生参加合唱.
1.简单随机抽样是一种简单、基本、不放回的抽样方法,常用的简单随机抽样方法有抽签法和随机数表法.
2.抽签法的优点是简单易行,缺点是当总体的容量大时,费时、费力,并且标号的签不易搅拌均匀,这样会导致抽样不公平;随机数表法的优点也是简单易行,缺点是当总体容量大时,编号不方便.两种方法只适合总体容量较少的抽样类型.
3.简单随机抽样每个个体入样的可能性都相等,均为,但要将每个个体入样的可能性与第n次抽取时每个个体入样的可能性区分开,避免在解题中出现错误.
一、选择题
1.在简单随机抽样中,某一个个体被抽中的可能性( )
A.与第几次抽样有关,第1次的可能性要大些
B.与第几次抽样无关,每次的可能性都相等
C.与第几次抽样有关,最后1次的可能性要大些
D.以上都不正确
答案 B
解析 在简单随机抽样中,每个个体被抽到的可能性都相等,与第几次抽样无关,故选B.
2.从某年级的500名学生中抽取60名学生进行体重的统计分析,下列说法正确的是( )
A.500名学生是总体
B.每个被抽查学生是个体
C.抽取的60名学生的体重是一个样本
D.抽取的60名学生的体重是样本容量
答案 C
解析 由题意可知在此简单随机抽样中,总体是500名学生的体重,A错;个体是每个学生的体重,B错;样本容量为60,D错.
3.从一群游戏的小孩中随机抽出k人,一人分一个苹果,让他们返回继续游戏.过了一会儿,再从中任取m人,发现其中有n个小孩曾分过苹果,估计参加游戏的小孩的人数为( )
A. B.k+m-n C. D.不能估计
答案 C
解析 设参加游戏的小孩有x人,则=,x=.
4.下列抽样实验中,适合用抽签法的有( )
A.从某厂生产的3 000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
D.从某厂生产的3 000件产品中抽取10件进行质量检验
答案 B
解析 个体数和样本容量较小时适合用抽签法,排除A,D;C中甲、乙两厂生产的两箱产品质量可能差别较大,也不适用,故选B.
5.从10个篮球中任取一个,检查其质量,用随机数表法抽取样本,则应编号为( )
A.1,2,3,4,5,6,7,8,9,10
B.-5,-4,-3,-2,-1,0,1,2,3,4
C.10,20,30,40,50,60,70,80,90,100
D.0,1,2,3,4,5,6,7,8,9
答案 D
6.用简单随机抽样方法从含有10个个体的总体中,抽取一个容量为3的样本,其中某一个体a“第一次被抽到”的可能性,“第二次被抽到”的可能性分别是( )
A., B., C., D.,
答案 A
解析 简单随机抽样中每个个体被抽取的机会均等,都为.
7.从某批零件中抽取50个,然后再从50个中抽出40个进行合格检查,发现合格品有36个,则该批产品的合格率为( )
A.36% B.72% C.90% D.25%
答案 C
解析 ×100%=90%.
8.已知总体容量为108,若用随机数法抽取一个容量为10的样本,下列对总体的编号正确的是( )
A.1,2,…,108 B.01,02,…,108
C.00,01,…,107 D.001,002,…,108
答案 D
解析 用随机数表法选取样本时,样本的编号位数要一致.故选D.
二、填空题
9.用随机数表法从100名学生(男生25人)中抽选20人进行评教,某男学生被抽到的可能性是________.
答案 0.2
解析 因为样本容量为20,总体容量为100,所以总体中每个个体被抽到的可能性都为=0.2.
10.关于简单随机抽样,有下列说法:
①它要求被抽取样本的总体的个数有限;
②它是从总体中逐个地进行抽取;
③这是一种不放回抽样;
④它是一种等可能抽样,每次从总体中抽取一个个体时,不仅各个个体被抽取的可能性相等,而且在整个抽样过程中,各个个体被抽取的可能性也相等,从而保证了这种抽样方法的公平性.
其中正确的有________.(请把你认为正确的所有序号都写上)
答案 ①②③④
11.假设要考察某公司生产的500克袋装牛奶的三聚氰胺是否超标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,先将800袋牛奶按000,001,…,799进行编号,如果从随机数表第7行第8列的数开始向右读,则得到的第4个样本个体的编号是________.(下面摘取了随机数表第7行至第9行)
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54
答案 068
解析 由随机数表可以看出前4个样本的个体的编号是331,572,455,068.于是第4个样本个体的编号是068.
12.为了了解参加运动会的2 000名运动员的年龄情况,从中抽取20名运动员的年龄进行统计分析.就这个问题,下列说法中正确的有________.(填写序号)
①2 000名运动员是总体;
②每个运动员是个体;
③所抽取的20名运动员是一个样本;
④样本容量为20;
⑤每个运动员被抽到的机会相等.
答案 ④⑤
解析 ①2 000名运动员不是总体,2 000名运动员的年龄才是总体;②每个运动员的年龄是个体;③20名运动员的年龄是一个样本.故①②③均错误,正确说法是④⑤.
三、解答题
13.为了检验某种药品的副作用,从编号为1,2,3,…,300的服药者中用随机数表法抽取10人作为样本,写出抽样过程.
解 第一步,将300名服药者重新进行编号,分别为000,001,002,003,…,299.
第二步,在随机数表(教材P87)中任选一数作为初始数,如选第1行第3列的数2.
第三步,从选定的数2开始向右读,每次读取三位,凡不在000~299中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到226,052,021,192,277,242,203,104,088,007.
第四步,以上这10个号码所对应的服药者即是要抽取的对象.
四、探究与拓展
14.某电视台举行颁奖典礼,邀请20名港台、内地艺人演出,其中从30名内地艺人中随机挑选10人,从18名香港艺人中随机挑选6人,从10名台湾艺人中随机挑选4人.试分别用抽签法和随机数表法确定选中的艺人.
解 抽签法:
(1)将30名内地艺人从00到29编号,然后用相同的纸条做成30个号签,在每个号签上写上这些编号,揉成团,然后放入一个不透明小筒中摇匀,从中逐个不放回地抽出10个号签,则相应编号的艺人参加演出;(2)运用相同的办法分别从10名台湾艺人中抽取4人,从18名香港艺人中抽取6人.
随机数表法:
(1)将18名香港艺人编号为00,02,…,17;
(2)在随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第1行第12列数“0”,向右读;
(3)每次读取两位,凡不在00~17中的数跳过去不读,前面已经读过的也跳过去不读,依次可得到05,06,02,16,08,14;
(4)以上号码对应的6名香港艺人就是参加演出的人选.
利用类似的方法确定内地、台湾艺人人选.
课件33张PPT。2.1.1 简单随机抽样第二章 2.1 随机抽样学习目标
1.了解随机抽样的必要性和重要性.
2.理解随机抽样的目的和基本要求.
3.掌握简单随机抽样中的抽签法、随机数表法的一般步骤.问题导学达标检测题型探究内容索引问题导学知识点一 统计的基本概念思考 样本与样本容量有什么区别?答案 样本与样本容量是两个不同的概念.样本是从总体中抽取的个体组成的集合,是对象;样本容量是样本中个体的数目,是一个数.梳理 (1)总体:一般把所考察对象的某一数值指标的 构成的集合看作总体.
(2)个体:构成总体的每一个元素作为个体.
(3)样本:从总体中抽出 所组成的集合叫样本.
(4)样本容量:样本中个体的数目叫样本容量.全体若干个个体思考 从含有甲、乙的9件产品中随机抽取一件,总体内的各个个体被抽到的机会相同吗?为什么?甲被抽到的机会是多少?知识点二 简单随机抽样答案 总体内的各个个体被抽到的机会是相同的.因为是从9件产品中随机抽取一件,这9件产品每件产品被抽到的机会都是 ,甲也是 .梳理 1.一般地,从元素个数为N的总体中不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.2.简单随机抽样的四个特点
(1)它要求被抽取样本的总体的个数有限,这样便于通过随机抽取的样本对总体进行分析.
(2)它是从总体中逐个抽取,这样便于在抽样实践中进行操作.
(3)它是一种不放回抽样,由于抽样实践中多采用不放回抽样,使其具有较广泛的实用性,而且由于所抽取的样本中没有被重复抽取的个体,便于进行有关的分析和计算.
(4)它是一种等机会抽样,不仅每次从总体中抽取一个个体时,各个个体被抽到的机会相等,而且在整个抽样的过程中,各个个体被抽取的机会也相等,从而保证了这种抽样方法的公平性.知识点三 抽签法和随机数表法思考 采用抽签法抽取样本时,为什么将编号写在形状、大小相同的号签上,并且将号签放在同一个箱子里搅拌均匀?答案 为了使每个号签被抽取的可能性相等,保证抽样的公平性.梳理 1.抽签法:把总体中的N个个体 ,把 写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取 号签,连续抽取n次,就得到一个容量为n的样本.
2.随机数表法:随机抽样中,另一个经常被采用的方法是随机数表法,即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.
3.利用随机数表法抽取个体时的注意事项
(1)定起点:事先应确定以表中的哪个数(哪行哪列)作为起点.
(2)定方向:读数的方向(向左、向右、向上或向下都可以).
(3)读数规则:读数时结合编号的特点进行读取,编号为两位数则两位两位地读取,编号为三位数则三位三位地读取,如果出现重复则跳过,直到取满所需的样本个体数.编号号码一个[思考辨析 判断正误]
1.简单随机抽样也可以是有放回的抽样.( )
2.简单随机抽样中每个个体被抽到的机会相等.( )
3.采用随机数表法抽取样本时,个体编号的位数必须相同.( )×√√题型探究例1 下面的抽样是简单随机抽样吗?为什么?
(1)小乐从玩具箱中的10件玩具中随意拿出一件玩,玩后放回,再拿出一件,连续拿出四件;
(2)某学校从300名学生中一次性抽取20名学生调查睡眠情况.题型一 简单随机抽样的判断解答解 不是简单随机抽样,因为玩具被放回了,不符合“不放回抽样”这一特点.
解 不是简单随机抽样,因为一次性抽取不符合“逐个抽取”这一特点.反思与感悟 当抽样具有:(1)总体中个体数是有限的,(2)逐个抽取,
(3)不放回抽取,(4)每个个体被抽到的机会等可能时,为简单随机抽样,否则不是简单随机抽样.跟踪训练1 下面的抽样方法是简单随机抽样的是
A.盒子中有80个零件,从中选出5个零件进行质量检验,在抽样操作时,
从中任意拿出一个零件进行质量检验后再把它放回盒子里
B.某车间包装一种产品,在自动包装传送带上,每隔5分钟抽一包产品,
称其重量是否合格
C.某校分别从行政人员、教师、后勤人员中抽取2人,14人,4人了解他
们对学校机构改革的意见
D.从8台电脑中不放回地随机抽取2台进行质量检验(假设8台电脑已编好
号,对编号随机抽取)解析√答案解析 依据简单随机抽样的特点知,只有D符合.题型二 简单随机抽样等可能性应用例2 一个布袋中有10个同样质地的小球,从中不放回地依次抽取3个小球,则某一特定小球被抽到的可能性是____,第三次抽取时,剩余每个小球被抽到的可能性是____.答案解析因为本题中的抽样是不放回抽样,反思与感悟 简单随机抽样,每次抽取时,总体中各个个体被抽到的可能性相同,在整个抽样过程中各个个体被抽到的机会也都相等.跟踪训练2 从总体容量为N的一批零件中,抽取一个容量为30的样本,若每个零件被抽到的可能性为0.25,则N的值为
A.120 B.200
C.150 D.100解析 因为从含有N个个体的总体中抽取一个容量为30的样本时,从而有N=120.故选A.答案√解析命题角度1 抽签法
例3 某卫生单位为了支援抗震救灾,要在18名志愿者中选取6人组成医疗小组去参加救治工作,请用抽签法设计抽样方案.题型三 抽签法与随机数表法及应用解答解 方案如下:
第一步,将18名志愿者编号,号码为01,02,03,…,18.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放到一个不透明的盒子中,充分搅匀.
第四步,从盒子中依次取出6个号签,并记录上面的编号.
第五步,与所得号码对应的志愿者就是医疗小组成员.反思与感悟 一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.跟踪训练3 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.解答解 第一步,将20架钢琴编号,号码是01,02,…,20.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步,从袋子中逐个不放回地抽取5个号签,并记录上面的编号.
第五步,与所得号码对应的5架钢琴就是要进行质量检查的对象.命题角度2 随机数表法
例4 假设我们要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,应如何操作?解答解 第一步,将800袋牛奶编号为000,001,…,799.
第二步,在随机数表中任选一个数作为起始数(例如选出第8行第7列的数7).
第三步,从选定的数7开始依次向右读(读数的方向也可以是向左、向上、向下等),将编号范围内的数取出,编号范围外的数去掉,直到取满60个号码为止,就得到一个容量为60的样本.反思与感悟 抽签法和随机数表法对个体的编号是不同的,抽签法可以利用个体已有的编号,如学生的学籍号、产品的记数编号等,也可以重新编号,例如总体个数为100,编号可以为1,2,3,…,100.随机数表法对个体的编号要看总体的个数,总体数为100,通常为00,01,…,99.总体数大于100小于1 000,从000开始编起,然后是001,002,….A.08 B.07 C.02 D.01跟踪训练4 总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法:从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为 √解析 从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字开始向右读,第一个数为65,不符合条件,第二个数为72,不符合条件,第三个数为08,符合条件,以下符合条件的数字依次为02,14,07,01,故第5个数为01.故选D.答案解析达标检测1.对于简单随机抽样,每个个体被抽到的机会
A.不相等 B.相等
C.不确定 D.与抽样次序有关√答案解析12345解析 简单随机抽样中每一个个体被抽到的机会相等.答案解析2.下面抽样方法是简单随机抽样的是
A.从平面直角坐标系中抽取5个点作为样本
B.可口可乐公司从仓库中的1 000箱可乐中一次性抽取20箱进行质量检查
C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机
已编好号,对编号随机抽取)√12345解析 选项A中,平面直角坐标系中有无数个点,这与要求总体中的个体数有限不相符,故错误;
B中,一次性抽取不符合简单随机抽样逐个抽取的特点,故错误;
C中,50名战士是最优秀的,不符合简单随机抽样的等可能性,故错误.3.一个总体中含有100个个体,以简单随机抽样方式从该总体中抽取一个容量为5的样本,则指定的某个个体被抽到的可能性为______.12345答案解析解析 因为是简单随机抽样,
故每个个体被抽到的机会相等,4.某地有2 000人参加自学考试,为了了解他们的成绩,从中抽取一个样本,若每个考生被抽到的概率都是0.04,则这个样本的容量是______.12345答案解析8012345.学校举办元旦晚会,需要从每班选10名男生,8名女生参加合唱节目,某班有男生32名,女生28名,试用抽签法确定该班参加合唱的同学.解答解 第一步,将32名男生从0到31进行编号.
第二步,用相同的纸条制成32个号签,在每个号签上写上这些编号.
第三步,将写好的号签放在一个不透明的容器内摇匀,不放回地从中逐个抽出10个号签.
第四步,相应编号的男生参加合唱.
第五步,用相同的办法从28名女生中选出8名,则此8名女生参加合唱.51.简单随机抽样是一种简单、基本、不放回的抽样方法,常用的简单随机抽样方法有抽签法和随机数表法.
2.抽签法的优点是简单易行,缺点是当总体的容量大时,费时、费力,并且标号的签不易搅拌均匀,这样会导致抽样不公平;随机数表法的优点也是简单易行,缺点是当总体容量大时,编号不方便.两种方法只适合总体容量较少的抽样类型.
3.简单随机抽样每个个体入样的可能性都相等,均为 ,但要将每个个体入样的可能性与第n次抽取时每个个体入样的可能性区分开,避免在解题中出现错误.2.1.2 系统抽样
2.1.3 分层抽样
2.1.4 数据的收集
学习目标 1.理解并掌握系统抽样、分层抽样.2.会用系统抽样、分层抽样从总体中抽取样本.3.理解三种抽样的区别与联系.
知识点一 系统抽样
思考1 当总体中的个体数较多时,为什么不宜用简单随机抽样?
答案 因为个体较多,采用简单随机抽样如制作号签等工作会耗费大量的人力、物力和时间,而且不容易做到“搅拌均匀”,从而使样本的代表性不强.
思考2 用系统抽样抽取样本时,每段各取一个号码,其中第1段的个体编号怎样抽取?以后各段的个体编号怎样抽取?
答案 用简单随机抽样抽取第1段的个体编号.在抽取第1段的号码之前,自定义规则确定以后各段的个体编号,通常是将第1段抽取的号码依次累加间隔k.
梳理 系统抽样
(1)定义:要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.
(2)步骤:
①先将总体的N个个体编号.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;
②确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;当不是整数时,先从总体中随机剔除几个个体,再重新编号, 然后分段;
③在第1段用简单随机抽样确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
知识点二 分层抽样
思考1 当所研究的总体由差异明显的几部分组成时,还可用系统抽样吗?
答案 不可以.
思考2 分层抽样的总体具有什么特性?
答案 分层抽样的总体由差异明显的几部分构成,也就是说当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样.
思考3 系统抽样时,将总体分成均等的几部分,每部分抽取一个,符合分层抽样,故系统抽样就是一种特殊的分层抽样,这种说法对吗?
答案 不对,因为分层抽样是从各层独立地抽取个体,而系统抽样各段上抽取是按事先确定好的规则进行的,各层编号有联系,不是独立的,故系统抽样不同于分层抽样.
梳理 分层抽样
(1)定义
一般地,当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.
将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.
分层抽样尽量利用了调查者对调查对象(总体)事先所掌握的各种信息,并充分考虑了保持样本结构与总体结构的一致性,这对提高样本的代表性是非常重要的.
(2)分层抽样的实施步骤
第一步,按某种特征将总体分成若干部分(层).
第二步,计算抽样比.抽样比=.
第三步,各层抽取的个体数=各层总的个体数×抽样比.
第四步,依各层抽取的个体数,按简单随机抽样从各层抽取样本.
第五步,综合每层抽样,组成样本.
知识点三 三种抽样方法的比较
方法类别
共同特点
抽样特征
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽取的可能性相等
从总体中逐个不放回抽取
简单随机抽样是基础
样本容量较小
系统抽样
将总体分成均衡的几部分,按规则关联抽取
用简单随机抽样抽取起始号码
总体中的个体数较多
分层抽样
将总体分成几层,按比例分层抽取
用简单随机抽样或系统抽样对各层抽样
总体由差异明显的几部分组成
知识点四 数据收集的几种常见方式
1.做试验
根据调查项目的要求来设计一些合适的试验,能够直接地获得样本数据.试验时要注意准备好试验的用具(或组织好观测的对象)、指定专门的记录人员等.
做试验的优点是:通常能得到可靠的数据资料;缺点是:花费人力、物力、时间较多.
2.查阅资料
有些数据资料不容易直接调查得到,这时可以通过查阅统计年鉴、图书馆文献等办法获得所需或相关的数据.
3.设计调查问卷
做实际调查时往往要设计调查问卷.调查问卷一般由一组有目的、有系统、有顺序的题目组成.问题由调查人员根据调查的目的、项目进行设计.
1.系统抽样和分层抽样都是等可能抽样.( √ )
2.系统抽样中,当总体容量不能被样本容量整除时,余数是几就剔除前几个数.( × )
3.分层抽样是按一定的比例从各层抽取个体组成样本的抽样.( √ )
题型一 系统抽样及应用
例1 为了了解参加某种知识竞赛的1 000名学生的成绩,从中抽取一个容量为50的样本,那么采用什么抽样方法比较恰当?简述抽样过程.
解 适宜选用系统抽样,抽样过程如下:
(1)随机地将这1 000名学生编号为1,2,3,…,1000.
(2)将总体按编号顺序均分成50个部分,每部分包括20个个体.
(3)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(4)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,… ,l+980.
引申探究
在本例中,如果总体是1 002,其余条件不变,又该怎么抽样?
解 (1)将每个学生编一个号,由1至1002.
(2)利用随机数表法剔除2个号.
(3)将剩余的1 000名学生重新编号1至1000.
(4)按编号顺序均分成50个部分,每部分包括20个个体.
(5)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(6)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,…,l+980.
反思与感悟 当总体中的个体数不能被样本容量整除时,需要在总体中剔除一些个体.由于剔除方法采用简单随机抽样,所以即使是被剔除的个体,在整个抽样过程中被抽到的机会和其他个体是一样的.
跟踪训练1 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.
解 (1)将每个工人随机编一个号,由0001至1003.
(2)利用随机数表法找到3个号将这3名工人剔除.
(3)将剩余的1 000名工人重新编号0001至1000.
(4)分段,取间隔k==100,将总体均分为10组,每组100个工人.
(5)从第一段即0001号到0100号中随机抽取一个号l.
(6)按编号将l,100+l,200+l,…,900+l,共10个号选出.
这10个号所对应的工人组成样本.
题型二 分层抽样及应用
例2 某地区有高中生2 400人,初中生10 900人,小学生11 000人.当地教育部门为了解本地区中小学生的近视率及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查,你认为应当怎样抽取样本?
解 (1)从总体来看,因为不同年龄阶段的学生的近视情况可能存在明显差异,为了使样本具有较好的代表性,应该分高中、初中、小学三个层次分别抽样.
(2)从三类学生的数量来看,人数较多,所以在各层抽样时可以采用系统抽样.
(3)采用系统抽样分好组之后,确定第一组人选时,可以采用简单随机抽样.
反思与感悟 分层抽样实质是利用已知信息尽量使样本结构与总体结构相似.在实际操作时,并不排斥与其他抽样方法联合使用.
跟踪训练2 在100个零件中,有一级品20个,二级品30个,三级品50个,从中抽取20个作为样本.
方法1:采用简单随机抽样的方法,将零件编号为00,01,02,…,99,用抽签法抽取20个.
方法2:采用系统抽样的方法,将所有零件分为20组,每组5个,然后在第1组用简单随机抽样确定第一个个体编号,依次得到余下的19个个体编号.
方法3:采用分层抽样的方法,从一级品中随机抽取4个,从二级品中随机抽取6个,从三级品中随机抽取10个.
对于上述问题,下列说法正确的是( )
①不论采用哪种抽样方法,这100个零件中每一个零件被抽到的可能性都是;
②采用不同的方法,这100个零件中每一个零件被抽到的可能性各不相同;
③在上述三种抽样方法中,方法3抽到的样本比方法1和方法2抽到的样本更能反映总体特征;
④在上述抽样方法中,方法2抽到的样本比方法1和方法3抽到的样本更能反映总体的特征.
A.①② B.①③ C.①④ D.②③
答案 B
解析 根据三种抽样的特点知,不论哪种抽样,总体中每个个体入样的可能性都相等,都是,故①正确,②错误.由于总体中有差异较明显的三个层(一级品、二级品和三级品),故方法③抽到的样本更有代表性,③正确,④错误.故①③正确.
例3 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层抽样的方法抽取,写出抽样过程.
解 抽样过程如下:
第一步,确定抽样比,
样本容量与总体容量的比为=.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);
从教师中抽取112×=14(人);
从后勤人员中抽取32×=4(人).
第三步,采用简单随机抽样的方法,抽取行政人员2人,教师14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.
反思与感悟 在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体容量之比.
跟踪训练3 一个单位有职工500人,其中不到35岁的有125人,35岁至49岁的有280人,50岁及50岁以上的有95人.为了了解这个单位职工与身体状态有关的某项指标,要从中抽取100名职工作为样本,职工年龄与这项指标有关,应该怎样抽取?
解 用分层抽样来抽取样本,步骤如下:
(1)分层.按年龄将500名职工分成三层:不到35岁的职工;35岁至49岁的职工;50岁及50岁以上的职工.
(2)确定每层抽取个体的个数.抽样比为=,则在不到35岁的职工中抽取125×=25(人);
在35岁至49岁的职工中抽取280×=56(人);
在50岁及50岁以上的职工中抽取95×=19(人).
(3)在各层分别按系统抽样或随机数表法抽取样本.
(4)汇总每层抽样,组成样本.
1.检测员每10分钟从匀速传递的新产品生产流水线上抽取一件新产品进行某项指标检测,这样的抽样方法是( )
A.系统抽样法 B.抽签法
C.随机数表法 D.其他抽样方法
答案 A
解析 根据系统抽样的定义和性质进行判断即可.
2.交通管理部门为了了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )
A.101 B.808 C.1 212 D.2 012
答案 B
解析 根据分层抽样,得N×=96,解得N=808,故选B.
3.为了调查某省各城市PM2.5的值,按地域把36个城市分成甲、乙、丙三组,对应的城市数分别为6,12,18.若用分层抽样的方法抽取12个城市,则乙组中应抽取的城市数为________.
答案 4
解析 乙组城市数占总城市数的比例为=,样本容量为12,故乙组中应抽取的城市数为12×=4.
4.某班级有50名学生,现要采用系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号为1~50号,并均匀分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.
答案 37
解析 因为12=5×2+2,所以第n组中抽得号码为5(n-1)+2的学生.所以第八组中抽得号码为5×7+2=37的学生.
5.一批产品中有一级品100个,二级品60个,三级品40个,分别用系统抽样法和分层抽样法从这批产品中抽取一个容量为20的样本,写出抽样过程.
解 系统抽样法:将200个产品编号为1~200,然后将编号均分成20个部分,在第1部分中用简单随机抽样法抽取1个编号.如抽到5号,那么得到编号为5,15,25,…,195的个体,即可得到所需样本.
分层抽样法:因为100+60+40=200,所以=,
所以100×=10,60×=6,40×=4.
因此在一级品、二级品和三级品中分别抽取10个、6个和4个,将一级品的100个产品按00,01,02,…,99编号;
将二级品的60个产品按00,01,02,…,59编号;
将三级品的40个产品按00,01,02,…,39编号,采用随机数表法,分别从中抽取10个,6个,4个,即可得到所需样本.
1.系统抽样有以下特点:
(1)适用于总体容量较大的情况;
(2)剔除多余个体及第一段抽样都要用简单随机抽样,因而与简单随机抽样有密切联系;
(3)是等可能抽样,每个个体被抽到的可能性都是,其中N为总体容量,n为样本容量;
(4)是不放回抽样.
在抽样时,只要第一段抽取的个体确定了,后面各段中要抽取的个体依照事先确定好的规律就自动地被抽出,因此简单易行.
2.总体容量小时,用简单随机抽样;总体容量大时,用系统抽样;总体差异明显时,用分层抽样.在实际抽样中,为了使样本具有代表性,通常要同时使用几种抽样方法.
一、选择题
1.为了抽查某城市小轿车年检情况,在该城市采取抽车牌末位数字为6的小轿车进行检查,这种抽样方法是( )
A.随机数表法 B.抽签法
C.系统抽样法 D.其他抽样方法
答案 C
解析 由于每个车牌的末位数字为0,1,2,…,9十个数字之一,某辆车车牌末位数字为6是随机的,这相当于将所有汽车分成若干组,每组10个(车牌的末位数字依次为0,1,2,…,9),取每一组中的第6个,故为系统抽样.
2.某校三个年级共有24个班,学校为了解同学们的心理状况,将每个班编号,依次为1到24,现用系统抽样方法抽取4个班进行调查,若抽到的编号之和为48,则抽到的最小编号为( )
A.2 B.3 C.4 D.5
答案 B
解析 由题意得系统抽样的抽样间隔为=6.设抽到的最小编号为x,则x+(6+x)+(12+x)+(18+x)=48,所以x=3,故选B.
3.某中学有高中生3 500人,初中生1 500人,为了了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为( )
A.100 B.150 C.200 D.250
答案 A
解析 由题意得,=,解得n=100,故选A.
4.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种及20种,现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是( )
A.4 B.5 C.6 D.7
答案 C
解析 四类食品的种数比为4∶1∶3∶2,则抽取的植物油类的种数为20×=2,抽取的果蔬类的种数为20×=4,二者之和为6,故选C.
5.对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2<p3 B.p2=p3<p1
C.p1=p3<p2 D.p1=p2=p3
答案 D
解析 因为采取简单随机抽样、系统抽样和分层抽样抽取样本时,总体中每个个体被抽中的概率相等,故选D.
6.某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层抽样的方法抽取样本,则应抽取高一学生数为( )
A.8 B.11 C.16 D.10
答案 A
解析 若设高三学生数为x,则高一学生数为,高二学生数为+300,所以有x+++300=3 500,解得x=1 600.故高一学生数为800,因此应抽取高一学生数为=8.
7.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )
A.11 B.12 C.13 D.14
答案 B
解析 由于=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为==12.
8.为规范学校办学,省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( )
A.13 B.19 C.20 D.51
答案 C
解析 由系统抽样的原理可知,抽样的间隔k==13,故抽取的样本的编号分别为7,7+13,7+13×2,7+13×3,从而可知C项正确.
二、填空题
9.某企业共有职工150人,其中高级职称15人,中级职称45人,低级职称90人,现采用分层抽样来抽取30人,则抽取的高级职称的人数为________.
答案 3
解析 由题意得抽样比为=,所以抽取的高级职称的人数为15×=3.
10.某工厂生产A,B,C三种不同型号的产品,产品数量之比为2∶3∶5.现用分层抽样的方法抽出一个容量为n的样本,其中A种型号产品有16件,那么此样本的容量n=________.
答案 80
解析 16÷=80.
11.将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层抽样方法抽取容量为100的样本,则应从C中抽取________个个体.
答案 20
解析 由题意可设A,B,C中个体数分别为5k,3k,2k,所以C中抽取个体数为×100=20.
12.某班共有学生52人,现根据学生的学号用系统抽样的方法抽取一个容量为4的样本,已知学号为6号、32号、45号的同学在样本中,那么样本中剩下的一个同学的学号是_____号.
答案 19
解析 ∵45-32=13,∴抽样间隔为13,故抽取学生的学号依次为6,19,32,45,故填19.
三、解答题
13.为了对某课题进行研究,分别从A,B,C三所高校中用分层抽样法抽取若干名教授组成研究小组,其中高校A有m名教授,高校B有72名教授,高校C有n名教授(其中0<m≤72≤n).
(1)若A,B两所高校中共抽取3名教授,B,C两所高校中共抽取5名教授,求m,n;
(2)若高校B中抽取的教授数是高校A和C中抽取的教授总数的,求三所高校的教授的总人数.
解 (1)∵0<m≤72≤n,A,B两所高校中共抽取3名教授,∴B高校中抽取2人,∴A高校中抽取1人,C高校中抽取3人,
∴==,解得m=36,n=108.
(2)∵高校B中抽取的教授数是高校A和C中抽取的教授数的,
∴(m+n)=72,解得m+n=108,
∴三所高校的教授的总人数为m+n+72=180.
四、探究与拓展
14.200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号,分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码为________.若采用分层抽样,40岁以下年龄段应抽取________人.
答案 37 20
解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x人,则=,解得x=20.
15.某单位有职工72人,现需用系统抽样法从中抽取一个样本,若样本容量为n,则不需要剔除个体,若样本容量为n+1,则需剔除2个个体,则n=________.
答案 4或6或9
解析 由题意知n为72的约数,n+1为70的约数,其中72的约数有1,2,3,4,6,8,9,12,18,24,36,72,其中加1能被70整除的有1,4,6,9,其中n=1不符合题意,故n=4或6或9.
课件39张PPT。2.1.2 系统抽样 2.1.3 分层抽样 2.1.4 数据的收集第二章 2.1 随机抽样学习目标
1.理解并掌握系统抽样、分层抽样.
2.会用系统抽样、分层抽样从总体中抽取样本.
3.理解三种抽样的区别与联系.问题导学达标检测题型探究内容索引问题导学思考1 当总体中的个体数较多时,为什么不宜用简单随机抽样?
思考2 用系统抽样抽取样本时,每段各取一个号码,其中第1段的个体编号怎样抽取?以后各段的个体编号怎样抽取? 答案 因为个体较多,采用简单随机抽样如制作号签等工作会耗费大量的人力、物力和时间,而且不容易做到“搅拌均匀”,从而使样本的代表性不强.
答案 用简单随机抽样抽取第1段的个体编号.在抽取第1段的号码之前,自定义规则确定以后各段的个体编号,通常是将第1段抽取的号码依次累加间隔k. 知识点一 系统抽样梳理 系统抽样
(1)定义:要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先规定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.
(2)步骤:
①先将总体的N个个体 .有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;编号③在第1段用 确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号
,再加k得到第3个个体编号 ,依次进行下去,直到获取整个样本.分段随机重新编号简单随机抽样(l+k)(l+2k)思考1 当所研究的总体由差异明显的几部分组成时,还可用系统抽样吗?
思考2 分层抽样的总体具有什么特性? 知识点二 分层抽样答案 不可以.
答案 分层抽样的总体由差异明显的几部分构成,也就是说当已知总体由差异明显的几部分组成时,为了使样本充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样. 思考3 系统抽样时,将总体分成均等的几部分,每部分抽取一个,符合分层抽样,故系统抽样就是一种特殊的分层抽样,这种说法对吗?答案 不对,因为分层抽样是从各层独立地抽取个体,而系统抽样各段上抽取是按事先确定好的规则进行的,各层编号有联系,不是独立的,故系统抽样不同于分层抽样.梳理 分层抽样
(1)定义
一般地,当总体是由 的几个部分组成时,往往选用分层抽样的方法.
将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.
分层抽样尽量利用了调查者对调查对象(总体)事先所掌握的各种信息,并充分考虑了保持样本结构与总体结构的一致性,这对提高样本的代表性是非常重要的.差异明显(2)分层抽样的实施步骤
第一步,按某种特征将总体分成若干部分(层).
第二步,计算抽样比.抽样比= .
第三步,各层抽取的个体数= .
第四步,依各层抽取的个体数,按 从各层抽取样本.
第五步,综合每层抽样,组成样本.各层总的个体数×抽样比简单随机抽样知识点三 三种抽样方法的比较抽样过程中每个个体被抽取的可能性相等从总体中逐个不放回抽取简单随机抽样是基础样本容量较小将总体分成均衡的几部分,按规则关联抽取用简单随机抽样抽取起始号码总体中的个体数较多将总体分成几层,按比例分层抽取用简单随机抽样或系统抽样对各层抽样总体由差异明显的几部分组成 知识点四 数据收集的几种常见方式1.做试验
根据调查项目的要求来设计一些合适的试验,能够直接地获得样本数据.试验时要注意准备好试验的用具(或组织好观测的对象)、指定专门的记录人员等.
做试验的优点是:通常能得到可靠的数据资料;缺点是:花费人力、物力、时间较多.2.查阅资料
有些数据资料不容易直接调查得到,这时可以通过查阅统计年鉴、图书馆文献等办法获得所需或相关的数据.
3.设计调查问卷
做实际调查时往往要设计调查问卷.调查问卷一般由一组有目的、有系统、有顺序的题目组成.问题由调查人员根据调查的目的、项目进行设计.[思考辨析 判断正误]
1.系统抽样和分层抽样都是等可能抽样.( )
2.系统抽样中,当总体容量不能被样本容量整除时,余数是几就剔除前几个数.( )
3.分层抽样是按一定的比例从各层抽取个体组成样本的抽样.( )√×√题型探究例1 为了了解参加某种知识竞赛的1 000名学生的成绩,从中抽取一个容量为50的样本,那么采用什么抽样方法比较恰当?简述抽样过程.题型一 系统抽样及应用解答解 适宜选用系统抽样,抽样过程如下:
(1)随机地将这1 000名学生编号为1,2,3,…,1000.
(2)将总体按编号顺序均分成50个部分,每部分包括20个个体.
(3)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(4)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,… ,l+980.引申探究
在本例中,如果总体是1 002,其余条件不变,又该怎么抽样?解 (1)将每个学生编一个号,由1至1002.
(2)利用随机数表法剔除2个号.
(3)将剩余的1 000名学生重新编号1至1000.
(4)按编号顺序均分成50个部分,每部分包括20个个体.
(5)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(6)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,…,l+980.解答反思与感悟 当总体中的个体数不能被样本容量整除时,需要在总体中剔除一些个体.由于剔除方法采用简单随机抽样,所以即使是被剔除的个体,在整个抽样过程中被抽到的机会和其他个体是一样的.跟踪训练1 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.解 (1)将每个工人随机编一个号,由0001至1003.
(2)利用随机数表法找到3个号将这3名工人剔除.
(3)将剩余的1 000名工人重新编号0001至1000.
(4)分段,取间隔k= =100,将总体均分为10组,每组100个工人.
(5)从第一段即0001号到0100号中随机抽取一个号l.
(6)按编号将l,100+l,200+l,…,900+l,共10个号选出.
这10个号所对应的工人组成样本.解答题型二 分层抽样及应用命题角度1 分层抽样适用情形判定
例2 某地区有高中生2 400人,初中生10 900人,小学生11 000人.当地教育部门为了解本地区中小学生的近视率及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查,你认为应当怎样抽取样本?解答解 (1)从总体来看,因为不同年龄阶段的学生的近视情况可能存在明显差异,为了使样本具有较好的代表性,应该分高中、初中、小学三个层次分别抽样.
(2)从三类学生的数量来看,人数较多,所以在各层抽样时可以采用系统抽样.
(3)采用系统抽样分好组之后,确定第一组人选时,可以采用简单随机抽样.反思与感悟 分层抽样实质是利用已知信息尽量使样本结构与总体结构相似.在实际操作时,并不排斥与其他抽样方法联合使用.跟踪训练2 在100个零件中,有一级品20个,二级品30个,三级品50个,从中抽取20个作为样本.
方法1:采用简单随机抽样的方法,将零件编号为00,01,02,…,99,用抽签法抽取20个.
方法2:采用系统抽样的方法,将所有零件分为20组,每组5个,然后在第1组用简单随机抽样确定第一个个体编号,依次得到余下的19个个体编号.
方法3:采用分层抽样的方法,从一级品中随机抽取4个,从二级品中随机抽取6个,从三级品中随机抽取10个.对于上述问题,下列说法正确的是
①不论采用哪种抽样方法,这100个零件中每一个零件被抽到的可能性都是 ;
②采用不同的方法,这100个零件中每一个零件被抽到的可能性各不相同;
③在上述三种抽样方法中,方法3抽到的样本比方法1和方法2抽到的样本更能反映总体特征;
④在上述抽样方法中,方法2抽到的样本比方法1和方法3抽到的样本更能反映总体的特征.
A.①② B.①③ C.①④ D.②③答案√解析由于总体中有差异较明显的三个层(一级品、二级品和三级品),故方法③抽到的样本更有代表性,③正确,④错误.故①③正确.命题角度2 分层抽样具体实施步骤
例3 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层抽样的方法抽取,写出抽样过程.解答解 抽样过程如下:第三步,采用简单随机抽样的方法,抽取行政人员2人,教师14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.反思与感悟 在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体容量之比.跟踪训练3 一个单位有职工500人,其中不到35岁的有125人,35岁至49岁的有280人,50岁及50岁以上的有95人.为了了解这个单位职工与身体状态有关的某项指标,要从中抽取100名职工作为样本,职工年龄与这项指标有关,应该怎样抽取?解答解 用分层抽样来抽取样本,步骤如下:
(1)分层.按年龄将500名职工分成三层:不到35岁的职工;35岁至49岁的职工;50岁及50岁以上的职工.(3)在各层分别按系统抽样或随机数表法抽取样本.
(4)汇总每层抽样,组成样本.达标检测1.检测员每10分钟从匀速传递的新产品生产流水线上抽取一件新产品进行某项指标检测,这样的抽样方法是
A.系统抽样法 B.抽签法
C.随机数表法 D.其他抽样方法√答案解析12345解析 根据系统抽样的定义和性质进行判断即可.答案解析2.交通管理部门为了了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为
A.101 B.808
C.1 212 D.2 012√123453.为了调查某省各城市PM2.5的值,按地域把36个城市分成甲、乙、丙三组,对应的城市数分别为6,12,18.若用分层抽样的方法抽取12个城市,则乙组中应抽取的城市数为____.12345解析答案4答案解析4.某班级有50名学生,现要采用系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号为1~50号,并均匀分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为_____的学生.1234537解析 因为12=5×2+2,所以第n组中抽得号码为5(n-1)+2的学生.
所以第八组中抽得号码为5×7+2=37的学生. 5.一批产品中有一级品100个,二级品60个,三级品40个,分别用系统抽样法和分层抽样法从这批产品中抽取一个容量为20的样本,写出抽样过程.12345解答解 系统抽样法:将200个产品编号为1~200,然后将编号均分成20个部分,在第1部分中用简单随机抽样法抽取1个编号.如抽到5号,那么得到编号为5,15,25,…,195的个体,即可得到所需样本.因此在一级品、二级品和三级品中分别抽取10个、6个和4个,将一级品的100个产品按00,01,02,…,99编号;
将二级品的60个产品按00,01,02,…,59编号;
将三级品的40个产品按00,01,02,…,39编号,采用随机数表法,分别从中抽取10个,6个,4个,即可得到所需样本.123451.系统抽样有以下特点:
(1)适用于总体容量较大的情况;
(2)剔除多余个体及第一段抽样都要用简单随机抽样,因而与简单随机抽样有密切联系;
(3)是等可能抽样,每个个体被抽到的可能性都是 ,其中N为总体容量,n为样本容量;
(4)是不放回抽样.
在抽样时,只要第一段抽取的个体确定了,后面各段中要抽取的个体依照事先确定好的规律就自动地被抽出,因此简单易行.
2.总体容量小时,用简单随机抽样;总体容量大时,用系统抽样;总体差异明显时,用分层抽样.在实际抽样中,为了使样本具有代表性,通常要同时使用几种抽样方法.课件43张PPT。2.2.1 用样本的频率分布估计总体的分布(一)第二章 2.2 用样本估计总体学习目标
1.体会分布的意义和作用.
2.学会用频率分布表,画频率分布直方图表示样本数据.
3.能通过频率分布表或频率分布直方图对数据做出总体统计.问题导学达标检测题型探究内容索引问题导学知识点一 用样本估计总体思考 还记得我们抽样的初衷吗?答案 用样本去估计总体,为决策提供依据.梳理 用样本的 估计总体的分布.频率分布思考1 要做频率分布表,需要对原始数据做哪些工作?
思考2 如何决定组数与组距? 知识点二 频率分布表与频率分布直方图答案 分组,频数累计,计算频数和频率.注意:[x]表示不大于x的最大整数.思考3 同样一组数据,如果组距不同,得到的频率分布直方图也会不同吗?答案 不同,对于同一组数据分析时,要选好组距和组数,不同的组距与组数对结果有一定的影响.1小长方形的面积[思考辨析 判断正误]
1.频率分布直方图中小长方形的高表示该组上的个体在样本中出现的频率与组距的比值.( )
2.频率分布直方图中小长方形的面积表示该组的个体数.( )
3.频率分布直方图中所有小长方形面积之和为1.( )√×√题型探究例1 关于频率分布直方图,下列说法正确的是
A.直方图中小长方形的高表示取某数的频率
B.直方图中小长方形的高表示该组上的个体在样本中出现的频率
C.直方图中小长方形的高表示该组上的个体在样本中出现的频数与组距的
比值
D.直方图中小长方形的高表示该组上的个体在样本中出现的频率与组距
的比值题型一 频率分布的理解解析答案解析 注意频率分布直方图和条形图的区别,在直方图中,纵轴(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组距上的小长方形的面积.√反思与感悟 由频率的定义不难得出,各组数据的频率之和为1,因为各组数据的个数之和为样本容量.在列频率分布表时,可以利用这种方法检查是否有数据的丢失.跟踪训练1 一个容量为20的样本数据,将其分组如下表:
则样本在区间(-∞,50)上的频率为
A.0.5 B.0.25
C.0.6 D.0.7 解析答案√题型二 频率分布直方图的绘制解答例2 某中学从高一年级随机抽取50名学生进行智力测验,其得分如下(单位:分):
48 64 52 86 71 48 64 41 86 79
71 68 82 84 68 64 62 68 81 57
90 52 74 73 56 78 47 66 55 64
56 88 69 40 73 97 68 56 67 59
70 52 79 44 55 69 62 58 32 58
根据上面的数据,回答下列问题:
(1) 这次测验成绩的最高分和最低分分别是多少?解 这次测验成绩的最低分是32分,最高分是97分.解答(2)将区间[30,100]平均分成7个小区间,试列出这50名学生智力测验成绩的频率分布表,进而画出频率分布直方图;解 根据题意,列出样本的频率分布表如下:频率分布直方图如图所示.解答(3)分析频率分布直方图,你能得出什么结论?解 从频率分布直方图可以看出,这50名学生的智力测验成绩大体上呈两头小、中间大,左右基本对称的状态,说明这50名学生中智力特别好或特别差的占极少数,而智力一般的占多数,这是一种最常见的分布.反思与感悟 组距和组数的确定没有固定的标准,将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分成5至12组.跟踪训练2 一个农技站为了考察某种麦穗生长的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3根据上面的数据列出频率分布表、绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.解答解 (1)计算极差:7.4-4.0=3.4;
(2)决定组距与组数:所以取组距为0.3,组数为12;(3)决定分点:
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,
那么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55;(4)列频率分布表:(5)绘制频率分布直方图如图.从表中看到,样本数据落在5.75~6.35之间的频率是0.28+0.13=0.41,于是可以估计,在这块试验田里长度在5.75~6.35 cm之间的麦穗约占41%.例3 从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:题型三 频率分布表及频率分布直方图的应用解答(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;解 根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10(名),故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.解答(2)求频率分布直方图中的a,b的值;解 课外阅读时间落在[4,6)组内的有17人,频率为0.17,课外阅读时间落在[8,10)组内的有25人,频率为0.25,解答(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组(只需写出结论).解 样本中的100名学生该周课外阅读时间的平均数在第4组.反思与感悟 在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1.解答跟踪训练3 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小矩形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.(1)第二小组的频率是多少?样本容量是多少?解 频率分布直方图是以面积的形式来反映数据落在各小组内的频率大小的,(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率约是多少?解答达标检测答案解析1.如图所示是一容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在[15,20]内的频数为
A.20 B.30 C.40 D.50 12345√解析 样本数据落在[15,20]内的频数为100×[1-5×(0.04+0.1)]=30.答案解析2.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,9,12,9,10,11,12,11.那么频率为0.2的是
A.[5.5,7.5) B.[7.5,9.5)
C.[9.5,11.5) D.[11.5,13.5]12345√12345解析 列出频率分布表,依次对照就可以找到答案,频率分布表如下:从表中可以看出频率为0.2的是[11.5,13.5],故选D.3.如图是将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出的频率分布直方图,则此班的优秀(120分及以上为优秀)率为______.12345解析解析 优秀率为10×(0.022 5+0.005+0.002 5)=0.3=30%.答案30%答案解析4.一个频数分布表(样本容量为50)不小心被损坏了一部分,只记得样本中数据在[20,60)内的频率为0.6,则估计样本在[40,50),[50,60)内的数据个数之和是_____.1234521解析 根据题意,设分布在[40,50),[50,60)内的数据个数分别为x,y.
∵样本中数据在[20,60)内的频率为0.6,样本容量为50,即样本在[40,50),[50,60)内的数据个数之和为21.123455.暑假期间某班为了增强学生的社会实践能力,把该班学生分成四个小组到一果园帮果农测量果树的产量,某小组来到一片种植苹果的山地,他们随机选取20株作为样本测量每一株的果实产量(单位:kg),获得的数据按照区间[40,45),[45,50),[50,55),[55,60]进行分组,得到如下频率分布表:已知样本中产量在区间[45,50)内的株数是产量在区间[50,60]内的株数的 倍.(1)分别求出a,b,c的值;12345解答解 易得c=1.0.∴a=0.4,b=0.2.(2)作出频率分布直方图.12345解答解 根据频率分布表画出频率分布直方图,如图所示.1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律,我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.
2.频率分布表和频率分布直方图,是对相同数据的两种不同表达方式,用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况.通过作图既可以从数据中提取信息,又可以利用图形传递信息.
3.样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚地看到整个样本数据的频率分布情况,并由此估计总体的分布情况.课件36张PPT。2.2.1 用样本的频率分布估计总体的分布(二)第二章 2.2 用样本估计总体学习目标
1.了解频率分布折线图和总体密度曲线的定义.
2.理解茎叶图的概念,会画茎叶图.
3.了解频率分布直方图、频率分布折线图、茎叶图的各自特征,学会选择不同的方法分析样本的分布,从而作出总体估计.问题导学达标检测题型探究内容索引问题导学知识点一 频率分布折线图和总体密度曲线1.频率分布折线图
用线段连接频率分布直方图中各个长方形 ,就得到频率分布折线图.
2.总体密度曲线
在样本频率分布直方图中,随着样本容量的增加,作图时所分的 增加,组距减小,相应的频率分布直方图会越来越接近于一条 ,统计中称这条光滑曲线为总体密度曲线,它精确地反映了一个总体在各个区域内取值的规律.上边的中点组数光滑曲线知识点二 茎叶图思考 茎叶图是表示样本数据分布情况的一种方法,那么“茎”、“叶”分别指的是哪些数?答案 茎叶图中,“叶”是数据的最后一个数字,其前面的数字作为“茎”.梳理 茎叶图
(1)将所有两位数的十位数字作为 ,个位数字作为 ,茎相同者共用一个茎,茎按从 的顺序从上向下列出,共茎的叶可以按从大到小(或从小到大)的顺序同行列出(也可以没有大小顺序).
(2)茎叶图的优点与不足
①优点:一是原始数据信息在图中能够保留,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.
②不足:当样本数据较多时,茎叶图就显得不太方便.茎叶小到大[思考辨析 判断正误]
1.频率分布折线图就是总体密度曲线.( )
2.对于两位数的茎叶图,中间的数字表示十位数,旁边的数字表示个位数.( )
3.对于三位数的茎叶图,中间的数字表示百位数,旁边的数字表示十位和个位数.( )×√×题型探究命题角度1 茎叶图的绘制
例1 某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产量数据(单位:千克)如下:
品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)画出茎叶图; 题型一 茎叶图及应用解答解 茎叶图如图.解答(2)用茎叶图处理现有的数据,有什么优点?解 样本容量不大,画茎叶图很方便,此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息丢失,而且还可以随时记录新的数据.(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,得出统计结论.解答解 通过观察茎叶图可以看出:
①品种A亩产量的平均数比品种B亩产量的平均数大;
②品种A的亩产量波动比品种B的亩产量波动大,故品种A的亩产量稳定性较差.反思与感悟 由于茎叶图较好地保留了原始数据,所以可以帮助我们分析样本数据的大致频率分布.在利用茎叶图分析数据特点时,要注意区别茎与叶.跟踪训练1 某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
试制作茎叶图来对比描述这些数据.解答解 以十位数字为茎,个位数字为叶,制作茎叶图如图:命题角度2 茎叶图的应用
例2 某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76
78 86 95 66 97 78 88 82 76 89
B地区:73 83 62 51 91 46 53 73 64 82
93 48 65 81 74 56 54 76 65 79
根据两组数据作出两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).解答解 两地区用户满意度评分的茎叶图如图:通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.反思与感悟 茎叶图可保留原始数据,还可以通过叶的疏密情形,得到样本数据的分布离散情形.跟踪训练2 一家连锁超市拥有多个分店,为分析各个分店的销售状况,管理部门收集了A,B两个规模相近的分店50天的销售额数据(单位:万元):
A分店:
44 57 59 60 61 61 62 63 63 65
66 66 67 69 70 70 71 72 73 73
73 74 74 74 75 75 75 75 75 76
76 77 77 77 78 78 79 80 80 82
85 85 86 86 90 92 92 92 93 96B分店:
35 39 40 44 44 48 51 52 52 54
55 56 56 57 57 57 58 59 60 61
61 62 63 64 66 68 68 70 70 71
71 73 74 74 79 81 82 83 83 84
85 90 91 91 94 95 96 100 100 100
(1)将两个分店的销售额制成茎叶图;解答解 茎叶图如图所示:(2)比较两个分店销售额分布的特点.解答解 由茎叶图可以看出A分店销售额的分布比较均匀,平均销售额是74.38万元,
B分店的销售额分布不太均匀,其平均销售额是68.48万元,
因此A分店的销售情况比B分店的好.题型二 茎叶图与频率分布直方图的综合应用例3 从甲、乙两个城市所有的自动售货机中随机抽取16台,记录了上午8∶00~11∶00之间各自的销售情况(单位:元):
甲:18,8,10,43,5,30,10,22,6,27,25,58,14,18,30,41;
乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23.
试用纵坐标为频数的频数分布直方图与茎叶图的方式分别表示上面的数据,并简要说明各自的优点.解答解 用频数分布直方图表示如图:茎叶图如图,两竖线中间的数字表示甲、乙销售额的十位数,两边的数字表示甲、乙销售额的个位数.从图中可以看出频数分布直方图能直观地反映数据分布的大致情况,并且能够清晰地表示出各个区间的具体数目;而用茎叶图表示有关数据,对数据的记录和表示都带来方便.反思与感悟 茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录,但样本容量较大,或者需要比较三组及三组以上的数据时,使用茎叶图就不合适;而频率分布表和频率分布直方图可以处理样本容量很大的数据,但损失了样本的原始数据,而且必须在完成抽样后才能制作.跟踪训练3 某中学举行了一次“环保知识竞赛”活动.为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的成绩(得分取正整数,满分为100分)作为样本(样本容量为n)进行统计.按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出了频率分布直方图,并作出了分数的茎叶图(图中仅列出得分在[50,60),[90,100]的数据),如图.
则样本容量n和频率分布直
方图中x,y的值分别为
A.50,0.030,0.004
B.30,0.040,0.003
C.30,0.030,0.040
D.50,0.300,0.400 解析答案√达标检测答案解析1.如果想用统计图来反映各数据的变化趋势,比较合适的统计图是
A.条形图 B.折线图
C.扇形图 D.其他图形12345√解析 能反映各数据的变化趋势的统计图是折线图.6答案2.在用样本频率分布估计总体分布的过程中,下列说法正确的是
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确12345√63.如图是总体密度曲线,下列说法正确的是 12345答案A.组距越大,频率分布折线图越接近于它
B.样本容量越小,频率分布折线图越接近于它
C.阴影部分的面积代表总体在(a,b)内取值的百分比
D.阴影部分的平均高度代表总体在(a,b)内取值的百分比√64.对一个未知总体,下列方法:
①频率分布直方图;
②频率分布表;
③频率分布折线图;
④茎叶图;
⑤总体密度曲线.
其中可以用来表示样本数据的频率分布的有
A.2种 B.3种
C.4种 D.5种12345答案√6123455.从甲、乙两种玉米苗中各抽6株,分别测得它们的株高如图所示(单位:cm).根据数据估计
A.甲种玉米比乙种玉米不仅长得高而且长得整齐
B.乙种玉米比甲种玉米不仅长得高而且长得整齐
C.甲种玉米比乙种玉米长得高但长势没有乙整齐
D.乙种玉米比甲种玉米长得高但长势没有甲整齐解析答案解析 由题中的茎叶图可知,甲种玉米的株高集中在20 cm段,乙种玉米的株高集中在30 cm和40 cm段,则甲种玉米的平均株高小于乙种玉米的平均株高,但乙种玉米的株高较分散,故选D.√6123456.一个样本的容量为72,分成5组,已知第一、五组的频数都为8,第二、四组的频率都为 ,则第三组的频数为
A.16 B.20
C.24 D.36解析答案所以第三组的频数为72-2×8-2×16=24.√61.估计总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.
2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.2.2 用样本估计总体
2.2.1 用样本的频率分布估计总体的分布(一)
学习目标 1.体会分布的意义和作用.2.学会用频率分布表,画频率分布直方图表示样本数据.3.能通过频率分布表或频率分布直方图对数据做出总体统计.
知识点一 用样本估计总体
思考 还记得我们抽样的初衷吗?
答案 用样本去估计总体,为决策提供依据.
梳理 用样本的频率分布估计总体的分布.
知识点二 频率分布表与频率分布直方图
思考1 要做频率分布表,需要对原始数据做哪些工作?
答案 分组,频数累计,计算频数和频率.
思考2 如何决定组数与组距?
答案 若为整数,则=组数.
若不为整数,则+1=组数.
注意:[x]表示不大于x的最大整数.
思考3 同样一组数据,如果组距不同,得到的频率分布直方图也会不同吗?
答案 不同.对于同一组数据分析时,要选好组距和组数,不同的组距与组数对结果有一定的影响.
梳理 一般地,频数指某组中包含的个体数,各组频数和=样本容量;频率=,各组频率和等于1.
在频率分布直方图中,纵轴表示,数据落在各小组内的频率用小长方形的面积来表示,各小长方形的面积的总和等于1.
1.频率分布直方图中小长方形的高表示该组上的个体在样本中出现的频率与组距的比值.
( √ )
2.频率分布直方图中小长方形的面积表示该组的个体数.( × )
3.频率分布直方图中所有小长方形面积之和为1.( √ )
题型一 频率分布的理解
例1 关于频率分布直方图,下列说法正确的是( )
A.直方图中小长方形的高表示取某数的频率
B.直方图中小长方形的高表示该组上的个体在样本中出现的频率
C.直方图中小长方形的高表示该组上的个体在样本中出现的频数与组距的比值
D.直方图中小长方形的高表示该组上的个体在样本中出现的频率与组距的比值
答案 D
解析 注意频率分布直方图和条形图的区别,在直方图中,纵轴(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组距上的小长方形的面积.
反思与感悟 由频率的定义不难得出,各组数据的频率之和为1,因为各组数据的个数之和为样本容量.在列频率分布表时,可以利用这种方法检查是否有数据的丢失.
跟踪训练1 一个容量为20的样本数据,将其分组如下表:
分组
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
频数
2
3
4
5
4
2
则样本在区间(-∞,50)上的频率为( )
A.0.5 B.0.25 C.0.6 D.0.7
答案 D
解析 样本在区间(-∞,50)上的频率为==0.7.
题型二 频率分布直方图的绘制
例2 某中学从高一年级随机抽取50名学生进行智力测验,其得分如下(单位:分):
48 64 52 86 71 48 64 41 86 79
71 68 82 84 68 64 62 68 81 57
90 52 74 73 56 78 47 66 55 64
56 88 69 40 73 97 68 56 67 59
70 52 79 44 55 69 62 58 32 58
根据上面的数据,回答下列问题:
(1) 这次测验成绩的最高分和最低分分别是多少?
(2)将区间[30,100]平均分成7个小区间,试列出这50名学生智力测验成绩的频率分布表,进而画出频率分布直方图;
(3)分析频率分布直方图,你能得出什么结论?
解 (1)这次测验成绩的最低分是32分,最高分是97分.
(2)根据题意,列出样本的频率分布表如下:
分组
频数
频率
[30,40)
1
0.02
[40,50)
6
0.12
[50,60)
12
0.24
[60,70)
14
0.28
[70,80)
9
0.18
[80,90)
6
0.12
[90,100]
2
0.04
合计
50
1.00
频率分布直方图如图所示.
(3)从频率分布直方图可以看出,这50名学生的智力测验成绩大体上呈两头小、中间大,左右基本对称的状态,说明这50名学生中智力特别好或特别差的占极少数,而智力一般的占多数,这是一种最常见的分布.
反思与感悟 组距和组数的确定没有固定的标准,将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.组数太多或太少,都会影响我们了解数据的分布情况.数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分成5至12组.
跟踪训练2 一个农技站为了考察某种麦穗生长的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表、绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35 cm之间的麦穗所占的百分比.
解 (1)计算极差:7.4-4.0=3.4;
(2)决定组距与组数:
若取组距为0.3,因为≈11.3,需分为12组,组数合适,所以取组距为0.3,组数为12;
(3)决定分点:
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,那么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55;
(4)列频率分布表:
分组
频数
频率
[3.95,4.25)
1
0.01
[4.25,4.55)
1
0.01
[4.55,4.85)
2
0.02
[4.85,5.15)
5
0.05
[5.15,5.45)
11
0.11
[5.45,5.75)
15
0.15
[5.75,6.05)
28
0.28
[6.05,6.35)
13
0.13
[6.35,6.65)
11
0.11
[6.65,6.95)
10
0.10
[6.95,7.25)
2
0.02
[7.25,7.55]
1
0.01
合计
100
1.00
(5)绘制频率分布直方图如图.
从表中看到,样本数据落在5.75~6.35之间的频率是0.28+0.13=0.41,于是可以估计,在这块试验田里长度在5.75~6.35 cm之间的麦穗约占41%.
题型三 频率分布表及频率分布直方图的应用
例3 从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:
组号
分组
频数
1
[0,2)
6
2
[2,4)
8
3
[4,6)
17
4
[6,8)
22
5
[8,10)
25
6
[10,12)
12
7
[12,14)
6
8
[14,16)
2
9
[16,18]
2
合计
100
(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;
(2)求频率分布直方图中的a,b的值;
(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组(只需写出结论).
解 (1)根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10(名),所以样本中的学生一周课外阅读时间少于12小时的频率是1-=0.9.故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.
(2)课外阅读时间落在[4,6)组内的有17人,频率为0.17,所以a===0.085.课外阅读时间落在[8,10)组内的有25人,频率为0.25,所以b===0.125.
(3)样本中的100名学生该周课外阅读时间的平均数在第4组.
反思与感悟 在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1.
跟踪训练3 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小矩形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率约是多少?
解 (1)频率分布直方图是以面积的形式来反映数据落在各小组内的频率大小的,
因此第二小组的频率为=0.08.
因为第二小组的频率=,
所以样本容量===150.
(2)由直方图可估计该校全体高一年级学生的达标率约为×100%=88%.
1.如图所示是一容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在[15,20]内的频数为( )
A.20 B.30 C.40 D.50
答案 B
解析 样本数据落在[15,20]内的频数为100×[1-5×(0.04+0.1)]=30.
2.已知样本数据:10,8,6,10,13,8,10,12,11,7,8,9,11,9,12,9,10,11,12,11.那么频率为0.2的是( )
A.[5.5,7.5) B.[7.5,9.5)
C.[9.5,11.5) D.[11.5,13.5]
答案 D
解析 列出频率分布表,依次对照就可以找到答案,频率分布表如下:
分组
频数
频率
[5.5,7.5)
2
0.1
[7.5,9.5)
6
0.3
[9.5,11.5)
8
0.4
[11.5,13.5]
4
0.2
合计
20
1.0
从表中可以看出频率为0.2的是[11.5,13.5],故选D.
3.如图是将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出的频率分布直方图,则此班的优秀(120分及以上为优秀)率为________.
答案 30%
解析 优秀率为10×(0.022 5+0.005+0.002 5)=0.3=30%.
4.一个频数分布表(样本容量为50)不小心被损坏了一部分,只记得样本中数据在[20,60)内的频率为0.6,则估计样本在[40,50),[50,60)内的数据个数之和是________.
答案 21
解析 根据题意,设分布在[40,50),[50,60)内的数据个数分别为x,y.
∵样本中数据在[20,60)内的频率为0.6,样本容量为50,
∴=0.6,解得x+y=21.
即样本在[40,50),[50,60)内的数据个数之和为21.
5.暑假期间某班为了增强学生的社会实践能力,把该班学生分成四个小组到一果园帮果农测量果树的产量,某小组来到一片种植苹果的山地,他们随机选取20株作为样本测量每一株的果实产量(单位:kg),获得的数据按照区间[40,45),[45,50),[50,55),[55,60]进行分组,得到如下频率分布表:
分组
[40,45)
[45,50)
[50,55)
[55,60]
合计
频率
0.3
a
0.1
b
c
已知样本中产量在区间[45,50)内的株数是产量在区间[50,60]内的株数的倍.
(1)分别求出a,b,c的值;
(2)作出频率分布直方图.
解 (1)易得c=1.0.
由题意得∴a=0.4,b=0.2.
(2)根据频率分布表画出频率分布直方图,如图所示.
1.频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律,我们通常用样本的频率分布表或频率分布直方图去估计总体的分布.
2.频率分布表和频率分布直方图,是对相同数据的两种不同表达方式,用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况.通过作图既可以从数据中提取信息,又可以利用图形传递信息.
3.样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚地看到整个样本数据的频率分布情况,并由此估计总体的分布情况.
一、选择题
1.观察新生婴儿的体重(单位:g),其频率分布直方图如图所示,则新生婴儿的体重在[2 700,3 000)内的频率为( )
A.0.001 B.0.01
C.0.003 D.0.3
答案 D
解析 频率=×组距,
组距=3 000-2 700=300,=0.001,
∴频率=0.001×300=0.3.
2.容量为100的样本数据,按从小到大的顺序分为8组,如下表:
组号
1
2
3
4
5
6
7
8
频数
10
13
x
14
15
13
12
9
第三组的频数和频率分别是( )
A.14和0.14 B.0.14和14
C.和0.14 D.和
答案 A
解析 x=100-(10+13+14+15+13+12+9)=100-86=14,第三组的频率为=0.14.
3.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
答案 C
解析 志愿者的总人数为=50,
所以第三组人数为50×0.36×1=18,
有疗效的人数为18-6=12.
4.某校为了解高三学生的身体情况,抽取了100名女生的体重.将所得的数据整理后,画出了如图所示的频率分布直方图,则所抽取的女生中体重在[40,45) kg的人数是( )
A.10 B.2 C.5 D.15
答案 A
解析 由图可知频率=×组距,频率=0.02×5=0.1,∴女生体重在[40,45) kg的人数为0.1×100=10.
5.为了了解某幼儿园儿童的身高情况,抽查该园120名儿童的身高绘制成如图所示的频率分布直方图,则抽查的120名儿童身高大于或等于98 cm且小于104 cm的有( )
A.90名 B.75名 C.65名 D.40名
答案 A
解析 由图可知身高大于或等于98 cm且小于104 cm的儿童的频率为(0.1+0.15+0.125)×2=0.75,抽查的120名儿童有120×0.75=90(名)儿童的身高大于或等于98 cm且小于104 cm.
6.将容量为n的样本中的数据分成6组,绘制频率分布直方图.若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n的值为( )
A.20 B.27 C.6 D.60
答案 D
解析 ∵n·=27,
∴n=60.
7.某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )
A.588 B.480 C.450 D.120
答案 B
解析 ∵少于60分的学生人数为600×(0.05+0.15)=120,
∴不少于60分的学生人数为600-120=480.
8.对某种电子元件使用寿命进行跟踪调查,所得样本频率分布直方图如图.由图可知,这一批电子元件中寿命在100~300 h的电子元件的数量与寿命在300~600 h的电子元件的数量的比是( )
A.1∶2 B.1∶3 C.1∶4 D.1∶6
答案 C
解析 由题意,寿命在100~300 h的电子元件的频率为100×=0.2,寿命在300~600 h的电子元件的频率为100×=0.8,则寿命在100~300 h的电子元件的数量与寿命在300~600 h的电子元件的数量比大约是0.2∶0.8=1∶4.
二、填空题
9.将一个容量为n的样本分成若干组,已知甲组的频数和频率分别为36和,则容量n=________,频率为的乙组的频数是________.
答案 144 24
解析 =,所以n=36×4=144,同理=,x=24.
10.某大学对1 000名学生的自主招生水平测试成绩进行统计,得到样本频率分布直方图(如图所示),现规定不低于70分为合格,则合格人数是________.
答案 600
解析 由频率分布直方图知合格的频率为(0.035+0.015+0.01)×10=0.6,
故合格人数为1 000×0.6=600.
11.下列命题正确的是________.(填序号)
①频率分布直方图中每个小矩形的面积等于相应组的频数;
②频率分布直方图中各小矩形面积之和等于1;
③频率分布直方图中各小矩形的高(平行于纵轴的边)表示频率与组距的比.
答案 ②③
解析 在频率分布直方图中,横轴表示样本数据,纵轴表示.由于小矩形的面积=组距×=频率,所以各小矩形的面积等于相应各组的频率,因此各小矩形面积之和等于1.综上可知②③正确.
12.如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.
答案 9
解析 最左边两个矩形面积之和为0.10×1+0.12×1=0.22,总城市数为11÷0.22=50,最右面矩形面积为0.18×1=0.18,50×0.18=9.
13.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.则频率分布直方图中x的值为 __________.
答案 0.004 4
解析 ∵(0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,∴x=0.004 4.
三、解答题
14.为加强中学生实践创新能力和团队精神的培养,促进教育教学改革,某市教育局将举办全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了了解成绩情况,从中抽取50名学生的成绩(得分均为整数,满分为100分)进行统计,请你根据尚未完成的频率分布表解答问题:
分组
频数
频率
一
[60.5,70.5)
a
0.26
二
[70.5,80.5)
15
c
三
[80.5,90.5)
18
0.36
四
[90.5,100.5]
b
d
合计
50
e
(1)求a,b,c,d,e的值;
(2)作出频率分布直方图.
解 (1)根据题意,得分在[60.5,70.5)内的频数是a=50×0.26=13,在[90.5,100.5]内的频数是b=50-13-15-18=4,在[70.5,80.5)内的频率是c==0.30,在[90.5,100.5]内的频率是d==0.08,频率和e=1.
(2)根据频率分布表作出频率分布直方图,如图所示.
四、探究与拓展
15.某市共有5 000名高三学生参加联考,为了了解这些学生对数学知识的掌握情况,现从中随机抽出若干名学生在这次测试中的数学成绩,制成如下频率分布表:
分组
频数
频率
[80,90)
①
②
[90,100)
0.050
[100,110)
0.200
[110,120)
36
0.300
[120,130)
0.275
[130,140)
12
③
[140,150]
0.050
合计
④
根据上面的频率分布表,可知①处的数值为________,②处的数值为__________.
答案 3 0.025
解析 由位于[110,120)的频数为 36,频率==0.300,得样本容量n=120,所以[130,140)的频率==0.1,
②处的数值=1-0.050-0.200-0.300-0.275-0.1-0.050=0.025;①处的数值为0.025×120=3.
2.2.1 用样本的频率分布估计总体的分布(二)
学习目标 1.了解频率分布折线图和总体密度曲线的定义.2.理解茎叶图的概念,会画茎叶图.3.了解频率分布直方图、频率分布折线图、茎叶图的各自特征,学会选择不同的方法分析样本的分布,从而作出总体估计.
知识点一 频率分布折线图和总体密度曲线
1.频率分布折线图
用线段连接频率分布直方图中各个长方形上边的中点,就得到频率分布折线图.
2.总体密度曲线
在样本频率分布直方图中,随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布直方图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线,它精确地反映了一个总体在各个区域内取值的规律.
知识点二 茎叶图
思考 茎叶图是表示样本数据分布情况的一种方法,那么“茎”、“叶”分别指的是哪些数?
答案 茎叶图中,“叶”是数据的最后一个数字,其前面的数字作为“茎”.
梳理 茎叶图
(1)将所有两位数的十位数字作为茎,个位数字作为叶,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶可以按从大到小(或从小到大)的顺序同行列出(也可以没有大小顺序).
(2)茎叶图的优点与不足
①优点:一是原始数据信息在图中能够保留,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.
②不足:当样本数据较多时,茎叶图就显得不太方便.
1.频率分布折线图就是总体密度曲线.( × )
2.对于两位数的茎叶图,中间的数字表示十位数,旁边的数字表示个位数.( √ )
3.对于三位数的茎叶图,中间的数字表示百位数,旁边的数字表示十位和个位数.( × )
题型一 茎叶图及应用
例1 某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产量数据(单位:千克)如下:
品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)画出茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,得出统计结论.
解 (1)茎叶图如图.
(2)样本容量不大,画茎叶图很方便,此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息丢失,而且还可以随时记录新的数据.
(3)通过观察茎叶图可以看出:
①品种A亩产量的平均数比品种B亩产量的平均数大;
②品种A的亩产量波动比品种B的亩产量波动大,故品种A的亩产量稳定性较差.
反思与感悟 由于茎叶图较好地保留了原始数据,所以可以帮助我们分析样本数据的大致频率分布.在利用茎叶图分析数据特点时,要注意区别茎与叶.
跟踪训练1 某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
试制作茎叶图来对比描述这些数据.
解 以十位数字为茎,个位数字为叶,制作茎叶图如图:
例2 某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 64 53 76
??78 86 95 66 97 78 88 82 76 89
B地区:73 83 62 51 91 46 53 73 64 82
??93 48 65 81 74 56 54 76 65 79
根据两组数据作出两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).
解 两地区用户满意度评分的茎叶图如图:
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
反思与感悟 茎叶图可保留原始数据,还可以通过叶的疏密情形,得到样本数据的分布离散情形.
跟踪训练2 一家连锁超市拥有多个分店,为分析各个分店的销售状况,管理部门收集了A,B两个规模相近的分店50天的销售额数据(单位:万元):
A分店:
44 57 59 60 61 61 62 63 63 65
66 66 67 69 70 70 71 72 73 73
73 74 74 74 75 75 75 75 75 76
76 77 77 77 78 78 79 80 80 82
85 85 86 86 90 92 92 92 93 96
B分店:
35 39 40 44 44 48 51 52 52 54
55 56 56 57 57 57 58 59 60 61
61 62 63 64 66 68 68 70 70 71
71 73 74 74 79 81 82 83 83 84
85 90 91 91 94 95 96 100 100 100
(1)将两个分店的销售额制成茎叶图;
(2)比较两个分店销售额分布的特点.
解 (1)茎叶图如图所示:
(2)由茎叶图可以看出A分店销售额的分布比较均匀,平均销售额是74.38万元,B分店的销售额分布不太均匀,其平均销售额是68.48万元,因此A分店的销售情况比B分店的好.
题型二 茎叶图与频率分布直方图的综合应用
例3 从甲、乙两个城市所有的自动售货机中随机抽取16台,记录了上午8∶00~11∶00之间各自的销售情况(单位:元):
甲:18,8,10,43,5,30,10,22,6,27,25,58,14,18,30,41;
乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23.
试用纵坐标为频数的频数分布直方图与茎叶图的方式分别表示上面的数据,并简要说明各自的优点.
解 用频数分布直方图表示如图:
茎叶图如图,两竖线中间的数字表示甲、乙销售额的十位数,两边的数字表示甲、乙销售额的个位数.
从图中可以看出频数分布直方图能直观地反映数据分布的大致情况,并且能够清晰地表示出各个区间的具体数目;而用茎叶图表示有关数据,对数据的记录和表示都带来方便.
反思与感悟 茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录,但样本容量较大,或者需要比较三组及三组以上的数据时,使用茎叶图就不合适;而频率分布表和频率分布直方图可以处理样本容量很大的数据,但损失了样本的原始数据,而且必须在完成抽样后才能制作.
跟踪训练3 某中学举行了一次“环保知识竞赛”活动.为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的成绩(得分取正整数,满分为100分)作为样本(样本容量为n)进行统计.按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出了频率分布直方图,并作出了分数的茎叶图(图中仅列出得分在[50,60),[90,100]的数据),如图.
则样本容量n和频率分布直方图中x,y的值分别为( )
A.50,0.030,0.004 B.30,0.040,0.003
C.30,0.030,0.040 D.50,0.300,0.400
答案 A
解析 由题意可知,样本容量n==50,y==0.004,x=0.100-0.004-0.010-0.016-0.040=0.030.
1.如果想用统计图来反映各数据的变化趋势,比较合适的统计图是( )
A.条形图 B.折线图
C.扇形图 D.其他图形
答案 B
解析 能反映各数据的变化趋势的统计图是折线图.
2.在用样本频率分布估计总体分布的过程中,下列说法正确的是( )
A.总体容量越大,估计越精确
B.总体容量越小,估计越精确
C.样本容量越大,估计越精确
D.样本容量越小,估计越精确
答案 C
3.如图是总体密度曲线,下列说法正确的是( )
A.组距越大,频率分布折线图越接近于它
B.样本容量越小,频率分布折线图越接近于它
C.阴影部分的面积代表总体在(a,b)内取值的百分比
D.阴影部分的平均高度代表总体在(a,b)内取值的百分比
答案 C
4.对一个未知总体,下列方法:
①频率分布直方图;②频率分布表;③频率分布折线图;④茎叶图;⑤总体密度曲线.
其中可以用来表示样本数据的频率分布的有( )
A.2种 B.3种
C.4种 D.5种
答案 C
5.从甲、乙两种玉米苗中各抽6株,分别测得它们的株高如图所示(单位:cm).根据数据估计( )
A.甲种玉米比乙种玉米不仅长得高而且长得整齐
B.乙种玉米比甲种玉米不仅长得高而且长得整齐
C.甲种玉米比乙种玉米长得高但长势没有乙整齐
D.乙种玉米比甲种玉米长得高但长势没有甲整齐
答案 D
解析 由题中的茎叶图可知,甲种玉米的株高集中在20 cm段,乙种玉米的株高集中在30 cm和40 cm段,则甲种玉米的平均株高小于乙种玉米的平均株高,但乙种玉米的株高较分散,故选D.
6.一个样本的容量为72,分成5组,已知第一、五组的频数都为8,第二、四组的频率都为,则第三组的频数为( )
A.16 B.20 C.24 D.36
答案 C
解析 因为频率=,所以第二、四组的频数都为72×=16.所以第三组的频数为72-2×8-2×16=24.
1.估计总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.
2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.
一、选择题
1.当样本数据增加时,下列说法正确的是( )
A.频率分布表不会变化
B.茎叶图不会变化
C.频率折线图不会变化
D.频率分布直方图变化不太大
答案 D
2.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为( )
A.0.2 B.0.4 C.0.5 D.0.6
答案 B
解析 依据茎叶图,在区间[22,30)内频数为4,样本容量为10,故对应的频率为==0.4,故选B.
3.甲、乙两名同学12次考试中数学成绩的茎叶图如图所示,则下列说法正确的是( )
A.甲同学比乙同学发挥稳定,且平均成绩也比乙同学高
B.甲同学比乙同学发挥稳定,但平均成绩比乙同学低
C.乙同学比甲同学发挥稳定,且平均成绩也比甲同学高
D.乙同学比甲同学发挥稳定,但平均成绩比甲同学低
答案 C
解析 由茎叶图的性质可知乙同学比甲同学发挥稳定,且平均成绩比甲同学高.
4.某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是( )
答案 A
解析 由于频率分布直方图的组距为5,去掉C,D,又[0,5),[5,10)两组各一人,去掉B,应选A.
5.如图是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知( )
A.甲运动员的成绩好于乙运动员
B.乙运动员的成绩好于甲运动员
C.甲、乙两名运动员的成绩没有明显的差异
D.甲运动员的最低得分为0分
答案 A
解析 从茎叶图上看,由于甲运动员的成绩多数集中在31以上,而乙运动员的成绩集中在12到29之间,所以甲运动员成绩较好.
6.关于样本频率分布折线图与总体密度曲线的关系,下列说法中正确的是( )
A.频率分布折线图与总体密度曲线无关
B.频率分布折线图就是总体密度曲线
C.样本容量很大的频率分布折线图就是总体密度曲线
D.如果样本容量无限增大,分组的组距无限减小,那么频率分布折线图就会无限接近于总体密度曲线
答案 D
解析 总体密度曲线通常都是用样本频率分布估计出来的.如果样本容量无限增大,分组的组距无限缩小,那么频率分布折线图就会无限接近于一条光滑曲线,这条曲线就是总体密度曲线.
7.给出如图所示的三幅统计图及四个命题:
①从折线统计图能看出世界人口的变化情况;
②2050年非洲人口将达到大约15亿;
③2050年亚洲人口比其他各洲人口的总和还要多;
④从1957年到2050年各洲中北美洲人口增长速度最慢.
其中命题正确的有( )
A.①② B.①③
C.①④ D.②④
答案 B
解析 ①从折线统计图能看出世界人口的变化情况,故①正确;②从条形统计图中可得:2050年非洲人口大约将达到18亿,故②错误;③从扇形统计图中能够明显地得到结论:2050年亚洲人口比其他各洲人口的总和还要多,故③正确;④由题中三幅统计图并不能得出从1957年到2050年中哪个洲人口增长速度最慢,故④错误.因此正确的命题有①③.故选B.
二、填空题
8.从甲、乙两个班中各随机选出15名同学进行随堂测验,成绩的茎叶图如图所示,则甲、乙两班的最高成绩分别是______,______.从图中看,________班的平均成绩较高.
答案 96 92 乙
解析 由茎叶图可知,甲班的最高分是96,乙班的最高分是92.甲班的成绩集中在(60,80)内,乙班的成绩集中在(70,90)内,故乙班的平均成绩较高.
9.为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.
答案 24
解析 由频率分布直方图可得树木底部周长小于100 cm的频率是(0.025+0.015)×10=0.4,又样本容量是60,所以频数是0.4×60=24.
10.随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.
根据茎叶图判断________班的平均身高较高.
答案 乙
解析 由茎叶图可知:甲班身高集中于160~179之间,而乙班身高集中于170~180之间.因此乙班平均身高高于甲班.
11.为了了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校200名授课教师中抽取20名教师,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图(如图)表示,据此可估计该校上学期200名教师中,使用多媒体进行教学的次数在[15,25)内的人数为________.
答案 60
解析 由茎叶图,知抽取的20名教师中使用多媒体进行教学的次数在[15,25)内的人数为6,频率为,故200名教师中使用多媒体进行教学的次数在[15,25)内的人数为×200=60.
三、解答题
12.某市对2016年11月5日—2016年12月4日的空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,
95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.
(1)完成频率分布表;
(2)作出频率分布直方图;
(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.
请你依据所给数据和上述标准,对该市的空气质量给出一个简短评价.
解 (1)频率分布表.
分组
频数
频率
[41,51)
2
[51,61)
1
[61,71)
4
[71,81)
6
[81,91)
10
[91,101)
5
[101,111]
2
(2)频率分布直方图如图所示.
(3)答对下述两条中的一条即可:
①该市一个月中空气污染指数有2天处于优的水平,占当月天数的;有26天处于良的水平,占当月天数的;处于优或良的天数为28,占当月天数的.说明该市空气质量基本良好.
②轻微污染有2天,占当月天数的;污染指数在80以上的接近轻微污染的天数为15,加上处于轻微污染的天数2,占当月天数的,超过50%.说明该市空气质量有待进一步改善.
13.有一容量为200的样本,数据的分组以及各组的频数如下:
[-20,-15),7;[-15,-10),11;[-10,-5),15;[-5,0),40;[0,5),49;[5,10),41;[10,15),20;[15,20],17.
(1)列出样本的频率分布表;
(2)画出频率分布直方图和折线图;
(3)求样本数据不足0的频率.
解 (1)频率分布表如下:
分组
频数
频率
[-20,-15)
7
0.035
[-15,-10)
11
0.055
[-10,-5)
15
0.075
[-5,0)
40
0.2
[0,5)
49
0.245
[5,10)
41
0.205
[10,15)
20
0.1
[15,20]
17
0.085
合计
200
1
(2)频率分布直方图和折线图如图所示.
(3)样本数据不足0的频率为0.035+0.055+0.075+0.2=0.365.
2.2.2 用样本的数字特征估计总体的数字特征
学习目标 1.能合理地选取样本,并从中提取基本的数字特征.2.了解众数、中位数、平均数的概念,会计算方差和标准差.3.进一步体会用样本估计总体的思想,会用样本的数字特征估计总体的数字特征.
知识点一 众数、中位数、平均数
思考1 平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?
答案 平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,但它的缺点是平均数受数据中极端值的影响较大.
思考2 在电视大奖赛中,计算评委打分的平均值时,为什么要去掉一个最高分和一个最低分?
答案 为了避免平均值受数据中个别极端值的影响,增大它在估计总体时的可靠性,故计算评委打分时要去掉一个最高分和一个最低分.
梳理 众数、中位数、平均数定义
(1)众数:一组数据中出现次数最多的数.
(2)中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.
(3)平均数:如果n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.
知识点二 方差、标准差
思考1 当样本数据的标准差为0时,该组数据有何特点?
答案 当样本数据的标准差为0时,该组数据都相等.
思考2 标准差、方差的意义是什么?
答案 标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.
梳理 标准差、方差的概念及计算公式
(1)标准差是样本数据到平均数的一种平均距离,一般用s表示.s= (xn是样本数据,n是样本容量,是样本平均数).
(2)标准差的平方s2叫做方差.
s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数).
(3)标准差(或方差)越小,数据越稳定在平均数附近.s=0时,每一组样本数据均为.
知识拓展:平均数、方差公式的推广:
1.若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
2.设数据x1,x2,…,xn的平均数为,方差为s2,则
a.s2=[(x+x+…+x)-n2];
b.数据x1+a,x2+a,…,xn+a的方差也为s2;
c.数据ax1,ax2,…,axn的方差为a2s2.
知识点三 用样本的基本数字特征估计总体的基本数字特征
1.样本的基本数字特征包括众数、中位数、平均数、标准差.
2.平均数向我们提供了样本数据的重要信息,但是平均数有时也会使我们作出对总体的片面判断,因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,还需要用标准差来反映数据的分散程度.
3.现实中的总体所包含的个体数往往是很多的,虽然总体的平均数与标准差客观存在,但是我们无从知道.所以通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.虽然样本具有随机性,不同的样本测得的数据不一样,与总体的数字特征也可能不同,但只要样本的代表性好,这样做就是合理的,也是可以接受的.
1.中位数是一组数据中间的数.( × )
2.众数是一组数据中出现次数最多的数.( √ )
3.一组数据的标准差越小,数据越稳定,且稳定在平均数附近.( √ )
题型一 众数、中位数和平均数的理解与应用
例1 某公司的33名职工的月工资(单位:元)如下表:
职业
董事长
副董事长
董事
总经理
经理
管理员
职员
人数
1
1
2
1
5
3
20
工资
5 500
5 000
3 500
3 000
2 500
2 000
1 500
(1)求该公司职工月工资的平均数;
(2)若董事长、副董事长的工资分别从5 500元、5 000元提升到30 000元、20 000元,那么公司职工月工资新的平均数又是什么?
解 (1)公司职工月工资的平均数为
=
=≈2 091(元).
(2)若董事长、副董事长的工资提升后,职工月工资的平均数为
=
=≈3 288(元).
反思与感悟 (1)众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
(2)众数考查各个数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中部分数据多次重复出现时,众数往往更能反映问题.
(3)中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能在所给的数据中,也可能不在所给的数据中.
(4)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动.
(5)因为平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数不具有的性质,也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于全体样本数据的信息.但平均数受数据的极端值的影响较大,使平均数在估计总体时可靠性降低.
跟踪训练1 对于数据3,3,2,3,6,3,10,3,6,3,2,有下列结论:
①这组数据的众数是3;
②这组数据的众数与中位数的数值不相等;
③这组数据的中位数与平均数的数值相等;
④这组数据的平均数与众数的数值相等.
其中正确结论的个数为( )
A.1 B.2 C.3 D.4
答案 A
解析 在这11个数中,数3出现了6次,频率最高,故众数是3;将这11个数按从小到大的顺序排列得2,2,3,3,3,3,3,3,6,6,10,中间数据是3,故中位数是3;而平均数==4.故只有①正确.
命题角度2 用频率分布直方图估算众数、中位数、平均数
例2 已知一组数据:
125 121 123 125 127 129 125 128 130 129
126 124 125 127 126 122 124 125 126 128
(1)填写下面的频率分布表:
分组
频数
频率
[121,123)
[123,125)
[125,127)
[127,129)
[129,131]
合计
(2)作出频率分布直方图;
(3)根据频率分布直方图或频率分布表求这组数据的众数、中位数和平均数.
解 (1)频率分布表如下:
分组
频数
频率
[121,123)
2
0.10
[123,125)
3
0.15
[125,127)
8
0.40
[127,129)
4
0.20
[129,131]
3
0.15
合计
20
1.00
(2)频率分布直方图如下:
(3)在[125,127)中的数据最多,取这个区间的中点值作为众数的近似值,得众数126,事实上,众数的精确值为125.图中虚线对应的数据是125+2×=126.25,事实上中位数为125.5.使用“组中值”求平均数:=122×0.1+124×0.15+126×0.4+128×0.2+130×0.15=126.3,
平均数的精确值为=125.75.
反思与感悟 (1)利用频率分布直方图估计数字特征:
①众数是最高的矩形的底边中点的横坐标;
②中位数左右两侧直方图的面积相等;
③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(2)利用直方图求众数、中位数、平均数均为估计值,与实际数据可能不一致.
跟踪训练2 一批乒乓球,随机抽取100个进行检查,球的直径频率分布直方图如图.试估计这个样本的众数、中位数和平均数.
解 众数==40;
四个矩形的面积分别是0.02×5=0.1, 0.02×10=0.2, 0.02×25=0.5, 0.02×10=0.2.中位数为39.99+=39.998;平均数为39.96×0.1+39.98×0.2+40×0.5+40.02×0.2=39.996.
题型二 标准差、方差的应用
例3 计算数据89,93,88,91,94,90,88,87的方差和标准差(标准差结果精确到0.1).
解 ①=90+[(-1)+3+(-2)+1+4+0+(-2)+(-3)]=90+×0=90;
②计算xi-(i=1,2,…,8),得各数据为-1,3,-2,1,4,0,-2,-3;
③计算(xi-)2(i=1,2,…,8),得各数据为1,9,4,1,16,0,4,9;
④计算方差:s2=(1+9+4+1+16+0+4+9)==5.5;
⑤计算标准差:s=≈2.3.
所以这组数据的方差为5.5,标准差约为2.3.
反思与感悟 (1)方差和标准差都是用来描述一组数据波动情况的特征数,常用来比较两组数据的波动大小.
(2)样本标准差反映了各样本数据围绕样本平均数波动的大小,标准差越小,表明各样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的两边越分散.
(3)若样本数据都相等,则s=0.
(4)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度是由标准差来衡量的.
跟踪训练3 甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.
(1)分别求出两人得分的平均数与方差;
(2)根据图和(1)中算得的结果,对两人的训练成绩作出评价.
解 (1)由题图可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.
甲==13,
乙==13,
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(2)由s>s可知乙的成绩较稳定.
从折线图来看,甲的成绩基本上呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩无明显提高.
1.某市2017年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是( )
A.19 B.20
C.21.5 D.23
答案 B
解析 由茎叶图知,平均气温在20℃以下的有5个月,在20℃以上的也有5个月,恰好是20℃的有2个月,由中位数的定义知,这组数据的中位数为20.故选B.
2.设样本数据x1,x2,…,x10的平均数和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的平均数和方差分别为( )
A.1+a,4 B.1+a,4+a
C.1,4 D.1,4+a
答案 A
解析 ∵x1,x2,…,x10的平均数=1,方差s=4,
且yi=xi+a(i=1,2,…,10),
∴y1,y2,…,y10的平均数=·(y1+y2+…+y10)=·(x1+x2+…+x10+10a)=·(x1+x2+…+x10)+a=+a=1+a,其方差s=·[(y1-)2+(y2-)2+…+(y10-)2]=[(x1-1)2+(x2-1)2+…+(x10-1)2]=s=4.故选A.
3.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.
答案 6
解析 由已知得,所求平均数为=6.
4.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为________.
答案 16
解析 设样本数据x1,x2,…,x10的标准差为s,则s=8,可知数据2x1-1,2x2-1,…,2x10-1的标准差为2s=16.
5.某校医务室抽查了高一10位同学的体重(单位:kg)如下:
74,71,72,68,76,73,67,70,65,74.
(1)求这10个学生体重数据的平均数、中位数、方差、标准差;
(2)估计高一所有学生体重数据的平均数、中位数、方差、标准差.
解 (1)这10个学生体重数据的平均数为=×(74+71+72+68+76+73+67+70+65+74)=71.
这10个学生体重数据从小到大依次为65,67,68,70,71,72,73,74,74,76,位于中间的两个数是71,72,
∴这10个学生体重数据的中位数为=71.5.
这10个学生体重数据的方差为
s2=×[(74-71)2+(71-71)2+(72-71)2+(68-71)2+(76-71)2+(73-71)2+(67-71)2+(70-71)2+(65-71)2+(74-71)2]=11,
这10个学生体重数据的标准差为s==.
(2)由样本估计总体得高一所有学生体重数据的平均数为71,中位数为71.5,方差为11,标准差为.
1.利用直方图求数字特征:①众数是最高的矩形的底边的中点.②中位数左右两边直方图的面积应相等.③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
3.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
一、选择题
1.某学习小组在一次数学测验中,得100分的有1人,得95分的有1人,得90分的有2人,得85分的有4人,得80分和75分的各1人,则该小组数学成绩的平均数,众数,中位数分别为( )
A.85分,85分,85分 B.87分,85分,86分
C.87分,85分,85分 D.87分,85分,90分
答案 C
解析 平均数为=87,众数为85,中位数为85,故选C.
2.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c B.b>c>a C.c>a>b D.c>b>a
答案 D
解析 由已知得a=×(15+17+14+10+15+17+17+16+14+12)=14.7,
b=×(15+15)=15,c=17,∴c>b>a.故选D.
3.样本a,3,5,7的平均数是b,且a,b是方程x2-5x+4=0的两根,则这个样本的方差是( )
A.3 B.4 C.5 D.6
答案 C
解析 x2-5x+4=0的两根是1,4.
当a=1时,a,3,5,7的平均数是4;
当a=4时,a,3,5,7的平均数不是1.
∴a=1,b=4,则方差s2=×[(1-4)2+(3-4)2+(5-4)2+(7-4)2]=5.
4.如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )
A.2,5 B.5,5 C.5,8 D.8,8
答案 C
解析 由茎叶图及已知得x=5,又乙组数据的平均数为16.8,即=16.8,解得y=8,选C.
5.某高三学生在连续五次月考中的数学成绩为(单位:分):90,90,93,94,93,则该学生在这五次月考中数学成绩数据的平均数和方差分别为( )
A.92,2.8 B.92,2
C.93,2 D.93,2.8
答案 A
解析 该学生在这五次月考中数学成绩数据的平均数为
=×(90+90+93+94+93)=92,
方差为s2=×[(90-92)2+(90-92)2+(93-92)2+(94-92)2+(93-92)2]=2.8.故选A.
6.高三学生李丽在一年的五次数学模拟考试中的成绩为(单位:分):x,y,105,109,110.已知该同学五次数学成绩数据的平均数为108,方差为35.2,则|x-y|的值为( )
A.15 B.16 C.17 D.18
答案 D
解析 由题意得,=108,①
=35.2,②
由①②解得或所以|x-y|=18.故选D.
7.某省农科所经过5年对甲、乙两棉种的实验研究,将连续5年棉花产量(千克/亩)的统计数据用茎叶图表示,如图所示,则平均产量较高与产量较稳定的分别是( )
A.甲棉种;甲棉种 B.乙棉种;甲棉种
C.甲棉种;乙棉种 D.乙棉种;乙棉种
答案 C
解析 根据茎叶图的数据知,甲棉种产量为68,69,70,71,72;乙棉种产量为68,68,69,69,71.
∴甲棉种的平均值甲=×(68+69+70+71+72)=70;
乙棉种的平均值乙=×(68+68+69+69+71)=69.
甲的方差s=×[(68-70)2+(69-70)2+(70-70)2+(71-70)2+(72-70)2]=2,
乙的方差s=×[(68-69)2+(68-69)2+(69-69)2+(69-69)2+(71-69)2]=1.2.
∴甲棉种平均产量较高,乙棉种产量较稳定.故选C.
二、填空题
8.如图所示的茎叶图是甲、乙两组各5名学生的数学竞赛成绩(70分~99分),若甲、乙两组学生的平均成绩一样,则a=________;甲、乙两组学生的成绩相对稳定的是________.
答案 5 甲组
解析 由题意可知=
=89,解得a=5.因为s=×[(-14)2+(-1)2+0+92+62]=,s=×[(-13)2+(-4)2+0+92+82]=,所以s<s,故成绩相对稳定的是甲组.
9.已知一组数据x1,x2,…,x10的方差是2,且(x1-3)2+(x2-3)2+…+(x10-3)2=380,则这组数据的平均数=________.
答案 -3或9
解析 ∵数据x1,x2,…,x10的方差为2,
∴[(x1-)2+(x2-)2+…+(x10-)2]=2,
即(x1-)2+(x2-)2+…+(x10-)2=20.
又∵(x1-3)2+(x2-3)2+…+(x10-3)2=380,
∴90-102+(2-6)×10=360,
∴2-6-27=0,解得=-3或=9.
10.一组数据2,x,4,6,10的平均数是5,则此组数据的标准差是________.
答案 2
解析 ∵一组数据2,x,4,6,10的平均数是5,
∴2+x+4+6+10=5×5,解得x=3,
∴此组数据的方差s2=×[(2-5)2+(3-5)2+(4-5)2+(6-5)2+(10-5)2]=8,
∴此组数据的标准差s=2.
11.某企业三个分厂生产同一种电子产品,三个分厂的产量分布如图所示.现在用分层抽样方法从三个分厂生产的产品中共抽取100件进行使用寿命的测试,则第一分厂应抽取的件数为________;测试结果为第一、二、三分厂取出的产品的平均使用寿命分别为1 020小时,980小时,1 030小时,估计这个企业生产的产品的平均使用寿命为________小时.
答案 50 1 015
解析 由分层抽样可知,第一分厂应抽取100×50%=50(件).由样本的平均数估计总体的平均数,可知这批电子产品的平均使用寿命为1 020×50%+980×20%+1 030×30%=1 015(小时).
三、解答题
12.从甲、乙两班某项测试成绩中各随机抽取5名同学的成绩,得到如图所示的茎叶图.已知甲班成绩数据的中位数为13,乙班成绩数据的平均数为16.
(1)求x,y的值;
(2)试估计甲、乙两班在该项测试中整体水平的高低.
(注:方差s2=[(x1-)2+(x2-)2+…+(xn-)2],其中为x1,x2,…,xn的平均数)
解 (1)由茎叶图知甲班成绩数据依次为9,12,10+x,20,26,所以中位数为10+x=13,得x=3;乙班成绩数据的平均数乙=(9+15+10+y+18+20)=16,
得y=8.
(2)乙班整体水平较高.
理由:由题意及(1)得甲=×(9+12+13+20+26)=16,
s=×[(9-16)2+(12-16)2+(13-16)2+(20-16)2+(26-16)2]=38,乙=16,
s=×[(9-16)2+(15-16)2+(18-16)2+(18-16)2+(20-16)2]==14.8.
因为s>s,所以乙班的整体水平较高.
13.某工厂36名工人的年龄数据如表所示.
(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;
(2)计算(1)中样本的平均数和方差s2;
(3)36名工人中年龄在-s与+s之间的有多少人?所占的百分比是多少(精确到0.01%)?
解 (1)由系统抽样,将36名工人分为9组(4人一组),每组抽取一名工人.因为在第一分段里抽到的是年龄为44的工人,即编号为2的工人,故所抽样本的年龄数据为44,40,36,43,36,37,44,43,37.
(2)平均数==40;
方差s2=×[(44-40)2+(40-40)2+(36-40)2+(43-40)2+(36-40)2+(37-40)2+(44-40)2+(43-40)2+(37-40)2]=.
(3)由(2)可知s=.由题意,年龄在内的工人共有23人,所占的百分比为×100%≈63.89%.
14.从某企业生产的某种产品中随机抽取100件,测量这些产品的某项质量指标,由测量结果得到如下频数分布表:
质量指标值分组
[75,85)
[85,95)
[95,105)
[105,115)
[115,125]
频数
6
26
38
22
8
(1)在图中作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
解 (1)频率分布直方图如图:
(2)质量指标值的样本平均数为80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
课件40张PPT。2.2.2 用样本的数字特征估计总体的数字特征第二章 2.2 用样本估计总体学习目标
1.能合理地选取样本,并从中提取基本的数字特征.
2.了解众数、中位数、平均数的概念,会计算方差和标准差.
3.进一步体会用样本估计总体的思想,会用样本的数字特征估计总体的数字特征.问题导学达标检测题型探究内容索引问题导学知识点一 众数、中位数、平均数思考1 平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?
思考2 在电视大奖赛中,计算评委打分的平均值时,为什么要去掉一个最高分和一个最低分? 答案 平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,但它的缺点是平均数受数据中极端值的影响较大.
答案 为了避免平均值受数据中个别极端值的影响,增大它在估计总体时的可靠性,故计算评委打分时要去掉一个最高分和一个最低分. 梳理 众数、中位数、平均数定义
(1)众数:一组数据中出现次数 的数.
(2)中位数:把一组数据按 的顺序排列,处在 位置的数(或中间两个数的 )叫做这组数据的中位数.
(3)平均数:如果n个数x1,x2,…,xn,那么 叫做这n个数的平均数.最多从小到大(或从大到小)中间平均数知识点二 方差、标准差思考1 当样本数据的标准差为0时,该组数据有何特点?
思考2 标准差、方差的意义是什么? 答案 当样本数据的标准差为0时,该组数据都相等.
答案 标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小. 平均距离知识点三 用样本的基本数字特征估计总体的基本数字特征1.样本的基本数字特征包括 、 、 、 .
2.平均数向我们提供了样本数据的重要信息,但是平均数有时也会使我们作出对总体的片面判断,因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,还需要用标准差来反映数据的分散程度.
3.现实中的总体所包含的个体数往往是很多的,虽然总体的平均数与标准差客观存在,但是我们无从知道.所以通常的做法是用样本的平均数和标准差去估计总体的平均数与标准差.虽然样本具有 性,不同的样本测得的数据不一样,与总体的数字特征也可能不同,但只要样本的代表性好,这样做就是合理的,也是可以接受的.众数中位数平均数标准差随机[思考辨析 判断正误]
1.中位数是一组数据中间的数.( )
2.众数是一组数据中出现次数最多的数.( )
3.一组数据的标准差越小,数据越稳定,且稳定在平均数附近.( )×√√题型探究命题角度1 众数、中位数、平均数的计算
例1 某公司的33名职工的月工资(单位:元)如下表:题型一 众数、中位数和平均数的理解与应用解答(1)求该公司职工月工资的平均数;解 公司职工月工资的平均数为解答(2)若董事长、副董事长的工资分别从5 500元、5 000元提升到30 000元、20 000元,那么公司职工月工资新的平均数又是什么?解 若董事长、副董事长的工资提升后,职工月工资的平均数为反思与感悟 (1)众数、中位数与平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
(2)众数考查各个数据出现的频率,大小只与这组数据中的部分数据有关,当一组数据中部分数据多次重复出现时,众数往往更能反映问题.
(3)中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能在所给的数据中,也可能不在所给的数据中.
(4)平均数的大小与一组数据里每个数据均有关系,任何一个数据的变动都会引起平均数的变动.(5)因为平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数不具有的性质,也正因为这个原因,与众数、中位数比较起来,平均数可以反映出更多的关于全体样本数据的信息.但平均数受数据的极端值的影响较大,使平均数在估计总体时可靠性降低.跟踪训练1 对于数据3,3,2,3,6,3,10,3,6,3,2,有下列结论:
①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值相等;④这组数据的平均数与众数的数值相等.
其中正确结论的个数为
A.1 B.2 C.3 D.4答案解析√解析 在这11个数中,数3出现了6次,频率最高,故众数是3;
将这11个数按从小到大的顺序排列得2,2,3,3,3,3,3,3,6,6,10,中间数据是3,故中位数是3;命题角度2 用频率分布直方图估算众数、中位数、平均数
例2 已知一组数据:
125 121 123 125 127 129 125 128 130 129
126 124 125 127 126 122 124 125 126 128(1)填写下面的频率分布表:解答解 频率分布表如下:解答(2)作出频率分布直方图;解 频率分布直方图如下:解答(3)根据频率分布直方图或频率分布表求这组数据的众数、中位数和平均数.解 在[125,127)中的数据最多,取这个区间的中点值作为众数的近似值,得众数126,事实上,众数的精确值为125.反思与感悟 (1)利用频率分布直方图估计数字特征:
①众数是最高的矩形的底边中点的横坐标;
②中位数左右两侧直方图的面积相等;
③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(2)利用直方图求众数、中位数、平均数均为估计值,与实际数据可能不一致.跟踪训练2 一批乒乓球,随机抽取100个进行检查,球的直径频率分布直方图如图.试估计这个样本的众数、中位数和平均数.四个矩形的面积分别是0.02×5=0.1, 0.02×10=0.2, 0.02×25=0.5, 0.02×10=0.2.解答平均数为39.96×0.1+39.98×0.2+40×0.5+40.02×0.2=39.996.题型二 标准差、方差的应用例3 计算数据89,93,88,91,94,90,88,87的方差和标准差(标准差结果精确到0.1).解答所以这组数据的方差为5.5,标准差约为2.3.反思与感悟 (1)方差和标准差都是用来描述一组数据波动情况的特征数,常用来比较两组数据的波动大小.
(2)样本标准差反映了各样本数据围绕样本平均数波动的大小,标准差越小,表明各样本数据在样本平均数周围越集中;反之,标准差越大,表明各样本数据在样本平均数的两边越分散.
(3)若样本数据都相等,则s=0.
(4)当样本的平均数相等或相差无几时,就要用样本数据的离散程度来估计总体的数字特征,而样本数据的离散程度是由标准差来衡量的.跟踪训练3 甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.
(1)分别求出两人得分的平均数与方差; 解答解 由题图可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.(2)根据图和(1)中算得的结果,对两人的训练成绩作出评价.解答从折线图来看,甲的成绩基本上呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩无明显提高.达标检测答案解析1.某市2017年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是
A.19
B.20
C.21.5
D.23 12345√解析 由茎叶图知,平均气温在20℃以下的有5个月,在20℃以上的也有5个月,恰好是20℃的有2个月,由中位数的定义知,这组数据的中位数为20.故选B.答案2.设样本数据x1,x2,…,x10的平均数和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的平均数和方差分别为
A.1+a,4 B.1+a,4+a
C.1,4 D.1,4+a12345√解析12345且yi=xi+a(i=1,2,…,10),3.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为_____.12345解析答案64.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为_____.12345解析答案16解析 设样本数据x1,x2,…,x10的标准差为s,
则s=8,可知数据2x1-1,2x2-1,…,2x10-1的标准差为2s=16.解答123455.某校医务室抽查了高一10位同学的体重(单位:kg)如下:
74,71,72,68,76,73,67,70,65,74.
(1)求这10个学生体重数据的平均数、中位数、方差、标准差;这10个学生体重数据从小到大依次为65,67,68,70,71,72,73,74,74,76,位于中间的两个数是71,72,1234512345解答(2)估计高一所有学生体重数据的平均数、中位数、方差、标准差.1.利用直方图求数字特征:①众数是最高的矩形的底边的中点.②中位数左右两边直方图的面积应相等.③平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
3.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.2.3 变量的相关性
学习目标 1.了解变量间的相关关系,会画散点图.2.根据散点图,能判断两个变量是否具有相关关系.3.了解线性回归思想,会求回归直线的方程.
知识点一 变量间的相关关系
思考1 粮食产量与施肥量间的相关关系是正相关还是负相关?
答案 在施肥不过量的情况下,施肥越多,粮食产量越高,所以是正相关.
思考2 怎样判断一组数据是否具有线性相关关系?
答案 画出散点图,若点大致分布在一条直线附近,就说明这两个变量具有线性相关关系,否则不具有线性相关关系.
梳理
1.相关关系的定义
变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.
2.散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.
3.正相关与负相关
(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.
知识点二 两个变量的线性相关
思考 任何一组数据都可以由最小二乘法得出回归直线方程吗?
答案 用最小二乘法求回归直线方程的前提是先判断所给数据是否具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程是无意义的.
梳理 回归直线方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归直线方程:回归直线对应的方程叫做回归直线方程.
(3)最小二乘法:
求回归直线方程=x+时,使得样本数据的点到回归直线的离差平方和最小的方法叫做最小二乘法.
其中,是回归直线方程的斜率,是回归直线方程在y轴上的截距.
1.人的身高与年龄之间的关系是相关关系.( × )
2.农作物的产量与施肥量之间的关系是相关关系.( √ )
3.回归直线过样本点中心(,).( √ )
题型一 变量间相关关系的判断
例1 下列两个变量之间是相关关系的是( )
A.圆的面积与半径之间的关系
B.球的体积与半径之间的关系
C.角度与它的正弦值之间的关系
D.降雪量与交通事故的发生率之间的关系
答案 D
解析 由题意知A表示圆的面积与半径之间的关系S=πr2,B表示球的体积与半径之间的关系V=,C表示角度与它的正弦值之间的关系y=sin α,都是确定的函数关系,只有D是相关关系,故选D.
反思与感悟 函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
跟踪训练1 下列两个变量间的关系不是函数关系的是( )
A.正方体的棱长与体积
B.角的度数与它的正切值
C.单产为常数时,土地面积与粮食总产量
D.日照时间与水稻的单位产量
答案 D
解析 函数关系与相关关系都是指两个变量之间的关系,但是这两种关系是不同的,函数关系是指当自变量一定时,函数值是确定的,是一种确定性的关系.因为A项V=a3,B项y=tan α,C项y=ax(a>0,且a为常数),所以这三项均是函数关系.D项是相关关系.
题型二 散点图的应用
例2 5名学生的数学和物理成绩(单位:分)如下:
学生
成绩
A
B
C
D
E
数学成绩
80
75
70
65
60
物理成绩
70
66
68
64
62
判断它们是否具有线性相关关系.
解 以x轴表示数学成绩,y轴表示物理成绩,得相应的散点图如图所示.
由散点图可知,各点分布在一条直线附近,故两者之间具有线性相关关系.
反思与感悟 (1)判断两个变量x和y间具有哪种相关关系,最简便的方法是绘制散点图.变量之间可能是线性的,也可能是非线性的(如二次函数),还可能不相关.
(2)画散点图时应注意合理选择单位长度,避免图形偏大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.
跟踪训练2 下列图形中两个变量具有线性相关关系的是( )
答案 C
解析 A是一种函数关系;B也是一种函数关系;C中从散点图中可看出所有点看上去都在某条直线附近波动,具有相关关系,而且是一种线性相关;D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.
题型三 回归直线的求解与应用
例3 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:
转速x(转/秒)
16
14
12
8
每小时生产有缺点的零件数y(件)
11
9
8
5
(1)画出散点图;
(2)如果y对x有线性相关关系,请画出一条直线近似地表示这种线性关系;
(3)在实际生产中,若它们的近似方程为y=x-,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?
解 (1)散点图如图所示:
(2)近似直线如图所示:
(3)由y≤10得x-≤10,解得x≤14.9,所以机器的运转速度应控制在14转/秒内.
引申探究
1.本例中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少?
解 因为y=x-,所以当x增加一个单位时,y大约增加.
2.本例中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速.
解 因为y=x-,所以当y=7时,7=x-,
解得x≈11.
反思与感悟 求回归直线方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.
(3)把数据制成表格xi,yi,x,xiyi.
(4)计算,,,iyi.
(5)代入公式计算,,公式为
(6)写出回归直线方程=x+.
跟踪训练3 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
60
50
70
(1)画出散点图;
(2)求回归直线方程.
解 (1)散点图如图所示.
(2)列出下表,并用科学计算器进行有关计算.
i
1
2
3
4
5
xi
2
4
5
6
8
yi
30
40
60
50
70
xiyi
60
160
300
300
560
x
4
16
25
36
64
=5,=50,=145,iyi=1 380
于是可得,===6.5,
=-=50-6.5×5=17.5.
于是所求的回归直线方程是=6.5x+17.5.
1.设有一个回归直线方程为=2-1.5x,则变量x增加1个单位时,y平均( )
A.增加1.5个单位 B.增加2个单位
C.减少1.5个单位 D.减少2个单位
答案 C
2.工人工资y(元)与劳动生产率x(千元)的相关关系的回归直线方程为=50+80x,下列判断正确的是( )
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元
答案 B
解析 因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归直线方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
答案 D
解析 当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79 kg.
4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则回归直线方程是________.
答案 =1.23x+0.08
解析 回归直线的斜率的估计值为1.23,
即=1.23,
又回归直线过定点(4,5),
∴=5-1.23×4=0.08,
∴=1.23x+0.08.
5.某地区近10年居民的年收入x与年支出y之间的关系大致符合=0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元.
答案 12.1
解析 将x=15代入=0.8x+0.1,得=12.1.
1.判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.根据散点图,可以很容易看出两个变量是否具有相关关系,是不是线性相关,是正相关还是负相关.
2.求回归直线方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
(2)用公式计算,的值时,要先计算,然后才能算出.
3.利用回归直线方程,我们可以进行估计和预测.例如,若回归直线方程为=x+,则x=x0处的估计值为0=x0+ .
一、选择题
1.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是( )
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
答案 A
解析 x的系数为负数,表示负相关,排除B,D,由实际意义可知x>0,y>0,C中,散点图在第四象限无意义,故选A.
2.对变量x,y有观测数据(xi,yi)(i=1,2,3,…,10),得散点图1;对变量u,v有观测数据(ui,vi)(i=1,2,3,…,10),得散点图2,由这两个散点图可以断定( )
A.x与y正相关,u与v正相关
B.x与y正相关,u与v负相关
C.x与y负相关,u与v正相关
D.x与y负相关,u与v负相关
答案 C
解析 由图1可知,点散布在从左上角到右下角的区域,各点整体呈递减趋势,故x与y负相关;
由图2可知,点散布在从左下角到右上角的区域,各点整体呈递增趋势,故u与v正相关.
3.已知x与y之间的一组数据:
x
0
1
2
3
y
m
3
5.5
7
已求得关于y与x的回归直线方程为=2.2x+0.7,则m的值为( )
A.1 B.0.85 C.0.7 D.0.5
答案 D
解析 ==1.5,=,将其代入=2.2x+0.7,可得m=0.5,故选D.
4.根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归直线方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
答案 B
解析 画出散点图,知>0,<0.
5.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的回归直线方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
答案 A
解析 由变量x与y正相关知C,D均错,又回归直线经过样本点的中心(3,3.5),代入验证得A正确,B错误.
故选A.
6.已知x与y之间的一组数据:
x
0
1
2
3
y
1
3
5
7
若y与x线性相关,则y与x的回归直线=x+必过( )
A.点(2,2) B.点(1.5,0) C.点(1,2) D.点(1.5,4)
答案 D
解析 ∵==1.5,==4,
∴回归直线必过点(1.5,4).故选D.
7.已知x,y的取值如表所示:
x
2
3
4
y
6
4
5
如果y与x线性相关,且回归直线方程为=x+,则等于( )
A.- B. C.- D.
答案 A
解析 ∵==3,==5,
∴回归直线过点(3,5),
∴5=3+,
∴=-,故选A.
8.某产品的广告费用x(单位:万元)与销售额y(单位:万元)的统计数据如下表:
广告费用x
4
2
3
5
销售额y
49
26
39
54
根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( )
A.63.6万元 B.65.5万元
C.67.7万元 D.72.0万元
答案 B
解析 ==3.5,==42.因为回归直线过点(,),所以42=9.4×3.5+,解得=9.1.故回归方程为=9.4x+9.1.所以当x=6时,=6×9.4+9.1=65.5.
二、填空题
9.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的数据,计算得回归直线方程为=0.85x-0.25.由以上信息,可得表中c的值为________.
天数x
3
4
5
6
7
繁殖数量y(千个)
2.5
3
4
4.5
c
答案 6
解析 ==5,
==,
代入回归直线方程中得=0.85×5-0.25,
解得c=6.
10.如图所示的五组数据(x,y)中,去掉________后,剩下的四组数据相关性增强.
答案 (4,10)
解析 去掉点(4,10)后,其余四点大致在一条直线附近,相关性增强.
11.在一次试验中测得(x,y)的四组数据如下:
x
16
17
18
19
y
50
34
41
31
根据上表可得回归直线方程=-5x+,据此模型预报当x=20时,y的值为________.
答案 26.5
解析 ==17.5,==39,
∴回归直线过点(17.5,39),
∴39=-5×17.5+,∴=126.5,
∴当x=20时,y=-5×20+126.5=26.5.
12.某工厂对某产品的产量与成本的资料分析后有如下数据:
产量x(千件)
2
3
5
6
成本y(万元)
7
8
9
12
由表中数据得到的回归直线方程=x+中=1.1,预测当产量为9千件时,成本约为________万元.
答案 14.5
解析 由表中数据得=4,=9,
代入回归直线方程得=4.6,
∴当x=9时,=1.1×9+4.6=14.5.
三、解答题
13.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
第x年
1
2
3
4
5
需求量y(万吨)
3
6
5
7
8
(1)利用所给数据求两变量之间的回归直线方程=x+;
(2)利用(1)中所求出的回归直线方程预测该地第6年的粮食需求量.
解 (1)由所给数据得=3,=5.8,
==1.1,=-=2.5,
∴=1.1x+2.5.故所求的回归直线方程为=1.1x+2.5.
(2)第6年的粮食需求量约为=1.1×6+2.5=9.1(万吨).
14.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得i=80,i=20,iyi=184,=720.
(1)求家庭月储蓄y(千元)关于月收入x(千元)的回归直线方程;
(2)若该居民区某家庭的月收入为7千元,预测该家庭的月储蓄.
解 (1)由题意知n=10,=i=×80=8,
=i=×20=2,
又-n2=720-10×82=80,
iyi-n =184-10×8×2=24,
由此得==0.3,=-=2-0.3×8=-0.4,
故所求回归直线方程为=0.3x-0.4.
(2)将x=7代入回归直线方程,可以得到该家庭的月储蓄约为=0.3×7-0.4=1.7(千元).
课件38张PPT。2.3 变量的相关性第二章 统 计学习目标
1.了解变量间的相关关系,会画散点图.
2.根据散点图,能判断两个变量是否具有相关关系.
3.了解线性回归思想,会求回归直线的方程.问题导学达标检测题型探究内容索引问题导学知识点一 变量间的相关关系思考1 粮食产量与施肥量间的相关关系是正相关还是负相关?
思考2 怎样判断一组数据是否具有线性相关关系? 答案 在施肥不过量的情况下,施肥越多,粮食产量越高,所以是正相关.
答案 画出散点图,若点大致分布在一条直线附近,就说明这两个变量具有线性相关关系,否则不具有线性相关关系. 梳理
1.相关关系的定义
变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有 的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为 和 .
2.散点图
将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.随机性函数关系相关关系3.正相关与负相关
(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为 .
(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为 .正相关负相关思考 任何一组数据都可以由最小二乘法得出回归直线方程吗?知识点二 两个变量的线性相关答案 用最小二乘法求回归直线方程的前提是先判断所给数据是否具有线性相关关系(可利用散点图来判断),否则求出的回归直线方程是无意义的.梳理 回归直线方程
(1)回归直线:如果散点图中点的分布从整体上看大致在 附近,就称这两个变量之间具有 关系,这条直线叫做回归直线.
(2)回归直线方程: 对应的方程叫做回归直线方程.一条直线线性相关回归直线斜率截距[思考辨析 判断正误]
1.人的身高与年龄之间的关系是相关关系.( )
2.农作物的产量与施肥量之间的关系是相关关系.( )
3.回归直线过样本点中心( ).( )×√√题型探究例1 下列两个变量之间是相关关系的是
A.圆的面积与半径之间的关系
B.球的体积与半径之间的关系
C.角度与它的正弦值之间的关系
D.降雪量与交通事故的发生率之间的关系题型一 变量间相关关系的判断√答案解析解析 由题意知A表示圆的面积与半径之间的关系S=πr2,
B表示球的体积与半径之间的关系V= ,
C表示角度与它的正弦值之间的关系y=sin α,都是确定的函数关系,
只有D是相关关系,故选D.反思与感悟 函数关系是一种确定的关系,而相关关系是非随机变量与随机变量的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.跟踪训练1 下列两个变量间的关系不是函数关系的是
A.正方体的棱长与体积
B.角的度数与它的正切值
C.单产为常数时,土地面积与粮食总产量
D.日照时间与水稻的单位产量解析√答案解析 函数关系与相关关系都是指两个变量之间的关系,但是这两种关系是不同的,函数关系是指当自变量一定时,函数值是确定的,是一种确定性的关系.因为A项V=a3,
B项y=tan α,
C项y=ax(a>0,且a为常数),所以这三项均是函数关系.
D项是相关关系.题型二 散点图的应用解答例2 5名学生的数学和物理成绩(单位:分)如下:判断它们是否具有线性相关关系.解 以x轴表示数学成绩,y轴表示物理成绩,得相应的散点图如图所示.由散点图可知,各点分布在一条直线附近,故两者之间具有线性相关关系.反思与感悟 (1)判断两个变量x和y间具有哪种相关关系,最简便的方法是绘制散点图.变量之间可能是线性的,也可能是非线性的(如二次函数),还可能不相关.
(2)画散点图时应注意合理选择单位长度,避免图形偏大或偏小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.跟踪训练2 下列图形中两个变量具有线性相关关系的是 √解析 A是一种函数关系;
B也是一种函数关系;
C中从散点图中可看出所有点看上去都在某条直线附近波动,具有相关关系,而且是一种线性相关;
D中所有的点在散点图中没有显示任何关系,因此变量间是不相关的.答案解析例3 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:题型三 回归直线的求解与应用解答(1)画出散点图;解 散点图如图所示:(2)如果y对x有线性相关关系,请画出一条直线近似地表示这种线性关系;解答解 近似直线如图所示:(3)在实际生产中,若它们的近似方程为 ,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内?解答所以机器的运转速度应控制在14转/秒内.引申探究
1.本例中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少?解答2.本例中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速.解得x≈11.反思与感悟 求回归直线方程的一般步骤
(1)收集样本数据,设为(xi,yi)(i=1,2,…,n)(数据一般由题目给出).
(2)作出散点图,确定x,y具有线性相关关系.跟踪训练3 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:解答(1)画出散点图;解 散点图如图所示.(2)求回归直线方程.解答解 列出下表,并用科学计算器进行有关计算.达标检测1.设有一个回归直线方程为 =2-1.5x,则变量x增加1个单位时,y平均
A.增加1.5个单位 B.增加2个单位
C.减少1.5个单位 D.减少2个单位√答案12345答案解析2.工人工资y(元)与劳动生产率x(千元)的相关关系的回归直线方程为 =50+80x,下列判断正确的是
A.劳动生产率为1 000元时,工人工资为130元
B.劳动生产率提高1 000元时,工人工资平均提高80元
C.劳动生产率提高1 000元时,工人工资平均提高130元
D.当月工资为250元时,劳动生产率为2 000元√12345解析 因为回归直线的斜率为80,所以x每增加1,y平均增加80,即劳动生产率提高1 000元时,工人工资平均提高80元.3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归直线方程为 =0.85x-85.71,则下列结论中不正确的是
A.y与x具有正的线性相关关系
B.回归直线过样本点中心( )
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg12345答案解析√解析 当x=170时, =0.85×170-85.71=58.79,体重的估计值为58.79 kg.答案解析4.已知回归直线的斜率的估计值是1.23,且过定点(4,5),则回归直线方程是_______________.12345解析 回归直线的斜率的估计值为1.23,又回归直线过定点(4,5),123455.某地区近10年居民的年收入x与年支出y之间的关系大致符合 =0.8x+0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是_____亿元.答案解析12.11.判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.根据散点图,可以很容易看出两个变量是否具有相关关系,是不是线性相关,是正相关还是负相关.
2.求回归直线方程时应注意的问题
(1)知道x与y成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归直线方程也是毫无意义的,而且用其估计和预测的量也是不可信的.章末复习
学习目标 1.会根据不同的特点选择适当的抽样方法获得样本数据.2.能利用图、表对样本数据进行整理分析,用样本和样本的数字特征估计总体.3.能利用散点图对两个变量是否相关进行初步判断,能用回归直线方程进行预测.
1.抽样方法
(1)用随机数表法抽样时,对个体所编号码位数要相同,当问题所给位数不同时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.
(2)用系统抽样法时,如果总体容量N能被样本容量n整除,抽样间隔为k=;如果总体容量N不能被样本容量n整除,先用简单随机抽样剔除多余个体,抽样间隔为k=(其中K=N-多余个体数).
(3)三种抽样方法的异同点
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽到的可能性相同
从总体中逐个抽取
总体中的个体数较少
系统抽样
将总体平均分成几部分,按事先确定的规则分别在各部分中抽取
在起始部分抽样时,采用简单随机抽样
总体中的个体数较多
分层抽样
将总体分成几层,按各层个体数之比抽取
在各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
2.用样本估计总体
(1)用样本估计总体
用样本频率分布估计总体频率分布时,通常要对给定的一组数据作频率分布表与频率分布直方图.当样本只有两组数据且样本容量比较小时,用茎叶图刻画数据比较方便.
(2)样本的数字特征
样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括众数、中位数和平均数;另一类是反映样本波动大小的,包括方差及标准差.
3.变量间的相关关系
(1)两个变量之间的相关关系的研究,通常先作变量的散点图,根据散点图判断这两个变量最接近于哪种确定性关系(函数关系).
(2)求回归直线方程的步骤:
①先把数据制成表,从表中计算出,,x,xiyi;
②计算回归系数,.公式为
③写出回归直线方程=x+.
题型一 用样本的频率分布估计总体
例1 某制造商生产一批直径为40 mm的乒乓球,现随机抽样检查20个,测得每个球的直径(单位:mm,保留两位小数)如下:
40.03 40.00 39.98 40.00 39.99 40.00 39.98
40.01 39.98 39.99 40.00 39.99 39.95 40.01
40.02 39.98 40.00 39.99 40.00 39.96
(1)完成下面的频率分布表,并画出频率分布直方图;
分组
频数
频率
[39.95,39.97)
[39.97,39.99)
[39.99,40.01)
[40.01,40.03]
合计
(2)假定乒乓球的直径误差不超过0.02 mm为合格品.若这批乒乓球的总数为10 000,试根据抽样检查结果估计这批产品的合格个数.
解 (1)频率分布表如下:
分组
频数
频率
[39.95,39.97)
2
0.10
[39.97,39.99)
4
0.20
[39.99,40.01)
10
0.50
[40.01,40.03]
4
0.20
合计
20
1.00
频率分布直方图如图:
(2)∵抽样的20个产品中在[39.98,40.02]范围内的有17个,∴合格品频率为×100%=85%.
∴10 000×85%=8 500.故根据抽样检查结果,可以估计这批产品的合格个数为8 500.
反思与感悟 总体分布中相应的统计图表主要包括:频率分布表、频率分布直方图、频率分布折线图等.通过这些统计图表给出的相应统计信息可以估计总体.
跟踪训练1 为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54 C.48 D.27
答案 B
解析 [4.7,4.8)之间频率为0.32,[4.6,4.7)之间频率为1-0.62-0.05-0.11=1-0.78=0.22,
∴a=(0.22+0.32)×100=54.
题型二 用样本的数字特征估计总体的数字特征
例2 某市共有50万户居民,城市调查队按千分之一的比例进行入户调查,抽样调查的结果如表:
家庭人均月收入/元
[200,500)
[500,800)
[800,
1 100)
[1 100,
1 400)
[1 400,1 700]
合计
工作人员数
20
60
200
80
40
400
管理人员数
5
10
50
20
15
100
求:(1)工作人员家庭人均月收入的估计值1及方差的估计值s;
(2)管理人员家庭人均月收入的估计值2及方差的估计值s;
(3)总体人均月收入的估计值及总体方差的估计值s2.
解 (1)1=×(20×350+60×650+200×950+80×1 250+40×1 550)=995,
s=×[20×(350-995)2+60×(650-995)2+200×(950-995)2+80×(1 250-995)2+40×(1 550-995)2]=83 475.
(2)2=×(5×350+10×650+50×950+20×1 250+15×1 550)=1 040,
s=×[5×(350-1 040)2+10×(650-1 040)2+50×(950-1 040)2+20×(1 250-1 040)2+15×(1 550-1 040)2]=90 900.
(3)=×(25×350+70×650+250×950+100×1 250+55×1 550)=1 004,
s2=×[25×(350-1 004)2+70×(650-1 004)2+250×(950-1 004)2+100×(1 250-1 004)2+55×(1 550-1 004)2]=85 284.
反思与感悟 样本的数字特征分为两大类:一类是反映样本数据集中趋势的特征数,例如平均数;另一类是反映样本数据波动大小的特征数,例如方差和标准差.通常我们用样本的平均数和方差(标准差)来近似代替总体的平均数和方差(标准差),从而实现对总体的估计.
跟踪训练2 对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测数据如下:
甲
60
80
70
90
70
乙
80
60
70
80
75
问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?
解 甲的平均成绩为甲=74,乙的平均成绩为乙=73.所以甲的平均成绩好.
甲的方差是s=[(-14)2+62+(-4)2+162+(-4)2]=104,乙的方差是s=×[72+(-13)2+(-3)2+72+22]=56.
因为s>s,所以乙的各门功课发展较平衡.
题型三 用回归直线方程对总体进行估计
例3 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:
零件的个数x(个)
2
3
4
5
加工的时间y(小时)
2.5
3
4
4.5
(注:=,=- )
(1)在给定的坐标系中画出表中数据的散点图;
(2)求出y关于x的回归直线方程=x+,并在坐标系中画出回归直线;
(3)试预测加工10个零件需要多少小时?
解 (1)散点图如图.
(2)由表中数据得:iyi=52.5,
=3.5,=3.5,=54,
∴ =0.7,∴=1.05,
∴=0.7x+1.05,回归直线如图所示.
(3)将x=10代入回归直线方程,
得=0.7×10+1.05=8.05,
故预测加工10个零件约需要8.05小时.
反思与感悟 对两个变量进行研究,通常是先作出两个变量之间的散点图,根据散点图直观判断两个变量是否具有线性相关关系,如果具有,就可以应用最小二乘法求回归直线方程.由于样本可以反映总体,所以可以利用所求的回归直线方程,对这两个变量所确定的总体进行估计,即根据一个变量的取值,预测另一个变量的取值.
跟踪训练3 理论预测某城市2020到2024年人口总数与年份的关系如下表所示:
年份202x(年)
0
1
2
3
4
人口数y(十万)
5
7
8
11
19
(1)请画出上表数据的散点图;
(2)指出x与y是否线性相关;
(3)若x与y线性相关,请根据上表提供的数据,用最小二乘法求出y关于x的回归直线方程=x+;
(4)据此估计2025年该城市人口总数.
(参数数据:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30)
解 (1)数据的散点图如图:
(2)由散点图可知,样本点基本上分布在一条直线附近,故x与y呈线性相关.
(3)由表知=×(0+1+2+3+4)=2,=×(5+7+8+11+19)=10.
∴==3.2,=-=3.6,
∴回归直线方程为=3.2x+3.6.
(4)当x=5时,=19.6(十万)=196万.
故2025年该城市人口总数约为196万.
1.10个小球分别编有号码1,2,3,4,其中1号球4个,2号球2个,3号球3个,4号球1个,则数0.4是指1号球占总体分布的( )
A.频数 B.频率
C. D.以上都不对
答案 B
2.现有10个数,其平均数是4,且这10个数的平方和是200,那么这组数的标准差是( )
A.1 B.2
C.3 D.4
答案 B
解析 设这10个数为a1,a2,…,a10,
则有a+a+…+a=200,
且a1+a2+…+a10=40,
所以
=
==4,∴标准差为=2.
3.某班50名学生的一次数学质量测验成绩的频率分布直方图如图所示,则成绩不低于70分的学生人数是____________________________________________________.
答案 35
解析 低于70分的频率为(0.012+0.018)×10=0.3,所以不低于70分的频率为0.7,故不低于70分的人数为
50×0.7=35.
4.某农田施肥量x(单位:kg)与小麦产量y(单位:kg)之间的回归直线方程是=4x+250,则当施肥量为50 kg时,可以预测小麦的产量为________kg.
答案 450
解析 直接将x=50代入回归直线方程中,可得=4×50+250=450.
5.从某学校的800名男生中随机抽取50名测量身高,被测学生身高全部介于155 cm和195 cm之间,将测量结果按如下方式分成八组;第一组[155,160),第二组[160,165),…,第八组[190,195].如图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组的人数相同,第六组的人数为4.
(1)求第七组的频率;
(2)估计该校的800名男生的身高的中位数以及身高在180 cm以上(含180 cm)的人数.
解 (1)第六组的频率为=0.08,所以第七组的频率为1-0.08-5×(0.008×2+0.016+0.04×2+0.06)=0.06.
(2)身高在第一组[155,160)的频率为0.008×5=0.04,
身高在第二组[160,165)的频率为0.016×5=0.08,
身高在第三组[165,170)的频率为0.04×5=0.2,
身高在第四组[170,175)的频率为0.04×5=0.2,
由于0.04+0.08+0.2=0.32<0.5,0.04+0.08+0.2+0.2=0.52>0.5,
估计这所学校的800名男生的身高的中位数为m,
则170<m<175,
由0.04+0.08+0.2+(m-170)×0.04=0.5,得m=174.5,
所以可估计这所学校的800名男生的身高的中位数为174.5,
由直方图得后三组频率之和为0.06+0.08+0.008×5=0.18,
所以身高在180 cm以上(含180 cm)的人数为0.18×800=144.
1.用频率分布直方图解决相关问题时,应正确理解图中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个特点:
(1(纵轴表示频率/组距;(2(频率分布直方图中各小长方形高的比就是相应各组的频率之比;(3(直方图中各小长方形的面积是相应各组的频率,所有的小长方形的面积之和等于1,即频率之和为1.
2.平均数、中位数、众数与方差、标准差都是重要的数字特征,利用它们可对总体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大小.
一、选择题
1.在某次商品促销活动中,某人可得到4件不同的奖品,这些奖品要从40件不同的奖品中随机抽取决定.用系统抽样的方法确定这个人所得到的4件奖品的编号,有可能的是( )
A.3,9,15,11 B.3,12,21,40
C.8,20,32,40 D.2,12,22,32
答案 D
解析 由系统抽样的方法可知,这个人所得到的4件奖品的编号的间隔相等,且平均分布在1~10,11~20,21~30,31~40中,故A,B,C均不正确,D正确.
2.某中学有高中生3 500人,初中生1 500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n等于( )
A.100 B.150 C.200 D.250
答案 A
解析 ∵=,∴n=100.
3.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为mo,平均值为,则( )
A.me=mo= B.me=mo<
C.me<mo< D.mo<me<
答案 D
解析 30个数中第15个数是5,第16个数是6,所以中位数me==5.5,众数mo=5,
平均值==,∴mo4.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )
A.50 B.40 C.25 D.20
答案 C
解析 间隔==25.
5.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n等于( )
A.54 B.90 C.45 D.126
答案 B
解析 分层抽样的核心是等比例抽取.所以=,解得n=90.
6.有一容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在区间[10,12]内的频数为( )
A.18 B.36 C.54 D.72
答案 B
解析 ∵样本数据落在[10,12]内的频率为
1-2×(0.02+0.05+0.15+0.19)
=1-0.82
=0.18,
∴频数为200×0.18=36.
7.一个样本的容量为72,分成5组,已知第一、五组的频数都为8,第二、四组的频率都为,则第三组的频数为( )
A.16 B.24 C.32 D.48
答案 B
解析 因为频率=,所以第二、四组的频数都为72×=16.所以第三组的频数为72-2×8-2×16=24.
8.某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其平均数和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( )
A.,s2+1002 B.+100,s2+1002
C.,s2 D.+100,s2
答案 D
解析 设工资增加后员工下月工资的平均数和方差分别为,s,据已知易得
==+100,
又s=
=s2,故选D.
二、填空题
9.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,那么入选的最佳人选应是________.
答案 甲
解析 甲=9,乙=9,s=×2=,
s=×6=,甲的方差较小,成绩较稳定.
10.某校高中年级开设了丰富多彩的课程,甲、乙两班各随机抽取了5名学生的学分,用茎叶图表示(如图).s1,s2分别表示甲、乙两班抽取的5名学生学分的标准差,则s1______s2.(填“>”“<”或“=”)
答案 <
解析 标准差反映了数据的离散程度.显然甲的学分更集中.也可用公式计算得出.
11.甲、乙两人在10天中每天加工零件的个数用茎叶图表示如图,中间一列的数字表示零件个数的十位数,两边的数字表示零件个数的个位数,则这10天甲、乙两人日加工零件的平均数分别为________和________.
答案 24 23
解析 甲=(19+18+20×2+21+22+23+31×2+35)=24,
乙=(19+17+11+21+22+24×2+30×2+32)=23.
12.某电子商务公司对10 000名网络购物者在2016年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
答案 (1)3 (2)6 000
解析 由频率分布直方图及频率和等于1可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3.于是消费金额在区间[0.5,0.9]内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10 000=6 000.
三、解答题
13.下面是60名男生每分钟脉搏跳动次数的频率分布表.
分组
频数
频率
频率/组距
[51.5,57.5)
4
0.067
0.011
[57.5,63.5)
6
0.1
0.017
[63.5,69.5)
11
0.183
0.031
[69.5,75.5)
20
0.334
0.056
[75.5,81.5)
11
0.183
0.031
[81.5,87.5)
5
0.083
0.014
[87.5,93.5]
3
0.05
0.008
(1)作出频率分布直方图;
(2)根据直方图的各组中值估计总体平均数;
(3)已知标准差s≈8.784,估计每分钟脉搏跳动次数的范围.
解 (1)频率分布直方图如图.
(2)由各组中值估计总体平均数为(54.5×4+60.5×6+66.5×11+72.5×20+78.5×11+84.5×5+90.5×3)÷60=72.
(3)∵s≈8.784,
∴每分钟脉搏跳动次数的范围大致为[-s,+s],即[63.216,80.784],取整数为[63,81].
14.某校从参加高一年级期末考试的学生中抽出60名学生,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后画出如下频率分布直方图.观察图形的信息,回答下列问题:
(1)估计这次考试的众数m与中位数n(结果保留一位小数);
(2)估计这次考试的及格率(60分及以上为及格)和平均分.
解 (1)众数是最高小矩形底边中点的横坐标,
∴众数为m=75.
前三个小矩形面积为0.01×10+0.015×10+0.015×10=0.4.
∵中位数平分直方图的面积,
∴n=70+×10≈73.3.
(2)依题意60分及以上的分数所在的第三、四、五、六组的频率和为(0.015+0.03+0.025+0.005)×10=0.75,
∴抽样学生成绩的合格率是75%.
利用组中值估算抽样学生的平均分为
45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71.
估计这次考试的平均分是71分.
课件40张PPT。章末复习第二章 统 计学习目标
1.会根据不同的特点选择适当的抽样方法获得样本数据.
2.能利用图、表对样本数据进行整理分析,用样本和样本的数字特征估计总体.
3.能利用散点图对两个变量是否相关进行初步判断,能用回归直线方程进行预测.知识梳理达标检测题型探究内容索引知识梳理1.抽样方法
(1)用随机数表法抽样时,对个体所编号码位数要相同,当问题所给位数不同时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.(3)三种抽样方法的异同点2.用样本估计总体
(1)用样本估计总体
用样本频率分布估计总体频率分布时,通常要对给定的一组数据作频率 与频率 .当样本只有两组数据且样本容量比较小时,用 刻画数据比较方便.
(2)样本的数字特征
样本的数字特征可分为两大类:一类是反映样本数据集中趋势的,包括 、 和 ;另一类是反映样本波动大小的,包括____及 .分布表分布直方图茎叶图众数中位数平均数方差标准差3.变量间的相关关系
(1)两个变量之间的相关关系的研究,通常先作变量的 ,根据散点图判断这两个变量最接近于哪种确定性关系(函数关系).
(2)求回归直线方程的步骤:散点图题型探究例1 某制造商生产一批直径为40 mm的乒乓球,现随机抽样检查20个,测得每个球的直径(单位:mm,保留两位小数)如下:
40.03 40.00 39.98 40.00 39.99 40.00 39.98
40.01 39.98 39.99 40.00 39.99 39.95 40.01
40.02 39.98 40.00 39.99 40.00 39.96题型一 用样本的频率分布估计总体解答(1)完成下面的频率分布表,并画出频率分布直方图;解 频率分布表如下:频率分布直方图如图:(2)假定乒乓球的直径误差不超过0.02 mm为合格品.若这批乒乓球的总数为10 000,试根据抽样检查结果估计这批产品的合格个数.解答解 ∵抽样的20个产品中在[39.98,40.02]范围内的有17个,∴10 000×85%=8 500.
故根据抽样检查结果,可以估计这批产品的合格个数为8 500.反思与感悟 总体分布中相应的统计图表主要包括:频率分布表、频率分布直方图、频率分布折线图等.通过这些统计图表给出的相应统计信息可以估计总体.解析 [4.7,4.8)之间频率为0.32,[4.6,4.7)之间频率为1-0.62-0.05-0.11=1-0.78=0.22,
∴a=(0.22+0.32)×100=54.跟踪训练1 为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为
A.64 B.54 C.48 D.27 答案解析√题型二 用样本的数字特征估计总体的数字特征解答例2 某市共有50万户居民,城市调查队按千分之一的比例进行入户调查,抽样调查的结果如表:解答解答反思与感悟 样本的数字特征分为两大类:一类是反映样本数据集中趋势的特征数,例如平均数;另一类是反映样本数据波动大小的特征数,例如方差和标准差.通常我们用样本的平均数和方差(标准差)来近似代替总体的平均数和方差(标准差),从而实现对总体的估计.跟踪训练2 对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测数据如下:解答问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?所以甲的平均成绩好.题型三 用回归直线方程对总体进行估计例3 某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:解答(1)在给定的坐标系中画出表中数据的散点图;解 散点图如图.解答解答(3)试预测加工10个零件需要多少小时?解 将x=10代入回归直线方程,故预测加工10个零件约需要8.05小时.反思与感悟 对两个变量进行研究,通常是先作出两个变量之间的散点图,根据散点图直观判断两个变量是否具有线性相关关系,如果具有,就可以应用最小二乘法求回归直线方程.由于样本可以反映总体,所以可以利用所求的回归直线方程,对这两个变量所确定的总体进行估计,即根据一个变量的取值,预测另一个变量的取值.跟踪训练3 理论预测某城市2020到2024年人口总数与年份的关系如下表所示:解答(1)请画出上表数据的散点图;解 数据的散点图如图:解答(2)指出x与y是否线性相关;解 由散点图可知,样本点基本上分布在一条直线附近,故x与y呈线性相关.解答解答故2025年该城市人口总数约为196万.(4)据此估计2025年该城市人口总数.
(参数数据:0×5+1×7+2×8+3×11+4×19=132,02+12+22+32+42=30)达标检测答案1.10个小球分别编有号码1,2,3,4,其中1号球4个,2号球2个,3号球3个,4号球1个,则数0.4是指1号球占总体分布的
A.频数 B.频率
C. D.以上都不对√12345答案解析2.现有10个数,其平均数是4,且这10个数的平方和是200,那么这组数的标准差是
A.1 B.2 C.3 D.4√解析 设这10个数为a1,a2,…,a10,且a1+a2+…+a10=40,12345解析 低于70分的频率为(0.012+0.018)×10=0.3,
所以不低于70分的频率为0.7,
故不低于70分的人数为50×0.7=35.3.某班50名学生的一次数学质量测验成绩的频率分布直方图如图所示,则成绩不低于70分的学生人数是_____.12345解析答案354.某农田施肥量x(单位:kg)与小麦产量y(单位:kg)之间的回归直线方程是 =4x+250,则当施肥量为50 kg时,可以预测小麦的产量为____kg.450答案解析12345123455.从某学校的800名男生中随机抽取50名测量身高,被测学生身高全部介于155 cm和195 cm之间,将测量结果按如下方式分成八组;第一组[155,160),第二组[160,165),…,第八组[190,195].如图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组的人数相同,第六组的人数为4.
(1)求第七组的频率; 解答所以第七组的频率为1-0.08-5×(0.008×2+0.016+0.04×2+0.06)=0.06.12345(2)估计该校的800名男生的身高的中位数以及身高在180 cm以上(含180 cm)的人数.解答12345解 身高在第一组[155,160)的频率为0.008×5=0.04,
身高在第二组[160,165)的频率为0.016×5=0.08,
身高在第三组[165,170)的频率为0.04×5=0.2,
身高在第四组[170,175)的频率为0.04×5=0.2,
由于0.04+0.08+0.2=0.32<0.5,0.04+0.08+0.2+0.2=0.52>0.5,
估计这所学校的800名男生的身高的中位数为m,则170<m<175,
由0.04+0.08+0.2+(m-170)×0.04=0.5,得m=174.5,
所以可估计这所学校的800名男生的身高的中位数为174.5,
由直方图得后三组频率之和为0.06+0.08+0.008×5=0.18,
所以身高在180 cm以上(含180 cm)的人数为0.18×800=144.1.用频率分布直方图解决相关问题时,应正确理解图中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个特点:
(1)纵轴表示频率/组距;(2)频率分布直方图中各小长方形高的比就是相应各组的频率之比;(3)直方图中各小长方形的面积是相应各组的频率,所有的小长方形的面积之和等于1,即频率之和为1.
2.平均数、中位数、众数与方差、标准差都是重要的数字特征,利用它们可对总体进行一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数可描述总体的集中趋势,方差和标准差可描述波动大小.
1 教你学习系统抽样
在三种随机抽样中,系统抽样是较为重要的一种.当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样方法叫做系统抽样,又称等距抽样.在抽样调查中,由于系统抽样简便易行,所以应用普遍.下面举例说明系统抽样的常见题型.
一、系统抽样的选取问题
例1 某商场想通过检查部分发票及销售记录来快速估计每月的销售金额,采用如下方法:从某本发票的存根中随机抽一张,如15号,然后按顺序将65号,115号,165号……发票上的销售金额组成一个调查样本.这种抽取样本的方法是( )
A.抽签法 B.随机数表法
C.系统抽样 D.分层抽样
分析 上述抽样方法是将发票平均分成若干组,每组50张,从第一组抽出了15号,以后各组抽15+50n(n∈N+)号,符合系统抽样的特点.
答案 C
点评 将总体分成均衡的几部分,按照预先定出的规则在各部分中抽取是系统抽样的常用步骤.
二、间隔问题
例2 为了解1 200名学生对学校某项教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为________.
分析 要抽取n个个体入样,需将N个编号均分成n组.(1)若为整数,则抽样间隔为;(2)若不是整数,则先剔除多余个体,再均分成n组,此时抽样间隔为.
解析 根据样本容量为30,将1 200名学生分为30段,每段人数即间隔k为=40.
答案 40
点评 将总体号码平均分组时,应先考虑总体容量N是否能被样本容量n整除.
三、抽取的个数问题
例3 为了了解参加一次知识竞赛的1 252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中应随机剔除的个体数目是( )
A.2 B.4 C.5 D.6
分析 因为1 252=50×25+2,所以应随机剔除2个个体.
答案 A
点评 (1)用系统抽样法抽取多少个个体就需将总体均分成多少组;(2)需要剔除个体时,原则上要剔除的个体数尽量少.
四、综合问题
例4 一个总体中的1 000个个体编号为0,1,2,…,999,并依次将其分为10个小组,组号为0,1,2,…,9.要用系统抽样法抽取一个容量为10的样本,规定如果在第0组随机抽取的号码为x,那么依次错位地得到后面各组的号码(即在第k组中抽取的号码的后两位数为x+33k的后两位数).
(1)当x=24时,写出所抽取样本的10个号码;
(2)若所抽取的10个号码中某个数的后两位数是87,求x的取值范围.
分析 按系统抽样的规则计算求解.
解 (1)所分组为0~99,100~199,…,900~999共10组,从每组中抽一个,第0组取24,则第1组取100+(24+33×1)=157,依次错位地从每组中取出,所取的号码为24,157,290,323,456,589,622,755,888,921.
(2)由x+33×0=87,得x=87,
由x+33×1=87,得x=54,
由x+33×2=187,得x=88,
…依次可求x值,
可以求得x的值分别为:21,22,23,54,55,56,88,89,90.
综上:x∈{21,22,23,54,55,56,87,88,89,90}.
点评 本题是系统抽样法的逆向综合问题,体现了知识间的联系和数学思想的运用.
2 例析分层抽样的解题方法
若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本.这种抽样方法就是分层抽样.
一、应用分层抽样应遵循以下要求:
(1)将相似的个体归入一类,即为一层,分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠.即遵循不重复、不遗漏的原则.
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与样本容量与总体个体数的比相等.即所有层应采用同一抽样比等可能抽样.
(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.
二、一般地,分层抽样的操作步骤是:
第一步,计算样本容量与总体的个体数之比.
第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.
第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体.
第四步,将各层抽取的个体合在一起,就得到所取样本.
样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数,如果各层应抽取的个体数不都是整数应当调节样本容量,剔除个体.
三、分层抽样的优点是:
使样本具有较强的代表性,并且抽样过程中可综合选用各种抽样方法,因此分层抽样是一种实用、操作性强、应用比较广泛的抽样方法.下面举例解析分层抽样的方法.
例1 某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.
解析 由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37.
40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为×100=20.
答案 37 20
点评 简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一.保证每个个体等可能入样是简单随机抽样、系统抽样、分层抽样共同的特征,为了保证这一点,分层时用同一抽样比是必不可少的.
例2 某单位共有老、中、青职工430人,其中青年职工160人,中年职工人数是老年职工人数的2倍.为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为( )
A.9 B.18 C.27 D.36
解析 设老年职工人数为x,则2x+x+160=430,所以x=90,因此,该单位老年职工共有90人,
老年职工人数为90×=18,所以用分层抽样的比例应抽取该样本中的老年职工人数为18.
答案 B
点评 分层抽样要正确计算各层在总体中所占的比例,每层采用简单随机抽样法.
分层抽样利用了调查者对调查对象事先掌握的各种信息,考虑了保持样本结构与总体结构的一致性,从而使样本更具代表性,在实际调查中被广泛应用.
3 辨析三种抽样方法的合理选取
一、简单随机宜少量
例1 据报道,2009年7月22日的“日全食”较为理想的观测地点有上海、重庆、苏州、杭州、合肥、武汉、宜昌、成都、乐山、嘉兴这10个城市.某天文小组从这10个城市中随机抽取4个城市进行观测,宜采用的抽样方法是______________,每个城市被选中的可能性是______________.
解析 由于总体中个体数目较少,所以宜采用简单随机抽样的方法进行抽样.每个城市被选中的可能性均相等,均为=0.4.
答案 简单随机抽样 0.4
点评 本题中个体总数较少,使用简单随机抽样中的抽签法即可.可以直接把10个城市名分别写在10个大小相同的纸条上,将纸条放在一个盒子里摇匀,随机抽出4个即可.在整个抽样过程中可以保证每个个体被抽到的可能性相等,也可以进一步计算出相应的值.
二、差别明显选分层
例2 网络上有一种“QQ农场”游戏,这种游戏通过虚拟软件模拟种植与收获的过程.为了解某小区不同年龄层次的居民对此游戏的态度(小区中居民的年龄具有一定的差别),现从中抽取100人进行调查,结果如下表:
对游戏的态度
喜欢
不喜欢
不了解
人数
35
35
30
请问随机抽取这100人较合理的抽样方法是________,调查结果得出后,若想从这100人中再选取20人进行座谈,较合理的抽样方法是____________.若这个小区共有2 000人,则每个人被抽到参加座谈的可能性为________.
解析 因为小区居民的年龄存在明显差异,故抽取这100人宜采用分层抽样.根据调查结果,有三种明显不同的态度,因此,选取20人参加座谈,也宜采用分层抽样.在整个抽样过程中,每个人被抽到的可能性是相同的,均为=0.01.
答案 分层抽样 分层抽样 0.01
点评 分层抽样的过程是先把有差别的个体进行分层,在每一层中可以采用简单随机抽样或系统抽样的方法,这样也能保证每个个体被抽到的可能性相同.
三、大量抽取选系统
例3 春节来临之际,某超市进行促销活动,为购买商品顾客分发了编号为0000~9999的奖券,超市计划从中抽取
100张作为中奖号码,较合理的抽样方法是__________,每张奖券中奖的可能性为________.
解析 由于奖券数量较大,有10 000张奖券,所以宜采用系统抽样方法进行抽取.在抽样过程中,每张奖券被抽到的可能性是相等的,均为=0.01.
答案 系统抽样 0.01
点评 当总体中个体数目较多时,首先把个体编号,进行平均分组(若不能整除,则随机剔除多余的个体),然后采用简单随机抽样的方法从第一组中抽取一个个体,即可知道应抽取的其他编号的个体.
4 解读用样本估计总体
一、用样本的频率分布估计总体分布
1.频率分布表:反映具体数据落在各个区间的频率,但不够直观、形象,不利于分析数据分布的总体态势.
2.频率分布直方图:能够非常直观地表明数据分布的形状,很好地反映数据的变化趋势,适用于样本数据较多的情况,但是从直方图本身得不到具体的数据内容.
3.频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就可以得到相应的频率分布折线图.其优点是能够清晰地反映数据的变化趋势.如果样本容量不断增加,分组的组距不断减小,那么折线图便会趋近于总体密度曲线.总体密度曲线精确地反映了总体在各个范围内取值的百分比.
4.茎叶图:适用于样本中的数据较少的情况.其优点是(1)没有原始数据的丢失,所有信息均可以从茎叶图中得到,并能展示数据的分布情况;(2)便于记录和表示.缺点是当样本数据较多或数据位数较多时,就会显得不太方便.因为每一个数据都要在图中占据一定的空间,如果数据很多,枝叶就会很长.
二、用样本的数字特征估计总体的数字特征
1.众数:若一组数据中有一个或几个数据出现得最多,且出现的次数一样,那么这些数据都是这组数据的众数,因此一组数据的众数可能不止一个.若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数.
2.中位数:将一组数据按大小顺序依次排列,处在最中间位置的一个数据(或中间两个数据的平均数)是该组数据的中位数.
3.平均数:与样本中的每一个数据都有关系,反映了更多关于数据总体的信息,比较可靠.但受极端值的影响较大.
4.极差:就是一组数据中最大数与最小数的差.
5.方差:用来刻画样本数据的波动情况,充分利用了所有的数据,但与原始数据的单位不一致.方差具有非负性.
6.标准差:方差的算术平方根,与原数据的单位一致,且标准差也具有非负性.
三、数字特征在频率分布直方图中的体现
在频率分布直方图中,最高的小矩形的底边中点的横坐标即为样本数据的众数的估计值,中位数左边和右边的小矩形的面积和相等(注:这样求出的中位数是近似值);平均数的估计值等于频率分布直方图中每个小矩形的面积与其底边中点的横坐标的乘积之和.
四、特别提示
1.两类估计都具有随机性,得出的结论不一定是总体的真正的分布、均值或方差.样本质量的高低也是影响正确估计的重要因素.
2.应用茎叶图进行统计时,注意重复出现的数据要重复记录,不能遗漏.
3.样本水平的高低由其平均数决定,样本数据的稳定性与方差和标准差有关.在平均数相差不大的情况下,可以进一步借助方差或标准差来比较优劣.
4.方差越小,说明数据越稳定,但并不是方差越小越好.
5 “三数、三差”话应用
从样本数据中可以提取基本的数字特征,即“三数”(众数、中位数、平均数)与“三差”(极差、方差、标准差),并对它们进行分析,从而估计总体相应的数字特征,这在日常生活中有着广泛的应用.
一、借“三数”看集中趋势
例1 某公司的各层人员及工资数构成如下:
人员:经理1人,周工资3 700元;高层管理人员6人,周工资均为1 200元;高级技工5人,周工资均为700元;工人10人,周工资均为600元;学徒1人,周工资为300元.
(1)计算该公司员工周工资的众数、中位数、平均数;
(2)这个问题中,平均数能客观地反映这个公司的工资水平吗?
解 (1)众数为600,中位数为700,平均数为
=900.
(2)虽然平均数为900,但由给出的数据可见,只有经理和高层管理人员的周工资在平均数以上,其余的都在平均数以下,故用平均数不能客观地反映该公司的工资水平.
评注 众数、中位数、平均数都是反映数据的集中趋势的量.其中,平均数受数据中的极端值的影响较大,这时平均数对总体估计的可靠性反而不如众数和中位数.
二、用“三差”判分散程度
例2 为了教学的需要,王老师经常在网站A和网站B上下载资料.某天中午,王老师分别在两个网站上下载了五份资料,其下载的速率(单位:KB/s)如下:
网站A:486 284 71 70 369
网站B:70 328 244 85 478
(1)试分别计算从这两个网站上下载资料的速率的极差、方差和标准差;
(2)你觉得从哪个网站上下载资料更快?哪个下载速率更稳定?请说明理由.
解 (1)对于网站A来说,下载速率最高为486,最低为70,极差为486-70=416;
平均下载速率为1=×(486+284+71+70+369)=256;
方差为s=×[(486-256)2+(284-256)2+(71-256)2+(70-256)2+(369-256)2]=27 054.8;
标准差为s1==≈164.5.
同理可求得从网站B上下载资料的速率的极差为408,平均下载速率为2=241,方差为s=23 464.8,标准差为s2≈153.2.
(2)从(1)可以看出,从网站A上下载资料的平均速率要比网站B快.从极差来看,网站A下载速率变化范围更大;另外,从网站A上下载资料的速率的方差(或标准差)也大于网站B,这说明网站A的下载速率的波动性更大,更不稳定.因此网站B下载的速率更稳定.
评注 极差、方差、标准差都是刻画数据分散程度的量.极差反映一组数据的变化范围,极差大,则数据较分散,但它只考虑了两个极端值,所以很多时候,极差只能作为数据的分散程度的估计量,可靠性较差.判断数据的波动情况通常采用标准差(或方差),标准差(或方差)越小,波动越小,则越稳定.
6 “变量间的相关关系”考点分析
考点1 判断两个变量是否具有相关关系
两个变量之间的关系中,函数关系是一种确定性关系.如正方形的面积S与边长x之间的关系.两个变量之间的关系还有另外一种情况:相关关系——自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系;或两个变量都是随机的,也称它们之间的关系为相关关系.
例1 下列关系中带有随机性相关关系的是________.
①正方形的边长与面积之间的关系;
②水稻产量与施肥之间的关系;
③作文水平与课外阅读量之间的关系;
④降雪量与交通事故的发生率之间的关系;
⑤人的年龄与他(她)拥有的财富之间的关系.
解析 两变量之间的关系有两种:函数关系与带有随机性的相关关系.
①正方形的边长与面积之间的关系是函数关系.
②水稻产量与施肥之间不是严格的函数关系,但是具有相关性.因而是相关关系.
③作文水平与课外阅读量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.
④降雪量与交通事故的发生率之间具有相关关系.
⑤一般来说,人随着年龄的增长,社会经验、处事能力等都相应地丰富,拥有的财富也就容易增多,故人的年龄与他(她)拥有的财富之间的关系是相关关系.
答案 ②③④⑤
考点2 利用散点图判断两个变量间的相关性
判断两个变量之间有没有相关关系,一种常用的简便可行的方法是绘制散点图.散点图是由数据点分布构成的,它形象地体现了各对数据的密切程度,是分析研究两个变量相关关系的重要手段.各数据对应点若呈上升趋势,则称为正相关.反之,若呈下降趋势,称为负相关.
例2 某品牌服装的广告费支出x与销售额y(单位:万元)之间有如下的对应数据:
广告费x(万元)
2
4
6
8
10
销售额y(万元)
64
138
205
285
360
试画出散点图,并判断广告费x与销售额y是否线性相关?
分析 可以广告费为横轴、以销售额为纵轴画出散点图,手工绘图时,所取单位要均匀,描点要准确.判断两个变
量之间是否具有线性相关关系,只需看各数据点是否都在一条直线附近,若是则说明线性相关,否则非线性相关.
解 散点图如下:
观察散点图,可以发现5个样本点都落在一条直线附近,所以变量x,y属于线性相关关系.
考点3 线性回归分析与最小二乘法的思想
研究具有相关关系的两个变量,就是寻找具有相关关系的两个变量中非确定性关系的某种确定性,该分析过程称为回归分析,其思想是把相关关系(即不确定性关系)转化为确定性的函数关系.回归分析是处理变量相关关系的一种数学方法.它主要解决三个问题:
(1)确定特别变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;
(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;
(3)求出回归直线方程.
例3 下列说法中错误的是( )
A.如果变量η与ξ之间具有线性相关关系,则我们根据试验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线附近
B.如果变量η与ξ之间不具有线性相关关系,那么根据一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程
C.设x,y是具有相关关系的两个变量,且x关于y的回归直线方程为=x+,叫做回归系数
D.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图
解析 根据线性回归分析的思想方法,可知具有线性相关关系的两个变量对应的点应在一条直线附近,大致满足该直线的方程,所以A,C正确;D项符合散点图的定义,正确.事实上只要有一组数据就可写出一个方程,故B不正确.
答案 B