2.2.2 用样本的数字特征估计总体的数字特征
[读教材·填要点]
1.众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:
如果n个数x1,x2,…,xn,那么=(x1+x2+…+xn)叫做这n个数的平均数.
2.标准差、方差
(1)标准差的计算公式:
标准差是样本数据到平均数的一种平均距离,一般用s表示,s=
].
(2)方差的计算公式:
标准差的平方s2叫做方差.
s2=[(x1-)2+(x2-)2+…+(xn-)2],
或s2=[(x+x+…+x)-nx -2]
其中,xi(i=1,2,…,n)是样本数据,n是样本容量,是样本平均数.
[小问题·大思维]
1.一组数据的众数可以有几个?那么中位数是否也具有相同的结论?
提示:一组数据的众数可能有一个,也可能有多个,中位数只有唯一一个.
2.在频率分布直方图中,如何求众数、中位数、平均数?
提示:(1)众数是最高矩形底边的中点.
(2)中位数左边和右边的直方图面积应相等,由此来估计中位数的值.
(3)平均数是频率分布直方图的“重心”,它等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
3.标准差、方差的意义是什么?
提示:标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程序越小.
众数、中位数、平均数的简单运用
[例1] 某公司销售部有销售人员15人,销售部为了制定某种商品的月销售定额,统计了这15人某月的销售量如下:
销售量(件) 1 800 510 250 210 150 120
人数 1 1 3 5 3 2
(1)求这15位销售人员该月销售量的平均数、中位数及众数;
(2)假设销售部负责人把月销售额定为320件,你认为是否合理,为什么?如不合理,请你制定一个较为合理的销售定额.
[自主解答] (1)由表格可知:平均数为(1 800×1+510×1+250×3+210×5+150×3+120×2)=320(件),中位数为210件,众数为210件.
(2)不合理,因为15人中有13人的销售量未达到320件,也就是说:虽然320是这一组数据的平均数,但它却不能反映全体销售人员的销售水平.销售额定为210件更合理些,这是由于210既是中位数,又是众数,是大部分人都能达到的定额.
——————————————————————————————
1.众数、中位数及平均数都是描述一组数据集中趋势的量.
2.平均数的大小与一组数据里每个数的大小均有关系,任何一组数据的变动都会引起平均数的变动.
3.众数考查各数出现的频率,其大小与这组数据中部分数据有关,当一组数据中有不少数据重复出现时,其众数往往更能反映问题.
4.中位数仅与数据的排列位置有关,某些数据的变动对中位数没有影响,中位数可能出现在所给数据中,也可能不在所给数据中,当一组数据中个别数据较大时,用中位数描述这种趋势.
——————————————————————————————————————
1.某工厂人员及工资构成如下:
人员 经理 管理人员 高级技工 工人 学徒 合计
周工资(元) 2 200 250 220 200 100 2 970
人数 1 6 5 10 1 23
合计 2 200 1 500 1 100 2 000 100 6 900
(1)指出这个问题中的众数、中位数、平均数.
(2)这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?
解:(1)由表格可知:众数为200元.
∵23个数据按从小到大(或从大到小)的顺序排列,排在中间的数应是第12个数,其值为220,
∴中位数为220元.
平均数为(2 200+1 500+1 100+2 000+100)÷23=6 900÷23=300(元).
(2)虽然平均数为300元/周,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
平均数和方差的运用
[例2] 在一次歌手大奖赛上,七位评委为歌手打出的分数如下:
9.4 8.4 9.4 9.9 9.6 9.4 9.7
去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A.9.4,0.484 B.9.4,0.016
C.9.5,0.04 D.9.5,0.016
[自主解答] 先求平均数:
去掉9.9和8.4得一组数:9.4,9.4,9.6,9.4,9.7,
平均数为=9+(0.4+0.4+0.6+0.4+0.7)=9.5.
方差为s2=[3×(9.4-9.5)2+(9.6-9.5)2+(9.7-9.5)2]=0.016.
[答案] D
——————————————————
1.极差、方差与标准差的区别与联系:
数据的离散程度可以通过极差、方差或标准差来描述.
1 极差是数据的最大值与最小值的差,它反映了一组数据变化的最大幅度,它对一组数据中的极端值非常敏感.
2 方差则反映了一组数据围绕平均数波动的大小,为了得到以样本数据的单位表示的波动幅度通常用标准差,即样本方差的算术平方根,是样本数据到平均数的一种平均距离.
2.在实际问题中,仅靠平均数不能完全反映问题还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,质量越稳定.
——————————————————————————————————————
2.从甲、乙两种玉米的苗中各抽10株,分别测得它们的株高如下:(单位:cm)
甲:25 41 40 37 22 14 19 39 21 42
乙:27 16 44 27 44 16 40 40 16 40
问:(1)哪种玉米的苗长得高?
(2)哪种玉米的苗长得齐?
解:(1)甲=(25+41+40+37+22+14+19+39+21+42)=×300=30(cm),
乙=(27+16+44+27+44+16+40+40+16+40)
=×310=31(cm).
∴甲<乙.
所以乙种玉米的苗长得高.
(2)s=[(25-30)2+(41-30)2+(40-30)2+(37-30)2+(22-30)2+(14-30)2+(19-30)2+(39-30)2+(21-30)2+(42-30)2]
=×(25+121+100+49+64+256+121+81+81+144)
=×1 042=104.2(cm2),
s=[(2×272+3×162+3×402+2×442)-10×312]
=×1 288=128.8 (cm2).
∴s<s.
所以甲种玉米的苗长得整齐.
频率分布与数字特征的综合应用
[例3] 已知一组数据:125 121 123 125 127 129 125 128 130 129 126 124 125 127 126 122 124 125 126 128
(1)填写下面的频率分布表:
分组 频数累计 频数 频率
[120.5,122.5)
[122.5,124.5)
[124.5,126.5)
[126.5,128.5)
[128.5,130.5]
合计
(2)作出频率分布直方图;
(3)根据频率分布直方图或频率分布表求这组数据的众数、中位数和平均数.
[自主解答] (1)
分组 频数累计 频数 频率
[120.5,122.5) 2 0.1
[122.5,124.5) 3 0.15
[124.5,126.5) 正 8 0.4
[126.5,128.5) 4 0.2
[128.5,130.5] 3 0.15
合计 20 1
(2)
(3)在[124.5,126.5)中的数据最多,取这个区间的中点值作为众数的近似值,得众数125.5,事实上,众数的精确值为125.图中虚线对应的数据是124.5+2×=125.75,事实上中位数为125.5.使用“组中值”求平均数:=121.5×0.1+123.5×0.15+125.5×0.4+127.5×0.2+129.5×0.15=125.8,
平均数的精确值为=125.75.
——————————————————
1.利用直方图求数字特征
(1)众数是最高的矩形的底边的中点.
(2)中位数左右两边直方图的面积应相等.
(3)平均数等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.利用直方图求众数、中位数、平均数均为近似值,往往与实际数据得出的不一致,但它们能粗略估计其众数、中位数和平均数.
——————————————————————————————————————
3.某市2011年4月1日~4月30日对空气污染指数的监测数据如下(主要污染物为可吸入颗粒物):
61,76,70,56,81,91,92,91,75,81,88,67,101,103,95,91,77,86,81,83,82,82,64,79,86,85,75,71,49,45.
(1)完成频率分布表;
(2)作出频率分布直方图;
(3)根据国家标准,污染指数在0~50之间时,空气质量为优;在51~100之间时,为良;在101~150之间时,为轻微污染;在151~200之间时,为轻度污染.
请你根据所给数据和上述标准,对该市的空气质量给出一个简短评价.
解:(1)频率分布表:(以10为组距)
分组 频数 频率
[41,51) 2
[51,61) 1
[61,71) 4
[71,81) 6
[81,91) 10
[91,101) 5
[101,111] 2
总计 30 1
(2)频率分布直方图:
(3)答出下述两条中一条即可:
①该市一个月中空气污染指数有2天处于优的水平,占当月天数的.有26天处于良的水平,占当月天数的,处于优或良的天数共有28天,占当月天数的.说明该市空气质量基本良好.
②轻微污染有2天,占当月天数的.污染指数在80以上的接近轻微污染的天数有15天,加上处于轻微污染的天数,共有17天,占当月天数的,超过50%.说明该市空气质量有待进一步改善.
求下列数据的平均数
184 208 190 192 178 200
[巧思] 从数据中发现它们在190上下摆动,
∴用简化公式=+a=+190.
[妙解] 取a=190,得新数据-6,18,0,2,-12,10
=(-6+18+0+2-12+10)
=2,
∴=+190=192.
1.下列各数字特征中,能反映一组数据离散程度的是( )
A.众数 B.平均数
C.标准差 D.中位数
答案:C
2.(2012·山东高考)在某次测量中得到的A样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据.则A,B两样本的下列数字特征对应相同的是( )
A.众数 B.平均数
C.中位数 D.标准差
解析:只有标准差不变,其中众数、平均数和中位数都加2.
答案:D
3.甲、乙两中学生在一年里学科平均分相等,但他们的方差不相等,正确评价他们的学习情况是( )
A.因为他们的平均分相等,所以学一样
B.成绩虽然一样,方差较大,说明潜力大,学习态度踏实
C.表面上看这两个学生平均成绩一样,但方差小的学习成绩稳定
D.平均分相等,方差不等,说明学不一样,方差较小的同学,学习成绩不稳定,忽高忽低
解析:方差小说明成绩稳定,方差大成绩不稳定,忽高忽低.
答案:C
4.甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如表所示:
甲 乙 丙 丁
8.5 8.8 8.8 8
3.5 3.5 2.1 8.7
则参加奥运会的最佳人选为________.
解析:由表可知乙、丙平均成绩最好,但丙方差比乙方差小,故成绩稳定,∴选丙.
答案:丙
甲 乙
7 9 8 0 7 8 5
5 7 9 1 1 1 3
3 4 6 2 2 0
2 3 1 0
1 4 0
5.某赛季,甲、乙两名篮球运动员都参加了11场比赛,他们每场比赛得分的情况的茎叶图如图所示,若甲运动员得分的中位数为a,乙运动员得分的众数为b,则a-b=________.
解析:由茎叶图可知a=19,b=11.
∴a-b=8.
答案:8
6.某教师出了一份共3道题的测试卷,每道题1分.全班得3分、2分、1分和0分的学生所占比例分别为30%、50%、10%和10%.
(1)若全班共10人,则平均分是多少?
(2)若全班共20人,则平均分是多少?
解:(1)若全班共10人,则得3分的学生有3人,得2分的有5人,得1分的有1人,得0分的有1人,
故平均分==2(分);
(2)若全班共20人,则得3分、2分、1分和0分的学生分别有6人、10人、2人、2人.
故平均分==2(分).
一、选择题
1.有一笔统计资料,共有11个数据如下(不完全以大小排列):2,4,4,5,5,6,7,8,9,11,x,已知这组数据的平均数为6,则这组数据的方差为( )
A.6 B.
C.66 D.6.5
解析:∵=(2+4+4+5+5+6+7+8+9+11+x)
=(61+x)=6,
∴x=5.
方差数为:
s2=
==6.
答案:A
2.(2012·安徽高考)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
解析:由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=,C对;甲、乙的成绩的极差均为4,D错.
答案:C
3.在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天,甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4
B.乙地:总体均值为1,总体方差大于0
C.丙地:中位数为2,众数为3
D.丁地:总体均值为2,总体方差为3
解析:由于甲地总体均值为3,中位数为4,则可能某一天新增疑似病例超过7人,则甲地不符合该标志;由于乙地总体均值为1,总体方差大于0,则可能某一天新增疑似病例超过7人,则乙地不符合该标志;由于丙地中位数为2,众数为3,则可能某一天新增疑似病例超过7人,则丙地不符合该标志;对于丁地总体均值为2,假设某一天新增疑似病例超过7人,则总体方差大于(8-2)2=3.6,但是已知总体方差为3,则丁地一定符合该标志.
答案:D
4.若样本1+x1,1+x2,1+x3,…,1+xn的平均数是10,方差为2,则对于样本2+x1,2+x2,…,2+xn,下列结论正确的是( )
A.平均数是10,方差为2
B.平均数是11,方差为3
C.平均数是11,方差为2
D.平均数是10,方差为3
解析:若x1,x2,…,xn的平均数为,方差为s,那么x1+a,x2+a,…,xn+a的平均数为+a,方差为s.
答案:C
二、填空题
5.一个样本按从小到大的顺序排列为10,12,13,x,17,19,21,24,其中位数为16,则x=________.
解析:由中位数的定义知=16,∴x=15.
答案:15
6.某人5次上班途中所花时间(单位;min)分别为x,y,10,11,9若这组数据的平均数为10,方差为2,则|x-y|=________.
解析:==10,∴x+y=20.
方差为2,则
=2,
(x-10)2+(10-x)2=8,
(x-10)2=4,x=8或x=12,
则y=12或y=8.∴|x-y|=4.
答案:4
7.某班50名学生右眼视力的检查结果如下表所示:
视力 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 1.0 1.2 1.5
人数 1 1 3 4 3 4 4 6 8 10 6
则该班学生右眼视力的众数为________,中位数为________.
答案:1.2 0.8
8.甲、乙两人在相同的条件下练习射击,每人打5发子弹,命中的环数如下:
甲:6,8,9,9,8;
乙:10,7,7,7,9.
则两人的射击成绩较稳定的是________.
解析:解得甲=乙=8,s=1.2,s=1.6,
s答案:甲
三、解答题
9.下表是某校学生的睡眠时间抽样频率分布表(单位:h),试估计该校学生的日平均睡眠时间.
睡眠时间 [6,6.5) [6.5,7) [7,7.5) [7.5,8) [8,8.5) [8.5,9] 合计
频数 5 17 33 37 6 2 100
频率 0.05 0.17 0.33 0.37 0.06 0.02 1
解:法一:日平均睡眠时间为
=(6.25×5+6.75×17+7.25×33+7.75×37+8.25×6+8.75×2)=×739=7.39(h).
法二:求组中值与对应频率之积的和:
=6.25×0.05+6.75×0.17+7.25×0.33+7.75×0.37+8.25×0.06+8.75×0.02=7.39(h).
所以,估计该校学生的日平均睡眠时间约为7.39 h.
10.为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换.已知某校使用的100只日光灯在必须换掉前的使用天数如下表:
天数 151~180 181~210 211~240 241~270 271~300 301~330 331~360 361~390
灯管数 1 11 18 20 25 16 7 2
(1)试估计这种日光灯的平均使用寿命;
(2)若定期更换,可选择多长时间统一更换合适?
解:(1)各组的组中值分别为165,195,225,255,285,315,345,375,由此可算得这种日光灯的平均使用寿命约为165×1%+195×11%+225×18%+255×20%+285×25%+315×16%+345×7%+375×2%=267.9≈268(天).
×[1×(165-268)2+11×(195-268)2+18×(225-268)2+20×(255-268)2+25×(285-268)2+16×(315-268)2+7×(345-268)2+2×(375-268)2]=2 128.60.
故标准差为≈46.
估计这种日光灯的平均使用寿命约为268天,标准差约为46天,故在222天到314天之间统一更换较合适.[读教材·填要点]
1.两个变量的线性相关
(1)散点图:将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形.
(2)正相关与负相关:
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2.回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程.
[小问题·大思维]
1.相关关系与函数关系有什么异同点?
提示:相同点:两者均是指两个变量的关系.
不同点:
(1)函数关系是一种确定关系,而相关关系是一种非确定关系.
(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是相伴随关系.
2.任意两个统计数据是否均可以作出散点图?
提示:可以.不论这两个统计量是否具备或不具备相关性,以一个变量值作为横坐标,另一个变量值作为纵坐标,均可画出它的散点图.
3.任给一组数据,我们都可以由最小二乘法得出回归直线方程吗?
提示:用最小二乘法求回归直线的方程的前提是先判断所给数据具有线性相关关系(可利用散点图判断).否则求出的回归直线方程是无意义的.
线性相关关系判断
[例1] 下表是某地的年降雨量与年平均气温,判断两者是相关关系吗?求回归直线方程有意义吗?
年平均气温(℃) 12.51 12.74 12.74 13.69 13.33 12.84 13.05
年降雨量(mm) 748 542 507 813 574 701 432
[自主解答] 以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如图所示.
因为图中各点并不在一条直线附近,所以两者不具有相关关系,求回归直线也是没有意义的.
——————————————————
1.两个变量x和y相关关系的确定方法
(1)散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;
(2)表格、关系式法:结合表格或关系式进行判断;
(3)经验法:借助积累的经验进行分析判断.
2.判断两个变量x和y间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.
——————————————————————————————————————
1.以下是在某地搜集到的不同楼盘新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:
房屋面积x(m2) 115 110 80 135 105
销售价格y(万元) 24.8 21.6 19.4 29.2 22
(1)画出数据对应的散点图;
(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?
解:(1)数据对应的散点图如图所示.
(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋的面积之间具有相关关系,且是正相关.
求回归直线方程
[例2] 已知10只狗的血球体积及红血球数的测量值如下表:
x(血球体积)(mm3) 45 42 46 48 42 35 58 40 39 50
y(红血球数)(百万) 6.53 6.30 9.52 7.50 6.99 5.90 9.49 6.20 6.55 8.72
若由资料知,y对x呈线性相关关系,
(1)画出上表的散点图;
(2)求出回归直线方程并画出图形.
[自主解答] (1)散点图如图所示:
(2)由题意可知:
=(45+42+46+48+42+35+58+40+39+50)=44.50,
=(6.53+6.30+9.52+7.50+6.99+5.90+9.49+6.20+6.55+8.72)=7.37.
设回归直线方程为=x+,
则=≈0.175,=-≈-0.427.
所以所求的回归直线方程为=0.175x-0.427,
其图形如图所示.
——————————————————
(4)写出回归方程=+x.
2.求回归直线方程的适用条件
两个变量具有线性相关性,若题目没有说明相关性,则必须对两个变量进行相关性判断.
——————————————————————————————————————
2.随着人们经济收入的不断增长,个人购买家庭轿车已不再是一种时尚.车的使用费用,尤其是随着使用年限的增多,所支出的费用到底会增长多少,一直是购车一族非常关心的问题.某汽车销售公司作了一次抽样调查,并统计得出某款车的使用年限x与所支出的总费用y(万元)有如下的数据资料:
使用年限x 2 3 4 5 6
总费用y 2.2 3.8 5.5 6.5 7.0
若由资料,知y对x呈线性相关关系.试求:
线性回归方程=x+的回归系数、.
解:列表:
i 1 2 3 4 5
xi 2 3 4 5 6
yi 2.2 3.8 5.5 6.5 7.0
xiyi 4.4 11.4 22.0 32.5 42.0
x 4 9 16 25 36
=4,=5,=90,iyi=112.3
于是===1.23;
=-b=5-1.23×4=0.08.
利用回归直线方程对总体进行估计
[例3] 下表是某地搜集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据:
x 115 110 80 135 105
y 44.8 41.6 38.4 49.2 42
(1)画出散点图;
(2)求回归方程;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
[自主解答]
(1)散点图如图所示.
(2)由散点图可以看出,这些点大致分布在一条直线的附近,可求回归方程.由表中的数据,用计算器计算得=109,=43.2,=60 975,iyi=23 852.
则===≈0.196,=- =43.2-0.196×109=21.836.故所求回归方程为=0.196x+21.836.
(3)根据上面求得的回归方程,当房屋面积为150 m2时,销售价格的估计值为0.196×150+21.836=51.236(万元).
——————————————————
(2)如果散点在一条直线附近,用公式、并写出线性回归方程;
(3)根据线性回归方程对总体进行估计.
——————————————————————————————————————
3.一台机器由于使用时间较长,生产的零件有一些会有缺损,按不同转速生产出来的零件有缺损的统计数据如下表所示:
转速x(转/秒) 16 14 12 8
每小时生产有缺损零件数y(个) 11 9 8 5
(1)作出散点图;
(2)如果y与x线性相关,求出回归直线方程;
(3)若实际生产中,允许每小时的产品中有缺损的零件最多为10个,那么,机器的运转速度应控制在什么范围内?
解:(1)作散点图如图所示:
(2)由散点图可知y与x线性相关.
故可设回归直线方程为
=bx+a.
依题意,用计算器可算得:
=12.5,=8.25,=660,
iyi=438.
∴b=≈0.73,
a=-b =8.25-0.73×12.5=-0.875.
∴所求回归直线方程为=0.73x-0.875.
(3)令=10,得0.73x-0.875=10,解得x≈15.
即机器的运转速度应控制在15转/秒内.
下列各散点图,其中两个变量具有相关关系的是________(填序号).
[错解] 相关关系对应的图形都是离散图,故①不正确;②图中的点分布在一条直线附近,具有相关关系;③④图中的点不在一条直线附近,不能反应两个变量的变化规律,不是相关关系.
[答案] ②
[错因] 错解的原因是:误认为只有点分布在一条直线附近才具有相关关系,混淆了“相关关系”和“线性相关”的概念,实质上,线性相关关系是相关关系的一种特殊情况,散点图只要能反映两个变量的变化规律,就具有相关关系.
[正解] 相关关系对应的图形是离散图,故①不是相关关系;②③都能反映两个变量的变化规律,它们都是相关关系;④图中的点散乱地分布在坐标平面内,不能反映两个变量的变化规律,不是相关关系.
[答案] ②③
1.两个变量之间的相关关系是一种( )
A.确定性关系 B.线性关系
C.非确定性关系 D.非线性关系
答案:C
2.设有一个回归方程为=-1.5x+2,则变量x增加一个单位时( )
A.y平均增加1.5个单位 B.y平均增加2个单位
C.y平均减少1.5个单位 D.y平均减少2个单位
解析:∵两个变量线性负相关,
∴变量x增加一个单位,y平均减少1.5个单位.
答案:C
3.(2012·新课标全国高考)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析:因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.
答案:D
4.有关线性回归的说法,正确的是________.
①相关关系的两个变量不是因果关系;
②散点图能直观地反映数据的相关程度;
③回归直线最能代表线性相关的两个变量之间的关系;
④任一组数据都有回归方程.
解析:只有线性相关的数据才有回归直线.故①②③均正确,④不正确.
答案:①②③
5.(2011·辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:以x+1代替x,得=0.254(x+1)+0.321,与=0.254x+0.321相减可得,年饮食支出平均增加0.254万元.
答案:0.254
6.在某种产品表面进行腐蚀线实验,得到腐蚀深度y与腐蚀时间t之间对应的一组数据:
时间t(s) 5 10 15 20 30 40 50 60 70 90 120
深度y(μm) 6 10 10 13 16 17 19 23 25 29 46
(1)画出散点图;
(2)试求腐蚀深度y对时间t的回归直线方程.
解:(1)
(2)经计算可得:
=46.36,=19.45,=36 750,iyi=13 910.
==≈0.3,
=-b≈19.45-0.3×46.36=5.542.
故所求的回归直线方程为=0.3t+5.542.
一、选择题
1.下面哪些变量是相关关系( )
A.出租车费与行驶的里程
B.房屋面积与房屋价格
C.人的身高与体重
D.铁块的大小与质量
解析:A、B、D均为确定的函数关系.
答案:C
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图1:对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
答案:C
3.某数学老师月工资y(元)随课时数x(h)变化的回归直线方程为=30x+700,下列判断错误的是( )
A.课时为60 h,工资约为2 500元
B.课时增加60 h,则工资平均提高1 800元
C.课时增加70 h,则工资平均提高2 800元
D.当月工资为2 800元时,课时约为70 h
解析:当x=60时,=30×60+700=2 500,故A正确;课时增加60时,即Δx=60时,Δ=30×Δx=1 800,B正确;课时增加70时,Δ=30×70=2 100,C错误;当=2 800时,由2 800=30x+700得x=70,D正确.综上可知选C.
答案:C
4.(2012·湖南高考)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:当x=170时,=0.85×170-85.71=58.79,体重的估计值为58.79 kg.
答案:D
二、填空题
5.有下列说法:
①两个变量之间若没有确定的函数关系,则这两个变量不相关;
②正相关是两个变量相关关系的一种;
③“庄稼一枝花,全靠肥当家”说明农作物产量与施肥之间有相关关系;
④根据散点图可以判断两个变量之间有无相关关系.
其中正确的是________(填序号).
答案:②③④
6.(2013·江苏常州模拟)某工厂生产某种产品的产量x(吨)与相应的生产能耗y(吨标准煤)有如下几组样本数据:
x 3 4 5 6
y 2.5 3 4 4.5
据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得其回归直线的斜率为0.7,则这组样本数据的回归直线方程是________.
解析:∵==4.5,==3.5,
∴=-=3.5-0.7×4.5=0.35.
∴回归直线方程为=0.7x+0.35.
答案:=0.7x+0.35
7.(2012·福建六校联考)某考察团对全国10个城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程=0.66x+1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费占人均工资收入的百分比约为________.
解析:由=0.66x+1.562知,
当y=7.675时,x=,
∴所求百分比为=≈83%.
答案:83%
8.假设学生在初中的英语成绩和高一英语成绩是线性相关的.现有10名学生的初中英语成绩(x)和高一英语成绩(y)如下:
x 74 71 72 68 76 73 67 70 65 74
y 76 75 71 70 76 79 65 77 62 72
则由此得到的回归直线的斜率约为________(保留到小数点后第4位).
解析:求斜率即求回归方程中的,按照公式进行即可,即需要依次计算出=71,=50 520,=72.3,iyi=51 467,所以=≈1.218 2,
所以斜率为1.218 2.
答案:1.218 2
三、解答题
9.高三(1)班的10名学生每周用于数学学习的时间x(h)与数学成绩y(分)之间有如下对应数据:
x 24 15 23 19 16 11 20 16 17 13
y 92 79 97 89 64 47 83 68 71 59
如果y与x之间具有线性相关关系,求回归直线方程(保留2位小数).
解:列出下表,并用科学计算器进行有关计算.
i 1 2 3 4 5 6 7 8 9 10
xi 24 15 23 19 16 11 20 16 17 13
yi 92 79 97 89 64 47 83 68 71 59
xiyi 2 208 1 185 2 231 1 691 1 024 517 1 660 1 088 1 207 767
=17.4,=74.9,=3 182,iyi=13 578
==≈3.53,
=-≈74.9-3.53×17.4≈13.48,
∴所求的回归方程是=3.53x+13.48.
10.某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x 2 4 5 6 8
y 30 40 60 50 70
(1)画出散点图;
(2)求线性回归方程;
(3)预测当广告费支出为7百万元时的销售额.
解:(1)
(2)从散点图可以发现,y与x具有线性相关关系,利用计算器求得:
=5,=50,=145,iyi=1 380,
设回归方程为=x+,则
===6.5,
=-=50-6.5×5=17.5,故所求线性回归方程为=6.5x+17.5.
(3)当x=7时,=6.5×7+17.5=63.
所以,当广告费支出为7百万元时,销售额约为6 300万元.2.1.2 系统抽样
[读教材·填要点]
1.系统抽样的概念
先将总体从1开始编号,然后按号码顺序以一定的间隔进行抽取,然后从号码为1~k的第一个间隔中随机地抽取一个号码,然后按此间隔等距抽取即得所求样本.
2.系统抽样的步骤
一般地,假设要从容量为N的总体中抽取容量为n的样本,步骤为:
(1)先将总体的N个个体编号,有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等.
(2)确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;
(3)在第1段用简单随机抽样确定第一个个体编号l(l≤k);
(4)按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
[小问题·大思维]
1.系统抽样有什么特点?
提示:(1)适用于总体中个体数较大且个体差异不明显的情况.
(2)剔除多余个体及第一段抽样都用简单随机抽样,因而与简单随机抽样有密切联系;
(3)是等可能抽样.每个个体被抽到的可能性相等.
2.如何区分一种抽样方法是系统抽样还是简单随机抽样?
提示:(1)系统抽样的显著特点是抽出个体的编号是等距的.
(2)简单随机抽样的间隔不是恒定的.
系统抽样的概念
[例1] 下列抽样问题中最适合用系统抽样法抽样的是( )
A.从全班48名学生中随机抽取8人参加一项活动
B.一个城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150家.为了掌握各商店的营业情况,要从中抽取一个容量为21的样本
C.从参加模拟考试的1 200名高中生中随机抽取100人分析试题作答情况
D.从参加模拟考试的1 200名高中生中随机抽取10人了解某些情况
[自主解答] A总体容量较小,样本容量也较小,可采用抽签法;B总体中的个体有明显的层次不适宜用系统抽样法;C总体容量较大,样本容量也较大,可用系统抽样法;D若总体容量较大,样本容量较小时可用随机数表法.
[答案] C
——————————————————
1.应用系统抽样的前提条件
(1)个体较多,但均衡的总体;
——————————————————————————————————————
1.某商场想通过检查发票及销售记录的2%来快速估计每月的销售总额并采取如下方法:从某月发票的存根中随机抽一张,如15号,然后按顺序往后取出65号,115号,165号,…,将发票上的销售额组成一个调查样本.这种抽取样本的方法是( )
A.抽签法 B.随机数表法
C.系统抽样法 D.其他方式的抽样
解析:上述方法符合系统抽样的形式.
答案:C
系统抽样的应用
[例2] 为了解参加某种知识竞赛的1 000名学生的成绩,从中抽取一个容量为50的样本,那么采用什么抽样方法比较恰当?简述抽样过程.
[自主解答] 适宜选用系统抽样,抽样过程如下:
(1)随机地将这1 000名学生编号为000,001,002,…,999.
(2)将总体按编号顺序均分成50部分,每部分包括20个个体.
(3)在第一部分的个体编号000,001,002,…,019中,利用简单随机抽样抽取一个号码,比如是017.
(4)以017为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:017,037,057,…,977,997.
若将“1 000名学生的成绩”改为“1 002名学生的成绩”,又该如何抽样?请写出抽样过程.解:因为1 002=50×20+2,为了保证“等距”分段,应先剔除2人. (1)将1 002名学生用随机方式编号;(2)从总体中剔除2人(剔除方法可用随机数法),将剩下的1 000名学生重新编号(编号分别为000,001,002,…,999),并分成50段;(3)在第一段000,001,002,…,019这二十个编号中用简单随机抽样抽出一个(如003)作为起始号码;(4)将编号为003,023,043,…,983的个体抽出,组成样本.
——————————————————
1.解决系统抽样问题中两个关键的步骤为
(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.
(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.
2.当总体中的个体不能被样本容量整除时,需要在总体中剔除一些个体.
——————————————————————————————————————
2.某单位的在岗职工为620人,为了调查上班时,从家到单位的路上平均所用的时间,决定抽取10%的职工调查这一情况,如何采用系统抽样抽取样本?
解:用系统抽样抽取样本,样本容量是620×10%=62.
步骤是:
(1)编号:把这620人随机编号为001,002,003,…,620.
(2)确定分段间隔k==10,把620人分成62组,每组10人,每1组是编号为001~010的10人,第2组是编号为011~020的10人,依次下去,第62组是编号为611~620的10人.
(3)采用简单随机抽样的方法,从第1组10人中抽出一人,不妨设编号为l(1≤l≤10).
(4)那么抽取的职工编号为l+10k(k=0,1,2,…,61),得到62个个体作为样本,如当l=3时的样本编号为003,013,023,…,603,613.
从2 004名同学中,抽取一个容量为20的样本,写出用系统抽样法抽取的步骤.
[错解] (1)将2 004名同学随机方式编号;
(2)从总体中剔除4名同学,将剩下的分成20段;
(3)在第一段中用简单随机抽样抽取起始号码,比如66;
(4)将编号为66,166,266,366,…,1 866,1 966作为样本.
[错因] 在第二步剔除4名同学后没有对剩余进行从0 000,0 001,…,1 999重新编号.
[正解] (1)采用随机的方式给这2 004名同学编号为0 001,0 002,…,2 004.
(2)利用简单随机抽样剔除4个个体,并对剩余的2 000个个体重新编号为0 001,0 002,…,2 000.
(3)分段.由于20∶2 000=1∶100,故将总体分为20个部分,其中每一部分100个个体.
(4)在第1部分随机抽取1个号码,比如0 066号.
(5)从第0 066号起,每隔100个抽取1个号码,这样得到容量为20的样本:0 066,0 166,0 266,0 366,0 466,0 566,0 666,0 766,0 866,0 966,1 066,1 166,1 266,1 366,1 466,1 566,1 666,1 766,1 866,1 966.
1.在10 000个有机会中奖的号码(编号为0 000~9 999)中,有关部门按照随机抽样的方式确定后两位数字是68的号码为中奖号码.这是运用哪种抽样方法来确定中奖号码的( )
A.抽签法 B.系统抽样法
C.随机数表法 D.其他抽样方法
解析:由题意,中奖号码分别为0 068,0 168,0 268,…,9 968.显然这是将10 000个中奖号码平均分成100组,从第一组号码中抽取出0 068号,其余号码是在此基础上加上100的整数倍得到的,可见,这是用的系统抽样法.
答案:B
2.用系统抽样的方法从个体为1 003的总体中,抽取一个容量为50的样本,在整个抽样过程中每个个体被抽到的可能性是( )
A. B.
C. D.
解析:根据系统抽样的方法可知,每个个体入样的可能性相同,均为,所以每个个体入样的可能性是.
答案:C
3.(2012·山东高考)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
解析:从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为an=9+30(n-1)=30n-21,由451≤30n-21≤750,得≤n≤,所以n=16,17,…,25,共有25-16+1=10人.
答案:C
4.采用系统抽样从含有8 000个个体的总体(编号为0 000,0 001,…,7 999)中抽取一个容量为50的样本.已知最后一个入样的编号为7 894,则第一个入样的编号是________.
解析:样本间隔k==160.最后一个编号为7 894,则7 894-49×160=54,所以第一个入样编号为0 054.
答案:0 054
5.下列抽样中,是系统抽样的是________(填上所有是系统抽样的序号).
①电影院调查观众的某一指标,通知每排(每排人数相等)座号为16的观众留下来座谈;②搞某一市场调查,规定在商场门口随机抽一人询问,直到调查到规定的人数为止;③工厂生产的产品,用传送带将产品送入包装车间,质检人员从传送带上每隔5分钟抽取一件产品进行检验;④从标有1~15的15个球中,任选3个作样本,按从小到大的顺序排列,随机选起点i0,以后i0+5,i0+10(超过15则从1再数起)号入样.
解析:由系统抽样步骤可知,①③④符合要求.
答案:①③④
6.为了了解某地区今年高一学生期末考试数学科的成绩,拟从参加考试的15 000名学生的数学成绩中抽取容量为150的样本.请用系统抽样写出抽取过程.
解:(1)将参加考试的15 000名学生随机地编号:1,2,3,…,15 000.
(2)分段:由于样本容量与总体容量的比是1∶100,我们将总体平均分为150个部分,其中每一部分包括100个个体.
(3)在第一部分,即1号到100号用简单随机抽样,抽取一个号码,比如是56.
(4)以56作为起始数,然后顺次抽取156,256,356,…,14 956,这样就得到一个容量为150的样本.
一、选择题
1.有40件产品,编号从1至40,现在从中抽取4件检验,用系统抽样方法确定所抽的编号为( )
A.5,10,15,20 B.2,12,22,32
C.2,14,28,38 D.5,8,31,36
答案:B
2.中央电视台“动画城节目”为了对本周的热心小观众给予奖励,要从已确定编号的一万名小观众中抽出十名幸运小观众.现采用系统抽样的方法抽取,每组容量为( )
A.10 B.100
C.1 000 D.10 000
答案:C
3.为了了解一次期终考试的1 253名学生的成绩,决定采用系统抽样方法抽取一个容量为50的样本,那么总体中应随机剔除的个体数目是( )
A.2 B.3
C.4 D.5
解析:1 253÷50=25…3,故剔除3个.
答案:B
4.从2 004名学生中选取50名组成参观团,若采用下面的方法选取:先利用简单随机抽样从2 004人中剔除4人,剩下的2 000人再按系统抽样的方法进行, 则每人入选的机会 ( )
A.不全相等 B.均不相等
C.都相等 D.无法确定
解析:系统抽样是等可能的,每人入样的机率均为.
答案:C
二、填空题
5.一个总体中共有100个个体,随机编号0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样的方法抽取一个容量为10的样本,规定:如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码的个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是________.
解析:本题的入手点在于题设中的“第k组中抽取的号码的个位数字与m+k的个位数字相同”.由题设可知:第7组的编号为60,61,62,63,…,69,而第7组中抽取的号码的个位数字与6+7=13的个位数字相同,故第7组抽取的号码是63.
答案:63
6.(2011·罗源高一检测)为了了解1 203名学生对学校某项教改试验的意见,打算从中抽取一个容量为40的样本,现采用选取的号码间隔一样的系统抽样方法来确定所选取样本,则抽样间隔k=________.
解析:由于不是整数,所以从1 203名学生中随机剔除3名,则分段间隔k==30.
答案:40
7.某班有学生48人,现用系统抽样的方法,抽取一个容量为4的样本,已知座位号分别为6,30,42的同学都在样本中,那么样本中另一位同学的座位号应该是________.
解析:由题意,分段间隔k==12,所以6应该在第一组,所以第二组为6+=18.
答案:18
8.已知某商场新进3 000袋奶粉,为检查其三聚氰胺是否达标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.
解析:分段间隔是=20,由于第一组抽出号码为11,则第61组抽出号码为11+(61-1)×20=1 211.
答案:1 211
三、解答题
9.要装订厂平均每小时大约装订图书362册,需要检验员每小时抽取40册图书,检验其质量状况,请你设计一个抽样方案.
解:第一步,把这些图书分成40个组,由于的商是9,余数是2,所以每个小组有9册书,还剩2册书.这时抽样距就是9.
第二步,先用简单随机抽样的方法从这些书中抽取2册,不进行检验.
第三步,将剩下的书进行编号,编号分别为0,1,…,359.
第四步,从第一组(编号为0,1,…,8)的书中用简单随机抽样的方法,抽取1册书,比如说,其编号为k.
第五步,顺次抽取编号分别为下面数字的书:k,k+9,k+18,k+27,…,k+39×9.这样总共就抽取了40个样本.
10.下面给出某村委调查本村各户收入情况所作的抽样,阅读并回答问题:
本村人口:1 200人,户数300,每户平均人口数4人;
应抽户数:30户;
抽样间隔:=40;
确定随机数字:取一张人民币,编码的后两位数为12;确定第一样本户:编码的后两位数为12的户为第一样本户;
确定第二样本户:12+40=52,52号为第二样本户;
……
(1)该村委采用了何种抽样方法?
(2)抽样过程中存在哪些问题,并修改.
(3)何处是用简单随机抽样.
解:(1)系统抽样.
(2)本题是对某村各户进行抽样,而不是对某村人口抽样,抽样间隔为:=10,其他步骤相应改为:取一张人民币,编码的后两位数为02(或其他00~09中的一个),确定第一样本户:编号为02的户为第一样本户;确定第二样本户:02+10=12,12号为第二样本户,….
(3)确定随机数字用的是简单随机抽样即为取一张人民币,编码的后两位数为02.2.2.1 用样本的频率分布估计总体分布
[读教材·填要点]
1.用样本估计总体的两种情况
(1)用样本的频率分布估计总体的分布.
(2)用样本的数字特征估计总体的数字特征.
2.绘制频率分布直方图的步骤
3.频率分布折线图和总体密度曲线
4.茎叶图的制作步骤
(1)将数据分为茎和叶两部分;
(2)将最大茎和最小茎之间数据按大小次序排成一列;
(3)将各个数据的“叶”按大小次序写在茎右(左)侧.
[小问题·大思维]
1.频率分布直方图直观形象地表示了频率分布表,在频率分布直方图中是用哪些量来表示各组频率的?
提示:在频率分布直方图中用每个矩形的面积表示相应组的频率,即×组距=频率,各组频率的和等于1,因此各小矩形的面积的和等于1.
2.从甲、乙两个班级中各随机选出15名同学进行测试,成绩的茎叶图如图,你能说出甲、乙两班的最高成绩,以及哪个班的平均成绩较高吗?
甲 乙
6 4
8 5 7
9 4 1 6 2 5 9
8 7 5 4 2 1 7 2 5 7 8 9
7 4 4 8 1 4 4 7 9
6 9 2
提示:甲、乙两班的最高成绩各是96,92,从图中看,乙班的平均成绩较高.
列频率分布表、画频率分布直方图、折线图
[例1] 美国历届总统中,就任时年纪最小的是罗斯福,他于1901年就任,当时年仅42岁;就任时年纪最大的是里根,他于1981年就任,当时69岁.下面按时间顺序(从1789年的华盛顿到2009年的奥巴马,共44任)给出了历届美国总统就任时的年龄:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48
(1)将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.
(2)用自己的语言描述一下历届美国总统就任时年龄的分布情况.
[自主解答] (1)以4为组距,列表如下:
分组 频数 频率
[41.5,45.5) 2 0.045 5
[45.5,49.5) 7 0.159 1
[49.5,53.5) 8 0.181 8
[53.5,57.5) 16 0.363 6
[57.5,61.5) 5 0.113 6
[61.5,65.5) 4 0.090 9
[65.5,69.5] 2 0.045 5
合计 44 1.00
(2)从频率分布表中可以看出60%左右的美国总统就任时的年龄在50岁至60岁之间,45岁以下以及65岁以上就任的总统所占的比例相对较小.
根据频率分布表,求美国总统就任时年龄落在区间[61.5,69.5)人数占总人数的比例.解:区间[61.5,69.5)包含了[61.5,65.5),[65.5,69.5),两个组,两小组的频率和为0.090 9+0.045 5=0.136 4,故而所占比例为13.64%.
——————————————————
1.在列频率分布表时,极差、组距、组数有如下关系:
(1)若为整数,则=组数.
(2)若不为整数,则的整数部分+1=组数.
2.组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,使数据的分布规律能较清楚地呈现出来,组数太多或太少都会影响了解数据的分布情况,若样本容量不超过100,按照数据的多少常分为5~12组,一般样本容量越大,所分组数越多.
——————————————————————————————————————
1.一个农技站为了考察某种麦穗长的分布情况,在一块试验地里抽取了100个麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0
5.4 4.6 5.8 5.5 6.0 6.5 5.1 6.5
5.3 5.9 5.5 5.8 6.2 5.4 5.0 5.0
6.8 6.0 5.0 5.7 6.0 5.5 6.8 6.0
6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4
5.7 7.4 6.0 5.4 6.5 6.0 6.8 5.8
6.3 6.0 6.3 5.6 5.3 6.4 5.7 6.7
6.2 5.6 6.0 6.7 6.7 6.0 5.6 6.2
6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0
5.2 6.0 6.3 5.7 6.8 6.1 4.5 5.6
6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表、绘出频率分布直方图,并估计长度在5.75~6.05 cm之间的麦穗在这批麦穗中所占的百分比.
解:步骤是:
(1)计算极差:7.4-4.0=3.4(cm).
(2)决定组距与组数
若取组距为0.3 cm,由于=11,需分成12组,组数合适.于是取定组距为0.3 cm,组数为12.
(3)将数据分组
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,那么所分的12个小组可以是:3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55.
(4)列频率分布表
对各个小组作频数累计,然后数频数,算频率,列频率分布表,如下表所示:
分组 频数累计 频数 频率
3.95~4.25 1 0.01
4.25~4.55 1 0.01
4.55~4.85 2 0.02
4.85~5.15 正 5 0.05
5.15~5.45 正正 11 0.11
5.45~5.75 正正正 15 0.15
5.75~6.05 正正正正正 28 0.28
6.05~6.35 正正 13 0.13
6.35~6.65 正正 11 0.11
6.65~6.95 正正 10 0.10
6.95~7.25 2 0.02
7.25~7.55 1 0.01
合计 100 1.00
(5)画频率分布直方图.如图所示.
从表中看到,样本数据落在5.75~6.05之间的频率是0.28,于是可以估计,在这块地里,长度在5.75 ~6.05 cm之间的麦穗约占28%.
茎叶图及应用
[例2] 某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其质量,分别记下抽查记录如下(单位:千克):
甲:52 51 49 48 53 48 49
乙:60 65 40 35 25 65 60
画出茎叶图,并说明哪个车间的产品质量比较稳定.
[自主解答] 茎叶图如图所示(茎为十位上的数字):
甲 乙
2 5
3 5
9 9 8 8 4 0
3 2 1 5
6 0 0 5 5
由图可以看出甲车间的产品质量较集中,而乙车间的产品质量较分散,所以甲车间的产品质量比较稳定.
——————————————————
画茎叶图时,用中间的数表示数据的十位和百位数,两边的数分别表示两组数据的个位数.要先确定中间的数取数据的哪几位,填写数据时边读边填.比较数据时从数据分布的对称性、中位数、稳定性等几方面来比较.
绘制茎叶图的关键是分清茎和叶,一般地说数据是两位数时,十位数字为“茎”,个位数字为“叶”;如果是小数的,通常把整数部分作为“茎”,小数部分作为“叶”,解题时要根据数据的特点合理选择茎和叶.
——————————————————————————————————————
2.在某电脑杂志的一篇文章中,每个句子中所含字数如下:
10,28,31,17,23,27,18,15,26,24,20,19,36,27,14,25,15,22,11,21,24,27,17,29.
在某报纸的一篇文章中,每个句子中所含字数如下:
27,39,33,24,28,19,32,41,33,27,35,12,36,41,27,13,22,23,18,46,32,22,18,32.
(1)分别用茎叶图表示上述两组数据;
(2)将这两组数据进行比较分析,你能得到什么结论?
解:(1)茎叶图如图所示:
电脑杂志 报纸
9 8 7 7 5 5 4 1 0 1 2 3 8 8 9
9 8 7 7 7 6 5 4 4 3 2 1 0 2 2 2 3 4 7 7 7 8
6 1 3 2 2 2 3 3 5 6 9
4 1 1 6
(2)从茎叶图可看出:电脑杂志的文章中每个句子所含字数集中在10~30之间;报纸的文章中每个句子所含字数集中在20~40之间,且电脑杂志的文章中每个句子所含字的平均个数比报纸的文章中每个句子所含字的平均个数要少,因此电脑杂志的文章较简明.
频率分布直方图的应用
[例3] 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至31日,评委会把同学们上交作品的件数按5天一组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12.
(1)本次活动中一共有多少件作品参评?
(2)上交作品数量最多的一组有多少件?
(3)经过评比,第四组和第六组分别有10件,2件作品获奖,这两组获奖率较高的是第几组?
[自主解答] 在频率分布直方图中各小长方形的面积=组距×=频率,即各小长方形的面积等于相应各组的频率,且它们的面积和等于1.
(1)依题意知第三组的频率为=.又因为第三组的频数为12,所以本次活动的参评作品数为12÷=60(件).
(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有:60×=18(件).
(3)第四组的获奖率是=;
第六组上交的作品数量为60×=3(件),所以第六组的获奖率是=>,故第六组的获奖率较高.
——————————————————
频率分布直方图的性质
(1)因为小矩形的面积=组距×=频率,所以各小矩形面积表示相应各组的频率,这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)频数/相应的频率=样本容量.
——————————————————————————————————————
3.(2012·济宁高一检测)为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,试估计该校全体高一学生的达标率是多少?
解:(1)由于频率分布直方图以面积的形式反映了数据落在各个小组内的频率大小,因此第二小组的频率为=0.08.
又因为第二小组频率=,
所以样本容量===150.
故第二小组的频率是0.08,样本容量是150.
(2)由图可估计该校高一学生的达标率约为
×100%=88%.
故高一学生达标率是88%.
某校为了了解高三学生的身体状况,抽取了100名女生的体重.将所得的数据整理后,画出了如图的频率分布直方图,则所抽取的女生中体重在40~45 kg的人数是( )
A.10 B.2
C.5 D.15
[错解] 0.02×100=2人.选B.
[错因] 误认为纵轴表示频率.
[正解] 由图可知频率=×组距,
知频率=0.02×5=0.1.
∴0.1×100=10人.
[答案] A
1.(2012·湖北高考)容量为20的样本数据,分组后的频数如下表:
分组 [10,20) [20,30) [30,40) [40,50) [50,60) [60,70)
频数 2 3 4 5 4 2
则样本数据落在区间[10,40)的频率为( )
A.0.35 B.0.45
C.0.55 D.0.65
解析:求出样本数据落在区间[10,40)中的频数,再除以样本容量得频率.求得该频数为2+3+4=9,样本容量是20,所以频率为=0.45.
答案:B
2.100辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速在[60,70)的汽车大约有( )
A.30辆 B.40辆
C.60辆 D.80辆
解析:0.04×10×100=40.
答案:B
甲 乙
6 1 4
5 2 1 2 7
7 5 3 6 8
4 4 5
3.从甲、乙两种玉米苗中各抽6株,分别测得它们的株高如图所示(单位:cm),根据数据估计( )
A.甲种玉米比乙种玉米不仅长得高而且长得整齐
B.乙种玉米比甲种玉米不仅长得高而且长得整齐
C.甲种玉米比乙种玉米长得高但长势没有乙整齐
D.乙种玉米比甲种玉米长得高但长势没有甲整齐
解析:乙的平均株高为==34 cm.
甲的平均株高为==26 cm.
答案:D
4.为了帮助班上的两名贫困生解决经济困难,班上的20名同学捐出了自己的零花钱,他们捐款数如下:(单位:元)19,20,25,30,24,23,25,29,27,27,28,28,26,27,21,30,20,19,22,20.班主任老师准备将这组数据制成频率分布直方图,以表彰他们的爱心.制图时先计算最大值与最小值的差是________,若取组距为2,则应分成________组;若第一组的起点定为18.5,则在[26.5,28.5]范围内的频数为________.
解析:30-19=11
=5.5,∴分6组.
在[26.5,28.5]之间的数有5个.
答案:11 6 5
5.将一个容量为n的样本分成若干组,已知某组的频数和频率分别是30和0.25,则n=________.
解析:=0.25,∴n=30×4=120.
答案:120
6.为了了解学校高一年级男生的身高情况,选取一个容量为60的样本(60名男生的身高),分组情况如下(单位:cm):
分组 [147.5,155.5) [155.5,163.5) [163.5,171.5) [171.5,179.5]
频数 6 21 27 m
频率 a 0.1
(1)求出表中a,m的值;
(2)画出频率分布直方图.
解:(1)由题意得:6+21+27+m=60
∴m=6.
a==0.45
∴a=0.45.
(2)如图所示:
一、选择题
1.学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[50,60]元的同学有30人,则n的值为( )
A.90 B.100
C.900 D.1 000
解析:n×0.030×10=30.
n=100.
答案:B
2.在抽查某产品尺寸的过程中,将其尺寸分成若干组,[a,b)是其中一组,抽查出的个体数在该组内的频率为m,该组直方图的高为h,则|a-b|的值等于( )
A.h·m B.
C. D.与m,h无关
解析:小长方形的高=,
∴|a-b|==.
答案:B
3.(2012·陕西高考)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是( )
A.46,45,56 B.46,45,53
C.47,45,56 D.45,47,53
解析:从茎叶图中可以看出样本数据的中位数为中间两个数的平均数,即=46,众数为45,极差为68-12=56.
答案:A
4.为了解电视对生活的影响,一个社会调查机构就平均每天看电视的时间调查了某地10 000位居民,并根据所得数据画出样本的频率分布直方图(如图),为了分析该地居民平均每天看电视的时间与年龄、学历、职业等方面的关系,要从这10 000位居民中再用分层抽样抽出100位居民做进一步调查,则在[2.5,3)(小时)时间段内应抽出的人数是( )
A.25 B.30
C.50 D.75
解析:0.5×0.5×100=25人
答案:A
二、填空题
甲 乙
8 5 7 9
8 6 5 4 8 4 4 4 6 7
2 9 3
5.青年歌手大奖赛共有10名选手参赛,并请了7名评委,如图所示的茎叶图是7名评委给参加最后决赛的两位选手甲、乙评定的成绩,去掉一个最高分和一个最低分后,甲、乙选手剩余数据的平均成绩分别为________.
解析:==84.2
==85.
答案:84.2 85
6.(2011·浙江高考)某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是________.
解析:由题意知,在该次数学考试中成绩小于60分的频率为(0.002+0.006+0.012)×10=0.2,故这3 000名学生在该次数学考试中成绩小于60分的学生数是3 000×0.2=600.
答案:600
7.10个小球分别编号1,2,3,4,其中1号球4个,2号球2个,3号球3个,4号球1个,则0.4是指1号球占总体分布的________.
解析:0.4=为1号球占总体分布的频率.
答案:频率
8.某校开展“爱我海西,爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是______.
作品A
8 8 9 9
9 2 3 x 2 1 4
解析:当x≤4时,
=91,
解之得x=1.当x>4时,易证不合题意.
答案:1
三、解答题
9.某中学高二(2)班甲、乙两名学生自进入高中以来,每次数学考试成绩情况如下:
甲:95,81,75,91,86,89,71,65,76,88,94,110,107,;
乙:83,86,93,99,88,103,98,114,98,79,78,106,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
解:甲、乙两人数学成绩的茎叶图如图所示.
甲 乙
5 6
6 1 5 7 9 8
8 9 6 1 8 3 6 8
4 1 5 9 3 9 8 8
7 10 3 6 1
0 11 4
从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况;也大致对称,中位数是88.乙同学的成绩比较稳定,总体情况比甲同学好.
10.为了让学生了解环保知识,增强环保意识,某中学举行了一次“环保知识竞赛”,共有900名学生参加了这次竞赛,为了解本次竞赛成绩情况,从中抽取了部分学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成并有局部污损的频率分布表和频率分布直方图,解答下列问题:
分组 频数 频率
[50,60) 4 0.08
[60,70) 0.16
[70,80) 10
[80,90) 16 0.32
[90,100]
合计 50
(1)填充频率分布表的空格(将答案直接填在表格内);
(2)补全频率分布直方图;
(3)若成绩在[70,90)分的学生为二等奖,问获得二等奖的学生约为多少人?
解:(1)
分组 频数 频率
[50,60) 4 0.08
[60,70) 8 0.16
[70,80) 10 0.20
[80,90) 16 0.32
[90,100] 12 0.24
合计 50 1.00
(2)频率分布直方图如图所示:
(3)∵成绩在[70,80)间的学生频率为0.20;
成绩在[80,90)间的学生频率为0.32.
∴在[70,90)之间的频率为0.20+0.32=0.52.
又∵900名学生参加竟赛,
∴该校获二等奖的学生为900×0.52=468(人).2.1.1 简单随机抽样
[读教材·填要点]
1.简单随机抽样的定义
设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
2.简单随机抽样的分类
简单随机抽样
3.随机数法的类型
随机数法
[小问题·大思维]
1.在统计中总体、个体、样本、样本容量是如何定义的?
提示:总体:统计中所考察对象的全体叫总体;
个体:总体中的每一个考察对象叫个体;
样本:从总体中抽取的一部分个体叫做样本;
样本容量:样本的个体的数目叫做样本容量.
2.有同学说:“随机数表只有一张,并且读数时只能按照从左向右的顺序读取,否则产生的随机样本就不同了,对总体的估计就不准确了”,你认为这种说法正确吗?
提示:不正确.随机数表的产生是随机的,读数的顺序也是随机的,不同的样本对总体的估计相差并不大.
简单随机抽样的概念
[例1] 下面的抽样方法是简单随机抽样吗?为什么?
(1)从无数个个体中抽取20个个体作为样本.
(2)从50台冰箱中一次性抽取5台冰箱进行质量检查.
(3)某班有40名同学,指定个子最高的5名同学参加学校组织的篮球赛.
(4)一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
[自主解答] (1)不是简单随机抽样.因为总体的个数是无限的,而不是有限的.
(2)不是简单随机抽样.虽然“一次性”抽取和“逐个”抽取不影响个体被抽到的可能性,但简单随机抽样的定义要求的是“逐个抽取”.
(3)不是简单随机抽样.因为是指定5名同学参加比赛,每个个体被抽到的可能性是不同的,不是等可能抽样.
(4)是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能地进行抽样.
能否把本题中不是简单随机抽样的改为简单随机抽样? 解:在 1 中把“无数个”改为“300”等大于20具体数字; 2 把“一次性抽取”改为“逐个抽取”; 3 把“指定5名个子最高的”改为“随机指定5名同学”
——————————————————
判断一个抽样是否为简单随机抽样的依据是其四个特征:
———————————————————————————
1.下列抽样方式是否是简单随机抽样?
(1)在某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其质量是否合格.
(2)某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
解:由简单随机抽样的特点可知,(1)(2)均不是简单随机抽样.
抽签法的应用
[例2] 某大学为了支援西部教育事业,现从报名的18名志愿者中选取6人组成志愿小组,请用抽签法确定志愿小组成员,写出抽样步骤.
[自主解答] 抽样步骤是:
第一步,将18名志愿者编号,号码是01,02,…,18;
第二步,将号码分别写在同样的小纸片上,揉成团,制成号签;
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀;
第四步,从袋子中依次抽取6个号签,并记录上面的编号;
第五步,与所得号码对应的志愿者就是志愿小组的成员.
——————————————————
1.一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
2.应用抽签法时应注意以下几点:
(1)编号时,如果已有编号可不必重新编号;
(2)号签要求大小、形状完全相同;
(3)号签要均匀搅拌;
(4)要逐一不放回的抽取.
——————————————————————————————————————
2.从60件产品中抽取5件进行检查,请用抽签法抽取产品,并写出抽样过程.
解:抽签法步骤:
第一步,将60件产品编号,号码是01,02,…,60.
第二步,将号码分别写在同样的纸条上,揉成团,制成号签.
第三步,将号签放入不透明的袋子中,并充分搅匀.
第四步,从袋子中依次抽取5个号签,并记录上面的编号.
第五步,与所得号码对应的产品就是要抽取的对象.
随机数表法的应用
[例3] 有一批机器编号为1,2,3,…,112,请用随机数表法抽取10台入样,写出抽样过程.
[自主解答] 第一步,将原来的编号调整为001,002,…,112.
第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第9行第7个数“3”向右读.
第三步,从“3”开始向右读,每次取三位,凡不在001~112中的数跳过去不读.
前面已经读过的数不读,依次可得到074,100,094,052,080,003,105,107,083,092.
第四步,对应原来编号为74,100,94,52,80,3,105,107,83,92的机器便是要抽取的对象.
——————————————————
在利用随机数表法抽样的过程中注意:
(1)编号要求数位相同;
2 第一个数字的抽取是随机的;
3 读数的方向是任意的且为事先定好的.
——————————————————————————————————————
3.现有一批编号为10,11,…,99,100,…,600的元件,从中抽取一个容量为6的样本进行质量检验.如何用随机数表法设计抽样方案?
解:第一步,将元件的编号调整为010,011,…,099,100,…,600.
第二步,在随机数表中任选一数作为开始,任选一方向作为读数的方向,如选第7行第2个数开始向右读.
第三步,以“4”开始向右读,每次取3位,凡不在010~600中的数跳过去不读,得号码175,331,572,455,068,047.
第四步,以上号码对应的6个元件是所要抽取的样本.
要从10架钢琴中抽取4架进行质量检验,请你设计抽样方案.
[解] 法一:(随机数表法)
第一步,将10架钢琴编号,号码是0,1,…,9.
第二步,在随机数表中任选一数作为开始,任选一方向作为读数方向.比如,选第3行第6列的数“2”,向右读.
第三步,从数“2”开始,向右读,每次读取1位,重复数字只记录一次,依次可得到2,7,6,5.
第四步,以上号码对应的4架钢琴就是要抽取的对象.
法二:(抽签法)
第一步,将10架钢琴编号,号码是0,1,…,9.
第二步,将号码分别写在一张纸条上,揉成团,制成号签.
第三步,将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步,从袋子中逐个抽取4个号签,并记录上面的编号.
第五步,所得号码对应的4架钢琴就是要抽取的对象.
1.从某年级500名学生中抽取60名学生进行体重的统计分析,就这个问题来说,下列说法正确的是( )
A.500名学生是总体
B.每个被抽取的学生是个体
C.抽取的60名学生的体重是一个样本
D.抽取的60名学生的体重是样本容量
答案:C
2.在简单随机抽样中,某一个个体被抽中的可能性( )
A.与第几次抽样有关,每一次抽中的可能性要大些
B.与第几次抽样无关,每次抽中的可能性都相等
C.与第几次抽样有关,最后一次抽中的可能性要大些
D.每个个体被抽中的可能性无法确定
解析:在简单随机抽样中,每一个个体被抽中的可能性都相等,与第几次抽样无关.
答案:B
3.为了解某地区高三学生升学考试数学成绩的情况,从中抽取50本密封试卷,每本30份试卷,这个问题中的样本容量是( )
A.30 B.50
C.1 500 D.150
解析:样本容量为50×30=1 500份.
答案:C
4.一个总体共有30个个体,用简单随机抽样的方法从中抽取一个容量为7的样本,则某个定是个体入样的可能性是________.
解析:简单随机抽样中每个个体入样的可能性均为,故该个体入样的可能性为.
答案:
5.抽签法中确保样本具有代表性的关键是________.
答案:搅拌均匀
6.要从某汽车厂生产的30辆汽车中随机抽取3辆进行测试,请选择合适的抽样方法,写出抽样过程.
解:其方法和步骤如下:
(1)将30辆汽车编号,号码是01,02,…,30.
(2)将号码分别写在一张纸条上,揉成团,制成号签.
(3)将得到的号签放入一个不透明的袋子中,并搅拌均匀.
(4)从袋子中依次抽取3个号签,并记录上面的编号.
(5)所得号码对应的3辆汽车就是要抽取的对象.
一、选择题
1.为了了解全校240名高一学生的身高情况,从中抽取40名学生进行测量.下列说法正确的是( )
A.总体是240 B.个体是每一名学生
C.样本是40名学生 D.样本容量是40
解析:本题中的研究对象是学生的身高,而不是学生自身.总体是240名学生的身高,个体是每一名学生的身高,样本是抽取的40名学生的身高,总体容量是240,样本容量是40.
答案:D
2.用随机数法进行抽样有以下几个步骤:
①将总体中的个体编号;②获取样本号码;③选定开始的数字;④选定读数的方向
这些步骤的先后顺序应为( )
A.①②③④ B.①③④②
C.③②①④ D.④③①②
答案:B
3.某工厂的质检人员对生产的100件产品,采用随机数表法抽取10件检查,对100件产品采用下面的编号方法:①01,02,03,…,100;②001,002,003,…,100;③00,01,02,…,99.其中正确的序号是( )
A.①② B.①③
C.②③ D.③
解析:根据随机数表的要求,只有编号时数字位数相同,才能达到随机等可能抽样.
答案:C
4.对于简单随机抽样,下列说法中正确的为( )
①它要求总体的个数有限,以便对其中各个个体被抽取的概率进行分析;②它是从总体中逐个地进行抽取;③它是一种不放回抽样;④它是一种等概率抽样,不仅每次从总体中抽取一个个体时,各个个体被抽取的概率相等,而且在整个抽样过程中,各个个体被抽取的概率也相等,从而保证了这种抽样方法的公平性.
A.①②③ B.①②④
C.①③④ D.①②③④
解析:这四点全是简单抽样的四个特点.
答案:D
二、填空题
5.从总数为N的一批零件中抽取一个容量为30的样本,若每个零件被抽到的可能性为25%,则N=________.
解析:=25%,∴N=120.
答案:120
6.下列调查的样本不合理的是________.
①在校内发出一千张印有全校各班级的选票,要求被调查学生在其中一个班级旁画“√”,以了解最受欢迎的教师是谁;②从一万多名工人中,经过选举,确定100名代表,然后投票表决,了解工人们对厂长的信任情况;③到老年公寓进行调查,了解全市老年人的健康状况;④为了了解全班同学每天的睡眠时间,在每个小组中各选取3名学生进行调查.
解析:①中样本不具有有效性,在班级前画“√”与了解最受欢迎的老师没有关系.③中样本缺乏代表性.而②④是合理的样本.
答案:②④
7.为了了解某次数学竞赛中1 000名学生的成绩,从中抽取一个容量为100的样本,则每个学生成绩入样的机会是________.
解析:==10%.
答案:10%
8.某中学高一年级有400人,高二年级有320人,高三年级有280人,以每人被抽取的可能性均为0.2,向该中学抽取一个容量为n的样本,则n=________.
解析:∵=0.2,∴n=200.
答案:200
三、解答题
9.我们要考察某公司生产的500 g盒装水果罐头的质量是否达标,现从800盒水果罐头中抽取60盒进行检验,请用适当的方法选取样本.
解:用随机数法:第一步,先将800盒水果罐头编号,可以编为000,001,002,…,799;
第二步,在随机数表中任选一个数,例如从课本附录的随机数表中选择第5行第10列4;
第三步,从选定的数4开始向右读,得到一个三位数438,由于438<799,说明号码438在总体中,将它取出;继续向右读,得到548,246,223,162,430,990,由于990>799,将它去掉,按照这种方法继续向右读,又取出061,325,…,依次下去,直到样本的60个号码全部取出.这样我们就得到一个容量为60的样本.
10.现在有一种够级游戏,其用具为四副扑克,包括大小鬼(又称为花)在内共216张牌,参与人数为6人,并围成一圈.够级开始时,从这6人中随机指定一人从已经洗好的扑克牌中随机抽取一张牌(这叫开牌),然后按逆时针方向,根据这张牌上的数字来确定抓牌的先后,这6人依次从216张牌中抓取36张牌,问这种抓牌的方法是否是简单随机抽样?
解:简单随机抽样的实质是逐个地从总体中随机抽取样本,而这里只是随机确定了起始的牌,其他各张牌虽然是逐张抓牌,但是各张在谁手里已被确定,只有抽取的第一张扑克牌是随机抽取的,其他215张牌已经确定,即这215张扑克牌被抽取的可能性与第一张扑克牌被抽取的可能性不相同,所以不是简单随机抽样.2.1.3 分层抽样
[读教材·填要点]
1.分层抽样的概念
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
2.分层抽样的适合条件
分层抽样应尽量利用对总体事先所掌握的各种信息,并充分考虑了保持样本结构与总体结构的一致性,这对提高样本的代表性非常重要,当总体是由差异明显的几个部分组成时,往往选用分层抽样的方法.
[小问题·大思维]
1.系统抽样时,将总体分成均等的几部分,每部分抽取一个,符合分层抽样,故系统抽样就是一种特殊的分层抽样,这种说法对吗?
提示:不对.因为分层抽样是从各层独立地抽取个体,而系统抽样各段上抽取是按事先定好的规则进行的,各层编号有联系,不是独立的,故系统抽样不同于分层抽样.
2.分层抽样中要将总体层次分明的几部分分层按比例抽取,其中“比例”一词如何理解?
提示:可从两个方面理解:一是所抽样本中各层个体数之比与总体中各层个体数之比相同;二是每层所抽个体数与该层个体总数之比等于样本容量与总体容量之比.
分层抽样的概念
[例1] 某学校有在编人员160人,其中行政人员16人,教师112人,后勤人员32人.教育部门为了解学校机构改革意见,要从中抽取一个容量为20的样本.试确定用何种方法抽取,并写出抽样过程.
[自主解答] 因机构改革关系到各层人员的利益,故用分层抽样法为妥.因为=8,所以可在各层人员中按8∶1的比例抽取.
又因为=2,=14,=4,所以,行政人员、教师、后勤人员分别应抽取2人、14人、4人.
因行政和后勤人员人数较少,可分别按01~16号和01~32号编号,然后用抽签法分别抽取2人和4人.而教师较多,所以对教师112人采用000,001,…,111编号,用随机数法抽取14人.这样就得到了符合要求的容量为20的样本.
——————————————————
1.判断抽样方法是分层抽样,主要是依据分层抽样的特点:
(1)适用于总体由差异明显的几部分组成的情况.
(2)能更充分地反映了总体的情况.
(3)等可能抽样,每个个体被抽到的可能性都相等.
2.分层抽样又称为“按比例抽样”,这里所说的“按比例”是指
(1)=;
(2)=.
——————————————————————————————————————
1.某社区有700户家庭,其中高收入家庭225户,中等收入家庭400户,低收入家庭75户,为了调查社会购买力的某项指标,要从中抽取一个容量为100户的样本,记作①;某中学高二年级有12名足球运动员,要从中选出3人调查学习负担情况,记作②;从某厂生产的802辆轿车中抽取8辆测试某项性能,记作③.则完成上述3项应采用的抽样方法是( )
A.①用简单随机抽样,②用系统抽样,③用分层抽样
B.①用分层抽样,②用简单随机抽样,③用系统抽样
C.①用简单随机抽样,②用分层抽样,③用系统抽样
D.①用分层抽样,②用系统抽样,③用简单随机抽样
解析:对于①,总体由高收入家庭、中等收入家庭和低收入家庭差异明显的三部分组成,而所调查的指标与收入情况密切相关,所以应采用分层抽样.
对于②,总体中的个体数较少,而且所调查内容对12名调查对象是平等的,应用简单随机抽样.
对于③,总体中的个体数较多,应用系统抽样.
答案:B
分层抽样的应用
[例2] 一个单位有职工500人,其中不到35岁的有125人,35岁至49岁的有280人,50岁及50岁以上的有95人,为了了解这个单位职工与身体状态有关的某项指标,要从中抽取100名职工作为样本,职工年龄与这项指标有关,应该怎样抽取?
[自主解答] 用分层抽样来抽取样本,步骤是:
(1)分层.按年龄将职工分成三层:不到35岁的职工;35岁至49岁的职工;50岁及50岁以上的职工.
(2)确定每层抽取个体的个数.抽样比为=,则在不到35岁的职工中抽125×=25(人);
在35岁至49岁的职工中抽280×=56(人);
在50岁及50岁以上的职工中抽95×=19(人).
(3)在各层分别按抽签法或随机数表法抽取样本.
(4)综合每层抽样,组成样本.
——————————————————
(3)按各层的个体数占总体的比确定各层应抽取的样本容量;
(4)在每一层进行抽样(可用简单随机抽样或系统抽样);
(5)最后将每一层抽取的样本汇总合成样本.
——————————————————————————————————————
2.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,职员20人.上级机关为了了解政府机构改革的意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,请具体实施操作.
解:因机构改革关系到各人的不同利益,故采用分层抽样方法.
抽取比例为:=,
故:10×=2;70×=14;20×=4.
∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从职员中抽取4人.
因副处级以上干部与职员人数都较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,…,69编号,然后用随机数法抽取14人.
某校共有教师302名,其中老年教师30名,中年教师150名,青年教师122名.为调查他们对新课程改革的看法,从中抽取一个60人的样本.请写出抽样过程.
[错解] 把302名教师编号为:1,2,3,…,302,然后用随机数表法剔除2个个体,再对剩余的300名教师重新编号为:1,2,3,…,300.因为=5.故可将这300名教师分成60段,每段5名教师,先从1~5号教师中随机抽取1名教师,然后从这名教师的编号开始,每隔5名抽取一名.如:从1~5号中抽取的是3号,则抽取的这60名教师的编号依次为:3,8,13,18,23,…,298.
[错因] 3个层次的教师对新课程改革的看法是有较大差别的,因此应采用分层抽样,又因为教师总人数和青年教师人数均不能被60整除,此时就需先从青年教师中剔除2个个体,再进行抽样.
[正解] (1)把122名青年教师编号,利用随机数表法剔除2个个体.
(2)因为=,30×=6,150×=30,120×=24,所以可将老年教师30名,中年教师150名,青年教师120名编号后,运用随机数表法,分别从中抽取6,30,24个个体,合在一起即为要抽取的60人样本.
1.分层抽样适合的总体是( )
A.总体容量较多 B.样本容量较多
C.总体中个体有差异 D.任何总体
答案:C
2.一批灯泡400只,其中20 W、40 W、60 W的数目之比是4∶3∶1,现用分层抽样的方法产生一个容量为40的样本,三种灯泡依次抽取的个数为( )
A.20,15,5 B.4,3,1
C.16,12,4 D.8,6,2
解析:三种灯泡依次抽取的个数为40×=20,40×=15,40×=5.
答案:A
3.简单随机抽样、系统抽样、分层抽样三者的共同特点是( )
A.将总体分成几部分,按预先设定的规则在各部分抽取
B.抽样过程中每个个体被抽到的机会均等
C.将总体分成几层,然后分层按照比例抽取
D.没有共同点
答案:B
4.(2012·江苏高考)某学校高一、高二、高三年级的学生人数之比是3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.
解析:由题意得高二年级的学生人数占该学校高中人数的,利用分层抽样的有关知识得应从高二年级抽取50×=15名学生.
答案:15
5.某工厂生产A、B、C三种不同型号的产品,产品数量之比依次为2∶3∶4,现用分层抽样方法抽出一个容量为n的样本,样本中A种型号产品有16件.那么此样本的容量n=________.
解析:=.
n=72.
答案:72
6.某运输队有货车1 200辆,客车800辆.从中抽取调查车辆的使用和保养情况.请给出抽样过程.
解:利用分层抽样.
第一步:确定货车和客车各应抽取多少辆,
货车1 200×=120(辆),客车800×=80(辆).
第二步:用系统抽样法分别抽取货车120辆,客车80辆.
第三步:把抽取的货车和客车组成样本.
1.在1 000个球中有红球50个,从中抽取100个进行分析,如果用分层抽样的方法对球进行抽样,则应抽红球( )
A.33个 B.20个
C.5个 D.10个
解析:=,则x=5.
答案:C
2.问题:①有1 000个乒乓球分别装在3个箱子内,其中红色箱子内有500个,蓝色箱子内有200个,黄色箱子内有300个,现从中抽取一个容量为100的样本;②从20名学生中选出3名参加座谈会.
方法:Ⅰ.随机抽样法;Ⅱ.系统抽样法;Ⅲ.分层抽样法
其中问题与方法能配对的是( )
A.①Ⅰ,②Ⅱ B.①Ⅲ,②Ⅰ
C.①Ⅱ,②Ⅲ D.①Ⅲ,②Ⅱ
解析:根据三种抽样的定义选取.
答案:B
3.(2011·福建高考)某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名, 则在高二年级的学生中应抽取的人数为( )
A.6 B.8
C.10 D.12
解析:由分层抽样的比例都等于样本容量比总体容量可知:若设高二年级抽取x人,则有=,解得x=8.
答案:B
4.某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生数是高一学生数的两倍,高二学生数比高一学生数多300人,现在按的抽样比用分层抽样的方法抽取样本,则应抽取高一学生数为( )
A.8 B.11
C.16 D.10
解析:设高一学生为x人,则
x+2x+x+300=3 500,
4x=3 200,
x=800,
∴按抽样比抽取样本,则×800=8.
答案:A
二、填空题
5.(2012·福建高考)一支田径运动队有男运动员56人,女运动员42人.现用分层抽样的方法抽取若干人,若抽取的男运动员有8人,则抽取的女运动员有_________________人.
解析:应抽取女运动员的人数为:×28=12.
答案:12
6.经问卷调查,某班学生对摄影分别持“喜欢”、“不喜欢”和“一般”三种态度,其中持“一般”态度的学生比持“不喜欢”态度的学生多12人,用分层抽样的方法从全班中选出部分学生座谈摄影知识,如果选出的是5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位持“一般”态度的同学,那么全班学生中“喜欢”摄影的人比全班学生人数的一半还多________人.
解析:由题意知=,
设不喜欢的为x人,则
3x-x=12,∴x=6.
“喜欢”的有6×5=30(人),
“一般”态度有6×3=18(人),
“不喜欢”有6(人),
班内共有30+18+6=54(人),
54÷2=27人,30-27=3(人).
答案:3
7.(2012·临沂模拟)现有甲、乙两种产品共120件,现按一定的比例用分层抽样的方法共抽取10件进行产品质量调查,如果所抽取的甲产品的数量是乙产品的2倍还多1件,那么甲、乙产品的总件数分别为________、________.
解析:设抽取乙产品x件,则抽取甲产品2x+1件,
由x+(2x+1)=10,得x=3.∴2x+1=7.
∴共有甲产品120×=84(件),
乙产品120×=36(件).
答案:84 36
8.某企业三月中旬生产A,B,C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别 A B C
产品数量(件) 1 300
样本容量 130
由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员只记得A产品的样本容量比C产品的样本容量多10,请你根据以上信息补全表格中的数据.
解析:由分层抽样知,抽样比为1∶10,可得解.
答案:900 90 800 80
三、解答题
9.选择合适的抽样方法抽样,写出抽样过程.
(1)有30个篮球,其中甲厂生产的有21个,乙厂生产的有9个,抽取10个入样.
(2)有甲厂生产的30个篮球,其中一箱21个,另一箱9个,抽取3个入样.
解:(1)总体由差异明显的两个层次组成,需选用分层抽样法.
第一步,确定抽取个数.因为样本容量与总体的个数比为10∶30=1∶3,所以甲厂生产的应抽取=7个,乙厂生产的应抽取=3个.
第二步,用抽签法分别抽取甲厂生产的篮球7个,乙厂生产的篮球3个.这些篮球便组成了我们要抽取的样本.
(2)总体容量较小,用抽签法.
第一步,将30个篮球编号,编号为00,01,…,29.
第二步,将以上30个编号分别写在小纸条上,揉成小球,制成号签.
第三步,把号签放入一个不透明的袋子中,充分搅拌.
第四步,从袋子中逐个抽取3个号签,并记录上面的号码.
第五步,找出和所得号码对应的篮球组成样本.
10.某校500名学生中,O血型的人有200人,B血型的人有125人,AB血型的人有50人,A血型的人有125人,为了研究血型和色弱的关系,要从中抽取一个容量为20的样本,按照分层抽样的方法抽取样本,各种血型的人要分别抽取多少人?请写出抽样过程.
解:第一步,确定抽样比20∶500=1∶25.
第二步,从O血型的人中抽取200×=8(人),从B血型的人中抽取125×=5(人),从AB血型的人中抽取50×=2(人),从A血型的人中抽取125×=5(人).
第三步,分别从4种血型的人中用简单随机抽样的方法抽取样本,这样就得到一个容量为20的样本.