1.三种抽样方法的异同点
2.用样本的频率分布估计总体分布
利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体估计.
(1)用样本频率分布估计总体频率分布时,通常要对给定的一组数据进行列表、作图处理,作频率分布表与频率分布直方图时要注意其方法步骤.
(2)茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示,但数据较多时不方便.
3.平均数与方差
样本的平均数常和方差配合使用来反映样本数据的稳定性,从而估计总体.我们知道方差的计算比较麻烦,但是在高考中会通过选择题、填空题和一些较简单的数据,从不同的角度考查有关平均数与方差的综合应用.
4.回归直线方程的应用
应用回归直线方程分析变量间的相关关系的一般步骤:
(1)根据散点图分析两个变量是否存在相关关系.
(2)若存在相关关系,按照步骤求出线性回归直线方程.
(3)应用于实际问题.
分层抽样及应用
[例1] (2013·唐河高一检测)某城市有学校700所.其中大学20所,中学200所,小学480所,现用分层抽样方法从中抽取一个容量为70的样本,进行某项调查,则应抽取中学数为( )
A.70 B.20
C.48 D.2
[解析] 由题意,抽样比为=,因而应抽取中学200×=20所.
[答案] B
[借题发挥] 分层抽样是一种重要的随机抽样,近几年高考中几乎年年考查,具体抽样时,应弄清以下比例关系:
=.
1.已知一班有学员54人,二班有学员42人,现在要用分层抽样方法从两个班级中抽出一部分人参加4×4方阵进行军训表演,则从一班和二班抽取的人数分别是( )
A.9,7 B.15,1
C.8,8 D.12,4
解析:4×4=16,54+42=96.
一班×16=9人,
则二班16-9=7人.
答案:A
2.(2012·天津高考)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取____________所学校,中学中抽取____________所学校.
解析:根据分层抽样的特点求解.从小学中抽取30×=18所学校;从中学中抽取30×=9所学校.
答案:18 9
频率分布直方图及应用
[例2] 样本容量为100的频率分布直方图如图所示.根据样本的频率分布直方图估计样本数据落在[6,10)内的频数为a,样本数据落在[2,10)内的频率为b,则a,b分别是( )
A.32,0.4 B.8,0.1
C.32,0.1 D.8,0.4
[解析] 落在[6,10)内频率为0.08×4=0.32,
100×0.32=32,∴a=32,
落在[2,10)内频率为(0.02+0.08)×4=0.4.
∴b=0.4.
[答案] A
[借题发挥] 在频率分布直方图中,很容易把每一个矩形的高误认为是频率.这里频率应是小矩形的面积,而高为,显然组距为小矩形的底,矩形的高越大面积越大,因此其频率也越大.
3.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如下图,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54
C.48 D.27
解析:[4.7,4.8)之间频率为0.32,
[4.6,4.7)之间为1-0.62-0.05-0.11
=1-0.78=0.22.
∴a=(0.22+0.32)×100=54.
答案:B
4.(2012·山东高考)下图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5].样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5℃的城市个数为11,则样本中平均气温不低于25.5℃的城市个数为________.
解析:设样本容量为n,则n×(0.1+0.12)×1=11,所以n=50,故所求的城市数为50×0.18=9.
答案:9
平均数和方差
[例3] 在某项体育比赛中,七位裁判为一选手打出的分数如下:
90 89 90 95 93 94 93
去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( )
A.92,2 B.92,2.8
C.93.2 D.93,2.8
[解析] 去掉最高分95,最低分89,所剩数据的平均值为(90×2+93×2+94)=92,方差s2=[(90-92)2×2+(93-92)2×2+(94-92)2]=2.8.
[答案] B
[借题发挥] 在实际问题中,仅靠平均数不能完全反映问题还要研究方差,方差描述了数据相对平均数的离散程度,在平均数相同的情况下,方差越大,离散程度越大,数据波动性越大,稳定性越差;方差越小,数据越集中,质量越稳定.
5.从一堆苹果中任取5只,称得它们的质量如下(单位:克):125,124,121,123,127,则该样本标准差s=________(克)(用数字作答).
解析:先求平均数==124(克),则样本标准差
s=
= =2.
答案:2
6.从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 ( )
分数 5 4 3 2 1
人数 20 10 30 30 10
A. B.
C.3 D.
解析:∵==3,
∴s2=[(x1-)2+(x2-)2+…+(xn-)2]
=(20×22+10×12+30×12+10×22)
== s=.
答案:B
关于散点图和回归方程的求法
[例4] (2011·安徽高考)某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份 2002 2004 2006 2008 2010
需求量(万吨) 236 246 257 276 286
(1)利用所给数据求年需求量与年份之间的回归直线方程=bx+a;
(2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.
[解] (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程.为此对数据预处理如下:
年份-2 006 -4 -2 0 2 4
需求量-257 -21 -11 0 19 29
对预处理后的数据,容易算得=0,=3.2,
b=
==6.5,
a=-b=3.2.
由上述计算结果,知所求回归直线方程为
-257=b(x-2 006)+a=6.5(x-2 006)+3.2.
即=6.5(x-2 006)+260.2.①
(2)利用直线方程①,可预测2012年的粮食需求量为
6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨)≈300(万吨).(未写近似值不扣分)
[借题发挥] 两个变量之间的相关关系即不确定性关系的研究,通常先作变量的散点图,根据散点图判断这两个变量最接近于何种确定性关系(函数关系),然后用这个关系分析预测原来两个变量的关系,这就是回归分析,其中线性回归分析是常用的一种回归分析.
7.某地区10名健康儿童头发和血液中的硒含量(1 000 ppm)如下表所示:
血硒 74 66 88 69 91 73 66 96 58 73
发硒 13 10 13 11 16 9 7 14 5 10
(1)画出散点图;
(2)求回归直线方程;
(3)若某名健康儿童的血液中的硒含量为94(1 000 ppm),预测他的发硒含量.
解:(1)散点图如图所示.
(2)根据回归方程的截距和斜率的最小二乘法估计公式分别求得
=-6.980 3,=0.235 8.
故所求回归直线方程为=0.235 8x-6.980 3.
(3)当x=94时,
=0.235 8×94-6.980 3≈15.2.
因此,当儿童的血硒含量为94(1 000 ppm)时,该儿童的发硒含量约为15.2(1 000 ppm).
8.针对某工厂某产品产量与单位成本的资料进行线性回归分析:
月份 产量(千件)x 单位成本(元/件)y x2 xy
1 2 73 4 146
2 3 72 9 216
3 4 71 16 284
4 3 73 9 219
5 4 69 16 276
6 5 68 25 340
合计 21 426 79 1 481
解:设回归直线方程为=x+,
=,==71,=79,
iyi=1 481.
代入公式,==≈-1.818 2,
=71-(-1.818 2)×≈77.36,
故回归直线方程为=77.36-1.818 2x,
由于回归系数为-1.818 2,由回归系数的意义可知,产量每增加1 000件,单位成本下降1.818 2元.
(时间90分钟,满分120分)
一、选择题(本大题共10小题,每小题5分,共50分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.我校在检查学生作业时,抽出每班学号尾数为5的学生作业进行检查,这里运用的是 ( )
A.分层抽样 B.抽签抽样
C.随机抽样 D.系统抽样
答案:D
2.下列各选项中的两个变量具有相关关系的是( )
A.长方体的体积与边长
B.大气压强与水的沸点
C.人们着装越鲜艳,经济越景气
D.球的半径与表面积
解析:A、B、D均为函数关系,C是相关关系.
答案:C
3.为了调查全国人口的寿命,抽查了十一个省(市)的2 500名城镇居民.这2 500名城镇居民的寿命的全体是( )
A.总体 B.个体
C.样本 D.样本容量
答案:C
4.已知总体容量为106,若用随机数表法抽取一个容量为10的样本.下面对总体的编号最方便的是( )
A.1,2,…,106 B.0,1,2,…,105
C.00,01,…,105 D.000,001,…,105
解析:由随机数抽取原则可知选D.
答案:D
5.有一个容量为200的样本,其频率分布直方图如图所示.根据样本的频率分布直方图估计,样本数据落在区间[10,12)内的频数为( )
A.18 B.36
C.54 D.72
解析:易得样本数据在区间[10,12)内的频率为0.18,则样本数据在区间[10,12)内的频数为36.
答案:B
6.对一组数据xi(i=1,2,3,…,n),如果将它们改变为xi+c(i=1,2,3,…,n),其中c≠0,则下面结论中正确的是( )
A.平均数与方差均不变
B.平均数变了,而方差保持不变
C.平均数不变,而方差变了
D.平均数与方差均发生了变化
解析:设原来数据的平均数为,将它们改变为xi+c后平均数为,则=+c,而方差s′2=[(x1+c--c)2+…+(xn+c--c)2]=s2.
答案:B
7.(2013·临沂一模)某中学高三从甲、乙两个班中各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图,其中甲班学生成绩的众数是85,乙班学生成绩的中位数是83,则x+y的值为( )
A.7 B.8
C.9 D.10
解析:甲班学生成绩的众数为85,结合茎叶图可知x=5;又因为乙班学生成绩的中位数是83,所以y=3,即x+y=5+3=8.
答案:B
8.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:
父亲身高x(cm) 174 176 176 176 178
儿子身高y(cm) 175 175 176 177 177
则y对x的线性回归方程为( )
A.=x-1 B.=x+1
C.=88+x D.=176
解析:设y对x的线性回归方程为=bx+a,
因为b==,
a=176-×176=88,所以y对x的线性回归方程为=x+88.
答案:C
9.甲、乙两支女子曲棍球队在去年的国际联赛中,甲队平均每场进球数是3.2,全年进球数的标准差为3;乙队平均每场进球数是1.8,全年进球数的标准差为0.3.下列说法中,正确的个数为( )
①甲队的技术比乙队好;②乙队发挥比甲队稳定;
③乙队几乎每场都进球;④甲队的表现时好时坏.
A.1个 B.2个
C.3个 D.4个
解析:因为甲队的平均进球数比乙队多,所以甲队技术较好,①正确;乙队的标准差比甲队小,标准差越小越稳定,所以乙队发挥稳定,②也正确;乙队平均每场进球数为1.8,所以乙队几乎每场都进球,③正确;由于s甲=3,s乙=0.3,所以甲队与乙队相比,不稳定,所以甲队的表现时好时坏,④正确.
答案:D
10.已知数据:①18,32,-6,14,8,12;②21,4,7,14,-3,11;③5,4,6,5,7,3;④-1,3,1,0,0,-3.各组数据中平均数和中位数相等的是( )
A.① B.②
C.③ D.①②③④
解析:运用计算公式=(x1+x2+…+xn),可知四组数据的平均数分别为13,9,5,0.根据中位数的定义:把每组数据从小到大排列,取中间一位数(或两位的平均数)即为该组数据的中位数,可知四组数据的中位数分别为13,9,5,0.故每组数据的平均数和中位数均对应相等.
答案:D
二、填空题(本大题共4小题,每小题5分,共20分.把答案填在题中横线上.)
11.(2012·浙江高考)某个年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为280的样本,则此样本中男生人数为________.
解析:由分层抽样得,此样本中男生人数为560×=160.
答案:160
12.从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图如图所示,由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.
解析:因为直方图中的各个矩形的面积之和为1,所以有10×(0.005+0.035+a+0.020+0.010)=1,解得a=0.03.由直方图可知三个区域的学生总数为100×10×(0.030+0.020+0.010)=60,其中身高在[140,150]内的学生人数为10,所以从身高在[140,150]内抽取的学生人数为×10=3.
答案:0.03 3
13.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投蓝练习,每人投10次,投中的次数如下表:
学生 1号 2号 3号 4号 5号
甲班 6 7 7 8 7
乙班 6 7 6 7 9
则以上两组数据的方差中较小的一个为s2=________.
解析:甲班的平均数为7,方差s2=[(6-7)2+02+02+(8-7)2+02]=;
乙班的平均数为7,方差
s2==.
答案:
14.某班12位学生父母年龄的茎叶图如图所示,则12位同学母亲的年龄的中位数是________,父亲的平均年龄比母亲的平均年龄多________岁.
父 亲 母 亲
9 8 7 3 5 6 8 9
8 8 7 4 3 1 4 0 1 3 4 4 7
4 4 3 5 1 2
解析:由=42,得中位数是42.
母亲平均年龄=42.5,
父亲平均年龄为45.5,
因而父亲平均年龄比母亲平均年龄多3岁.
答案:42 3
三、解答题(本大题共4小题,共50分.解答时应写出必要的文字说明、证明过程或演算步骤)
15.(12分)某花木公司为了调查某种树苗的生长情况,抽取了一个容量为100的样本,测得树苗的高度(cm)数据的分组及相应频数如下:
[107,109)3株;[109,111)9株;[111,113)13株;
[113,115)16株;[115,117)26株;[117,119)20株;
[119,121)7株;[121,123)4株;[123,125]2株.
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)据上述图表,估计数据在[109,121)范围内的可能性是百分之几?
解:
分组 频数 频率 累积频率
[107,109) 3 0.03 0.03
[109,111) 9 0.09 0.12
[111,113) 13 0.13 0.25
[113,115) 16 0.16 0.41
[115,117) 26 0.26 0.67
[117,119) 20 0.20 0.87
[119,121) 7 0.07 0.94
[121,123) 4 0.04 0.98
[123,125] 2 0.02 1.00
合计 100 1.00
(2)频率分布直方图如下:
(3)由上述图表可知数据落在[109,121)范围内的频率为:0.94-0.03=0.91,即数据落在[109,121)范围内的可能性是91%.
16.(12分)(2012·福建六校联考)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲 82 81 79 78 95 88 93 84
乙 92 95 80 75 83 80 90 85
(1)用茎叶图表示这两组数据;
(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由?
解:(1)作出茎叶图如下:
甲 乙
9 88 4 2 1 5 3 789 50 0 3 50 2 5
(2)x甲=(78+79+81+82+84+88+93+95)=85,
x乙=(75+80+80+83+85+90+92+95)=85.
s=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41,
∵甲=乙,s∴甲的成绩较稳定,派甲参赛比较合适.
17.(12分)某个服装店经营某种服装,在某周内获纯利y(元)与该周每天销售这些服装件数x之间有如下一组数据:
x 3 4 5 6 7 8 9
y 66 69 73 81 89 90 91
已知=280,iyi=3 487,
(1)求,;
(2)求纯利y与每天销售件数x之间的回归直线方程;
(3)每天多销售1件,纯利y增加多少元?
解:(1)=(3+4+5+…+9)=6,
=(66+69+…+91)≈79.86.
(2)设回归直线方程为=+x,
则==≈4.75.
=-b≈79.86-4.75×6=51.36.
∴所求的回归直线方程为=51.36+4.75x.
(3)由回归直线方程知,每天多销售1件,纯利增加4.75元.
18.(14分)某地统计局就该地居民的月收入调查了10 000人,并根据所得数据画了样本的频率分布直方图(每个分组包括左端点,不包括右端点,如第一组表示收入在[1 000,1 500)).
(1)求居民月收入在[3 000,3 500)的频率;
(2)根据频率分布直方图算出样本数据的中位数;
(3)为了分析居民的收入与年龄、职业等方面的关系,必须按月收入再从这10 000人中用分层抽样方法抽出100人作进一步分析,则月收入在[2 500,3 000)的这段应抽多少人?
解:(1)月收入在[3 000,3 500)的频率为0.000 3×(3 500-3 000)=0.15.
(2)∵0.000 2×(1 500-1 000)=0.1,
0.000 4×(2 000-1 500)=0.2,
0.000 5×(2 500-2 000)=0.25,
0.1+0.2+0.25=0.55>0.5.
∴样本数据的中位数为2 000+=2 000+400=2 400(元).
(3)居民月收入在[2 500,3 000)的频率为0.000 5×(3 000-2 500)=0.25,
所以10 000人中月收入在[2 500,3 000)的人数为0.25×10 000=2 500(人).
再从10 000人中分层抽样方法抽出100人,则月收入在[2 500,3 000)的这段应抽取100×=25人.