第二章 统计
1 教你学习系统抽样
在三种随机抽样中,系统抽样是较为重要的一种.当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样方法叫做系统抽样,又称等距抽样.在抽样调查中,由于系统抽样简便易行,所以应用普遍.下面举例说明系统抽样的常见题型.
一、系统抽样的选取问题
例1 某商场想通过检查部分发票及销售记录来快速估计每月的销售金额,采用如下方法:从某本发票的存根中随机抽一张,如15号,然后按顺序将65号,115号,165号……发票上的销售金额组成一个调查样本.这种抽取样本的方法是( )
A.抽签法 B.随机数表法
C.系统抽样 D.分层抽样
分析 上述抽样方法是将发票平均分成若干组,每组50张,从第一组抽出了15号,以后各组抽15+50n(n∈N+)号,符合系统抽样的特点.
答案 C
点评 将总体分成均衡的几部分,按照预先定出的规则在各部分中抽取是系统抽样的常用步骤.
二、间隔问题
例2 为了解1200名学生对学校某项教改试验的意见,打算从中抽取一个容量为30的样本,考虑采用系统抽样,则分段的间隔k为________.
分析 要抽取n个个体入样,需将N个编号均分成n组.(1)若为整数,则抽样间隔为;(2)若不是整数,则先剔除多余个体,再均分成n组,此时抽样间隔为.
解析 根据样本容量为30,将1200名学生分为30段,每段人数即间隔k为=40.
答案 40
点评 将总体号码平均分组时,应先考虑总体容量N是否能被样本容量n整除.
三、抽取的个数问题
例3 为了了解参加一次知识竞赛的1252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中应随机剔除的个体数目是( )
A.2B.4C.5D.6
分析 因为1252=50×25+2,所以应随机剔除2个个体.
答案 A
点评 (1)用系统抽样法抽取多少个个体就需将总体均分成多少组;(2)需要剔除个体时,原则上要剔除的个体数尽量少.
四、综合问题
例4 一个总体中的1000个个体编号为0,1,2,…,999,并依次将其分为10个小组,组号为0,1,2,…,9.要用系统抽样法抽取一个容量为10的样本,规定如果在第0组随机抽取的号码为x,那么依次错位地得到后面各组的号码(即在第k组中抽取的号码的后两位数为x+33k的后两位数).
(1)当x=24时,写出所抽取样本的10个号码;
(2)若所抽取的10个号码中某个数的后两位数是87,求x的取值范围.
分析 按系统抽样的规则计算求解.
解 (1)所分组为0~99,100~199,…,900~999共10组,从每组中抽一个,第0组取24,则第1组取100+(24+33×1)=157,依次错位地从每组中取出,所取的号码为24,157,290,323,456,589,622,755,888,921.
(2)由x+33×0=87,得x=87,
由x+33×1=87,得x=54,
由x+33×2=187,得x=88,
…依次可求x值,
可以求得x的值分别为:21,22,23,54,55,56,88,89,90.
综上:x∈{21,22,23,54,55,56,87,88,89,90}.
点评 本题是系统抽样法的逆向综合问题,体现了知识间的联系和数学思想的运用.
2 例析分层抽样的解题方法
若总体由差异明显的几部分组成,抽样时,先将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,再将各层取出的个体合在一起作为样本.这种抽样方法就是分层抽样.
一、应用分层抽样应遵循以下要求:
(1)将相似的个体归入一类,即为一层,分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠.即遵循不重复、不遗漏的原则.
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与样本容量与总体个体数的比相等.即所有层应采用同一抽样比等可能抽样.
(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.
二、一般地,分层抽样的操作步骤是:
第一步,计算样本容量与总体的个体数之比.
第二步,将总体分成互不交叉的层,按比例确定各层要抽取的个体数.
第三步,用简单随机抽样或系统抽样在各层中抽取相应数量的个体.
第四步,将各层抽取的个体合在一起,就得到所取样本.
样本容量与总体的个体数之比是分层抽样的比例常数,按这个比例可以确定各层应抽取的个体数,如果各层应抽取的个体数不都是整数应当调节样本容量,剔除个体.
三、分层抽样的优点是:
使样本具有较强的代表性,并且抽样过程中可综合选用各种抽样方法,因此分层抽样是一种实用、操作性强、应用比较广泛的抽样方法.下面举例解析分层抽样的方法.
例1 某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.
解析 由分组可知,抽号的间隔为5,又因为第5组抽出的号码为22,所以第6组抽出的号码为27,第7组抽出的号码为32,第8组抽出的号码为37.
40岁以下年龄段的职工数为200×0.5=100,则应抽取的人数为×100=20.
答案 37 20
点评 简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一.保证每个个体等可能入样是简单随机抽样、系统抽样、分层抽样共同的特征,为了保证这一点,分层时用同一抽样比是必不可少的.
例2 某单位共有老、中、青职工430人,其中青年职工160人,中年职工人数是老年职工人数的2倍.为了解职工身体状况,现采用分层抽样方法进行调查,在抽取的样本中有青年职工32人,则该样本中的老年职工人数为( )
A.9 B.18 C.27 D.36
解析 设老年职工人数为x,则2x+x+160=430,所以x=90,因此,该单位老年职工共有90人,
老年职工人数为90×=18,所以用分层抽样的比例应抽取该样本中的老年职工人数为18.
答案 B
点评 分层抽样要正确计算各层在总体中所占的比例,每层采用简单随机抽样法.
分层抽样利用了调查者对调查对象事先掌握的各种信息,考虑了保持样本结构与总体结构的一致性,从而使样本更具代表性,在实际调查中被广泛应用.
3 辨析三种抽样方法的合理选取
一、简单随机宜少量
例1据报道,2009年7月22日的“日全食”较为理想的观测地点有上海、重庆、苏州、杭州、合肥、武汉、宜昌、成都、乐山、嘉兴这10个城市.某天文小组从这10个城市中随机抽取4个城市进行观测,宜采用的抽样方法是______________,每个城市被选中的可能性是______________.
解析 由于总体中个体数目较少,所以宜采用简单随机抽样的方法进行抽样.每个城市被选中的可能性均相等,均为=0.4.
答案 简单随机抽样 0.4
点评 本题中个体总数较少,使用简单随机抽样中的抽签法即可.可以直接把10个城市名分别写在10个大小相同的纸条上,将纸条放在一个盒子里摇匀,随机抽出4个即可.在整个抽样过程中可以保证每个个体被抽到的可能性相等,也可以进一步计算出相应的值.
二、差别明显选分层
例2网络上有一种“QQ农场”游戏,这种游戏通过虚拟软件模拟种植与收获的过程.为了解某小区不同年龄层次的居民对此游戏的态度(小区中居民的年龄具有一定的差别),现从中抽取100人进行调查,结果如下表:
对游戏的态度
喜欢
不喜欢
不了解
人数
35
35
30
请问随机抽取这100人较合理的抽样方法是________,调查结果得出后,若想从这100人中再选取20人进行座谈,较合理的抽样方法是____________.若这个小区共有2000人,则每个人被抽到参加座谈的可能性为________.
解析 因为小区居民的年龄存在明显差异,故抽取这100人宜采用分层抽样.根据调查结果,有三种明显不同的态度,因此,选取20人参加座谈,也宜采用分层抽样.在整个抽样过程中,每个人被抽到的可能性是相同的,均为=0.01.
答案 分层抽样 分层抽样 0.01
点评 分层抽样的过程是先把有差别的个体进行分层,在每一层中可以采用简单随机抽样或系统抽样的方法,这样也能保证每个个体被抽到的可能性相同.
三、大量抽取选系统
例3春节来临之际,某超市进行促销活动,为购买商品顾客分发了编号为0000~9999的奖券,超市计划从中抽取
100张作为中奖号码,较合理的抽样方法是__________,每张奖券中奖的可能性为________.
解析 由于奖券数量较大,有10000张奖券,所以宜采用系统抽样方法进行抽取.在抽样过程中,每张奖券被抽到的可能性是相等的,均为=0.01.
答案 系统抽样 0.01
点评 当总体中个体数目较多时,首先把个体编号,进行平均分组(若不能整除,则随机剔除多余的个体),然后采用简单随机抽样的方法从第一组中抽取一个个体,即可知道应抽取的其他编号的个体.
4 解读用样本估计总体
一、用样本的频率分布估计总体分布
1.频率分布表:反映具体数据落在各个区间的频率,但不够直观、形象,不利于分析数据分布的总体态势.
2.频率分布直方图:能够非常直观地表明数据分布的形状,很好地反映数据的变化趋势,适用于样本数据较多的情况,但是从直方图本身得不到具体的数据内容.
3.频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就可以得到相应的频率分布折线图.其优点是能够清晰地反映数据的变化趋势.如果样本容量不断增加,分组的组距不断减小,那么折线图便会趋近于总体密度曲线.总体密度曲线精确地反映了总体在各个范围内取值的百分比.
4.茎叶图:适用于样本中的数据较少的情况.其优点是(1)没有原始数据的丢失,所有信息均可以从茎叶图中得到,并能展示数据的分布情况;(2)便于记录和表示.缺点是当样本数据较多或数据位数较多时,就会显得不太方便.因为每一个数据都要在图中占据一定的空间,如果数据很多,枝叶就会很长.
二、用样本的数字特征估计总体的数字特征
1.众数:若一组数据中有一个或几个数据出现得最多,且出现的次数一样,那么这些数据都是这组数据的众数,因此一组数据的众数可能不止一个.若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数.
2.中位数:将一组数据按大小顺序依次排列,处在最中间位置的一个数据(或中间两个数据的平均数)是该组数据的中位数.
3.平均数:与样本中的每一个数据都有关系,反映了更多关于数据总体的信息,比较可靠.但受极端值的影响较大.
4.极差:就是一组数据中最大数与最小数的差.
5.方差:用来刻画样本数据的波动情况,充分利用了所有的数据,但与原始数据的单位不一致.方差具有非负性.
6.标准差:方差的算术平方根,与原数据的单位一致,且标准差也具有非负性.
三、数字特征在频率分布直方图中的体现
在频率分布直方图中,最高的小矩形的底边中点的横坐标即为样本数据的众数的估计值,中位数左边和右边的小矩形的面积和相等(注:这样求出的中位数是近似值);平均数的估计值等于频率分布直方图中每个小矩形的面积与其底边中点的横坐标的乘积之和.
四、特别提示
1.两类估计都具有随机性,得出的结论不一定是总体的真正的分布、均值或方差.样本质量的高低也是影响正确估计的重要因素.
2.应用茎叶图进行统计时,注意重复出现的数据要重复记录,不能遗漏.
3.样本水平的高低由其平均数决定,样本数据的稳定性与方差和标准差有关.在平均数相差不大的情况下,可以进一步借助方差或标准差来比较优劣.
4.方差越小,说明数据越稳定,但并不是方差越小越好.
5 “三数、三差”话应用
从样本数据中可以提取基本的数字特征,即“三数”(众数、中位数、平均数)与“三差”(极差、方差、标准差),并对它们进行分析,从而估计总体相应的数字特征,这在日常生活中有着广泛的应用.
一、借“三数”看集中趋势
例1 某公司的各层人员及工资数构成如下:
人员:经理1人,周工资3700元;高层管理人员6人,周工资均为1200元;高级技工5人,周工资均为700元;工人10人,周工资均为600元;学徒1人,周工资为300元.
(1)计算该公司员工周工资的众数、中位数、平均数;
(2)这个问题中,平均数能客观地反映这个公司的工资水平吗?
解 (1)众数为600,中位数为700,平均数为
=900.
(2)虽然平均数为900,但由给出的数据可见,只有经理和高层管理人员的周工资在平均数以上,其余的都在平均数以下,故用平均数不能客观地反映该公司的工资水平.
评注 众数、中位数、平均数都是反映数据的集中趋势的量.其中,平均数受数据中的极端值的影响较大,这时平均数对总体估计的可靠性反而不如众数和中位数.
二、用“三差”判分散程度
例2 为了教学的需要,王老师经常在网站A和网站B上下载资料.某天中午,王老师分别在两个网站上下载了五份资料,其下载的速率(单位:KB/s)如下:
网站A:486 284 71 70 369
网站B:70 328 244 85 478
(1)试分别计算从这两个网站上下载资料的速率的极差、方差和标准差;
(2)你觉得从哪个网站上下载资料更快?哪个下载速率更稳定?请说明理由.
解 (1)对于网站A来说,下载速率最高为486,最低为70,极差为486-70=416;
平均下载速率为1=×(486+284+71+70+369)=256;
方差为s=×[(486-256)2+(284-256)2+(71-256)2+(70-256)2+(369-256)2]=27054.8;
标准差为s1==≈164.5.
同理可求得从网站B上下载资料的速率的极差为408,平均下载速率为2=241,方差为s=23464.8,标准差为s2≈153.2.
(2)从(1)可以看出,从网站A上下载资料的平均速率要比网站B快.从极差来看,网站A下载速率变化范围更大;另外,从网站A上下载资料的速率的方差(或标准差)也大于网站B,这说明网站A的下载速率的波动性更大,更不稳定.因此网站B下载的速率更稳定.
评注 极差、方差、标准差都是刻画数据分散程度的量.极差反映一组数据的变化范围,极差大,则数据较分散,但它只考虑了两个极端值,所以很多时候,极差只能作为数据的分散程度的估计量,可靠性较差.判断数据的波动情况通常采用标准差(或方差),标准差(或方差)越小,波动越小,则越稳定.
6 “变量间的相关关系”考点分析
考点1 判断两个变量是否具有相关关系
两个变量之间的关系中,函数关系是一种确定性关系.如正方形的面积S与边长x之间的关系.两个变量之间的关系还有另外一种情况:相关关系——自变量取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系;或两个变量都是随机的,也称它们之间的关系为相关关系.
例1 下列关系中带有随机性相关关系的是________.
①正方形的边长与面积之间的关系;
②水稻产量与施肥之间的关系;
③作文水平与课外阅读量之间的关系;
④降雪量与交通事故的发生率之间的关系;
⑤人的年龄与他(她)拥有的财富之间的关系.
解析 两变量之间的关系有两种:函数关系与带有随机性的相关关系.
①正方形的边长与面积之间的关系是函数关系.
②水稻产量与施肥之间不是严格的函数关系,但是具有相关性.因而是相关关系.
③作文水平与课外阅读量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.
④降雪量与交通事故的发生率之间具有相关关系.
⑤一般来说,人随着年龄的增长,社会经验、处事能力等都相应地丰富,拥有的财富也就容易增多,故人的年龄与他(她)拥有的财富之间的关系是相关关系.
答案 ②③④⑤
考点2 利用散点图判断两个变量间的相关性
判断两个变量之间有没有相关关系,一种常用的简便可行的方法是绘制散点图.散点图是由数据点分布构成的,它形象地体现了各对数据的密切程度,是分析研究两个变量相关关系的重要手段.各数据对应点若呈上升趋势,则称为正相关.反之,若呈下降趋势,称为负相关.
例2 某品牌服装的广告费支出x与销售额y(单位:万元)之间有如下的对应数据:
广告费x(万元)
2
4
6
8
10
销售额y(万元)
64
138
205
285
360
试画出散点图,并判断广告费x与销售额y是否线性相关?
分析 可以广告费为横轴、以销售额为纵轴画出散点图,手工绘图时,所取单位要均匀,描点要准确.判断两个变
量之间是否具有线性相关关系,只需看各数据点是否都在一条直线附近,若是则说明线性相关,否则非线性相关.
解 散点图如下:
观察散点图,可以发现5个样本点都落在一条直线附近,所以变量x,y属于线性相关关系.
考点3 线性回归分析与最小二乘法的思想
研究具有相关关系的两个变量,就是寻找具有相关关系的两个变量中非确定性关系的某种确定性,该分析过程称为回归分析,其思想是把相关关系(即不确定性关系)转化为确定性的函数关系.回归分析是处理变量相关关系的一种数学方法.它主要解决三个问题:
(1)确定特别变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;
(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;
(3)求出回归直线方程.
例3 下列说法中错误的是( )
A.如果变量η与ξ之间具有线性相关关系,则我们根据试验数据得到的点(xi,yi)(i=1,2,…,n)将散布在某一条直线附近
B.如果变量η与ξ之间不具有线性相关关系,那么根据一组数据(xi,yi)(i=1,2,…,n)不能写出一个线性方程
C.设x,y是具有相关关系的两个变量,且x关于y的回归直线方程为=x+,叫做回归系数
D.在平面直角坐标系中用描点的方法得到表示具有相关关系的两个变量的一组数据的图形叫做散点图
解析 根据线性回归分析的思想方法,可知具有线性相关关系的两个变量对应的点应在一条直线附近,大致满足该直线的方程,所以A,C正确;D项符合散点图的定义,正确.事实上只要有一组数据就可写出一个方程,故B不正确.
答案 B