一、随机抽样
1.简单随机抽样的特征:
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平性.
2.系统抽样
在抽样中当总体个体数较多时,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样方法叫做系统抽样.
二、用样本估计总体
1.众数、中位数、平均数
(1)众数:在一组数据中出现次数最多的数据叫做这组数据的众数.在频率分布直方图中,它是最高的小长方形的中点.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)平均数:个样本数据的平均数为.由于样本平均数与每一个样本数据有关,所以,任何一个样本数据的改变都会引起平均数的改变.但特殊情况下,平均数可能受极端值的影响而偏离一般情况.
在频率分布直方图中,平均数的估计值等于每个小矩形的面积乘以小矩形底边中点的横坐标之和.
2.标准差和方差
标准差:s=s=
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2]
三、变量间的相关关系
1.最小二乘法:通过求Q= (yi-bxi-a)2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.
叫做回归系数,由于,故的中心点在回归直线上.处的估计值为.
应用抽样方法抽取样本时,应注意以下几点:
(1)用随机数表法抽样时,对个体所编的号码位数要相等.当问题所给位数不相等时,以位数较多的为准,在位数较少的数前面添“0”,凑齐位数.
(2)用系统抽样法抽样时,如果总体容量能被样本容量整除,抽样间隔为,如果总体容量不能被样本容量整除,先用简单随机抽样剔除多余个体,抽样间隔.
(3)三种抽样方法的适用范围:当总体容量较小,样本容量也较小时,可采用抽签法;当总体容量较大,样本容量较小时,可采用随机数表法;当总体容量较大,样本容量也较大时,可采用系统抽样;当总体中个体差异较显著时,可采用分层抽样.
下面的三首数学诗,能很好地说明这三种抽样方法.
数学诗三首
统计抽样
统计抽样法有三,均衡入样记心间;
总体容量比较小,简单抽取样本找.
总体容量数较大,系统抽样对付它;
总体明显层次分,分层抽取要认真.
简单随机抽样
简单抽样很常见,程序简单又方便;
总体编号制标签,随机抽签样本选.
随机数表电脑生,对待个体均公平;
此法用来先标号,规律读取样本定.
系统抽样与分层抽样
系统抽样先编号,均衡分段样距找;
简单抽取始样号,等距取样要记牢.
分层抽样程序多,同一样比去运作;
各层据情多法用,保你一举准成功.
例1某校高一年级500名学生中,血型为O型的有200人,血型为B型的有125人,血型为AB型的有50人,血型为A型的有125人.为了研究血型与色弱之间的关系,要从中抽取一个容量为20的样本,应如何抽样?请写出抽样过程.
【思路分析】在分层抽样中,确定抽样比是抽样的关键.
【点评】若总体中已经分成差异明显的几层,则适合用分层抽样法抽取样本.
对于分层抽样中的比值问题,求解时,常用的技巧为:,总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
例2一汽车厂生产,,三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如下表:(单位:辆)
轿车
轿车
轿车
舒适型
100
150
标准型
300
450
600
按类型用分层抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆.
(1)求的值 ;
(2)用分层抽样的方法在类轿车中抽取一个容量为5的样本.
【思路分析】本题考查分层抽样的抽样方法,分层抽样先将总体按一定标准分成互不重叠的几部分,计算各层个体数与总体数的比,按照这个比值,确定各层应抽取的样本容量.
【解】(1)设该厂本月生产轿车为辆,
由题意,得,
∴.
∴.
(2)设所抽样本中有辆舒适型轿车.
∵用分层抽样的方法在类轿车中抽取一个容量为5的样本,
∴,
解得.
即在类型中抽取2辆舒适型轿车,3辆标准型轿车.
【点评】分层抽样是高考中考查的一个热点,在实际生活中分层抽样有较大的应用空间,应牢牢掌握分层抽样的特点:
将总体分成几层,抽取比例由每层个体占总体的比例确定.各层抽样按简单随机抽样或系统抽样进行.
利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率分布折线图和茎叶图对总体情况作出估计.直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到在分布表中看不清楚的数据模式,这样根据样本的频率分布,我们可以大致估计出总体的分布.但是,当总体的个体数较多时,所需抽样的样本容量也不能太小,随着样本容量的增加,频率分布折线图会越来越接近于一条光滑曲线,统计中称这条曲线为总体密度曲线,它能给我们提供更加精细的信息.在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,这给数据的记录和表示都能带来方便.
(1)用样本频率分布估计总体分布时,通常要对给定的一组数据进行列表、作图处理,作频率分布表与频率分布直方图时要注意其方法步骤.
(2)茎叶图刻画数据有两个优点:一是所有信息都可以从图中得到,二是便于记录和表示,但数据位数较多时不方便.
例1某班50名学生在一次百米测试中,成绩全部介于13 s与19 s之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13 s且小于14 s;第二组,成绩大于等于14 s且小于15 s,…,第六组,成绩大于等于18 s且小于等于19 s.如图是按上述分组方法得到的频率分布直方图.设成绩小于17 s的学生人数占全班总人数的百分比为,成绩大于等于15 s且小于17 s的学生人数为,则从频率分布直方图中可分析出和分别为( )
A.0.9,35 B.0.9,45
C.0.1,35 D.0.1,45
【答案】A
【解析】本题考查频率分布直方图的知识,频率为相应直方图中各个小长方形的面积,即频率=纵坐标×组距.
.
例2某厂对一批产品进行抽样检测,如图是抽检产品净重(单位:克)的频率分布直方图,样本数据分组为.若这批产品有120个,估计其中净重大于或等于78克且小于84克的产品的个数是
A.12 B.18
C.25 D.90
【答案】D
【点评】1.在绘制频率分布直方图时,要注意:(1)所有的数据都必须在所分的组内,可适当将区间两端点的数据调整以便于分组;(2)落在各小组内的频数必须计算正确.
2.在根据频率分布直方图进行相关计算时,需掌握下列关系式:
(1);(2),及其变形:,.
为了从整体上更好地把握总体的规律,我们还可通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.众数就是样本数据中出现次数最多的值;中位数就是把样本数据分成相同数目的两部分,其中一半比这个数小,另一半比这个数大的一个数;平均数就是所有样本数据的平均值,用表示;标准差是反映样本数据分散程度的最常用统计量,其计算公式如下:
.
有时也用标准差的平方——方差来代替标准差,实质一样.
例1甲、乙两人在相同的条件下各射靶10次,每次射靶成绩(单位:环)如图所示.
(1)填写如下:
平均数
中位数
命中9环以上
甲
7
1
乙
3
(2)请从四个不同的角度对这次测试进行分析:
①结合平均数和方差,分析偏离程度;
②结合平均数和中位数,分析谁的成绩好些;
③结合平均数和命中9环以上的次数,看谁的成绩好些;
④结合折线图上两人射击命中环数及走势,分析谁更有潜力.
【思路分析】本题考查了由样本的数字特征对总体的估计,先由折线图求出甲、乙各射击的环数,从而求出平均数及中位数,然后利用数据特点对总体进行估计.
【解】(1)乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,
∴(环).
乙的射靶环数从小到大排列为2,4,6,7,7,8,8,9,9,10,
∴中位数是(环).
甲的射靶环数依次为9,5,7,8,7,6,8,6,7,7
∴(环).
甲的射靶环数从小到大排列为5,6,6,7,7,7,7,8,8,9,
∴中位数为7环.
于是填充后的表格,如下图所示:
平均数
中位数
命中9环以上
甲
7
7
1
乙
7
7.5
3
【点评】(1)本例由图转化成数,由数填表,由表读数,体现了转化与化归思想.
(2)由图知甲、乙射靶10次命中的环数,根据众数、中位数、平均数及方差的定义及计算公式可分别求得甲、乙两人的中位数、平均数及方差,从而可以通过比较它们的大小来分析成绩的好坏、稳定程度及有无潜力等问题.
除了函数关系这种确定性的关系外,还有大量因变量的取值带有一定随机性的两个变量之间的关系——相关关系.
分析两个变量的相关关系,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归直线方程.把样本数据表示的点在直角坐标系中作出,构成的图叫散点图.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线方程叫做回归直线方程.
求回归直线方程的步骤:
(1)先把数据制成表,从中计算出,,,.
(2)计算回归系数,.公式为
(3)写出回归直线方程.
例1下表数据是退水温度(°C)对黄酮延长性(%)效应的试验结果,是以延长度计算的,且对于给定的,为正态变量,其方差与无关.
(°C)
300
400
500
600
700
800
(%)
40
50
55
60
67
70
(1)画出散点图;
(2)指出,是否线性相关;
(3)若线性相关,求关于的回归方程;
(4)估计退水温度是1 000 °C时,黄酮延长性的情况.
【思路分析】本题考查了线性回归方程的求法,先由散点图判断两个变量是否相关,然后利用公式求得回归方程,再利用所求方程对总体进行估计.
【解】(1)散点图如下.
(2)由散点图可以看出样本点分布在一条直线的附近,可见与线性相关.
(3)列出下表并用科学计算器进行有关计算.
1
2
3
4
5
6
300
400
500
600
700
800
40
50
55
60
67
70
12000
20000
27500
36000
46900
56000
90000
160000
250000
360000
490000
640000
,,
,
于是可得
【点评】用最小二乘法求线性回归方程的一般步骤:
(1)画散点图,看两个变量是不是存在线性相关关系,这是以后步骤的前提,也保证了最小二乘法得出的线性回归方程是有意义的.
(2)列表计算,,,(建议用列表方式计算).
(3)利用(2)的结果计算,,得出线性回归方程.
(4)总结线性回归方程,说明其实际意义,并用于预测.