2.4 线性回归方程
第2章 统计
学习目标
1.了解相关关系、线性相关的概念;
2.会根据散点图判断数据是否具有相关关系;
3.会求线性回归方程,并能根据线性回归方程做出合理判断.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 相关关系
思考
数学成绩y与学习数学所用时间t之间的关系,能否用函数关系刻画?
一般来说,学数学的时间越长,成绩越好.但用时10小时,数学成绩却不是一个确定的数字.故不能用函数关系刻画.
答案
梳理
相关关系:
与函数关系不同,相关关系是一种变量之间 的联系,但不是_____
的关系.
性
有一定
确定
知识点二 散点图
1.散点图:将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中得到的图形.
2.利用散点图可以大致确定两个变量是不是有相关关系,以及相关性强弱.
知识点三 最小平方法及线性回归方程
思考1
若散点大致分布在一条直线附近,如何确定这条直线比较合理?
应该使散点整体上最接近这条直线.
答案
思考2
任何一组数据都可以由最小二乘法得出线性回归方程吗?
用最小二乘法求线性回归方程的前提是先判断所给数据是否具有线性相关关系(可利用散点图来判断),否则求出的线性回归方程是无意义的.
答案
梳理
线性回归方程:
能用直线方程 近似表示的相关关系叫做 关系,该方程叫 .
最小平方法是一种求回归直线的方法,用这种方法求得的回归直线能使样本数据的点到回归直线的距离的平方和最小.
线性回归方程
线性相关
给出一组数据(x1,y1),(x2,y2),…,(xn,yn),用最小平方法求得线性
回归方程的系数a,b满足
b= ,
a= .
上式还可以表示为
b= = ,
a= .
题型探究
类型一 变量之间相关关系的判断
例1 在下列两个变量的关系中,哪些是相关关系?
(1)正方形边长与面积之间的关系;
两变量之间的关系有:函数关系与带有随机性的相关关系.正方形的边长与面积之间的关系是函数关系.
解答
(2)作文水平与课外阅读量之间的关系;
作文水平与课外阅读量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.
解答
(3)人的身高与年龄之间的关系;
人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而它们不具备相关关系.
解答
(4)降雪量与交通事故发生率之间的关系.
降雪量与交通事故发生率之间具有相关关系.
解答
如果能够从两个变量的观察数据之间发现相关关系是极为有意义的,由此可以进一步研究二者之间是否蕴涵因果关系,从而发现引起这种相关关系的本质原因是什么.
反思与感悟
跟踪训练1 有下列关系:
①老师的执教水平与学生的学习成绩之间的关系;
②曲线上的点与该点的坐标之间的关系;
③苹果的产量与气候之间的关系;
④森林中的同一种树木,其横截面直径与高度之间的关系;
⑤学生与其学号之间的关系.
其中有相关关系的是_______.(填序号)
①③④
答案
类型二 散点图及应用
例2 在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:
年龄 23 27 39 41 45 49 50
脂肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2
年龄 53 54 56 57 58 60 61
脂肪 29.6 30.2 31.4 30.8 33.5 35.2 34.6
画出散点图,分析年龄与人体脂肪含量的关系.
解答
散点图如下:
在散点图中,点分布在从左下角到右上角的区域,故人的年龄与人体脂肪含量是相关关系.
画散点图时应注意合理选择单位长度,避免图形过大或过小,或者是点的坐标在坐标系中画不准,使图形失真,导致得出错误结论.相关关系的散点图不一定分布在一条直线附近,也可能是曲线.
反思与感悟
跟踪训练2 下表为我国在公元1000年到2000年间的人口数量.
(1)试画出散点图;
解答
年份 人口/亿
1393 0.6
1578 0.6
1764 2
1849 4.1
1928 4.7
1949 5.4
1982 10.3
1990 11.6
散点图如下:
(2)年份与人口是相关关系吗?如果是,是正相关还是负相关?你觉得用什么函数模型模拟效果比较好?
由图可知,我国在1000年到2000年间的人口数量与年份是相关关系,且为正相关.因为增长速度越来越快, 用指数模型模拟效果比较合适.
解答
函数关系与相关关系之间有密切联系,可以用函数关系来模拟相关关系,也可借助散点图来发现两变量之间的函数关系,在一定条件下,两种关系还可相互转化.
反思与感悟
类型三 线性回归方程的求法及应用
例3 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系.如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.
机动车辆数x/103辆 95 110 112 120 129 135 150 180
交通事故数y/103件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13
解答
在直角坐标系中画出数据的散点图如图:
直观判断散点在一条直线附近,故具有线性相关关系.
从而计算相应的数据之和:
反思与感悟
跟踪训练3 下表数据是退水温度x(℃)对黄酮延长性y(%)效应的试验结果,y是以延长度计算的,且对于给定的x,y为正态变量,其方差与x无关.
x(℃) 300 400 500 600 700 800
y(%) 40 50 55 60 67 70
(1)画出散点图;
解答
散点图如图:
(2)指出x,y是否线性相关;
由散点图可以看出样本点分布在一条直线的附近,可见y与x线性相关.
解答
(3)若线性相关,求y关于x的线性回归方程;
解答
列出下表并用科学计算器进行有关计算.
i 1 2 3 4 5 6
xi 300 400 500 600 700 800
yi 40 50 55 60 67 70
xiyi 12 000 20 000 27 500 36 000 46 900 56 000
90 000 160 000 250 000 360 000 490 000 640 000
于是可得
(4)估计退水温度是1 000℃时,黄酮延长性的情况.
解答
将x=1 000代入线性回归方程得
=0.058 86×1 000+24.627=83.487,
即退水温度是1 000℃时,黄酮延长性大约是83.487%.
当堂训练
1.下列两个变量之间的关系,哪个不是函数关系____.
①正方体的棱长和体积;
②圆半径和圆的面积;
③正n边形的边数和内角度数之和;
④人的年龄和身高.
①②③都是函数关系,人的年龄和身高是一种不确定的关系,故④不是函数关系.
④
答案
解析
2
3
4
1
2.如图所示的五组数据(x,y)中,去掉________后,剩下的4组数据相关性增强.
2
3
4
1
去除(4,10)后,其余四点大致分布在一条直线附近,相关性增强.
(4,10)
答案
解析
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小平方法建立的线性回归方程为 =0.85x-85.71,则下列结论中不正确的是_____.
①体重y与身高x具有函数间的关系;
②回归直线过 点;
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可判定其体重必为58.79 kg.
2
3
4
1
体重与身高的关系不确定,不是函数关系.当x=170时, =0.85×170
-85.71=58.79,体重的估计值为58.79 kg.
①④
答案
解析
4.某产品的广告费用x与销售额y的统计数据如下表:
2
3
4
1
广告费用x(万元) 4 2 3 5
销售额y(万元) 49 26 39 54
根据上表可得线性回归方程 =bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为_____万元.
65.5
答案
解析
规律与方法
1.求样本数据的回归方程,可按下列步骤进行:
2.回归方程被样本数据唯一确定,各样本点大致分布在回归直线附近.对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随机性.
3.对于任意一组样本数据,利用上述公式都可以求得“回归方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程”是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程.
本课结束
2.3.2 方差与标准差
第2章 2.3总体特征数的估计
学习目标
1.理解样本数据方差、标准差的意义,会计算方差、标准差;
2.会用样本的基本数字特征(平均数、标准差)估计总体的基本数字特征;
3.体会用样本估计总体的思想.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 用样本的基本数字特征估计总体的基本数字特征
1.样本的基本数字特征包括 、 、 、 、 .
2.平均数向我们提供了样本数据的重要信息,但是平均数有时也会使我们作出对总体的片面判断,因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽视的.因此,还需要刻画数据的分散程度.
3.一组数据的 的差称为极差,用极差刻画数据的分散程度简便易行,但集中程度差异不大时,不易得出结论.
最大值与最小值
众数
中位数
平均数
标准差
极差
知识点二 方差、标准差
思考
若两名同学的两门学科的平均分都是80分,一名是两门均为80分,另一名是一门40分,一门120分,如何刻画这种差异?
可以通过考察样本数据的分散程度的大小.
答案
梳理
标准差与方差:
一般地,
(1)标准差是样本数据到平均数的一种平均距离,一般用s表示.
(2)标准差的平方s2叫做方差.
题型探究
类型一 感受数据的离散程度
例1 分别计算下列四组样本数据的平均数,并画出条形图,说明它们的异同点.
(1)5,5,5,5,5,5,5,5,5;
(2)4,4,4,5,5,5,6,6,6;
(3)3,3,4,4,5,6,6,7,7;
(4)2,2,2,2,5,8,8,8,8.
解答
四组样本数据的条形图如下:
四组数据的平均数都是5,但数据的离散程度不一样,其中(1)最集中,(4)的离散程度最大.
标准差能够衡量样本数据的稳定性,标准差越大,数据的离散程度就越大,也就越不稳定.标准差越小,数据的离散程度就越小,也就越稳定.
反思与感悟
跟踪训练1 有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:
甲:7 8 7 9 5 4 9 10 7 4
乙:9 5 7 8 7 6 8 6 7 7
试求出甲、乙两人本次射击的平均成绩, 并画出两人成绩的频率分布条形图,你能说明其水平差异在哪里吗?
解答
条形图如下:
通过频率分布条形图直观地看,虽然平均数相同,还是有差异的.甲的成绩比较分散,乙的成绩相对集中.
类型二 方差、标准差的计算
例2 从甲、乙两种玉米中各抽10株,分别测得它们的株高如下:
甲:25,41,40,37,22,14,19,39,21,42;
乙:27,16,44,27,44,16,40,40,16,40.
试计算甲、乙两组数据的方差和标准差.
解答
计算方差(或标准差)时要先计算平均数.
反思与感悟
跟踪训练2 求出跟踪训练1中的甲、乙两运动员射击成绩的标准差,结合跟踪训练1的条形图体会标准差的大小与数据离散程度的关系.
同理可得s乙≈1.095.所以s甲>s乙.
因此说明离散程度越大,标准差就越大.
解答
类型三 标准差及方差的应用
例3 甲、乙两人同时生产内径为25.40 mm的一种零件.为了对两人的生产质量进行评比,从他们生产的零件中各抽出20件,量得其内径尺寸如下(单位:mm):
甲
25.46 25.32 25.45 25.39 25.36
25.34 25.42 25.45 25.38 25.42
25.39 25.43 25.39 25.40 25.44
25.40 25.42 25.35 25.41 25.39
乙
25.40 25.43 25.44 25.48 25.48
25.47 25.49 25.49 25.36 25.34
25.33 25.43 25.43 25.32 25.47
25.31 25.32 25.32 25.32 25.48
从生产的零件内径的尺寸看,谁生产的质量较高?(结果保留小数点后3位)
解答
从样本平均数看,甲生产的零件内径比乙的更接近内径标准(25.40mm),差异很小;从样本标准差看,由于s甲<s乙,因此甲生产的零件内径尺寸比乙的稳定程度高得多.于是,可以作出判断,甲生产的零件的质量比乙的高一些.
比较两组数据的异同点,一般情况是从平均数及标准差这两个方面考虑.其中标准差与样本数据单位一样,比方差更能直观地刻画出与平均数的平均距离.
反思与感悟
跟踪训练3 甲、乙两种水稻试验品种连续5年的平均单位面积产量如下(单位:t/hm2),试根据这组数据估计哪一种水稻品种的产量比较稳定.
解答
品种 第1年 第2年 第3年 第4年 第5年
甲 9.8 9.9 10.1 10 10.2
乙 9.4 10.3 10.8 9.7 9.8
甲品种的样本平均数为10,样本方差为
[(9.8-10)2+(9.9-10)2+(10.1-10)2+(10-10)2+(10.2-10)2]÷5=0.02.
乙品种的样本平均数也为10,样本方差为
[(9.4-10)2+(10.3-10)2+(10.8-10)2+(9.7-10)2+(9.8-10)2]÷5=0.244.
因为0.244>0.02,所以由这组数据可以认为甲种水稻的产量比较稳定.
当堂训练
1.下列说法正确的是____.
①在两组数据中,平均值较大的一组方差较大;
②平均数反映数据的集中趋势,方差则反映数据离平均值的波动大小;
③方差的求法是求出各个数据与平均值的差的平方后再求和;
④在记录两个人射击环数的两组数据中,方差大的表示射击水平高.
①中平均值和方差是数据的两个特征,不存在这种关系;
③中求和后还需取平均数;
④中方差越大,射击越不平稳,水平越低.
②
答案
解析
2
3
4
5
1
2.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示:
则7个剩余分数的方差为____.
答案
解析
2
3
4
5
1
3.如果数据x1,x2,…,xn的平均数为 ,方差为s2,则
(1)新数据x1+b,x2+b,…,xn+b的平均数为______,方差为___.
(2)新数据ax1,ax2,…,axn的平均数为_____,方差为____.
(3)新数据ax1+b,ax2+b,…,axn+b的平均数为_______,方差为____.
答案
s2
a2s2
a2s2
2
3
4
5
1
4.某学员在一次射击测试中射靶10次,命中环数如下:
7,8,7,9,5,4,9,10,7,4.
则:(1)平均命中环数为___;
7
答案
解析
(2)命中环数的标准差为___.
s2= [(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,∴s=2.∴命中环数标准差为2.
2
答案
解析
2
3
4
5
1
5.样本中共有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为____.
2
答案
解析
2
3
4
5
1
规律与方法
1.标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
2.现实中的总体所包含的个体数往往很多,总体的平均数与标准差是未知的,我们通常用样本的平均数和标准差去估计总体的平均数与标准差,但要求样本有较好的代表性.
3.在抽样过程中,抽取的样本是具有随机性的,因此样本的数字特征也有随机性.用样本的数字特征估计总体的数字特征,是一种统计思想,没有唯一答案.
本课结束
更多精彩内容请登录:www.91taoke.com
2.3.1 平均数及其估计
第2章 2.3总体特征数的估计
学习目标
1.理解平均数为什么是“最理想”的近似值;
2.会计算一组数据的平均数;
3.会根据频率分布表或频率分布直方图估计平均数.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 平均数
思考
处理实验数据的原则是使近似值与实验数据越接近越好.但是实验数据往往很多,怎么刻画“最近”呢?
设近似值为x,实验数据为ai(i=1,2,…,n),因为x-ai有正有负,故用(x-a1)2+(x-a2)2+…+(x-an)2来刻画近似值与实验数据最接近.
答案
梳理
知识点二 平均数的估计
思考
在频率分布表里,还能看到原始数据吗?怎样根据频率分布表计算平均数?
在频率分布表里,已看不到原始数据,但可用各区间的组中值近似地表示.
答案
梳理
一般地,若取值为x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均数为 .
x1p1+x2p2+…+xnpn
题型探究
类型一 平均数的计算
n答案
解析
计算平均数时要紧扣定义,搞清楚总共有几组数据.
反思与感悟
跟踪训练1 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:
成绩(单位:m) 1.50 1.60 1.65 1.70 1.75 1.80 1.85 1.90
人数 2 3 2 3 4 1 1 1
求这些运动员成绩的平均数.
解答
类型二 利用频率分布表或直方图估计平均数
例2 下面是某校学生日睡眠时间(单位:h)的抽样频率分布表,试估计该校学生的日平均睡眠时间.
解答
睡眠时间 人数 频率
[6,6.5) 5 0.05
[6.5,7) 17 0.17
[7,7.5) 33 0.33
[7.5,8) 37 0.37
[8,8.5) 6 0.06
[8.5,9] 2 0.02
合计 100 1
方法一 总睡眠时间约为6.25×5+6.75×17+7.25×33+7.75×37+8.25×6+8.75×2=739(h).
故平均睡眠时间约为7.39 h.
方法二 求组中值与对应频率之积的和.
6.25×0.05+6.75×0.17+7.25×0.33+7.75×0.37+8.25×0.06+8.75×0.02=7.39(h).
答 估计该校学生的日平均睡眠时间约为7.39 h.
一般地,若取值为x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均数为x1p1+x2p2+…+xnpn.
反思与感悟
跟踪训练2 一批乒乓球,随机抽取100个进行检查,球的直径频率分布直方图如图.试估计这个样本的平均数.
平均数为39.96×0.1+39.98×0.2+40×0.5+40.02×0.2=39.996.
解答
类型三 众数、中位数、平均数的简单应用
例3 某公司的33名职工的月工资(单位:元)如下表:
职位 董事长 副董事长 董事 总经理 经理 管理员 职员
人数 1 1 2 1 5 3 20
工资 5 500 5 000 3 500 3 000 2 500 2 000 1 500
(1)求该公司职工月工资的平均数、中位数、众数;
解答
公司职工月工资的平均数为
若把所有数据从大到小排序,则得到中位数是1 500元,众数是1 500元.
(2)若董事长、副董事长的工资分别从5 500元、5 000元提升到30 000元、20 000元,那么公司职工的月工资的新的平均数、中位数和众数又是什么?
解答
若董事长、副董事长的工资提升后,职工月工资的平均数为
中位数是1 500元,众数是1 500元.
(3)你认为哪个统计量更能反映这个公司职工的工资水平?
解答
在这个问题中,中位数和众数都能反映出这个公司职工的工资水平,因为公司少数人的工资额与大多数人的工资额差别较大,这样导致平均数偏差较大,所以平均数不能反映这个公司职工的工资水平.
如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策.
反思与感悟
跟踪训练3 某课外活动小组对该市空气含尘进行了调查,下面是一天每隔两小时测得的数据:0.03、0.03、0.04、0.05、0.01、0.03(单位:g/m3)
(1)求出这组数据的众数和中位数;
解答
由题意知,众数是0.03,中位数为0.03.
(2)若国标(国家环保局的标准)是平均值不得超过0.025g/m3,问这一天城市空气是否符合国标?
解答
这一天数据平均数是0.03,∵0.03>0.025,
∴这一天该城市空气不符合国标.
当堂训练
2
3
4
1
1.下列说法错误的是____.(填序号)
①在统计里,把所需考察对象的全体叫作总体;
②一组数据的平均数一定大于这组数据中的每个数据;
③平均数、众数与中位数从不同的角度描述了一组数据的集中趋势;
④众数是一组数据中出现次数最多的数.
平均数不大于最大值,不小于最小值.
②
答案
解析
2.一个样本数据按从小到大的顺序排列为13,14,19,x,23,27,28,31,其中位数为22,则x为____.
数据个数为偶数时,中位数为中间两数的平均值 =22,所以x=21.
2
3
4
1
21
答案
解析
3.样本容量为100的频率分布直方图如图所示,根据样本频率分布直方图,则平均数为______.
平均数 =10×0.06+12×0.1+14×0.4+16×0.24+18×0.2=14.84.
14.84
答案
解析
2
3
4
1
2
3
4
1
4.某高校有甲,乙两个数学建模兴趣班,其中甲班40人,乙班50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则该校数学建模兴趣班的平均成绩是____分.
85
答案
解析
规律与方法
1.能反映总体某种特征的量称为总体特征数,如平均数,中位数,使总体特征数通常难以获得,故常以样本特征数估计总体特征数.
2.平均数是离差平方和最小的近似值,计算器、计算机均有专门的程序,手工计算要细致,不要漏加或重复.
本课结束
2.2.2 频率分布直方图与折线图(二)
2.2.3 茎叶图
学习目标
1.了解频率折线图和总体密度曲线的定义;
2.理解茎叶图的概念,会画茎叶图;
3.了解频率分布直方图、频率折线图、茎叶图的各自特征,学会选择不同的方法分析样本的分布,从而作出总体估计.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 频率分布折线图和总体密度曲线
1.频率分布折线图
将频率分布直方图中各个相邻的矩形的 顺次连结起来,就得到频率分布折线图,简称频率折线图.
2.总体密度曲线
随着样本容量的增加,作图时所分的 增加,组距减小,相应的频率折线图会越来越接近于一条 ,统计中称这条光滑曲线为总体分布的密度曲线.
光滑曲线
上底边的中点
组数
知识点二 茎叶图
思考
茎叶图是表示样本数据分布情况的一种方法,那么“茎”、“叶”分别指的是哪些数?
茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
答案
梳理
茎叶图的定义:
当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.
适用范围:当样本数据较少时,用茎叶图表示数据的效果较好.
优点:它不但可以 ,而且可以 ,给数据的记录和表示都带来方便.
缺点:当样本数据 时,枝叶就会很长,茎叶图就显得不太方便.
较多
保留所有信息
随时记录
题型探究
类型一 频率分布折线图的画法
例1 太极拳运动是一项练意、练气、练身三者相结合的运动,它的动作缓慢,柔和自然,心静体松,调和气血,疏通经络,平衡阴阳等特点符合中老年人的运动要求,被大多数中老年人所喜爱.下面是某中老年活动中心选择太极拳项目的人的年龄.
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48
(1)将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图;
解答
以4为组距,列表如下:
分组 频数累计 频数 频率
[41.5,45.5) 2 2 0.045 5
[45.5,49.5) 9 7 0.159 1
[49.5,53.5) 17 8 0.181 8
[53.5,57.5) 33 16 0.363 6
[57.5,61.5) 38 5 0.113 6
[61.5,65.5) 42 4 0.090 9
[65.5,69.5) 44 2 0.045 5
合计 ? 44 1.00
频率分布直方图及频率分布折线图如图所示:
(2)用自己的语言描述一下此中老年活动中心选择太极拳项目的人年龄的分布情况.
从频率分布表可以看出,将近60%的选择太极拳的中老年人的年龄在50岁至60岁之间,45岁以下及65岁以上中老年人所占的比例相对较小.
解答
作折线图可以依据直方图,也可以由频率分布表找出折线上各个转折点的坐标从而作出折线图.
反思与感悟
跟踪训练1 已知50个数据的分组以及各组的频数如下:
[153.5,155.5),2,[155.5,157.5),7,
[157.5,159.5),9,[159.5,161.5),11,
[161.5,163.5),10,[163.5,165.5),6,
[165.5,167.5),4,[167.5,169.5],1.
试画出频率分布直方图和频率分布折线图.
解答
频率分布直方图和频率分布折线图如图所示.
类型二 茎叶图的画法及应用
例2 某中学甲、乙两名同学最近几次的数学考试成绩情况如下:
甲的得分:95,81,75,89,71,65,76,86,91,88,94,110,107;
乙的得分:83,86,93,99,88,103,98,114,98,79,88,110,101.
画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.
解答
甲、乙两人数学成绩的茎叶图如图所示.
从这个茎叶图中可以看出,乙同学的得分情况大致是对称的,中位数是98分;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是88分,但分数分布相对于乙来说,趋向于低分阶段.因此乙同学发挥比较稳定,总体得分情况比甲同学好.
茎叶图和频率分布表极为类似,事实上,茎相当于频率分布表中的分组;茎上叶的数目相当于频率分布表中指定区间组的频数.
反思与感悟
跟踪训练2 某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:
甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;
乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.
试制作茎叶图来对比描述这些数据.
以十位数字为茎,个位数字为叶,制作茎叶图如下:
解答
类型三 频数(率)分布直方图与茎叶图的比较
例3 从甲、乙两个城市所有的自动售货机中随机抽取16台,记录了上午8:00~11:00之间各自的销售情况(单位:元):
甲:18,8,10,43,5,30,10,22,6,27,25,58,14,18,30,41;
乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23.
试用纵坐标为频数的频数分布直方图与茎叶图的方式分别表示上面的数据,并简要说明各自的优点.
解答
方法一 用频数分布直方图表示如图.
方法二 茎叶图如图,两竖线中间的数字表示甲、乙销售额的十位数,两边的数字表示甲、乙销售额的个位数.
从方法一可以看出频数分布直方图能直观地反映数据分布的大致情况,并且能够清晰地表示出各个区间的具体数目;从方法二可以看出,用茎叶图表示有关数据对数据的记录和表示都带来方便.
茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录,但样本容量较大,或者需要比较三组以上的数据时,使用茎叶图就不合适;而频率分布表和频率分布直方图可以处理样本容量很大的数据,但损失了样本的原始数据,而且必须在完成抽样后才能制作.
反思与感悟
跟踪训练3 试比较例3中用到的频数分布直方图和频率分布直方图的区别.
解答
首先频数分布直方图的纵坐标为频数,因此其顶点纵坐标是非负整数.
频率分布直方图的纵坐标为频率/组距,因此其每个组段的频率就是对应小矩形的面积,且总面积为1.当样本量n增大并且组距越来越小时,相应的小矩形越来越细,其各小矩形上端的中点的连线构成了一条光滑曲线,而这条光滑曲线下的面积为1,这条光滑曲线称为总体分布的密度曲线.
当堂训练
2
3
4
1
1.如图是总体密度曲线,下列说法正确的是____.
①组距越大,频率分布折线图越接近于它;
②样本容量越小,频率分布折线图越接近于它;
③阴影部分的面积代表总体在(a,b)内取值的百分比;
④阴影部分的平均高度代表总体在(a,b)内取值的百分比.
③
答案
2.某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们各自在某一天课外阅读所用时间的数据,结果用下面的条形图表示.
由题意可知,50名学生平均每天的课外阅读时间为 ×(0.5×20+1.0×10+1.5×10+2.0×5)=0.9(小时).
根据条形图可得这50名学生平均每天的课外阅读时间为____小时.
2
3
4
1
0.9
答案
解析
2
3
4
1
3.已知某工厂工人在6月份每天加工的零件个数的茎叶图如图所示(以零件个数的百位、十位数字为茎,个位数字为叶),那么该工厂工人在该月内加工的零件个数超过130的天数所占的百分比为_____.
10%
答案
4.某校举行演讲比赛,9位评委给选手A打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若统计员计算无误,则数字x应该是___.
去掉最低分87,去掉最高分94(假设x≤4),则7×91=80×2+9+8+90×5+2+3+2+1+x,
所以x=2,符合题意.同理可验证x>4不合题意.
2
答案
解析
2
3
4
1
规律与方法
1.估计总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.
2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录;而频率分布表和频率分布直方图则损失了样本的原始信息,必须在完成抽样后才能制作.
3.正确利用三种分布的描述方法,都能得到一些有关分布的主要特点(如分布是否具有单峰性、是否具有对称性、样本点落在各分组中的频率等),这些主要特点受样本的随机性的影响比较小,更接近于总体分布相应的特点.
本课结束
2.1.3 分层抽样
第2章 2.1抽样方法
学习目标
1.理解分层抽样的基本思想和适用情形;
2.掌握分层抽样的实施步骤;
3.了解三种抽样方法的区别和联系.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 分层抽样的基本思想和适用情形
思考
中国共产党第十八次代表大会2 270名代表是从40个单位中产生的,这40个单位分别是1─31为省(自治区、直辖市)、32中央直属机关、33中央国家机关、34全国台联、35解放军、36武警部队、37中央金融系统、38中央企业系统、39中央香港工委、40中央澳门工委.你觉得如果用简单随机抽样或者是系统抽样来产生这些代表怎么样?
答案
这40个单位各有各的情况,各有各的意见,存在明显差异.而各单位人数差异很大,如果采用简单随机抽样或者系统抽样,可能有些人员少的单位根本就没有自己的代表,从而使样本没有更好的代表性.所以采用这两种抽样方法都不合适.
梳理
一般地,当总体由 的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成_____________
的几个部分,然后按各个部分在总体中所占的比实施抽样,这种抽样方法叫分层抽样.
分层抽样尽量利用了调查者对调查对象(总体)事先所掌握的各种信息,并充分考虑了保持 与 的一致性,这对提高样本的代表性是非常重要的.
总体结构
差异明显
层次比较分明
样本结构
知识点二 分层抽样的实施步骤
分层抽样的步骤是:
(1)将总体按一定标准 .
(2)计算 .
(3)按 的比确定各层应抽取的样本容量.
(4)在每一层进行抽样(可用 或 抽样).
系统
分层
各层的个体数与总体的个体数的比
各层个体数占总体的个体数
简单随机抽样
知识点三 三种抽样方法的比较
类别 特点 相互联系 适用范围 共同点
简单随
机抽样 从总体中逐个抽取 ? 总体中的个体数较少 抽样过程中每个个体被抽到的可能性相同
系统
抽样 将总体平均分成几部分,按一定的规则分别在各部分中抽取 在起始部分抽样时,采用简单随机抽样 总体中的个体数较多
分层
抽样 将总体分成几层,按各层个体数之比抽取 各层抽样时采用简单随机抽样或系统抽样 总体由差异明显的几部分组成
题型探究
类型一 分层抽样的适用情景
例1 某地区有高中生2 400人,初中生10 900人,小学生11 000人.当地教育部门为了了解本地区中小学生的近视率及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查,你认为应当怎样抽取样本?
(1)从总体来看,因为不同年龄阶段的学生的近视情况可能存在明显差异,为了使样本具有较好的代表性,应该分高中、初中、小学三个层次分别抽样.
(2)从三类学生的数量来看,人数较多,所以在各层抽样时可以采用系统抽样.
(3)采用系统抽样分好组之后,确定第一组人选时,可以采用简单随机抽样.
解答
分层抽样实质是利用已知信息尽量使样本结构与总体结构相似.在实际操作时,并不排斥与其他抽样方法联合使用.
反思与感悟
跟踪训练1 某单位有员工500人,其中35岁以下的有125人,35岁~49岁的有280人,50岁以上的有95人.为了调查员工的身体状况,要从中抽取一个容量为100的样本,如何进行抽取?
因为员工按年龄分为三个层次,各层的身体状况有明显的差异,所以为了使样本具有代表性,需要采用分层抽样.抽样比为1∶5,即每5人中抽取一人.
解答
类型二 分层抽样的实施步骤
例2 写出跟踪训练1的实施步骤.
(1)按年龄将500名职工分成三层:35岁以下的职工;35岁~49岁的职工;50岁以上的职工.
(3)在各层分别用随机数表法抽取样本.
(4)综合每层抽样,组成容量为100的样本.
解答
如果总体中的个体有差异,那么就用分层抽样抽取样本.用分层抽样抽取样本时,要把性质、结构相同的个体组成一层.
反思与感悟
跟踪训练2 某市的3个区共有高中学生20 000人,且3个区的高中学生人数之比为2∶3∶5,现要从所有学生中抽取一个容量为200的样本,调查该市高中学生的视力情况,试写出抽样过程.
解答
(1)由于该市高中学生的视力有差异,按3个区分成三层,用分层抽样来抽取样本.
(3)在各层分别按系统抽样法抽取样本.
(4)综合每层抽样,组成容量为200的样本.
类型三 三种抽样方法的比较
例3 某高级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号1,2,…,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:
①7,34,61,88,115,142,169,196,223,250;
②5,9,100,107,111,121,180,195,200,265;
③11,38,65,92,119,146,173,200,227,254;
④30,57,84,111,138,165,192,219,246,270.
关于上述样本的下列结论中,正确的是___.
a.②③都不能为系统抽样;
b.②④都不能为分层抽样;
c.①④都可能为系统抽样;
d.①③都可能为分层抽样.
d
答案
解析
如果按系统抽样,抽取出的号码应该是“等距”的,①③符合,②④不符合,所以①③都可能为系统抽样,②④都不能为系统抽样.
根据样本的号码判断抽样方法时,要紧扣三类抽样方法的特征.利用简单随机抽样抽取的样本号码没有规律性;利用分层抽样抽取的样本号码有规律性,即在每一层抽取的号码个数m等于该层所含个体数目与抽样比的积,并且应该恰有m个号码在该层的号码段内;利用系统抽样取出的样本号码也有规律性,其号码按从小到大的顺序排列,则所抽取的号码是:l,l+k,l+2k,…,l+(n-1)k.其中,l为第一个样本号码(l≤k),n为样本容量(n=1,2,3,…),l是第一组中的号码,k为分段间隔,k=总体容量/样本容量.
反思与感悟
跟踪训练3 一个总体中的80个个体编号为0,1,2,…,79,并依次将其分为8个组,组号为0,1,…,7,要用下述抽样方法抽取一个容量为8的样本:即在0组先随机抽取一个号码i,则k组抽取的号码为10k+j,
其中j= 若先在0组抽取的号码为6,则所抽到的8个
号码依次为______________________________.
6,17,28,39,40,51,62,73
答案
解析
因为i=6,所以1组抽取号码为10×1+(6+1)=17,2组抽取号码为10×2+(6+2)=28,3组抽取号码为10×3+(6+3)=39,4组抽取号码为10×4+(6+4-10)=40,5组抽取号码为10×5+(6+5-10)=51,6组抽取号码为10×6+(6+6-10)=62,7组抽取号码为10×7+(6+7-10)=73.
当堂训练
1.某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名,现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为___.
8
答案
解析
2
3
4
5
1
2.某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为___.
青年职工、中年职工、老年职工三层之比为7∶5∶3,所以样本容量为
7÷ =15.
15
答案
解析
2
3
4
5
1
3.某公司生产三种型号的轿车,产量分别为1 200辆,6 000辆和2 000辆.为检验该公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取的辆数为___________.
设三种型号的轿车依次抽取x,y,z辆,
解得x=6,y=30,z=10.
6,30,10
答案
解析
2
3
4
5
1
4.某林场有树苗30 000棵,其中松树苗4 000棵.为调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为____.
20
答案
解析
2
3
4
5
1
5.一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为____.
解得n=12.
12
答案
解析
2
3
4
5
1
规律与方法
1.用分层抽样从个体为N的总体中抽取一个容量为n的样本时,在整个抽样过程中每个个体被抽到的机会相等.
2.分层抽样是建立在简单随机抽样或系统抽样基础上的,由于它充分利用了已知信息,考虑了保持样本结构与总体结构的一致性,因此它获取的样本更具代表性,在实用中更为广泛.解决分层抽样问题时,注意以下两个关系的应用:
(2)总体中各层的容量比=对应各层样本数之比.
3.简单随机抽样是基础,系统抽样与分层抽样是补充和发展,三者相辅相成,对立统一.
本课结束
2.1.2 系统抽样
第2章 2.1抽样方法
学习目标
1.理解系统抽样的必要性和适用情境;
2.掌握系统抽样的概念和步骤;
3.了解系统抽样的公平性.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 系统抽样的概念
思考
当总体中的个体数较多时,为什么不宜用简单随机抽样?
因为个体较多,采用简单随机抽样如制作号签等工作会耗费大量的人力、物力和时间,而且不容易做到“搅拌均匀”,从而使样本的代表性不强.此时就需要用系统抽样.
答案
梳理
系统抽样的概念:
将总体 分成几个部分,然后按照 ,从每个部分中抽取一个 作为样本,这样的抽样方法称为 .
系统抽样
平均
一定的规则
个体
思考
知识点二 系统抽样的步骤
用系统抽样抽取样本时,每段各取一个号码,其中第1段的个体编号怎样抽取?以后各段的个体编号怎样抽取?
用简单随机抽样抽取第1段的个体编号.在抽取第1段的号码之前,自定义规则确定以后各段的个体编号,通常是将第1段抽取的号码依次累加间隔k.
答案
梳理
假设要从容量为N的总体中抽取容量为n的样本,系统抽样的步骤为:
(1)采用随机的方式将总体中的N个个体 .
(3)在第一段中用简单随机抽样确定起始的 .
(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,__________
的个体抽出.
l+(n-1)k
编号
个体编号l
题型探究
类型一 系统抽样的概念
例1 下列抽样中不是系统抽样的是____.
①从标有1~15号的15个小球中任选3个作为样本,按从小号到大号排序,随机确定起点i,以后为i+5,i+10(超过15则从1再数起)号入样;
②工厂生产的产品,用传送带将产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品检验;
③某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的调查人数为止;
④电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下来座谈.
③
答案
解析
③不是系统抽样,因为事先不知道总体,抽样方法不能保证每个个体按事先规定的比例入样.
解决该类问题的关键是掌握系统抽样的特点及适用范围.
反思与感悟
跟踪训练1 下列抽样试验中,最适宜用系统抽样法的是____.(填序号)
①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200个入样;②从某厂生产的2 000个电子元件中随机抽取5个入样;③从某厂生产的2 000个电子元件中随机抽取200个入样;④从某厂生产的20个电子元件中随机抽取5个入样.
①中总体有明显的区别,不适宜用系统抽样法;
②中样本容量很小,适宜用随机数表法;
③中从2 000个电子元件中随机抽取200个入样,适宜采用系统抽样法.
④中总体容量很小,适宜用抽签法,故填③.
③
答案
解析
类型二 系统抽样的实施
例2 某校高中三年级的295名学生已经编号为1,2,…,295,为了了解学生的学习情况,要按1∶5的比例抽取一个样本,用系统抽样的方法进行抽取,并写出过程.
按照1∶5的比例,应该抽取的样本容量为295÷5=59,我们把295名同学分成59组,每组5人,第一组是编号为1~5的5名学生,第2组是编号为6~10的5名学生,依次下去,第59组是编号为291~295的5名学生.采用简单随机抽样的方法,从第一组5名学生中抽出一名学生,不妨设编号为k(1≤k≤5),那么抽取的学生编号为k+5l(l=0,1,2,…,58),得到59个个体作为样本,如当k=3时的样本编号为3,8,13,…,288,293.
解答
解决系统抽样问题的两个关键步骤:
(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.
(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.
反思与感悟
跟踪训练2 为了了解参加某种知识竞赛的1 000名学生的成绩,从中抽取一个容量为50的样本,那么采用什么抽样方法比较恰当?简述抽样过程.
适宜选用系统抽样,抽样过程如下:
(1)随机地将这1 000名学生编号为1,2,3,…,1000.
(2)将总体按编号顺序均分成50个部分,每部分包括20个个体.
(3)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(4)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,… ,l+980.
解答
类型三 不能整除的分组方法
例3 在跟踪训练2中,如果总体是1 002,其余条件不变,又该怎么抽样?
(1)将每个学生编一个号,由1至1002.
(2)利用随机数表法剔除2个号.
(3)将剩余的1 000名学生重新编号1至1000.
(4) 按编号顺序均分成50个部分,每部分包括20个个体.
(5)在第一部分的个体编号1,2,3,…,20中,利用简单随机抽样抽取一个号码l.
(6)以l为起始号码,每间隔20抽取一个号码,这样得到一个容量为50的样本:l,l+20,l+40,…,l+980.
解答
当总体中的个体数不能被样本容量整除时,需要在总体中剔除一些个体.由于剔除方法采用简单随机抽样,所以即使是被剔除的个体,在整个抽样过程中被抽到的机会和其他个体也是一样的.
反思与感悟
跟踪训练3 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施.
(1)将每个工人编一个号,由0001至1003.
(2)利用随机数表法找到3个号将这3名工人剔除.
(3)将剩余的1 000名工人重新编号0001至1000.
(4)分段,取间隔k= =100,将总体均分为10组,每组100个工人.
(5)从第一段即0001号到0100号中随机抽取一个号l.
(6)按编号将l,100+l,200+l,…,900+l,共10个号选出.
这10个号所对应的工人组成样本.
解答
当堂训练
2
3
4
1
1.为了了解某地参加计算机水平测试的5 008名学生的成绩,从中抽取了200名学生的成绩进行统计分析,运用系统抽样方法抽取样本时,每组的容量为____.
5 008除以200商的整数部分为25.
25
答案
解析
2.下列抽样问题中最适合用系统抽样法抽样的是___.(填序号)
①从全班48名学生中随机抽取8人参加一项活动;
②一个城市有210家百货商店,其中大型商店20家,中型商店40家,小型商店150家.为了掌握各商店的营业情况,要从中抽取一个容量为21的样本;
③从参加模拟考试的1 200名高中生中随机抽取100人分析试题作答情况;
④从参加模拟考试的1 200名高中生中随机抽取10人了解某些情况.
2
3
4
1
①中总体容量较小,样本容量也较小,可采用抽签法;
②中总体中的个体有明显的差异,也不适宜采用系统抽样;
④中总体容量较大,样本容量较小也不适用系统抽样.
③
答案
解析
2
3
4
1
3.为了了解参加一次知识竞赛的1 252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中应随机剔除的个体数目是___.
由1 252=50×25+2知,应随机剔除2个个体.
2
答案
解析
2
3
4
1
4.有20个同学,编号为1~20,现在从中抽取4人的作文卷进行调查,用系统抽样方法确定所抽的编号间隔为___.
将20分成4个组,每组5个号,间隔等距离为5.
5
答案
解析
规律与方法
1.体会系统抽样的概念,其中关键因素是“分组”,否则不是系统抽样.系统抽样适用于总体中的个体数较多的情况,因为这时采用简单随机抽样不方便.
2.解决系统抽样问题的关键步骤为:
3.系统抽样的优点是简单易操作,当总体个数较多的时候也能保证样本的代表性;缺点是对存在明显周期性的总体,选出来的个体,往往不具备代表性.从系统抽样的步骤可以看出,系统抽样是把一个问题划分成若干部分分块解决,从而把复杂问题简单化,体现了数学转化思想.
本课结束
2.1.1 简单随机抽样
第2章 2.1抽样方法
学习目标
1.体会随机抽样的必要性和重要性;
2.理解随机抽样的目的和基本要求;
3.掌握简单随机抽样中的抽签法、随机数表法的一般步骤.
题型探究
问题导学
内容索引
当堂训练
问题导学
知识点一 随机抽样的必要性及基本概念
思考
要知道一批牛奶是否达标,为什么不采用逐一检测的方法?
因为检测具有破坏性,且耗时费力.
答案
梳理
(1)抽样的必要性:
第一,要考查的总体中个体数往往 ,而且在时刻变化,逐一调查不可能.第二,考查往往具有 ,所以逐一调查也不可取.这就需要抽查一部分,以此来估计 .
总体
很多
破坏性
(2)抽样涉及的基本概念:(以某地区高一学生身高为例)
为了了解某地区高一学生身高的情况,我们找到了该地区高一八千名学生的体检表,从中随机抽取了150张,表中有体重、身高、血压、肺活量等15类数据,那么总体是指 ,个体是指_________________________, 样本是指 , 样本容量是 .
150
该地区高一八千名学生的身高
该地区高一某个学生的身高
被抽到的150名学生的身高
思考
知识点二 简单随机抽样
从含有甲、乙的9件产品中随机抽取一件,总体内的各个个体被抽到的机会相同吗?为什么?甲被抽到的机会是多少?
总体内的各个个体被抽到的机会是相同的.因为是从9件产品中随机抽取一件,这9件产品每件产品被抽到的机会都是1/9,甲也是1/9.
答案
梳理
简单随机抽样:
一般地,从个体数为N的总体中逐个 地取出n个个体作为样本(n简单随机抽样有操作 的优点,在总体 的情况下是行之有效的.
个数不多
不放回
相同
简单随机抽样
简便易行
题型探究
类型一 简单随机抽样的基本思想
例1 人们打桥牌时,将洗好的扑克牌随机确定一张为起始牌,这时按次序搬牌时,对任何一家来说,都是从52张牌中抽取13张牌,问这种抽样方式是不是简单随机抽样?为什么?
不是简单随机抽样.因为简单随机抽样的实质是逐个地从总体中随机抽取样本,而这里只是随机确定了起始牌,其他各张牌虽然是逐张搬牌,但是各张在谁手里已被确定,所以不是简单随机抽样.
解答
判断一个抽样方式是不是简单随机抽样,就是看这个抽样符不符合简单随机抽样的4个特点,符合就是,否则就不是.
反思与感悟
跟踪训练1 下列抽样的方式是否属于简单随机抽样?为什么?
(1)从无限多个个体中抽取50个个体作为样本.
不是.因为总体的个体数不是有限的.
解答
(2)箱子里共有100个零件,从中选出10个零件进行质量检验,在抽样操作中,从中任意取出一个零件进行质量检验后,再把它放回箱子.
不是.因为抽取是有放回的抽取,不符合简单随机抽样的特点.
解答
类型二 抽签法
例2 某卫生单位为了支援抗震救灾,要在18名志愿者中选取6人组成医疗小组去参加救治工作,请用抽签法设计抽样方案.
方案如下:
第一步,将18名志愿者编号,号码为01,02,03,…,18.
第二步,将号码分别写在相同的纸条上,揉成团,制成号签.
第三步,将得到的号签放到一个不透明的盒子中,充分搅匀.
第四步,从盒子中依次取出6个号签,并记录上面的编号.
第五步,与所得号码对应的志愿者就是医疗小组成员.
解答
一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.一般地,当样本容量和总体容量较小时,可用抽签法.
反思与感悟
跟踪训练2 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
第一步 将20架钢琴编号,号码是01,02,…,20.
第二步 将号码分别写在相同的纸条上,揉成团,制成号签.
第三步 将得到的号签放入一个不透明的袋子中,并充分搅匀.
第四步 从袋子中逐个不放回地抽取5个号签,并记录上面的编号.
第五步 与所得号码对应的5架钢琴就是要进行质量检查的对象.
解答
类型三 随机数表法
例3 假设我们要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,应如何操作?
第一步,将800袋牛奶编号为000,001,…,799.
第二步,在随机数表中任选一个数作为起始数(例如选出第8行第7列的数7).
第三步,从选定的数7开始依次向右读(读数的方向也可以是向左、向上、向下等),将编号范围内的数取出,编号范围外的数去掉,直到取满60个号码为止,就得到一个容量为60的样本.
解答
抽签法和随机数表法对个体的编号是不同的,抽签法可以利用个体已有的编号,如学生的学籍号、产品的记数编号等,也可以重新编号,例如总体个数为100,编号可以为1,2,3,…,100.随机数表法对个体的编号要看总体的个数,总体数为100,通常为00,01,…,99.总体数大于100小于1 000,从000开始编起,然后是001,002,….
反思与感悟
跟踪训练3 要考察某种品牌的850颗种子的发芽率,从中抽取50颗种子进行实验,利用随机数表法抽取种子,先将850颗种子按001,002,…,850进行编号,如果从随机数表第3行第6列的数开始并向右读,请依次写出最先检验的4颗种子的编号__________________.(下面抽取了随机数表第1行至第8行)
03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 95
97 74 24 67 62 42 81 14 57 20 42 53 32 37 32 27 07 36 07 51 24 51 79 89 73
16 76 62 27 66 56 50 26 71 07 32 90 79 78 53 13 55 38 58 59 88 97 54 14 10
12 56 85 99 26 96 96 68 27 31 05 03 72 93 15 57 12 10 14 21 88 26 49 81 76
55 59 56 35 64 38 54 82 46 22 31 62 43 09 90 06 18 44 32 53 23 83 01 30 30
16 22 77 94 39 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
227,665,650,267
答案
解析
从随机数表第3行第6列的数2开始向右读,第一个小于850的数字是227,第二个数字是665,第三个数字是650,第四个数字是267,符合题意.
当堂训练
2
3
4
1
1.某次考试有10 000名学生参加,为了了解这10 000名考生的数学成绩,从中抽取1 000名考生的数学成绩进行统计分析,在这个问题中,有以下三种说法:①1 000名考生是总体的一个样本;②10 000名考生是总体;③样本容量是1 000.其中正确的说法有___种.
总体是10 000名考生的数学成绩,样本是1 000名考生的数学成绩,故①②都错,只有③正确.
1
答案
解析
2.关于简单的随机抽样,有下列说法:
①它要求被抽样本的总体的个数有限,以便对其中各个个体被抽取的可能性进行分析;
②它是从总体中逐个地进行抽取,以便在抽样实践中进行操作;
③它是一种不放回抽样;
④它是一种等可能抽样,不仅每次从总体中抽取一个个体时,各个个体被抽取的可能性相等,而且在整个抽样过程中,各个个体被抽取的可能性也相等,从而保证了这种抽样方法的公平性.其中正确的命题有___个.
4
2
3
4
1
答案
2
3
4
1
3.下列抽样方法是简单随机抽样的是____.
①从50个零件中一次性抽取5个进行质量检验;
②从50个零件中有放回地抽取8个进行质量检验;
③从实数集中逐个抽取10个正整数分析奇偶性;
④运动员从8个跑道中随机抽取1个跑道.
①是一次性抽取;
②是有放回抽取;
③中的实数集中有无限个正整数,这些都不符合简单随机抽样的特征.
④
答案
解析
4.从100件电子产品中抽取一个容量为25的样本进行检测,试用随机数表法抽取样本.
第一步 将所有电子产品编号:00,01,02,…,98,99;
第二步 选定随机数表中第一个数0作为开始;
第三步 从选定的数0开始按两个数字一组向右读下去,一行读完时按下一行自左向右继续读,将重复的两位数去掉,保留下来的两位数直到取足25个为止.
解答
2
3
4
1
规律与方法
1.简单随机抽样是一种简单、基本、不放回的抽样方法,常用的简单随机抽样方法有抽签法和随机数表法.
2.抽签法的优点是简单易行,缺点是当总体的容量较大时,费时、费力,并且标号的签不易搅拌均匀,这样会导致抽样不公平;随机数表法的优点也是简单易行,缺点是当总体容量较大时,编号不方便.两种方法只适合总体容量较少的抽样类型.
3.简单随机抽样每个个体入样的可能性都相等,均为n/N,但要将每个个体入样的可能性与第n次抽取时每个个体入样的可能性区分开,避免在解题中出现错误.
本课结束