9.1 随机抽样
9.1.1 简单随机抽样
学
习
任
务
核
心
素
养
1.通过实例,了解简单随机抽样的含义及其解决问题的过程.(重点)2.掌握两种简单随机抽样方法:抽签法和随机数法.(重点、难点)
通过对简单随机抽样的概念和应用的学习,培养数据分析素养.
在我国,食品安全问题越来越受到人们的关注,党中央、国务院和各级政府部门也高度重视,从制度建设和管理上都做了大量的、卓有成效的工作,取得了良好的效果.
问题:某报告称,食品质量检测人员对某品牌牛奶的抽检合格率为99.9%,你知道这一数据是怎么得到的吗?
知识点1 全面调查和抽样调查
调查方式
普查
抽样调查
定义
对每一个调查对象都进行调查的方法,称为全面调查,又称普查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查
相关概念
总体:在一个调查中,我们把调查对象的全体称为总体.个体:组成总体的每一个调查对象称为个体
样本:我们把从总体中抽取的那部分个体称为样本.样本量:样本中包含的个体数称为样本量
1.下列调查方式中,适合用普查的是( )
A.调查春节联欢晚会的收视率
B.了解某渔场中青鱼的平均质量
C.了解某批次华为手机的使用寿命
D.了解一批汽车的刹车性能
D [了解汽车的刹车性能,因为涉及人身安全,且对汽车没有破坏性,因此,应采用普查的方式.]
2.某校共有1
005名高三学生参加2020年上学期开学考试,为了了解这1
005名学生的数学成绩,决定从中抽取50名学生的数学成绩进行统计分析.
下列叙述错误的是( )
A.总体是1
005名学生的数学成绩
B.样本量是50
C.个体是每一名学生
D.样本是50名学生的数学成绩
C [个体是每一名学生的数学成绩.]
知识点2 简单随机抽样的概念
1.放回与不放回简单随机抽样
放回简单随机抽样
不放回简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n<N)个个体作为样本
如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样
如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本
2.抽签法
先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.
3.随机数法
(1)定义:先把总体中的个体编号,用随机数工具产生与总体中个体数量相等的整数随机数,把产生的随机数作为抽中的编号,并剔除重复的编号,直到抽足样本所需要的个体数.
(2)产生随机数的方法:①用随机试验生成随机数;②用信息技术生成随机数.
1.采用抽签法抽取样本时,为什么将编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌?
[提示] 为了使每个号签被抽取的可能性相等,保证抽样的公平性.
2.抽签法有什么优点和缺点?
[提示] (1)优点:简单易行,当总体的个体数不多时,使总体处于“搅拌”均匀的状态比较容易,这时,每个个体都有均等的机会被抽中,从而能够保证样本的代表性.
(2)缺点:仅适用于个体数较少的总体,当总体容量较大时,费时费力又不方便,况且,如果号签搅拌的不均匀,可能导致抽样不公平.
3.思考辨析(正确的画“√”,错误的画“×”)
(1)抽签法和随机数法都适用于总体容量和样本容量较小时的抽样.
( )
(2)利用随机数法抽取样本时,选定的初始数是任意的,但读数的方向只能是从左向右读.
( )
(3)利用随机数法抽取样本时,若总体容量为100,则给每个个体分别编号为1,2,3,…,100.
( )
[答案] (1)√ (2)× (3)×
4.使用简单随机抽样从1
000件产品中抽出50件进行某项检查,合适的抽样方法是( )
A.抽签法
B.随机数法
C.随机抽样法
D.以上都不对
B [由于总体相对较大,样本容量较小,故采用随机数法较为合适.]
知识点3 总体均值和样本均值
1.总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称==i为总体均值,又称总体平均数.
2.总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式=iYi.
3.如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称==i为样本均值,又称样本平均数.
5.用抽签法抽取的一个容量为5的样本,它们的变量值分别为2,4,5,7,9,则该样本的平均数为( )
A.4.5 B.4.8 C.5.4 D.6
C [==5.4.]
6.已知x1=-1,x2=0,x3=1,x4=2,x5=3,y1=-2,y2=0,y3=2,y4=4,y5=6,则
(xi+yi)=________,
xiyi=________.
0 30 [
(xi+yi)=
xi+
yi=(-1+0+1)+(-2+0+2)=0,
=2+0+2+8+18=30.]
类型1 简单随机抽样的判断
【例1】 下列5个抽样中,简单随机抽样的个数是( )
①一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③某班从50名同学中,选出5名数学成绩最优秀的同学代表本班参加数学竞赛;
④一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
A.0 B.1 C.2 D.3
B [根据简单随机抽样的特点逐个判断.①不是简单随机抽样.因为一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件它不是“逐个”抽取.②不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.③不是简单随机抽样.因为5名同学是从中挑出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.④是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,等可能的抽样.综上,只有④是简单随机抽样.]
具备哪些特征的抽样才是简单随机抽样?
[提示] (1)被抽取样本的总体中的个体数N是有限的;
(2)抽取的样本是从总体中逐个抽取的;
(3)简单随机抽样是一种等可能的抽样.
如果三个特征有一个不满足,就不是简单随机抽样.
1.为了进一步严厉打击交通违法,交警队在某一路口随机抽查司机是否酒驾,这种抽查是( )
A.简单随机抽样
B.抽签法
C.随机数法
D.以上都不对
D [由于不知道总体的情况(包括总体个数),因此不属于简单随机抽样.]
类型2 抽签法的应用
【例2】 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
[解] 第一步,将20架钢琴编号,号码是01,02,…,20.
第二步,将号码分别写在外观、质地等无差别的小纸片上作为号签.
第三步,将小纸片放入一个不透明的盒里,充分搅匀.
第四步,从盒中不放回地逐个抽取5个号签,使与号签上编号相同的钢琴进入样本.
1.一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.
2.应用抽签法时应注意的问题
(1)编号时,如果已有编号可不必重新编号.
(2)号签要求大小、形状完全相同.
(3)号签要均匀搅拌.
(4)根据实际需要采用有放回或无放回抽取.
2.为迎接2022年北京冬奥会,奥委会现从报名的某高校30名志愿者中选取6人组成奥运志愿小组,请用抽签法设计抽样方案.
[解] (1)将30名志愿者编号,号码分别是01,02,…,30.
(2)将号码分别写在外观、质地等无差别的小纸片上作为号签.
(3)将小纸片放入一个不透明的盒里,充分搅匀.
(4)从盒中不放回地逐个抽取6个号签,使与号签上编号相同的志愿者进入样本.
类型3 随机数法及样本平均数的综合应用
【例3】 某市质监局要检查某公司某个时间段生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取10袋进行检验.
(1)利用随机数法抽取样本时,应如何操作?
(2)如果用随机试验生成部分随机数如下所示,据此写出应抽取的袋装牛奶的编号.
162,277,943,949,545,354,
821,737,
932,354,873,520,964,
384,263,
491,648,642,175,331,572,455,068,877,047,447,672,172,065,025,834,216,337,663,013,785,916,955,567,199,810,507,175,128,673,580,667.
(3)质监局对该公司生产的袋装牛奶检验的质量指标有两个:一是每袋牛奶的质量满足500±5g,二是10袋质量的平均数≥500g,同时满足这两个指标,才认为公司生产的牛奶为合格,否则为不合格.经过检测得到10袋袋装牛奶的质量(单位:g)为:
502,500,499,497,503,499,501,500,498,499.
计算这个样本的平均数,并按照以上标准判断牛奶质量是否合格.
1.某工厂有2
000名工人,从中选取20人参加职工代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数法?为什么?
[提示] 采用随机数法,因为工人人数较多,制作号签比较麻烦,所以采用随机数法.
2.某工厂的质检人员采用随机数法对生产的100件产品进行检查,若抽取10件进行检查,应如何对100件产品编号?
[提示] 可对这100件产品编号为:001,002,003,…,100.
[解] (1)第一步,将500袋牛奶编号为001,002,…,500.
第二步,用随机数工具产生1~500范围内的随机数.
第三步,把产生的随机数作为抽中的编号,使编号对应的袋装牛奶进入样本.
第四步,重复上述过程,直到产生不同的编号等于样本所需要的数量.
(2)应抽取的袋装牛奶的编号为:162,277,354,384,263,491,175,331,455,068.
(3)==499.8<500,所以该公司的牛奶质量不合格.
1.该公司对质监部门的这种检验方法并不认可,公司自己质检部门抽取了100袋牛奶按照本例(3)检验标准,统计得到这100袋袋装牛奶的质量都满足500±5g,平均数为500.4g,你认为质监局和公司的检验结果哪一个更可靠?为什么?
[解] 该公司的质检部门的检验结果更可靠.因为质监局抽取的样本较少,不能很好地反映总体,该公司的质检部门抽取的样本量较大,一般来说,样本量大的会好于样本量小的.尤其是样本量不大时,增加样本量可以较好地提高估计的效果.
2.为进一步加强公司生产牛奶的质量,规定袋装牛奶的质量变量值为Yi=,公司质监部门又抽取了一个容量为50的样本,其质量变量值如下:
1
1
1
0
1
1
1
1
0
0
1
0
1
0
1
0
1
0
1
0
1
1
1
1
0
1
0
1
1
1
0
0
0
1
0
1
0
1
0
0
1
0
0
1
0
1
0
1
0
1
据此估计该公司生产的袋装牛奶质量不低于500
g的比例.
[解] 由样本观测数据,计算可得样本平均数为=0.56,据此估计该公司生产的袋装牛奶质量不低于500
g的比例约为0.56.
随机数法的注意点
(1)当总体较大,样本量不大时,可用随机数法抽取样本.
(2)用随机数法抽取样本,为了方便,在编号时需统一编号的位数.
(3)
掌握利用信息技术产生随机数的方法和规则.
3.某学校为了调查高一年级学生的体育锻炼情况,从甲、乙、丙3个班中,按简单随机抽样的方法获得了部分学生一周的锻炼时间(单位:h),数据如表.
甲
6
6.5
7
7.5
8
乙
6
7
8
9
10
11
12
丙
3
4.5
6
7.5
9
10.5
12
13.5
(1)估计这个学校高一年级的学生中,一周的锻炼时间超过10个小时的百分比.
(2)估计这个学校高一年级学生一周的平均锻炼时间.
[解] (1)由题意知,抽取的20个学生中,一周的锻炼时间超过10小时的有5人,故一周的锻炼时间超过10个小时的百分比为=25%.
(2)从甲班抽取的5名学生的总时间为6+6.5+7+7.5+8=35.
从乙班抽取的7名学生的总时间为6+7+8+9+10+11+12=63.
从丙班抽取的8名学生的总时间为3+4.5+6+7.5+9+10.5+12+13.5=66.
则==8.2.
即这个学校高一年级学生一周的平均锻炼时间为8.2小时.
1.(多选题)下面抽样方法不属于简单随机抽样的是( )
A.从平面直角坐标系中抽取5个点作为样本
B.某饮料公司从仓库中的1
000箱可乐中一次性抽取20箱进行质量检查
C.某连队从200名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10台手机中逐个不放回地随机抽取2台进行质量检验(假设10台手机已编号,对编号进行随机抽取)
ABC [选项A中,平面直角坐标系中有无数个点,这与要求总体中的个体数有限不相符,故错误;选项B中,一次性抽取不符合简单随机抽样逐个抽取的要求,故错误;选项C中,50名战士是最优秀的,不符合简单随机抽样的等可能性,故错误;选项D符合简单随机抽样的要求.]
2.抽签法确保样本代表性的关键是( )
A.制签
B.搅拌均匀
C.逐一抽取
D.抽取不放回
B [若样本具有很好的代表性,则每一个个体被抽取的机会相等,故需要对号签搅拌均匀.]
3.“双色球”彩票中有33个红色球,每个球的编号分别为01,02,…,33.一位彩民用随机数法选取6个号码作为6个红色球的编号,选取方法是从下面的随机数中第1行第5列和第6列的数字开始,从左向右读数,则依次选出来的第5个红色球的编号为( )
7816 6572 0802 6314 0214 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
A.01
B.02
C.14
D.19
A [从随机数中第1行第5列和第6列的数字开始,从左向右读数,依次是65(舍去),72(舍去),08,02,63(舍去),14,02(舍去),14(舍去),43(舍去),19,97(舍去),14(舍去),01,98(舍去),32;选出来的这6个数为:08,02,14,19,01,32,第5个红色球的编号为01.]
4.在总体为N的一批零件中抽取一个容量为30的样本,若每个零件被抽取的可能性为25%,则N的值为________.
120 [据题意=0.25,故N=120.]
5.某展览馆在22天中(全年中随机抽取的数据)每天进馆参观的人数如下:
180,158,170,185,189,180,184,185,140,179,192,185,190,165,182,170,190,183,175,180,185,147
可估计全年该展览馆平均每天参观的人数约为________.
177 [根据题意,可用样本均值近似估计总体均值=×(180+158+170+185+189+180+184+185+140+179+192+185+190+165+182+170+190+183+175+180+185+147)=177.]
回顾本节知识,自我完成以下问题:
(1)全面调查和抽样调查的适用范围是什么?
(2)利用抽签法和随机数法抽样的步骤是什么?需要注意什么问题?
(3)如何用样本均值估计总体均值?
PAGE
-
10
-9.1.2 分层随机抽样
学
习
任
务
核
心
素
养
1.通过实例,了解分层随机抽样的特点和适用范围.(重点)2.了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.(重点、难点)3.
结合具体实例,掌握分层随机抽样的样本均值.(重点)
1.通过对分层随机抽样的学习,培养数学抽象素养.2.通过对分层随机抽样的应用,培养数据分析素养.
假设某地区有高中生2
400人,初中生10
900人,小学生11
000人.此地区教育部门为了了解本地区中小学生的近视情况及其形成原因,要从本地区的中小学生中抽取1%的学生进行调查.
问题:你认为应当怎样抽取样本?
知识点1 分层随机抽样的相关概念
1.分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
2.比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
1.(1)哪种情况下适合选用分层随机抽样?
(2)简单随机抽样和分层随机抽样有什么区别和联系?
[提示] (1)在个体之间差异较大的情形下,只要选取的分层变量合适,使得各层间差异明显、层内差异不大,分层随机抽样的效果一般会好于简单随机抽样.
(2)区别:简单随机抽样是从总体中逐个抽取样本;分层随机抽样则首先将总体分成几层,在各层中按比例分配抽取样本.
联系:①抽样过程中每个个体被抽到的可能性相等;
②每次抽出个体后不再将它放回,即不放回抽样.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)在统计实践中选择哪种抽样方法关键是看总体容量的大小.
( )
(2)分层随机抽样中,个体数量较少的层抽取的样本数量较少,这是不公平的.
( )
(3)从全班50名同学中抽取5人调查作业完成情况适合用分层随机抽样.
( )
[答案] (1)×
(2)×
(3)×
2.某校高三年级有男生500人,女生400人,为了解该年级学生的健康状况,从男生中任意抽取25人,从女生中任意抽取20人进行调查.这种抽样方法是( )
A.简单随机抽样
B.抽签法
C.随机数表法
D.分层随机抽样
D [从男生500人中抽取25人,从女生400人中抽取20人,抽取的比例相同,因此用的是分层随机抽样.]
3.某校有高一学生400人,高二学生380人,高三学生220人,现教育局督导组欲用分层随机抽样的方法抽取50名学生进行问卷调查,则下列判断正确的是( )
A.高一学生被抽到的可能性最大
B.高二学生被抽到的可能性最大
C.高三学生被抽到的可能性最大
D.每位学生被抽到的可能性相等
D [按照分层随机抽样,每个个体被抽到的概率是相等的,都等于=.]
4.某学院的A,B,C三个专业共有1
200名学生,为了调查这些学生勤工俭学的情况,拟采用分层随机抽样的方法抽取一个容量为120的样本.已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生.
40 [C专业的学生有1
200-380-420=400(名),由分层随机抽样原理,应抽取120×=40(名).]
知识点2 分层随机抽样中的总体平均数与样本平均数
1层
2层
层个体数
M
N
层样本量
m
n
层个体变量值
X1,X2,…,XM
Y1,Y2,…,YN
层样本的个体变量值
x1,x2,…,xm
y1,y2,…,yn
层总体平均数
层样本平均数
总体平均数
样本平均数
2.(1)可以用=+估计总体平均数吗?
(2)在比例分配的分层随机抽样中,可以直接用样本平均数估计总体平均数吗?
[提示] (1)可以,因为用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数.因此可以用=+估计总体平均数.
(2)在比例分配的分层随机抽样中,==,可得+=+=.因此,在比例分配的分层随机抽样中,可以直接用样本平均数估计总体平均数.
5.为了解我国13岁男孩的平均身高,从北方抽取了300个男孩,平均身高为1.60
m;从南方抽取了200个男孩,平均身高为1.50
m.由此可估计我国13岁男孩的平均身高为( )
A.1.57
m B.1.56
m C.1.55
m D.1.54
m
B [因为从北方抽取了300个男孩,平均身高为1.60
m,从南方抽取了200个男孩,平均身高为1.50
m,
所以这500名13岁男孩的平均身高是=1.56(m),据此可估计我国13岁男孩的平均身高为1.56
m.]
类型1 对分层随机抽样概念的理解
【例1】 (1)某政府机关在编人员共100人,其中副处级以上干部10人,一般干部70人,工人20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列哪种方法最合适( )
A.抽签法
B.随机数法
C.简单随机抽样法
D.分层随机抽样法
(2)分层随机抽样又称类型抽样,即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层随机抽样为保证每个个体等可能抽样,必须进行( )
A.每层等可能抽样
B.每层可以不等可能抽样
C.所有层按同一抽样比等可能抽样
D.所有层抽取的个体数量相同
(1)D (2)C [(1)总体由差异明显的三部分构成,应选用分层随机抽样法.
(2)保证每个个体等可能的被抽取是三种基本抽样方式的共同特征,为了保证这一点,分层随机抽样时必须在所有层都按同一抽样比等可能抽取.]
1.使用分层随机抽样的前提
分层随机抽样的总体按一个或多个变量划分成若干个子总体,并且每一个个体属于且仅属于一个子总体,而层内个体间差异较小.
2.使用分层随机抽样应遵循的原则
(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则.
(2)分层随机抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
1.下列问题中,最适合用分层随机抽样抽取样本的是( )
A.从10名同学中抽取3人参加座谈会
B.某社区有500个家庭,其中高收入的家庭125户,中等收入的家庭280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中抽取一个容量为100户的样本
C.从1
000名工人中,抽取100人调查上班途中所用时间
D.从生产流水线上,抽取样本检查产品质量
B [A中总体所含个体无差异且个数较少,适合用简单随机抽样;C和D中总体所含个体无差异且个数较多,不适合用分层随机抽样;B中总体所含个体差异明显,适合用分层随机抽样.]
类型2 分层随机抽样的应用
【例2】 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层随机抽样的方法抽取,写出抽样过程.
[解] 抽样过程如下:
第一步,确定抽样比,样本容量与总体容量的比为=.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);从教师中抽取112×=14(人);从后勤人员中抽取32×=4(人).
第三步,采用简单随机抽样的方法,抽取行政人员2人,教师人员14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.
分层随机抽样的步骤是什么?
[提示] 分层随机抽样的步骤:
2.在一批电视中,有甲厂生产的56台,乙厂生产的42台,用分层随机抽样的方法从中抽取一个容量为14的样本.
[解] (1)确定各厂被抽取电视机的台数,
抽样比为=,
故从甲厂抽取56×=8(台),
从乙厂抽取42×=6(台).
(2)在各厂用简单随机抽样抽取作为样本的电视机.
(3)合成每层抽样,组成样本.
类型3 分层随机抽样中的计算问题
【例3】 (1)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层随机抽样调查,假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )
A.101
B.808
C.1
212
D.2
012
(2)将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层随机抽样方法抽取容量为100的样本,则应从C中抽取________个个体.
(3)分层随机抽样中,总体共分为2层,第1层的样本量为20,样本平均数为3,第2层的样本量为30,样本平均数为8,则该样本的平均数为____________.
1.在分层随机抽样中,N为总体容量,n为样本容量,如何确定各层的个体数?
[提示] 每层抽取的个体的个数为ni=Ni×,其中Ni为第i(i=1,2,…,k)层的个体数,为抽样比.
2.在分层随机抽样中,总体容量、样本容量、各层的个体数、各层抽取的样本数这四者之间有何关系?
[提示] 设总体容量为N,样本容量为n,第i(i=1,2,…,k)层的个体数为Ni,各层抽取的样本数为ni,则=,这四者中,已知其中三个可以求出另外一个.
(1)B (2)20 (3)6 [(1)因为甲社区有驾驶员96人,并且在甲社区抽取的驾驶员的人数为12人,
所以四个社区抽取驾驶员的比例为=,
所以驾驶员的总人数为(12+21+25+43)÷=808(人).
(2)∵A,B,C三层个体数之比为5∶3∶2,总体中每个个体被抽到的可能性相等,∴分层随机抽样应从C中抽取100×=20(个)个体.
(3)=×3+×8=6.]
在例3(2)中,A,B,C三层的样本的平均数分别为15,30,20,则样本的平均数为________.
20.5 [由题意可知样本的平均数为
=×15+×30+×20=20.5.]
进行分层随机抽样的相关计算时,常用到的2个关系
(1)=.
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
(3)样本的平均数和各层的样本平均数的关系为:
=+=+.
3.生物等级考试成绩位次由高到低分为A、B、C、D、E.各等级人数所占比例依次为∶A等级15%,B等级40%,C等级30%,D等级14%,E等级1%.现采用分层抽样的方法,从参加生物等级考试的学生中抽取300人作为样本,则该样本中获得A或B等级的学生人数为( )
A.95 B.144 C.120 D.165
D [设该样本中获得A或B等级的学生人数为x,则=,∴x=165.
故选:D.]
1.某学校为了了解三年级、六年级、九年级这三个年级之间的学生的课业负担情况,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法
B.简单随机抽样
C.分层随机抽样
D.随机数法
C [根据年级不同产生差异及按人数比例抽取易知应为分层随机抽样.]
2.甲校有3
600名学生,乙校有5
400名学生,丙校有1
800名学生,为统计三校学生某方面的情况,计划采用分层随机抽样法抽取一个容量为90的样本,应在这三校分别抽取学生( )
A.30人,30人,30人
B.30人,45人,15人
C.20人,30人,40人
D.30人,50人,10人
B [先求抽样比==,再各层按抽样比分别抽取,甲校抽取3
600×=30(人),乙校抽取5
400×=45(人),丙校抽取1
800×=15(人),故选B.]
3.某大学为了了解在校本科生对参加某项社会实践活动的意向,拟采用分层随机抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
60 [根据题意,应从一年级本科生中抽取的人数为×300=60.]
4.一批产品中有一级品100个,二级品60个,三级品40个,用分层随机抽样法从这批产品中抽取一个容量为20的样本.
请利用分层随机抽样的方法抽取,写出抽样过程.
[解] 第一步:确定抽样比,因为100+60+40=200,所以=,
第二步:确定各层抽取的样本数,一级品:100×=10,二级品:60×=6,
三级品:40×=4.
第三步:采用简单随机抽样的方法,从各层分别抽取样本.
第四步:把抽取的个体组合在一起构成所需样本.
回顾本节知识,自我完成以下问题:
(1)分层抽样的定义是什么?
(2)分层抽样有什么特征?
(3)如何应用分层抽样的比例分配求值?
(4)如何用分层抽样中的样本平均数估计总体平均数?
PAGE
-
1
-9.1.3 获取数据的途径
学
习
任
务
核
心
素
养
1.知道获取数据的途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.(重点)2.了解数据的随机性.(重点)
1.通过对获取数据的途径的学习,培养数据分析的素养.2.在获取数据的过程中,培养数学建模的核心素养.
“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性.这些数据可能得自社交网络、电子商务网站、顾客来访记录和许多其他来源.
问题:凭你的经验,日常有哪些获取数据的方法和途径呢?
知识点 获取数据的基本途径
获取数据的基本途径
适用类型
注意问题
通过调查获取数据
对于有限总体问题,我们一般通过抽样调查或普查的方法获取数据
要充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误
通过试验获取数据
没有现存的数据可以查询
严格控制试验环境,通过精心的设计安排试验,以提高数据质量
获取数据的基本途径
适用类型
注意问题
通过观察获取数据
自然现象
要通过长久的持续观察获取数据
通过查询获得数据
众多专家研究过,其收集的数据有所存储
必须根据问题背景知识“清洗”数据,去伪存真
(1)利用统计报表和年鉴属于哪种获取数据的途径?
(2)要了解一种新型灯管的寿命,能通过观察获取数据吗?
[提示] (1)属于通过查询获取数据的途径.
(2)不能,应该通过试验获取数据.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)要了解一批节能灯的使用寿命,可以采用普查的方式.
( )
(2)农科院获取小麦新品种的产量可以通过查询获取数据.
( )
(3)普查获取的资料更加全面、系统,抽样调查更方便、快捷.
( )
[答案] (1)× (2)× (3)√
2.下面问题可以用普查的方式进行调查的是( )
A.检验一批钢材的抗拉强度
B.检验海水中微生物的含量
C.调查某小组10名成员的业余爱好
D.检验一批汽车的使用寿命
C [A不能用普查的方式调查,因为这种试验具有破坏性;B用普查的方式无法完成;C可以用普查的方式进行调查;D该试验具有破坏性,且需要耗费大量的时间,在实际生产中无法实现.]
3.小明从网上查询得到某贫困地区10户居民家庭年收入(单位:万元)如下所示:
编号
1
2
3
4
5
6
7
8
9
10
年收入
1.2
1.3
1.8
2.0
4.6
1.7
0.9
2.1
1.0
1.6
根据以上数据,我们认为有一个数据是不准确的,需要剔除,这个数据是________.
4.6 [由于编号为5的数据为4.6,明显高于其他数据,所以这个数据是不准确的.]
类型1 获取数据途径的选择
【例1】 (1)下列哪些数据一般是通过试验获取的( )
A.1988年济南市的降雨量
B.2019年新生儿人口数量
C.某学校高一年级同学的数学测试成绩
D.某种特效中成药的配方
(2)“中国天眼”为500米口径球面射电望远镜(Five-hundred-meter
Aperture
Spherical
Telescope,简称FAST),是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
(1)D (2)C [(1)某种特效中成药的配方的数据只能通过试验获得.
(2)“中国天眼”主要是通过观察获取数据.]
选择获取数据的途径的依据
选择获取数据的途径主要是根据所要研究问题的类型,以及获取数据的难易程度.有的数据可以有多种获取途径,有的数据只能通过一种途径获取,选择合适的方法和途径能够更好地提高数据的可靠性.
1.要得到某乡镇的贫困人口数据,应采取的方法是( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
A [某乡镇的贫困人口数据属于有限总体问题,所以可以通过调查获取数据.]
类型2 获取数据途径的方法的设计
【例2】 为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗?
[解] (1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.
(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
2.一些期刊杂志社经常会请一些曾经高考落榜而在某方面的事业上取得成就的著名专家、学者,谈他们对高考落榜的看法,这些名人所讲的都是大同小异,不外乎“我也有过落榜的沮丧,但从长远看,它有益于我的人生”“我是因祸得福,落榜使我走了另一条成功之路”等.小明据此得出一条结论:“上大学不如高考落榜”,他的结论正确吗?
[解] 小明的结论是错误的,在众多的高考落榜生中,走出另外一条成功之路的是少数,小明通过研究一些期刊杂志社报道过的一些成功人士就得出结论是片面的,因为他的抽样不具有代表性.
1.下列调查方式中,可用“普查”方式的是( )
A.调查某品牌电视机的市场占有率
B.调查某电视连续剧在全国的收视率
C.调查某校七年级一班的男女同学的比例
D.调查某型号炮弹的射程
[答案] C
2.粮食安全是每一个国家必须高度关注的问题,在现有条件下,降雨量对粮食生产的影响是非常巨大的,某次降雨之后该地气象台播报说本次降雨量是该地有气象记录以来最大的一次,气象台获取这些数据的途径是( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
C [该地的气象记录和本次的降雨量数据都是通过观察获取的.]
3.为了了解我国电视机的销售情况,小张在某网站上下载了下图:
(1)小张获取数据的途径是什么?
(2)由图可知,电视机的销售总量在2012年达到最大值,你认为电视机销售总量出现下滑的主要原因是什么?
[解] (1)小张获取数据的途径是通过查询获得数据.
(2)结合我国的经济发展水平可知,从2012年开始,电视机销售总量出现下滑的主要原因是市场的饱和.
回顾本节知识,自我完成以下问题:
(1)获取数据的基本途径有哪些?
(2)各种途径分别适用何种类型?需要注意哪些问题?
PAGE
-
1
-9.2 用样本估计总体
9.2.1 总体取值规律的估计
学
习
任
务
核
心
素
养
1.理解并掌握统计图表的画法及应用.(重点、易混点)2.结合实例,能用样本估计总体的取值规律.(重点、难点)
1.通过对统计图表的学习,培养数学抽象素养.2.通过应用统计图表估计总体的取值规律,培养数据分析素养.
我市政府为了节约生活用水,计划在本市试行居民生活用水定额管理:即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超过a的部分按议价收费.
问题:如果标准太低,会影响居民的日常生活;如果标准太高,则不利于节水.
如果政府希望大部分居民的日常生活不受影响,那么标准a定为多少比较合理?需要做哪些工作?
知识点 频率分布直方图
1.画频率分布直方图的步骤
(1)求极差:极差为一组数据中最大值与最小值的差.
(2)决定组距与组数:当样本容量不超过100时,常分成5~12组,为了方便起见,一般取等长组距,并且组距应力求“取整”.
(3)将数据分组.
(4)列频率分布表:一般分四列:分组、频数累计、频数、频率.其中频数合计应是样本容量,频率合计是1.
(5)画频率分布直方图:横轴表示分组,纵轴表示.小长方形的面积=组距×=频率.各小长方形的面积总和等于1.
2.其它统计图表
统计图表
主要应用
扇形图
直观描述各类数据占总数的比例
条形图和直方图
直观描述不同类别或分组数据的频数和频率
折线图
描述数据随时间的变化趋势
(1)为什么要对样本数据进行分组?
(2)频数分布表与频率分布直方图有什么不同?
[提示] (1)不分组很难看出样本中的数字所包含的信息,分组后,计算出频率,从而估计总体的分布特征.
(2)频数分布表能使我们清楚地知道数据分布在各个小组的个数,而频率分布直方图则是从各个小组数据在样本容量中所占比例大小的角度来表示数据分布的规律.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)频率分布直方图中小长方形的高表示该组上的个体在样本中出现的频率与组距的比值.
( )
(2)频率分布直方图中小矩形的面积表示该组的个体数.
( )
(3)扇形统计图表示的是比例,条形统计图不表示比例.
( )
[答案] (1)√ (2)× (3)×
2.把过期的药品随意丢弃,会造成对土壤和水体的污染,危害人们的健康.如何处理过期药品,有关机构随机对若干家庭进行调查,调查结果如图,其中对过期药品处理不正确的家庭达到( )
A.79% B.80% C.18% D.82%
D [79%+1%+2%=82%.]
3.如图所示是一容量为100的样本的频率分布直方图,则由图中的数据可知,样本落在[15,20]内的频数为( )
A.20
B.30
C.40
D.50
B [样本数据落在[15,20]内的频数为100×[1-5×(0.04+0.1)]=30.]
4.某班计划开展一些课外活动,全班有40名学生报名参加,他们就乒乓球、足球、跳绳、羽毛球4项活动的参加人数做了统计,绘制了条形统计图(如图所示),那么参加羽毛球活动的人数的频率是________.
0.1 [参加羽毛球活动的人数是4,则频率是=0.1.]
类型1 频率分布直方图的画法
【例1】 一个农技站为了考察某种大麦穗生长的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表,绘制出频率分布直方图,并估计在这块试验田里长度在5.75~6.35
cm之间的麦穗所占的百分比.
[解] (1)计算极差:7.4-4.0=3.4.
(2)决定组距与组数:
若取组距为0.3,因为≈11.3,需分为12组,组数合适,所以取组距为0.3,组数为12.
(3)决定分点:
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,那么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55.
(4)列频率分布表:
分组
频数
频率
[3.95,4.25)
1
0.01
[4.25,4.55)
1
0.01
[4.55,4.85)
2
0.02
[4.85,5.15)
5
0.05
[5.15,5.45)
11
0.11
[5.45,5.75)
15
0.15
[5.75,6.05)
28
0.28
[6.05,6.35)
13
0.13
[6.35,6.65)
11
0.11
[6.65,6.95)
10
0.10
[6.95,7.25)
2
0.02
[7.25,7.55]
1
0.01
合计
100
1.00
(5)绘制频率分布直方图如图.
从表中看到,样本数据落在5.75~6.35之间的频率是0.28+0.13=0.41,于是可以估计,在这块试验田里长度在5.75~6.35
cm之间的麦穗约占41%.
绘制频率分布直方图应注意的问题
(1)在绘制出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是“以一个恰当的单位长度”(没有统一规定),然后以各组的“”所占的比例来定高.如我们预先设定以“”为1个单位长度,代表“0.1”,则若一个组的为0.2,则该小矩形的高就是“”(占两个单位长度),如此类推.
(2)数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和为1.
1.如表所示给出了在某校500名12岁男孩中,用随机抽样得出的120人的身高(单位:cm).
区间界限
[122,126)
[126,130)
[130,134)
[134,138)
[138,142)
人数
5
8
10
22
33
区间界限
[142,146)
[146,150)
[150,154)
[154,158]
人数
20
11
6
5
(1)列出样本频率分布表;
(2)画出频率分布直方图;
(3)估计身高小于134
cm的人数占总人数的百分比.
[解] (1)样本频率分布表如下:
分组
频数
频率
[122,126)
5
0.04
[126,130)
8
0.07
[130,134)
10
0.08
[134,138)
22
0.18
[138,142)
33
0.28
[142,146)
20
0.17
[146,150)
11
0.09
[150,154)
6
0.05
[154,158]
5
0.04
合计
120
1.00
(2)其频率分布直方图如下.
(3)由样本频率分布表可知,身高小于134
cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134
cm的人数占总人数的19%.
类型2 频率分布直方图的应用
【例2】 (对接教材P197练习T1)为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小矩形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
[解] (1)频率分布直方图是以面积的形式反映了数据落在各小组内的频率大小的,因此第二小组的频率为=0.08.
又因为第二小组的频率=,
所以样本容量===150.
(2)由频率分布直方图可估计该校高一年级学生的达标率为×100%=88%.
频率分布直方图具备哪些性质?
[提示] (1)因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.
(2)在频率分布直方图中,各小矩形的面积之和等于1.
(3)
样本容量=.
2.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60 C.120 D.140
D [由频率分布直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.]
类型3 其它统计图表与频率分布直方图的综合应用
【例3】 如图是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3月1日到10日最低气温(单位:℃)的扇形统计图.
1.统计图表对于数据分析能够起到什么作用?
[提示] (1)从数据中获取有用的信息;
(2)直观、准确地理解相关的结果.
2.条形图、扇形图、折线图、频率分布直方图这四种统计图中,哪些可以从图中看出原始数据?
[提示] 折线图.
[解] 该城市3月1日至10日的最低气温(单位:℃)情况如下表:
日期
1
2
3
4
5
6
7
8
9
10
最低气温(℃)
-3
-2
0
-1
1
2
0
-1
2
2
其中最低气温为-3
℃的有1天,占10%,最低气温为-2
℃的有1天,占10%,最低气温为-1℃的有2天,占20%,最低气温为0℃的有2天,占20%,最低气温为1℃的有1天,占10%,最低气温为2℃的有3天,占30%,扇形统计图如图所示.
若本例中条件不变,绘制该市3月1日到3月10日最低气温(单位:℃)的条形统计图.
[解] 该城市3月1日到3月10日的最低气温(单位:℃)情况如下表:
日期
1
2
3
4
5
6
7
8
9
10
最低气温(℃)
-3
-2
0
-1
1
2
0
-1
2
2
其中最低气温为-3
℃的有1天,最低气温为-2
℃的有1天,最低气温为-1
℃的有2天,最低气温为0
℃的有2天,最低气温为1
℃的有1天,最低气温为2
℃的有3天.条形统计图如图所示.
折线统计图的读图方法
(1)读折线统计图时,首先要看清楚直角坐标系中横、纵坐标表示的意义;其次要明确图中的数量及其单位.
(2)在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况,从陡峭程度上,可分析数据间相对增长、下降的幅度.
3.每到春夏交替时节,雌性杨树会以满天飞絮的方式来传播下一代,漫天飞舞的杨絮易引发皮肤病、呼吸道疾病等,给人们造成困扰.为了解市民对治理杨絮方法的赞同情况,某课题小组随机调查了部分市民(问卷调查表如下表所示),并根据调查结果绘制了尚不完整的统计图(如图所示).
(治理杨絮——您选哪一项??单选?
a.减少杨树新增面积,控制杨树每年的栽种量
b.调整树种结构,逐渐更换现有杨树
c.选育无絮杨品种,并推广种植
d.对雌性杨树注射生物干扰素,避免产生飞絮
e.其他
由两个统计图可知,选择d的人数和扇形统计图中e的圆心角度数分别为( )
A.500,28.8°
B.250,28.6°
C.500,28.6°
D.250,28.8°
A [设接受调查市民的总人数为x,
由调查结果条形统计图可知选择a的人数为300,通过调查结果的扇形统计图可知选择a的人数比例为15%,
∴15%=,解得x=2
000.∴选择d的人数为2
000×25%=500,∴扇形统计图中e的圆心角度数为(1-15%-12%-40%-25%)×360°=28.8°.]
1.学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n的样本,其频率分布直方图如图所示,其中支出(单位:元)在[50,60]内的学生有30人,则n的值为( )
A.100 B.1
000 C.90 D.900
A [由题意可知,前三组的频率之和为(0.01+0.024+0.036)×10=0.7,
∴支出在[50,60]内的频率为1-0.7=0.3,∴n==100.]
2.某公司2019年在各个项目中总投资500万元,如图是几类项目的投资占比情况,已知在1万元以上的项目投资中,少于3万元的项目投资占,那么不少于3万元的项目投资共有( )
A.56万元
B.65万元
C.91万元
D.147万元
B [由题意知,因为在1万元以上的项目投资中,少于3万元的项目投资占,
所以在1万元以上的项目投资中,不少于3万元的项目投资占比为,
而1万元以上的项目投资占总投资的比例为1-46%-33%=21%,
所以不少于3万元的项目投资共有500×21%×=65(万元).故选B.]
3.随着2022年北京冬奥会临近,中国冰雪产业快速发展,冰雪运动人数快速上升,冰雪运动市场需求得到释放,将引领户外用品行业市场增长.如图是2012年至2018年中国雪场滑雪人次(单位:万)与同比增长率的统计图,则下列结论中不正确的是( )
A.2013年至2018年,中国雪场滑雪人次逐年增加
B.2013年至2015年,中国雪场滑雪人次和同比增长率均逐年增加
C.2018年与2013年相比,中国雪场滑雪人次的同比增长率近似相等,所以同比增长人数也近似相等
D.2018年与2016年相比,中国雪场滑雪人次增长率约为30.5%
C [对于A,2013年至2018年,中国雪场滑雪人次逐年增加,故A正确;
对于B,2013年至2015年,中国雪场滑雪人次和同比增长率均逐年增加,故B正确;
对于C,2018年与2013年相比,中国雪场滑雪人次的同比增长率近似相等,但是同比增长人数不相等,2018年比2013年增长人数多,故C错误;
对于D,2018年与2016年相比,中国雪场滑雪人次增长率约为:×100%≈30.5%.故D正确.故选C.]
4.一个容量为100的样本,其数据的分组与各组的频数如下表:
组别
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
频数
12
13
24
15
16
13
7
则样本数据落在[10,40)上的频率为________.
0.52 [样本数据落在[10,40)上的频数为13+24+15=52.则样本数据落在[10,40)上的频率为=0.52.]
5.甲、乙两个城市2020年4月中旬每天的最高气温统计图如图所示,则这9天里,气温比较稳定的是________(选填“甲”或“乙”)城市.
甲 [这9天里,乙城市的最高气温约为35
℃,最低气温约为20
℃;甲城市的最高气温约为25
℃,最低气温约为21
℃.故甲城市气温较稳定.]
回顾本节知识,自我完成以下问题:
(1)画频率分布直方图的步骤是什么?
(2)如何从频率分布直方图中提取信息?
(3)频率分布直方图具备哪些性质?
PAGE
-
1
-9.2.2 总体百分位数的估计
学
习
任
务
核
心
素
养
1.结合实例,能用样本估计百分位数.(重点)2.理解百分位数的统计含义.(重点、难点)
1.通过对百分位数概念的学习,培养数学抽象素养.2.通过计算样本的百分位数,培养数学运算素养.
某省数学考试结果揭晓,根据规定,0.8%的同学需要补考.
问题:那么如何确定需要补考的分数线呢?
知识点 百分位数
1.第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
(1)
班级人数为50的班主任老师说“90%的同学能够考取本科院校”,这里的“90%”是百分位数吗?
(2)“这次数学测试成绩的第70百分位数是85分”这句话是什么意思?
[提示] (1)不是.是指能够考取本科院校的同学占同学总数的百分比.
(2)有70%的同学数学测试成绩小于或等于85分.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)若一组样本数据各不相等,则其75%分位数大于25%分位数.
( )
(2)若一组样本数据的10%分位数是23,则在这组数据中有10%的数据大于23.
( )
(3)若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24.
( )
[答案] (1)√ (2)× (3)√
2.下列关于一组数据的第50百分位数的说法正确的是( )
A.第50百分位数就是中位数
B.总体数据中的任意一个数小于它的可能性一定是50%
C.它一定是这组数据中的一个数据
D.它适用于总体是离散型的数据
A [由百分位数的意义可知选项B,C,D错误.]
3.数据7.0,8.4,8.4,8.4,8.6,8.7,9.0,9.1的第30百分位数是________.
8.4 [因为8×30%=2.4,故30%分位数是第三项数据8.4.]
4.一组样本数据的频率分布直方图如图所示,试估计此样本数据的第50百分位数为________.
[样本数据低于10的比例为0.08
+0.32=0.40,样本数据低于14的比例为0.40
+0.36=0.76,所以此样本数据的第50百分位数在[10,14]内,估计此样本数据的第50百分位数为10+×4=.]
类型1 百分位数的计算
【例1】 (对接教材P202例2)从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
7.9,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的第25,75,95百分位数.
(2)请你找出珍珠质量较小的前15%的珍珠质量.
(3)若用第25,50,95百分位数把公司生产的珍珠划分为次品、合格品、优等品和特优品,依照这个样本的数据,给出该公司珍珠等级的划分标准.
[解] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,所以12×25%=3,12×75%=9,12×95%=11.4,
则第25百分位数是=8.15,
第75百分位数是=8.75,
第95百分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则第15百分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8,7.9.
(3)由(1)可知样本数据的第25百分位数是8.15
g,第50百分位数为8.5
g,
第95百分位数是9.9
g,所以质量小于或等于8.15
g的珍珠为次品,质量大于8.15
g且小于或等于8.5
g的珍珠为合格品,质量大于8.5
g且小于等于9.9
g的珍珠为优等品,质量大于9.9
g的珍珠为特优品.
计算第p百分位数的步骤是什么?
[提示] 计算一组n个数据的第p百分位数的一般步骤:
(1)排列:按照从小到大排列原始数据;
(2)计算i:计算i=n×p%;
(3)定数:若i不是整数,大于i的最小整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
1.以下数据为参加数学竞赛决赛的15人的成绩:
78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,
则这15人成绩的第80百分位数是(
)
A.90 B.90.5 C.91 D.91.5
B [把成绩按从小到大的顺序排列为:
56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,
因为15×80%=12,所以这15人成绩的第80百分位数是=90.5.]
类型2 百分位数的综合应用
【例2】 某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式.
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用不超过260元的占80%,求a,b的值.
(3)根据(2)中求得的数据计算用电量的75%分位数.
1.第p百分位数有什么特点?
[提示] 总体数据中的任意一个数小于或等于它的可能性是p.
2.某组数据的第p百分位数在此组数据中一定存在吗?为什么?
[提示] 不一定.因为按照计算第p百分位数的步骤,第2步计算所得的i=n×p%如果是整数,则第p百分位数为第i项与第(i+1)项数据的平均数,若第i项与第(i+1)项数据不相等,则第p百分位数在此组数据中就不存在.
[解] (1)当0≤x≤200时,y=0.5x;
当200当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y与x之间的函数解析式为
y=
(2)由(1)可知,当y=260时,x=400,即用电量不超过400千瓦时的占80%,
结合频率分布直方图可知
解得a=0.001
5,b=0.002
0.
(3)设75%分位数为m,
因为用电量低于300千瓦时的所占比例为(0.001+0.002+0.003)×100=60%,
用电量不超过400千瓦时的占80%,
所以75%分位数为m在[300,400)内,所以0.6+(m-300)×0.002=0.75,
解得m=375千瓦时,
即用电量的75%分位数为375千瓦时.
根据例2的(2)题中求得的数据计算用电量的15%分位数.
[解] 设15%分位数为x,
因为用电量低于100千瓦时的所占比例为0.001×100=10%,用电量不超过200千瓦时的占30%,
所以15%分位数为x在[100,200)内,所以0.1+(x-100)×0.002=0.15,
解得x=125千瓦时,即用电量的15%分位数为125千瓦时.
根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算,其次估计百分位数在哪一组,再应用方程的思想方法,设出百分位数,解方程可得.
2.某市举行“中学生诗词大赛”,某校有1
000名学生参加了比赛,从中抽取100名学生,统计他们的成绩(单位:分),并进行适当的分组(每组为左闭右开的区间),得到的频率分布直方图如图所示,则估计该校学生成绩的80%分位数为________.
122 [根据频率分布直方图可知,成绩在130分以下的学生所占比例为1-0.005
0×20=0.9,成绩在110分以下的学生所占比例为1-(0.012
5+0.005
0)×20=0.65,因此80%分位数一定位于[110,130)内,由110+20×=122,故可估计该校学生成绩的80%分位数为122.]
1.下列一组数据的第25百分位数是( )
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6
A.3.2 B.3.0 C.4.4 D.2.5
A [把这组数据按照由小到大排列,可得:
2.1,3.0,3.2,3.4,3.8,
4.0,4.2,4.4,5.3,5.6,
由i=10×25%=2.5,不是整数,则第3个数据3.2是第25百分位数.]
2.已知100个数据的第75百分位数是9.3,则下列说法正确的是( )
A.这100个数据中一定有75个数小于或等于9.3
B.把这100个数据从小到大排列后,9.3是第75个数据
C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数
D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数
C [因为100×75%=75为整数,所以第75个数据和第76个数据的平均数为第75百分位数,是9.3,故选C.]
3.2019年某学科能力测试共有12万考生参加,成绩采用15级分,测试成绩分布图如图,试估计成绩高于11级分的人数为( )
A.8
000
B.10
000
C.20
000
D.60
000
B [从题图中可以看出,12级分的有2.5%左右,13级分的有3%左右,14级分的有1%左右,15级分的有1.5%左右,
∴高于11级分的有8%左右,其人数约为12万的8%,即120
000×0.08=9
600人.选项B最接近.故选B.]
4.对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:
(1)[25,30)年龄组对应小矩形的高度为________;
(2)由频率分布直方图估计志愿者年龄的95%分位数为________岁.
(1)0.04 (2)42.5 [(1)设[25,30)年龄组对应小矩形的高度为h,则5×(0.01+h+0.07+0.06+0.02)=1,解得h=0.04.
(2)由题图可知年龄小于40岁的频率为(0.01+0.04+0.07+0.06)×5=0.9,
且所有志愿者的年龄都小于45岁,所以志愿者年龄的95%分位数在[40,45]内,
因此志愿者年龄的95%分位数为40+×5=42.5岁.]
回顾本节知识,自我完成以下问题:
(1)p百分位数的定义是什么?
(2)百分位数告诉我们什么信息?
PAGE
-
1
-9.2.3 总体集中趋势的估计
学
习
任
务
核
心
素
养
1.结合实例,能用样本估计总体的集中趋势.(重点、难点)2.
理解集中趋势参数的统计含义.(重点、难点)
1.通过对数据平均数、中位数、众数概念的学习,培养数学抽象素养.2.通过利用平均数、中位数、众数估计总体的集中趋势,培养直观想象素养.
现从甲、乙、丙三个厂家生产的同一种耐用家电产品中,各抽取8件产品,对其使用寿命进行跟踪调查,其结果如下:(单位:年)
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
问题:三家广告中都称其产品的使用寿命为8年,利用初中所学的知识,你能说明为什么吗?
知识点 众数、中位数、平均数
1.众数、中位数和平均数的定义
(1)众数:一组数据中出现次数最多的数.
(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果个数是偶数,则取中间两个数据的平均数.
(3)平均数:一组数据的和除以数据个数所得到的数.
2.众数、中位数和平均数的比较
名称
优点
缺点
平均数
与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数
不受少数几个极端数据(即排序靠前或靠后的数据)的影响
对极端值不敏感
众数
体现了样本数据的最大集中点
众数只能传递数据中的信息的很少一部分,对极端值不敏感
3.众数、中位数、平均数与频率分布直方图的关系
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
(1)中位数一定是样本数据中的一个数吗?
(2)一组数据的众数可以有几个?中位数是否也具有相同的结论?
[提示] (1)不一定.一组数据按大小顺序排列后,如果有奇数个数据,处于中间位置的数是中位数;如果有偶数个数据,则取中间两个数据的平均数是中位数.
(2)一组数据的众数可能有一个,也可能有多个,中位数只有唯一一个.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)一个样本的众数、平均数和中位数都是唯一的.
( )
(2)样本的平均数是频率分布直方图中最高长方形的中点对应的数据.
( )
(3)若改变一组数据中其中的一个数,则这组数据的平均数、中位数、众数都会发生改变.
( )
[答案] (1)× (2)× (3)×
2.一组样本数据为:19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为( )
A.14,14
B.12,14
C.14,15.5
D.12,15.5
A [把这组数据按从小到大排列为:10,12,12,14,14,14,17,18,19,23,27,则可知其众数为14,中位数为14.]
3.已知甲、乙两组数据按从小到大排列后如下所示:
甲:27,m,39;
乙:n,32,34,38.
若这两组数据的中位数相同,平均数也相同,则=________.
[因为两组数据的中位数相同,所以m=(32+34)=33,由于两组数据的平均数相同,所以(27+33+39)=(n+32+34+38).解得n=28,故=.]
4.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.
6 [=6.]
类型1 平均数、中位数和众数的计算
【例1】 已知10名工人生产同一零件,生产的件数分别是16,18,15,11,16,18,18,17,15,13,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c
B.a>c>b
C.c>a>b
D.c>b>a
D [由题意得a=(16+18+15+11+16+18+18+17+15+13)==15.7,中位数为16,众数为18,则b=16,c=18,∴c>b>a.]
1.求样本数据的中位数和众数时,把数据按照从小到大的顺序排列后,按照其求法进行.
2.求样本数据的平均数的难点在于计算的准确性.
1.某篮球队甲、乙两名运动员练习罚球,每人练习10组,每组罚球40个,命中个数如下所示
:
甲:20,22,27,8,12,13,37,25,24,26
乙:14,9,13,18,19,20,23,21,21,11
则下面结论中正确的是________(填序号).
①甲的极差是29;②乙的众数是21;③甲的平均数为21.4;④甲的中位数是24.
①②③ [把两组数据按从小到大的顺序排列,得
甲:8,12,13,20,22,24,25,26,27,37
乙:9,11,13,14,18,19,20,21,21,23
故甲的最大值为37,最小值为8,则极差为29,所以①正确;乙中出现最多的数据是21,所以②正确;甲的平均数为甲=(8+12+13+20+22+24+25+26+27+37)=21.4,所以③正确;甲的中位数为(22+24)=23,故④不正确.]
类型2 平均数、中位数和众数的实际应用
【例2】 下面是某快餐店所有工作人员一周的收入表:
老板
大厨
二厨
采购员
杂工
服务生
会计
3
000元
450元
350元
400元
320元
320元
410元
(1)计算所有人员的周平均收入.这个平均收入能反映打工人员的周收入的一般水平吗?为什么?
(2)去掉老板的收入后,再计算平均收入,这能代表打工人员的周收入的水平吗?
[解] (1)周平均收入1=(3
000+450+350+400+320+320+410)=750(元).
这个平均收入不能反映打工人员的周收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员.
(2)去掉老板的收入后的周平均收入2=(450+350+400+320+320+410)=375(元).
这能代表打工人员的周收入水平.
利用样本数字特征进行决策时的两个关注点
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响大;中位数是样本数据所占频率的等分线,不受几个极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值.
2.某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄如下(单位:岁):
甲群:13,13,14,15,15,15,15,16,17,17;
乙群:54,3,4,4,5,5,6,6,6,57.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2)乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
[解] (1)甲群市民年龄的平均数为
=15(岁),
中位数为15岁,众数为15岁.平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为
=15(岁),
中位数为5.5岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
类型3 根据频率分布直方图求平均数、中位数和众数
【例3】 (对接教材P205例5)某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
1.频率分布直方图中每个小矩形的面积代表什么?
[提示] 频率分布直方图中每个小矩形的面积是样本数据落在这一组的频率.
2.在频率分布直方图中,如何确定众数和中位数?
[提示] 在频率分布直方图中,众数是最高小矩形底边的中点所对应的数据;中位数左边和右边的直方图的面积应该相等.
[解] (1)由题干图知众数为=75.
(2)由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
1.若例3的条件不变,求数学成绩的平均分.
[解] 由题干图知这次数学成绩的平均数为:×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
2.若例3条件不变,求80分以下的学生人数.
[解] [40,80)分的频率为:(0.005+0.015+0.020+0.030)×10=0.7,
所以80分以下的学生人数为80×0.7=56.
众数、中位数、平均数与频率分布直方图有什么关系?
[提示] (1)众数:众数在样本数据的频率分布直方图中,就是最高矩形的底边中点的横坐标.
(2)中位数:在样本中,有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
?3?平均数:用频率分布直方图估计平均数时,平均数等于频率分布直方图中每个小矩形的面积乘以每个小矩形底边中点的横坐标之和.
3.随着移动互联网的发展,与餐饮美食相关的手机软件层出不穷.现从某市使用A和B两款订餐软件的商家中分别随机抽取100个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如下.
使用A款软件的100个商家“平
均送达时间”的频率分布直方图
使用B款软件的100个商家“平
均送达时间”的频率分布直方图
(1)试估计该市使用A款订餐软件的商家的“平均送达时间”的众数及平均数(同一组中的数据用该组区间的中点值代表);
(2)如果以“平均送达时间”的平均数作为决策依据,从A和B两款订餐软件中选择一款订餐,你会选择哪款?
[解] (1)依题意,可得该市使用A款订餐软件的商家中“平均送达时间”的众数约为55,平均数约为15×0.06+25×0.34+35×0.12+45×0.04+55×0.4+65×0.04=40.
(2)该市使用B款订餐软件的商家中“平均送达时间”的平均数约为15×0.04+25×0.2+35×0.56+45×0.14+55×0.04+65×0.02=35<40,所以选B款订餐软件.
1.一组观察值4,3,5,6出现的次数分别为3,2,4,2,则样本平均值为( )
A.4.55 B.4.5 C.12.5 D.1.64
A [由题意得=(4×3+3×2+5×4+6×2)≈4.55.]
2.下列数字特征一定会在原始数据中出现的是( )
A.众数
B.中位数
C.平均数
D.都不会
A [众数是在一组数据中出现次数最多的数,所以一定会在原始数据中出现.]
3.已知一组数据按从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,则这组数据的平均数为________.
5 [∵-1,0,4,x,7,14的中位数为5,∴=5,∴x=6.
∴这组数据的平均数是=5.]
4.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
则(1)高一参赛学生成绩的中位数为________;
(2)高一参赛学生的平均成绩为________.
(1)65分 (2)67分 [∵第一个小矩形的面积为0.3,前两个小矩形的面积和为0.3+0.4=0.7>0.5设第二个小矩形底边的一部分长为x,则x×0.04=0.2,得x=5,∴中位数为60+5=65分.
依题意,平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,所以平均成绩约为67分.]
回顾本节知识,自我完成以下问题:
(1)众数、中位数、平均数的定义是什么?
(2)如何由频率分布直方图求一组数据的众数、中位数、平均数?
(3)众数、中位数、平均数反映了一组数据的什么性质?
PAGE
-
1
-9.2.4 总体离散程度的估计
学
习
任
务
核
心
素
养
1.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差).(重点)2.理解离散程度参数的统计含义.(重点、难点)
1.通过对标准差、方差、极差概念的学习,培养数学抽象素养.2.通过利用标准差、方差、极差估计总体的离散程度,培养数据分析素养.
甲、乙两名战士在相同条件下各射靶10次,每次命中的环数分别是:
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
经过计算可知甲、乙的命中环数的平均数都是7环.
问题:若从二人中选一人去和兄弟部分参加射击大赛,只用平均数能否作出选择?
知识点 方差、标准差
1.一组数据x1,x2,…,xn的方差和标准差
数据x1,x2,…,xn的方差为xi-)2=-2,标准差为.
2.总体方差和标准差
(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体的平均数为,则称s2=Yi-)2为总体方差,s=为总体标准差.
(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=i(Yi-)2.
3.样本方差和标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=yi-)2为样本方差,s=为样本标准差.
4.标准差的意义
标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
5.分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为n1,n2,两层的平均数分别为1,2,方差分别为s,s,则这个样本的方差为
s2=[s+(1-)2]+[s+(2-)2].
(1)甲班和乙班各有学生20人、40人,甲班的数学成绩的平均数为80分,方差为2,乙班的数学成绩的平均数为82分,方差为4,那么甲班和乙班这60人的数学成绩的平均分是=81分吗?方差是=3吗?为什么?
(2)数据x1,x2,…,xn的平均数是,方差为s2,数据x1,x2,…,xn,的方差为s,那么s2与s的大小关系如何?
[提示] (1)不是,因为甲班和乙班在这60人中的权重是不同的.
(2)因为数据x1,x2,…,xn,比数据x1,x2,…,xn更加相对集中,所以方差变小了,即s<s2.
1.思考辨析(正确的画“√”,错误的画“×”)
(1)若一组数据的值大小相等,没有波动变化,则标准差为0.
( )
(2)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散.
( )
[答案] (1)√ (2)×
2.在教学调查中,甲、乙、丙三个班的数学测试成绩分布如图1、2、3,假设三个班的平均分都是75分,s1,s2,s3分别表示甲、乙、丙三个班数学测试成绩的标准差,则有( )
图1 图2 图3
A.s3>s1>s2
B.s2>s1>s3
C.s1>s2>s3
D.s3>s2>s1
D [所给图是成绩分布图,平均分是75分,在图1中,集中在75分附近的数据最多,图3中从50分到100分均匀分布,所有成绩不集中在任何一个数据附近,图2介于两者之间.由标准差的意义可得s3>s2>s1.]
3.已知一个样本中的数据为1,2,3,4,5,则该样本的标准差为( )
A.1 B. C. D.2
B [∵样本容量n=5,∴=(1+2+3+4+5)=3,
∴s=
=.]
类型1 方差和标准差的计算
【例1】 (对接教材P214T4)甲、乙两机床同时加工直径为100
cm的零件,为检验质量,各从中抽取6件测量,数据为
甲:99 100 98 100 100 103;
乙:99 100 102 99 100 100.
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
[解] (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100.
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)两台机床所加工零件的直径的平均值相同,又s>s,所以乙机床加工零件的质量更稳定.
标准差、方差的意义
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,标准差的大小不会超过极差.
(2)标准差、方差的取值范围:[0,+∞).
标准差、方差为0时,样本各数据相等,说明数据没有波动幅度,数据没有离散性.
1.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB
B.AsB
C.A>B,sAD.AB [A=(2.5+10+5+7.5+2.5+10)=6.25,
B=(15+10+12.5+10+12.5+10)=≈11.67.
s=[(2.5-6.25)2+(10-6.25)2+(5-6.25)2+(7.5-6.25)2+(2.5-6.25)2+(10-6.25)2]≈9.90,
s=
≈3.47.
故A<B,sA>sB.]
2.一组数据中的每一个数据都乘2,再都减80,得一组新数据,若求得新数据的平均数是1.2,方差是4.4,则原来数据的平均数和方差分别是( )
A.40.6,1.1
B.48.8,4.4
C.81.2,44.4
D.78.8,75.6
A [法一:设原来的数据为x1,x2,x3,…,xn,则新数据为2x1-80,2x2-80,2x3-80,…,2xn-80,
所以=1.2,
所以=1.2,
即=40.6.
[(2x1-80-1.2)2+(2x2-80-1.2)2+…+(2xn-80-1.2)2]=4.4,
即[(2x1-81.2)2+(2x2-81.2)2+…+(2xn-81.2)2]=4.4,
所以[(2x1-81.2)2+(2x2-81.2)2+…+(2xn-81.2)2]=×4.4=1.1.
法二:设原数据的平均数为,方差为s2,则数据中的每一个数都乘2,再都减80,得一组新数据后,新数据的平均数为2-80,方差为22s2,
由题意得2-80=1.2,22s2=4.4,解得=40.6,s2=1.1.]
类型2 分层随机抽样的方差
【例2】 在了解全校学生每年平均阅读了多少本文学经典名著时,甲同学抽取了一个容量为10的样本,并算得样本的平均数为5,方差为9;乙同学抽取了一个容量为8的样本,并算得样本的平均数为6,方差为16.已知甲、乙两同学抽取的样本合在一起组成一个容量为18的样本,求合在一起后的样本平均数与方差.(精确到0.1)
[解] 把甲同学抽取的样本的平均数记为,方差记为s;把乙同学抽取的样本的平均数记为,方差记为s;把合在一起后的样本的平均数记为,方差记为s2.
则=≈5.4,
s2=
=
≈12.4.
即样本的平均数为5.4,方差为12.4.
如何计算分层随机抽样的方差s2?其步骤是什么?
[提示] 计算分层随机抽样的方差s2的步骤
(1)确定1,2,s,s,
(2)确定;
(3)应用公式s2=[s+(1-)2]+[s+(2-)2],计算s2.
3.甲、乙两支田径队体检结果为:甲队的体重的平均数为60
kg,方差为200,乙队体重的平均数为70
kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和方差分别是什么?
[解] 由题意可知甲=60,甲队队员在所有队员中所占权重为=,
乙=70,乙队队员在所有队员中所占权重为=,
则甲、乙两队全部队员的平均体重为=×60+×70=68
kg,
甲、乙两队全部队员的体重的方差为
s2=[200+(60-68)2]+[300+(70-68)2]=296.
类型3 数据的数字特征的综合应用
【例3】 在一次科技知识竞赛中,某学校的两组学生的成绩如下表:
分数
50
60
70
80
90
100
人数
甲组
2
5
10
13
14
6
乙组
4
4
16
2
12
12
请根据你所学过的统计知识,判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
1.对一组数据进行统计分析,应该从哪几个方面进行?
[提示] 用平均数反映数据的平均水平,用众数反映数据的最大集中点,用中位数反映数据的集中趋势和一般水平,用标准差或方差反映数据的离散程度.
2.对比两组数据时,要从哪几个方面进行?
[提示] 从众数、中位数、平均数和方差等几个方面.
[解] (1)甲组成绩的众数为90,乙组成绩的众数为70,从成绩的众数比较看,甲组成绩好些.
(2)甲=(50×2+60×5+70×10+80×13+90×14+100×6)
=×4
000=80,
乙=(50×4+60×4+70×16+80×2+90×12+100×12)
=×4
000=80.
s=[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,
s=[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵甲=乙,s(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.
(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,所以乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.
数据分析的要点
(1)要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.
(2)在进行数据分析时,不同的标准没有对和错的问题,也不存在唯一解的问题,而是根据需要来选择“好”的决策,至于决策的好坏,是根据提出的标准而定的.
4.某校拟派一名跳高运动员参加一项校际比赛,对甲、乙两名跳高运动员进行了8次选拔比赛,他们的成绩(单位:m)如下:
甲:1.70,1.65,1.68,1.69,1.72,1.73,1.68,1.67;
乙:1.60,1.73,1.72,1.61,1.62,1.71,1.70,1.75.
经预测,跳高1.65
m就很可能获得冠军.该校为了获取冠军,可能选哪位选手参赛?若预测跳高1.70
m方可获得冠军呢?
[解] 甲的平均成绩和方差如下:
甲=(1.70+1.65+1.68+1.69+1.72+1.73+1.68+1.67)=1.69,
s=[(1.70-1.69)2+(1.65-1.69)2+…+(1.67-1.69)2]=0.000
6.
乙的平均成绩和方差如下:
乙=(1.60+1.73+1.72+1.61+1.62+1.71+1.70+1.75)=1.68,
s=[(1.60-1.68)2+(1.73-1.68)2+…+(1.75-1.68)2]=0.003
15.
显然,甲的平均成绩高于乙的平均成绩,而且甲的方差小于乙的方差,说明甲的成绩比乙稳定.由于甲的平均成绩高于乙,且成绩稳定,所以若跳高1.65
m就很可能获得冠军,应派甲参赛.
在这8次选拔赛中乙有5次成绩在1.70
m以上,虽然乙的平均成绩不如甲,成绩的稳定性也不如甲,但成绩突破1.70
m的可能性大于甲,所以若跳高1.70
m方可获得冠军,应派乙参赛.
1.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8 B.15 C.16 D.32
C [已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选C.]
2.某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4,
则:(1)平均命中环数为________;
(2)命中环数的标准差为________.
(1)7 (2)2 [(1)==7.
(2)∵s2=[(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,∴s=2.]
3.已知样本9,10,11,x,y的平均数是10,方差是4,则xy=________.
91 [由题意得
即解得或所以xy=91.
]
4.某校医务室抽查了高一10位同学的体重(单位:kg)如下:
74,71,72,68,76,73,67,70,65,74.
(1)求这10个学生体重数据的平均数、中位数、方差、标准差;
(2)估计高一所有学生体重数据的平均数、中位数、方差、标准差.
[解] (1)这10个学生体重数据的平均数为=×(74+71+72+68+76+73+67+70+65+74)=71.这10个学生体重数据从小到大依次为65,67,68,70,71,72,73,74,74,76,位于中间的两个数是71,72,∴这10个学生体重数据的中位数为=71.5.
这10个学生体重数据的方差为s2=×[(74-71)2+(71-71)2+(72-71)2+(68-71)2+(76-71)2+(73-71)2+(67-71)2+(70-71)2+(65-71)2+(74-71)2]=11,
这10个学生体重数据的标准差为s==.
(2)由样本估计总体得高一所有学生体重数据的平均数为71,中位数为71.5,方差为11,标准差为.
回顾本节知识,自我完成以下问题:
(1)如何计算一组数据的方差或标准差?
(2)如何计算分层随机抽样的方差?
(3)一组数据的方差或标准差反映了该组数据的什么特性?
PAGE
-
10
-第九章
类型1 抽样方法
1.高考对抽样方法考查的热点有二:一是两种抽样方法的判断问题,这就要求熟练地掌握两种抽样方法的特征;二是关于分层随机抽样的样本容量的计算问题,特别与其他的问题结合在一起的问题要引起重视.
2.应用各种抽样方法抽样时要注意以下问题:
(1)利用抽签法时要注意把号签放在不透明的容器中且搅拌均匀;
(2)利用随机数法时注意编号位数要一致;
(3)在分层随机抽样中,若在某一层按比例应该抽取的个体数不是整数,应在该层剔除部分个体,使抽取个体数为整数.
【例1】 (1)利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )
A. B. C. D.
(2)假设要检查某企业生产的袋装牛奶的质量是否达标,现从500袋牛奶中抽取60袋进行检验,利用随机数表抽取样本时,先将500袋牛奶按000,001,…,499进行编号,使用随机数表中各个5位数组的后3位,选定第7行第5组数开始,取出047作为抽取的代号(从左向右读取数字),随后抽到的5袋牛奶的号码分别是(下面摘取了某随机数表第7行至第9行)____________________.
84421 75331 57245 50688 77047 44767 21763
35025 83921 20676 63016 47859 16955 56719
98105 07185 12867 35807 44395 23879 33211
(1)C (2)025,016,105,185,395 [(1)根据题意,=,解得n=28.
故在整个抽样过程中每个个体被抽到的概率为=.
(2)由已知读取号码的初始值为第7行第5组数中的后3位,第一个号码为047.
凡不在000~499中的数跳过去不取,前面已经取过的也跳过去不取,从而随后抽到的5袋牛奶的编号为025,016,105,185,395.]
1.某学校有教师200人,男学生1
200人,女学生1
000人.现用分层随机抽样的方法从全体师生中抽取一个容量为n的样本,若女学生一共抽取了80人,则n的值为( )
A.193 B.192 C.191 D.190
B [1
000×=80,求得n=192.]
2.某品牌白酒公司在甲、乙、丙三个地区分别有30个、120个、180个代理商.公司为了调查白酒销售的情况,需从这330个代理商中抽取一个容量为11的样本,记这项调查为①;在甲地区有10个特大型超市代理销售该品牌的白酒,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①②这两项调查宜采用的抽样方法依次是__________________________.
分层随机抽样,简单随机抽样 [由于甲、乙、丙三个地区有明显差异,所以在完成①时,需用分层随机抽样.在甲地区有10个特大型超市代理销售该品牌的白酒,没有显著差异,所以完成②宜采用简单随机抽样.]
类型2 频率分布直方图及应用
1.频率分布直方图是高考的热点之一,难度比较小,考查根据频率分布直方图读取需要的数据,能够计算数字特征以及事件的概率,进而作出相应推断.
2.解题常见结论:(1)频率分布直方图中横坐标表示组距,纵坐标表示,频率=组距×.频率分布直方图中各小长方形的面积之和为1.(2)=频率,此关系式变形为=样本量,样本量×频率=频数.
【例2】 某花木公司为了调查某种树苗的生长情况,抽取了一个容量为100的样本,测得树苗的高度(cm)数据的分组及相应频数如下:
[107,109),3株;[109,111),
9株;[111,113),13株;
[113,115),16株;[115,117),26株;[117,119),20株;
[119,121),7株;[121,123),4株;[123,125],2株.
(1)列出频率分布表;
(2)画出频率分布直方图;
(3)据上述图表,估计数据在[109,121)范围内的可能性是百分之几?
[解]
分组
频数
频率
累积频率
[107,109)
3
0.03
0.03
[109,111)
9
0.09
0.12
[111,113)
13
0.13
0.25
[113,115)
16
0.16
0.41
[115,117)
26
0.26
0.67
[117,119)
20
0.20
0.87
[119,121)
7
0.07
0.94
[121,123)
4
0.04
0.98
[123,125]
2
0.02
1.00
合计
100
1.00
(2)频率分布直方图如下:
(3)由上述图表可知数据落在[109,121)范围内的频率为:0.94-0.03=0.91,即数据落在[109,121)范围内的可能性是91%.
在本例中由得到的频率分布直方图估计树苗的高度(cm)的平均数.
[解] 由频率分布直方图可得树苗的高度(cm)的平均数的估计值为
0.03×108+0.09×110+0.13×112+0.16×114+0.26×116+0.20×118+0.07×120+0.04×122+0.02×124=115.46(cm)
3.从某小学随机抽取100名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如图).由图中数据可知a=________.若要从身高在[120,130),[130,140),[140,150]三组的学生中,用分层随机抽样的方法选取18人参加一项活动,则从身高在[140,150]的学生中选取的人数应为________.
0.030 3 [∵0.005×10+0.035×10+a×10+0.020×10+0.010×10=1,∴a=0.030.
设身高在[120,130),[130,140),[140,150]三组的学生分别有x,y,z人,则=0.030×10,解得x=30.同理,y=20,z=10.故从[140,150]的学生中选取的人数为×18=3.]
类型3 数据的集中趋势和离散程度的估计
1.这类题目大多直接根据已知数字特征,如众数、中位数、平均数以及方差等的意义进行计算,考查学生对样本数字特征意义的理解,难度不大.
2.解答这类利用数字特征估计总体的问题时要认真审题,注意平均数、标准差、最大值、中位数的定义和意义的合理运用.
【例3】 (2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
[解] (1)由已知得0.70=a+0.20+0.15,故
a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
4.从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为( )
分数
5
4
3
2
1
人数
20
10
30
30
10
A.3 B. C.3 D.
B [∵==3,
∴s2=[(x1-)2+(x2-)2+…+(xn-)2]
=(20×22+10×12+30×12+10×22)==?s=.]
5.甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:
甲:82 81 79 78 95 88 93 84;
乙:92 95 80 75 83 80 90 85.
(1)求甲成绩的80%分位数;
(2)现要从中选派一人参加数学竞赛,从统计学的角度(在平均数、方差或标准差中选两个)考虑,你认为选派哪位学生参加合适?请说明理由.
[解] (1)把甲的成绩按照从小到大的顺序排列可得:
78 79
81 82 84 88 93 95
因为一共有8个数据,所以8×80%=6.4,不是整数,所以甲成绩的80%分位数是第7个数据93.
(2)甲=(78+79+81+82+84+88+93+95)=85,
乙=(75+80+80+83+85+90+92+95)=85.
s=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5,
s=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41,
∵甲=乙,s1.(2020·全国卷Ⅲ)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01
B.0.1
C.1
D.10
C [由方差计算公式:x1,x2,…,xn的方差为s2,所以s2=0.01,则ax1,ax2,…,axn的方差为a2s2,则所求为100s2=1.]
2.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数
B.平均数
C.方差
D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.]
3.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
A [设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a,养殖收入与第三产业收入的总和为0.36a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.]
4.(多选题)(2020·新高考全国卷Ⅱ)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数增量大于复工指数的增量
C.第3天至第11天复工复产指数均超过80%
D.第9天至第11天复产指数增量大于复工指数的增量
CD [由折线图知,第1天至第2天复工指数减少,第7天至第8天复工指数减少,第10天至第11天复工指数减少,第8天至第9天复产指数减少,故A错误;由折线图知,第1天的复产指数与复工指数的差大于第11天的复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故B错误;由折线图知,第3天至第11天复工复产指数均超过80%,故C正确;由折线图知,第9天至第11天复产指数增量大于复工指数的增量,故D正确.综上,选CD.]
5.(2020·全国卷Ⅲ)在一组样本数据中,1,2,3,4出现的频率分别为p1,p2,p3,p4,且pi=1,则下面四种情形中,对应样本的标准差最大的一组是( )
A.p1=p4=0.1,p2=p3=0.4
B.p1=p4=0.4,p2=p3=0.1
C.p1=p4=0.2,p2=p3=0.3
D.p1=p4=0.3,p2=p3=0.2
B [对于A,当p1=p4=0.1,p2=p3=0.4时,随机变量X1的分布列为
X1
1
2
3
4
P
0.1
0.4
0.4
0.1
E(X1)=1×0.1+2×0.4+3×0.4+4×0.1=2.5,D(X1)=(1-2.5)2×0.1+(2-2.5)2×0.4+(3-2.5)2×0.4+(4-2.5)2×0.1=1.52×0.1+0.52×0.4+0.52×0.4+1.52×0.1=0.65,所以=.
对于B,当p1=p4=0.4,p2=p3=0.1时,随机变量X2的分布列为
X2
1
2
3
4
P
0.4
0.1
0.1
0.4
E(X2)=1×0.4+2×0.1+3×0.1+4×0.4=2.5,D(X2)=(1-2.5)2×0.4+(2-2.5)2×0.1+(3-2.5)2×0.1+(4-2.5)2×0.4=1.52×0.4+0.52×0.1+0.52×0.1+1.52×0.4=1.85,所以=.
对于C,当p1=p4=0.2,p2=p3=0.3时,随机变量X3的分布列为
X3
1
2
3
4
P
0.2
0.3
0.3
0.2
E(X3)=1×0.2+2×0.3+3×0.3+4×0.2=2.5,D(X3)=(1-2.5)2×0.2+(2-2.5)2×0.3+(3-2.5)2×0.3+(4-2.5)2×0.2=1.52×0.2+0.52×0.3+0.52×0.3+1.52×0.2=1.05,所以=.
对于D,当p1=p4=0.3,p2=p3=0.2时,随机变量X4的分布列为
X4
1
2
3
4
P
0.3
0.2
0.2
0.3
E(X4)=1×0.3+2×0.2+3×0.2+4×0.3=2.5,D(X4)=(1-2.5)2×0.3+(2-2.5)2×0.2+(3-2.5)2×0.2+(4-2.5)2×0.3=1.52×0.3+0.52×0.2+0.52×0.2+1.52×0.3=1.45,所以=.所以B中的标准差最大.]
6.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=ni(yi-)2
=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.026
9,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
PAGE
-
4
-