9.1 随机抽样
9.1.1 简单随机抽样
[目标导航]
核心知识目标 核心素养目标
1.了解简单随机抽样的概念、特点和步骤. 2.掌握简单随机抽样的两种方法(抽签法和随机数法). 在简单随机抽样的实施过程中,掌握抽签法和随机数法的抽样步骤,发展数据分析和数学建模的核心素养.
1.全面调查和抽样调查
调查方式 普查 抽样调查
定义 对每一个调查对象都进行调查的方法,称为全面调查,又称普查 根据一定目的,从总体中抽取一部分个体进行调查的方法,称为抽样调查
相关概念 ①在一个调查中,我们把调查对象的全体称为总体. ②组成总体的每一个调查对象称为个体 ①我们把从总体中抽取的那部分个体称为样本. ②样本中包含的个体数称为样本量
2.简单随机抽样
放回简单随机抽样 不放回简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样 如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本
3.抽签法与随机数法
两种抽 样方法 抽签法 随机数法
定义 先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数 先把总体中的个体编号,用随机数工具产生与总体中个体数量相等的整数随机数,把产生的随机数作为抽中的编号,并剔除重复的编号,直到抽足样本所需要的个体数
优点 简单易行.当总体的个数不多时,使总体处于“搅拌均匀”的状态比较容易,这时,每个个体都有均等的机会被抽中,从而能够保证样本的代表性 简单易行.它很好地解决了当总体中的个体数较多时抽签法制签难的问题
缺点 仅适用于个体数较少的总体.当总体容量非常大时,费时费力又不方便,况且,如果号签搅拌的不均匀,可能导致抽样不公平 当总体中的个体数很多,需要的样本量也较大时,用随机数法抽取样本仍不方便
步骤 ①编号:给总体中的所有个体编号(号码可以从1到N); ②制作号签:将1~N这N个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作); ③均匀搅拌:将号签放在一个不透明的容器里,搅拌均匀; ④抽取号码:每次从容器中不放回地抽取一个号签,连续抽取n次; ⑤构成样本:从总体中将与抽到的号签上的号码一致的个体抽取,就构成了一个容量为n的样本 ①编号:对总体的个体进行编号(每个号码位数一致). ②选定初始值:在随机数表中任选一个数作为开始. ③选号:从选定的数开始按一定的方向读下去,得到的号码若不在编号中,则跳过,若在编号中,则取出,如果得到的号码前面已经取出,也跳过,如此继续下去,直到取满为止. ④确定样本:根据选定的号码抽取样本
4.样本的平均数
名称 定义
总体均值 一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称为总体均值,又称总体平均数
总体均值 加权平均 数的形式 如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式=
样本均值 如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则=
1.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民,对其该天的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间是( A )
(A)总体
(B)个体
(C)样本的容量
(D)从总体中抽取的一个样本
2.已知总体容量为106,若用随机数法抽取一个容量为10的样本,下面对总体的编号正确的是( D )
(A)1,2,…,106 (B)01,…,105
(C)00,01,…,105 (D)000,001,…,105
解析:对总体中每个个体编号的数字位数应相同,这样才能用随机数表法抽样.故选D.
3.抽签法中确保样本代表性的关键是( B )
(A)制签 (B)搅拌均匀
(C)逐一抽取 (D)抽取不放回
解析:逐一抽取、抽取不放回是抽签法的特点,但不是确保代表性的关键,一次抽取与有放回抽取(个体被重复取出可不算再放回)也不影响样本的代表性,制签也一样.故选B.
4.为了考察某地6月份最高气温(单位:℃)的情况,随机抽取了5天,所得数据约为29,29,31,30,31,则该地6月份最高气温的平均值约为 ℃.
解析:=30.
答案:30
总体、个体、样本与样本量
[例1] (多选题)为了调查参加运动会的1 000名运动员的平均年龄,从中抽取了100名运动员进行调查,下面说法不正确的是( )
(A)1 000名运动员是总体
(B)每个运动员是个体
(C)抽取的100名运动员是样本
(D)样本量是100
解析:根据调查目的可知,总体是这1 000名运动员的年龄,个体是每个运动员的年龄,样本是抽取的100名运动员的年龄,样本量为100.故选ABC.
此类题目要正确理解总体与个体的概念,要弄明白概念的实质,并注意样本与样本量的不同,其中样本量为数目,无单位.
即时训练1-1:为了了解高一年级学生的视力情况,特别是近视率问题,抽测了其中100名同学的视力情况.在这个过程中,100名同学的视力情况(数据)是( )
(A)总体 (B)个体
(C)总体的一个样本 (D)样本量
解析:100名同学的视力情况(数据)是从总体中抽取的一部分个体所组成的集合,所以是总体的一个样本.故选C.
定向普查与抽样调查
[例2] 下列调查方式合适的是( )
(A)检验100件产品的质量,采用普查的方式
(B)为了了解全国中学生的睡眠状况,采用普查的方式
(C)为了了解人们保护水资源的意识,采用抽样调查的方式
(D)对载人航天器“神舟十号”零部件的检查,采用抽样调查的方式
解析:A.检验产品的质量,有破坏性,故采用抽查方式,故本选项错误;
B.了解全国中学生的睡眠状况,工作量大,采用抽查方式,故本选项错误;
C.为了了解人们保护水资源的意识,工作量大,采用抽查方式,故本选项正确;
D.对载人航天器“神舟十号”零部件的检查十分重要,故进行普查,故本选项错误.故选C.
(1)普查是对总体中每个个体都进行考察.
(2)抽样调查只对抽取样本进行考察.
即时训练2-1:(多选题)下列调查的样本合理的是( )
(A)在校内发出一千张印有全校各班级的选票,要求被调查学生在其中一个班级旁画“√”,以了解最受欢迎的教师是谁
(B)从一万多名工人中,经过选举,确定100名代表,然后投票表决,了解工人们对工厂机构改革的意见
(C)到老年公寓进行调查,了解全市老年人的健康状况
(D)为了了解全班同学每天的睡眠时间,在每个小组中各随机抽取3名学生进行调查
解析:A中样本不具有代表性、有效性,在班级旁画“√”与了解最受欢迎的老师没有关系;C中样本缺乏代表性;而BD是合理的样本.故选BD.
简单随机抽样
探究角度1 简单随机抽样的概念
[例3] 下列抽取样本的方法是简单随机抽样吗 为什么
(1)从无限多个个体中抽取50个个体作为样本;
(2)从50个个体中一次性抽取5个个体作为样本;
(3)一彩民选号,从装有36个大小、形状都相同的号签的箱子中无放回的抽取6个号签.
解:(1)不是简单随机抽样,因为被抽取的样本的总体的个数是无限的而不是有限的.
(2)不是简单随机抽样,因为它是一次性抽取,而不是“逐个”抽取.
(3)是简单随机抽样,因为总体中的个体是有限的,并且是从总体中逐个抽取、不放回的、等概率的抽样.
可用简单随机抽样抽取样本的依据
(1)总体中的个体之间无明显差异.
(2)总体中个体数N有限.
(3)抽取的样本个体数n小于总体中的个体数N.
(4)每个个体被抽到的可能性均为.
即时训练3-1:下面的抽样方法是简单随机抽样吗 为什么
(1)从无数个个体中抽取50个个体作为样本;
(2)仓库中有1万支奥运火炬,从中一次抽取100支火炬进行质量检查;
(3)某连队从200名官兵中,挑选出50名最优秀的官兵赶赴灾区开展救灾工作.
解:(1)不是简单随机抽样.因为简单随机抽样要求被抽取的样本总体的个数是有限的.(2)不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.(3)不是简单随机抽样.因为这50名官兵是从中挑选出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.
探究角度2 抽签法的应用
[例4] 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
解:第一步,将20架钢琴编号,号码是1,2,…,20.
第二步,将号码分别写在外观、质地等无差别的小纸片上作为号签.
第三步,将小纸片放入一个不透明的盒里,充分搅匀.
第四步,从盒中不放回地逐个抽取5个号签,使与号签上编号相同的钢琴进入样本.
(1)一个抽样试验能否用抽签法,关键看两点:一是制签是否方便,二是个体之间差异不明显.
(2)应用抽签法时应注意以下几点:
①编号时,如果已有编号可不必重新编号;
②号签要求大小、形状完全相同;
③号签要均匀搅拌;
④根据实际需要采用有放回或无放回抽取.
即时训练4-1:一名学生在一次竞赛中要回答的8道题是这样产生的:从15道物理题中随机抽3道,从20道化学题中随机抽3道,从12道生物题中随机抽2道.使用合适的方法确定这个学生所要回答的三门学科的题的序号(物理题的编号为1~15,化学题的编号为16~35,生物题的编号为36~47).
解:第一步,将试题的编号1~47分别写在47张形状、大小相同的纸条上,将纸条揉成团制成号签,并将物理、化学、生物题的号签分别放在3个不透明的袋子中,充分搅匀;
第二步,从装有物理题号签的袋子中逐个抽取3个号签,从装有化学题号签的袋子中逐个抽取3个号签,从装有生物题号签的袋子中逐个抽取2个号签,并记录所得号签上的编号,这便是所要回答的问题的编号.
数据的平均数
[例5] 在了解全校学生每年平均阅读多少本文学经典名著时,甲同学抽取了一个容量为20的样本,并算得样本的平均数为5;乙同学抽取了一个容量为10的样本,并算得样本的平均数为3.5.已知甲、乙两同学抽取的样本合在一起组成一个容量为30的样本,求合在一起后的样本均值.
解:由于容量为20的样本的平均数为5,容量为10的样本的平均数为3.5.
因此合在一起后的样本均值为==4.5.
根据一组数据求该组数据的平均数时,要准确应用平均数公式.
即时训练5-1:用简单随机抽样的方法抽取某小区20户家庭的日均用电量(单位:千瓦时),统计如下:
日均用电量 /千瓦时 4 5 6 7 8 10
户数 1 2 4 6 5 2
根据样本数据,估计该小区200户家庭日均用电量的平均数( )
(A)一定为7千瓦时
(B)一定高于8千瓦时
(C)一定低于7千瓦时
(D)约为7千瓦时
解析:因为抽取的20户家庭的日均用电量的平均数为=7(千瓦时),所以可以估计该小区200户家庭的日均用电量的平均数约为7千瓦时.故选D.
1.在简单随机抽样中,某一个个体被抽到的概率( C )
(A)与第几次抽样有关,第一次被抽到的概率最大
(B)与第几次抽样有关,第一次被抽到的概率最小
(C)与第几次抽样无关,每一次被抽到的概率相等
(D)与第几次抽样无关,与抽取几个样本有关
解析:在简单随机抽样中,总体中的每个个体在每次抽取时被抽到的概率相等.故选C.
2.在下面的随机数表选取6个个体,选取方法是从随机数表的第1行的第6列数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为( C )
78 16 62 32 08 02 62 42 62 52 53 69 97 28 01 98 32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81
(A)27 (B)26 (C)25 (D)24
解析:由随机数表法可知,样本的前6个个体的编号分别为23,20,80,26,24,25,
因此,选出的第6个个体的编号为25.故选C.
3.下列抽样试验中,用抽签法最方便的是 .
①从某厂生产的3 000件产品中抽取600件进行质量检验
②从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
③从某厂生产的3 000件产品中抽取10件进行质量检验
解析:抽签法适于样本总体较小,样本量较小,且总体中样本差异不太明显的抽样试验,从①②③来看,②最符合.
答案:②
4.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,其平均数为 .
解析:由已知数据可知平均数为×(10+12+14×2+15×2+16+17×3)=14.7.
答案:14.7
选题明细表
知识点、方法 题号
抽样调查及其概念 1,2
简单随机抽样 3,6,7,11
抽签与随机数法 4,9,14
平均数 5,8,10,12,13
基础巩固
1.医生要检验人血液中血脂的含量,采取的调查方法应该是( B )
(A)普查
(B)抽样调查
(C)既不能普查也不能抽样调查
(D)普查与抽样调查都可以
2.现从80件产品中随机抽出10件进行质量检验,下面说法正确的是( D )
(A)80件产品是总体 (B)10件产品是样本
(C)样本量是80 (D)样本量是10
解析:本题考查的对象是80件产品的质量,故总体是80件产品的质量;个体是1件产品的质量;样本是所抽取的10件产品的质量,故样本量是10.故选D.
3.下列问题中,最适合用简单随机抽样方法抽样的是( B )
(A)某报告厅有32排座位,每排有40个座位,座位号是 1~40,有一次报告会坐满了听众,报告会结束后为听取意见,要留下32名听众进行座谈
(B)从10台冰箱中抽出3台进行质量检查
(C)某学校共有教职工160人,其中行政人员16人,教师112人,后勤人员32人,学校为了解教职工对学校某项机构改革的意见,要从中抽取一个容量为20的样本
(D)某乡农田有山地800公顷,丘陵1 200公顷,平地2 400公顷,洼地400公顷,现抽取农田48公顷估计全乡农田平均每公顷产量
解析:A的总体量较大,用简单随机抽样法比较麻烦;B的总体量较少,用简单随机抽样法比较方便;C由于学校各类人员对这一问题的看法可能差异很大,不宜采用简单随机抽样法;D总体量大,且各类田地的差别很大,也不宜采用简单随机抽样法.故选B
4.某“双色球”中红色球号码从编号为01,02,…,33的33组数中随机选取,某彩民利用下面的随机数表选取6组数作为6个红色球的号码,选取方法是从下列随机数表中第1行第6列的数字开始由左到右依次选取两个数字,则选出来的第3个红色球的号码为( D )
(A)23 (B)17 (C)02 (D)09
解析:根据随机数表法的选取编号法则,当从第1行第6列的数字开始由左到右依次选取两个数字时,第一个号码为21,第二个号码为32,第三个号码为09.故选D.
5.某校为了解学生的课外阅读情况,通过简单随机抽样抽取了40名学生,对他们一周的读书时间(单位:h)进行了统计,统计数据如表
所示:
读书时间/h 7 8 9 10 11
学生人数 6 10 9 8 7
则该校学生一周读书时间的平均数( D )
(A)一定为9 h (B)高于9 h
(C)低于9 h (D)约为9 h
解析:因为抽取的40名学生一周读书时间的平均数为=9(h),所以该校学生一周读书时间的平均数约为9 h.故选D.
6.从总体为N的一批零件中使用简单随机抽样抽取一个容量为40的样本,若某个零件在第2次抽取时被抽到的可能性为1%,则N等于( B )
(A)100 (B)4 000
(C)101 (D)4 001
解析:根据抽签时每个个体被抽到的概率相等,即=1%,解得N=4 000.故选B.
能力提升
7.某中学高一年级有700人,高二年级有600人,高三年级有500人,以每人被抽取的机会为0.03,从该中学学生中用简单随机抽样的方法抽取一个样本,则样本量n为( A )
(A)54 (B)21 (C)18 (D)15
解析:n=(700+600+500)×0.03=54.故选A.
8.在考察某中学的学生身高(单位:cm)时,抽取的样本中,男生有20人,女生有15人,得到了男生身高的平均数为170,女生身高的平均数为165,则可估计该校学生的身高平均数为(结果精确到0.1)( D )
(A)170.0 (B)165.0
(C)167.5 (D)167.9
解析:≈167.9,于是可估计该校学生的身高平均数为167.9.故选D.
9.总体由编号为01,02,…,39,40的40个个体组成.利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第8列的数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为( B )
50 44 66 44 21 66 06 58 05 62 61 65 54
35 02 42 35 48 96 32 14 52 41 52 48 22
66 22 15 86 26 63 75 41 99 58 42 36 72
24 58 37 52 18 51 03 37 18 39 11
(A)23 (B)15 (C)21 (D)24
解析:由随机数表法,从第1行的第8列的数字开始由左到右依次选取两个数字,选出来的样本编号为16,26,24,23,21,15,所以第6个个体样本编号为15.故选B.
10.某工厂抽取50个机械零件检验其直径大小(单位:cm),得到如下数据:
直径/cm 12 13 14
频数 12 34 4
估计这个工厂生产的零件的平均直径大约为 cm.
解析:==12.84(cm).
答案:12.84
11.一个布袋中有6个同样质地的小球,从中不放回地抽取3个小球,则某一特定小球被抽到的可能性是 ,第三次抽取时,剩余小球中的某一特定小球被抽到的可能性是 .
解析:因为此简单随机抽样中每个个体被抽到的可能性为=,所以某一特定小球被抽到的可能性是.因为此抽样是不放回抽样,所以第一次抽样时,每个小球被抽到的可能性均为;第二次抽取时,剩余5个小球中每个小球被抽到的可能性均为;第三次抽取时,剩余4个小球中每个小球被抽到的可能性均为.
答案:
12.如图所示的是甲、乙两人在一次射击比赛中中靶的情况(击中靶中心的圆面为10环,靶中各数字表示该数字所在圆环被击中时所得的环数),每人射击了6次.
(1)请用列表法将甲、乙两人的射击成绩统计出来;
(2)请分别计算甲、乙两人这次的射击的平均环数,并比较大小.
解:(1)甲、乙两人的射击成绩统计表如下:
环数 6 7 8 9 10
甲命中次数 0 0 2 2 2
乙命中次数 0 1 0 3 2
(2)=×(8×2+9×2+10×2)=9(环),
=×(7×1+9×3+10×2)=9(环),
所以甲、乙两人这次的射击平均环数相同.
应用创新
13.在需要评委打分的比赛中,为防止极端值对平均分的影响,计算最终平均分的时候,需要去掉最高分和最低分.如果在某次比赛中,
n(n≥3)位评委所打分数去掉一个最高分算得平均分记为,去掉一个最低分算得平均分记为,同时去掉一个最高分和一个最低分算得平均分记为,那么,,的大小关系为( D )
(A)≥≥ (B)≥≥
(C)≥≥ (D)≥≥
解析:假设最高分为a,最低分为b,去掉最高分和最低分的平均分为c,其余分数的和为(n-2)c,评委所打分数去掉一个最高分a算得平均分记为=,去掉一个最低分b算得平均分记为=,去掉一个最高分和一个最低分算得平均分记为=c,由于==
=c+,===c+,结合题意a>c,c>b,
所以,,的大小关系为≥≥.故选D.
14.某中学从40名学生中选1人作为该校男篮啦啦队的成员,采用下面两种选法.
选法一:将这40名学生从1~40进行编号,相应地制作1~40的40个号签,把这40个号签放在一个暗箱中搅匀,最后随机地从中抽取1个号签,与这个号签一致的学生幸运入选.
选法二:将39个白球与1个红球(球除颜色外,其他完全相同)混合放在一个暗箱中搅匀,让40名学生逐一从中摸取一球,摸到红球的学生成为拉拉队成员.
试问:这两种选法是抽签法的是 ,这两种方法每个学生被抽中的概率是否相等 (填“是”或“否”).
解析:选法一满足抽签法的特征,是抽签法;选法二不是抽签法.因为抽签法要求所有的号签编号互不相同,而选法二中39个白球无法相互区分.这两种选法相同之处在于每名学生被选中的可能性都相等,均为.
答案:选法一 是9.1.2 分层随机抽样
9.1.3 获取数据的途径
[目标导航]
核心知识目标 核心素养目标
1.了解获取数据的途径:调查、试验、观察和查询. 2.理解分层随机抽样的概念. 3.会通过调查、试验、观察和查询获取数据. 4.掌握分层随机抽样的使用条件和操作步骤,会用分层随机抽样法进行抽样. 1.在分层随机抽样的实施过程中,掌握分层随机抽样的抽样步骤,发展数据分析和数学建模的核心素养. 2.在学习获取数据的途径过程中,掌握获取数据的方法,发展数据分析和数学建模的核心素养.
1.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
2.简单随机抽样、分层随机抽样的联系和区别
类别 简单随机抽样 分层随机抽样
各自特点 从总体中逐个抽取 将总体分成几层,分层进行抽取
相互联系 在各层抽样时采用简单随机抽样
适用范围 总体中的个体数较少 总体由存在明显差异的几部分组成
共同点 抽样过程中每个个体被抽到的可能性相等
3.样本平均数与总体平均数
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,用X1,X2,…,XM表示第1层各个个体的变量值,用x1,x2,…,xm表示第1层样本的各个个体的变量值,用Y1,Y2,…,YN表示第2层各个个体的变量值,用y1,y2,…,yn表示第2层样本的各个个体的变量值,则第1层的总体平均数和样本平均数分别为
==Xi,
==xi.
第2层的总体平均数和样本平均数分别为
==Yi,
==yi.
总体平均数和样本平均数分别为
=,=.
在比例分配的分层随机抽样中,==,
变形得+=+=.
因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
4.获取数据的途径
获取数据的基本途径有:(1)通过调查获取数据;(2)通过试验获取数据;(3)通过观察获取数据;(4)通过查询获得数据.
1.为了研究近年我国高等教育发展状况,小明需要获取近年来我国大学生入学人数的相关数据,他获取这些数据的途径最好是( D )
(A)通过调查获取数据 (B)通过试验获取数据
(C)通过观察获取数据 (D)通过查询获得数据
解析:因为近年来我国大学生入学人数的相关数据有所存储,所以小明获取这些数据的途径最好是通过查询获得数据.故选D.
2.某班有男生28人,女生16人,用分层随机抽样的方式从中抽取容量为n的样本,若男生抽取了7人,则n的值为( B )
(A)10 (B)11 (C)12 (D)14
解析:根据题意可得=,解得n=11.故选B.
3.某商场有四类食品,食品类别和种数如表.现从中抽取一个容量为20的样本进行食品安全检测.若采用分层随机抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是( B )
类别 粮食类 植物油类 动物性食品类 果蔬类
种数 40 10 30 20
(A)7 (B)6 (C)5 (D)4
解析:由已知可得抽样比为=,所以抽取植物油类与果蔬类食品种数之和为(10+20)×=6.故选B.
4.某校为了解学生的身体素质情况,采用按年级分层随机抽样的方法,从高一、高二、高三学生中抽取一个300人的样本进行调查,已知高一、高二、高三学生人数之比为 k∶5∶4,抽取的样本中高一学生为120人,则实数k的值为 .
解析:由题意可得,=,解得k=6.
答案:6
分层随机抽样的判断
[例1] 某校高三年级有男生500人,女生400人,为了了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查.这种抽样方法是( )
(A)简单随机抽样法
(B)抽签法
(C)随机数法
(D)分层随机抽样法
解析:若总体由差异明显的几部分组成时,经常采用分层随机抽样的方法进行抽样,或根据简单随机抽样的概念与方法可以排除A,B,C.故选D.
分层随机抽样的前提和遵循的两条原则
(1)前提:分层随机抽样使用的前提是总体可以分层,层与层之间差异较大,而层内个体间差异较小.
(2)遵循的两条原则
①按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,即遵循不重复、不遗漏的原则;
②在每个子总体中独立地进行简单随机抽样,即各层中遵循等概率抽样的原则.
即时训练1-1:完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的 15名艺术特长生中选出3名调查文化课学习情况.宜采用的抽样方法依次是( )
(A)①简单随机抽样,②分层随机抽样
(B)①②都是分层随机抽样
(C)①②都是简单随机抽样
(D)①分层随机抽样,②简单随机抽样
解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层随机抽样;从某中学的15名艺术特长生中选出3名调查文化课学习情况,个体之间差别不大,且总体和样本量较小,所以②用简单随机抽样.故选D.
分层随机抽样中的计算
[例2] 某单位有职工100人,不到35岁的有45人,35岁到49岁的有25人,剩下的为50岁以上(包括50岁)的人,用分层随机抽样的方法从中抽20人,各年龄段分别抽取的人数为( )
(A)7,5,8 (B)9,5,6
(C)7,5,9 (D)8,5,7
解析:由于样本量与总体个体数之比为=,
故各年龄段抽取的人数依次为45×=9(人),25×=5(人),20-9-5=6(人).故选B.
变式训练2-1:某单位有职工100人,不到35岁的有45人,35岁到49岁的有25人,剩下的为50岁以上(包括50岁)的人,用分层随机抽样的方法从35岁到49岁的职工中抽取5人,则应抽取的样本量为 .
解析:因为35岁到49岁的有25人,抽取了5人,单位有职工100人,
所以应抽取的样本量为×100=20.
答案:20
即时训练2-1:某市某口罩厂甲、乙、丙三个车间生产了同一种口罩,数量分别为2 400件、1 600件、1 200件.为了解它们的口罩质量是否存在显著差异,用分层随机抽样方法抽取了一个容量为n的样本进行调查,其中从乙车间的产品中抽取了40件,则n等于( )
(A)90 (B)100 (C)120 (D)130
解析:因为甲、乙、丙三个车间生产的产品件数分别是 2 400,1 600,1 200,
所以甲、乙、丙三个车间生产的产品数量的比依次为6∶4∶3,
故乙车间生产产品所占的比例为,所以样本中乙车间生产产品有40件,占总产品的,
所以样本量n=40÷=130.故选D.
分层随机抽样中有关计算的方法
(1)抽样比==.
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
对于分层随机抽样中求某层个体数,或某层要抽取的样本个体数,都可以通过上面两个等量关系求解.
[备用例题] 某高中学校为了促进学生个体的全面发展,针对学生发展要求,开设了富有地方特色的“泥塑”与“剪纸”两个社团,已知报名参加这两个社团的学生共有800人,按照要求每人只能参加一个社团,各年级参加社团的人数情况如下表:
高一年级 高二年级 高三年级
泥塑 a b c
剪纸 x y z
其中x∶y∶z=5∶3∶2,且“泥塑”社团的人数占两个社团总人数的,为了了解学生对两个社团活动的满意程度,从中抽取一个50人的样本进行调查,则从高二年级“剪纸”社团的学生中应抽取 人.
解析:法一 因为“泥塑”社团的人数占总人数的,
故“剪纸”社团的人数占总人数的,
所以“剪纸”社团的人数为800×=320;
因为“剪纸”社团中高二年级人数比例为
==,
所以“剪纸”社团中高二年级人数为
320×=96.
由题意知,抽样比为=,
所以从高二年级“剪纸”社团中抽取的人数为96×=6.
法二 因为“泥塑”社团的人数占总人数的,
故“剪纸”社团的人数占总人数的,
所以抽取的50人的样本中,“剪纸”社团中的人数为50×=20.
又“剪纸”社团中高二年级人数比例为
==,
所以从高二年级“剪纸”社团中抽取的人数为20×=6.
答案:6
分层随机抽样的设计
[例3] 某网站就网民对网站首页的满意程度进行调查,参加调查回答问卷的人数是36 000人,持各种态度的人数如下表:
非常满意 满意 一般 不满意
7 305 13 701 11 778 3 216
网站为了进一步了解网民的具体想法和意见,打算从中抽取60人进行座谈调查,请问应当怎样进行抽样
解:用分层随机抽样的方法进行抽样.具体步骤如下:
第一步,确定各层的抽样比:非常满意的占=,满意的占=,一般的占=,不满意的占=.
第二步,计算各层应该抽取的人数:非常满意的应抽取×60≈12(人),满意的应抽取×60≈23(人),一般的应抽取×60≈20(人),不满意的应抽取×60≈5(人),即在非常满意、满意、一般、不满意的各层中抽取的人数分别是12,23,20,5.
第三步,在各层中采用简单随机抽样的方法抽取个体,组成60人的样本.
分层随机抽样的步骤
即时训练3-1:一个地区共有5个乡镇,人口3万人,其人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问:应采取什么样的方法 并写出具体过程.
解:因为疾病的发病率与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层随机抽样的方法.具体过程如下:
(1)将3万人分为5层,其中一个乡镇为一层.
(2)按照样本量的比例求得各乡镇应抽取的人数分别为60人、40人、100人、40人、60人.
(3)按照各层抽取的人数随机抽取各乡镇应抽取的样本.
(4)将300人合到一起,即得到一个样本.
获取数据途径的方法的设计
[例4] 为了缓解城市的交通拥堵情况,某市准备出台关于私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗
解:(1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.
(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
即时训练4-1:某校决定在开学前将学校的电灯电路使用情况进行检查,以排除安全隐患,获取电灯电路的相关数据应该用什么方法 为什么
解:由于一个学校的电灯电路数目不算大,属于有限总体问题,所以应该通过调查获取数据,并且必须排除任一潜在或已存在的安全隐患,故必须用普查的方法.
1.在庆祝中华人民共和国成立70周年之际,某学校为了解《我和我的祖国》《我爱你,中国》《今天是你的生日》等经典爱国歌曲的普及程度,在学生中开展问卷调查.该校共有高中学生900人,其中高一年级学生330人,高二年级学生300人,高三年级学生270人.现采用分层随机抽样的方法从高中学生中抽取一个容量为90的样本,那么应抽取高一年级学生的人数为( D )
(A)30 (B)31 (C)32 (D)33
解析:由分层随机抽样方法可得,应抽取高一年级学生的人数为330×=33.故选D.
2.在120个零件中,一级品24个,二级品36个,三级品60个,用比例分配分层随机抽样方法从中抽取样本量为20的样本,则每个个体被抽取的可能性是( D )
(A) (B) (C) (D)
解析:在分层随机抽样方法中,每个个体被抽取的可能性都相等,且为,所以每个个体被抽取的可能性是=.故选D.
3.某工厂生产A,B,C三种不同型号的产品,产品数量之比依次为2∶3∶5,现用分层随机抽样方法抽出一个容量为n的样本,样本中A种型号产品有16件,那么此样本量 n= .
解析:A种型号产品所占的比例为=,=80,故样本量n=80.
答案:80
4.某校高一年级有学生850人,高二年级有学生950人,高三年级有学生1 400人,现采用分层随机抽样抽取容量为64的一个样本,那么在高三年级应抽取的人数为 .
解析:因为采用分层随机抽样抽取容量为64的一个样本,
所以×64=×64=28,
故在高三年级应抽取的人数为28.
答案:28
选题明细表
知识点、方法 题号
分层随机抽样的判断 1
分层随机抽样的计算 3,4,5,7,8
分层随机抽样的应用 6,9
分层随机抽样平均数计算及综合 10,11,13
获取数据的途径 2,12
基础巩固
1.某校为了解高一学生的学习规划情况,在高一年级6个班级中任选两个班级,并在所选的班级中按男女比例抽取样本,则应采用的抽样方法是( D )
(A)简单随机抽样
(B)分层随机抽样
(C)先用分层随机抽样,再用随机数法
(D)先用抽签法,再用分层随机抽样
解析:采用抽签法从6个班级中抽取两个班级,然后采用分层随机抽样的方法在所选的班级中按男女比例抽取样本.故选D.
2.研究下列问题:
①某城市元旦前后的气温;②某种新型电路元件使用寿命的测定;③电视台想知道某一个节目的收视率.一般通过试验获取数据的是( C )
(A)①② (B)③ (C)② (D)①③
解析:①通过观察获取数据,③通过调查获取数据,只有②通过试验获取数据.故选C.
3.一批灯泡400只,其中20 W,40W,60 W的数目之比是4∶3∶1,现用分层随机抽样的方法产生一个容量为40的样本,则三种灯泡依次抽取的个数为( A )
(A)20,15,5 (B)4,3,1
(C)16,12,4 (D)8,6,2
解析:由已知可得,20 W的灯泡抽取的个数为40×=20,40 W的灯泡抽取的个数为40×=15,60 W的灯泡抽取的个数为40×=5.故选A.
4.某公司的老年人、中年人、青年人的比例为2∶6∶4,用分层随机抽样的方法抽取了一个容量为n的样本进行调查,其中青年人数为100,则n等于( D )
(A)400 (B)200
(C)150 (D)300
解析:用分层随机抽样的方法抽取了一个容量为n的样本进行调查,其中青年人数为100,则=,解得n=300.故选D.
5.某企业共有职工150人,其中高级职称15人,中级职称45人,低级职称90人,现采用分层随机抽样来抽取30人,则抽样比为 ,抽取的高级职称的人数为 .
解析:由题意得抽样比为=,所以抽取的高级职称的人数为15×
=3.
答案: 3
6.某企业三月中旬生产A,B,C三种产品共3 000件,根据分层随机抽样的结果,该企业统计员制作了如下的统计表.
产品类别 A B C
产品数量/件 x 1 300 y
样本容量 m 130 n
由于不小心,表格中A,C产品的有关数据丢失,统计员记得A产品的样本量比C产品的样本量多10.根据以上信息,可得C产品的数量是
件.
解析:因为C产品的数量为y,所以A产品的数量为x=3 000-1 300-y=
1 700-y.又C产品的样本量为n,所以A产品的样本量为m=10+n.由===,解得y=800.
答案:800
能力提升
7.(多选题)某工厂生产A,B,C三种不同型号的产品,其相应产品数量之比为2∶5∶3,现用分层随机抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,则( BC )
(A)此样本的容量n为20
(B)此样本的容量n为80
(C)样本中B型号产品有40件
(D)样本中B型号产品有24件
解析:根据分层随机抽样的定义可知,
=,则n=80,
设样本中B型号的产品有x件,则=,
所以x=40,即B型号的产品有40件.故选BC.
8.某高中共有学生3 000名,各年级人数如下表.已知在全校学生中随机抽取1名学生,抽到高二年级学生的概率是0.35.现用分层随机抽样的方法在全校抽取100名学生,则应在高三年级抽取的学生的人数为( A )
年级 一年级 二年级 三年级
学生人数 1 200 x y
(A)25 (B)26 (C)30 (D)32
解析:由题意得高二年级学生数量为x=3 000×0.35=1 050,
高三年级学生数量为y=3 000-1 200-1 050=750,
现用分层随机抽样的方法在全校抽取100名学生,设应在高三年级抽取的学生的人数为n,
则=,解得n=25.故选A.
9.某旅行社分年龄统计了前往香港的老中青旅客的比例分别为5∶2∶3,现采用分层随机抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,则( C )
(A)老年旅客抽到150人
(B)中年旅客抽到20人
(C)n=200
(D)被抽到的老年旅客以及中年旅客人数之和超过200
解析:由题意,前往香港的老中青旅客的比例分别为5∶2∶3,现使用分层随机抽样的方法从这些旅客中随机抽取n名,若青年旅客抽到60人,所以=,解得n=200.故选C.
10.中学生在家务劳动中能更密切地与家人接触交流,也可缓解压力、休息大脑.经调查,某校学生有70%的学生认为自己参与家务劳动能使家庭关系更融洽,30%的学生认为自己是否参与家务劳动对家庭关系无影响.现为了调查学生参加家务劳动时长情况,决定在两类同学中利用分层随机抽样的方法抽取100名同学参与调查,那么需要抽取认为自己参与家务劳动能使家庭关系更融洽的同学的个数是( B )
(A)30 (B)70 (C)80 (D)100
解析:某校学生有70%的学生认为自己参与家务劳动能使家庭关系更融洽,30%的学生认为自己是否参与家务劳动对家庭关系无影响.在两类同学中利用分层随机抽样的方法抽取100名同学参与调查,则需要抽取认为自己参与家务劳动能使家庭关系更融洽的同学的个数是100×70%=70.故选B.
11.某医疗队有男医生45人,女医生m人,用分层随机抽样抽出一个容量为n的样本,在这个样本中随机取一人担任队长,每个个体被抽到的概率为,且样本中的男医生比女医生多5人,则m= .
解析:由在样本中每个个体被抽到的概率为,可得样本容量为25.
设男、女医生分别有x人、y人,
则解得
所以m==30.
答案:30
应用创新
12.为制定初中七、八、九年级学生校服的生产计划,某市有关部门准备对本市180名初中男生的身高做调查,现有三种调查方案:
(1)测量少年体校中180名男子篮球、排球队员的身高;
(2)查阅有关外地180名男生身高的统计资料;
(3)用分层随机抽样的方法从初中三个年级抽取180名男生调查其
身高.
为了达到估计本市初中这三个年级男生身高分布的目的,则上述调查方案不合理的是 ,合理的是 .
解析:(1)中,少年体校的男子篮球、排球的运动员的身高一般高于平均水平,因此不能用测量的结果去估计总体的结果,故方案(1)不合理;(2)中,用外地学生的身高也不能准确地反映本地学生身高的实际情况,故方案(2)不合理;(3)中,由于初中三个年级的男生身高是不同的,所以应该用分层随机抽样的方法从初中三个年级抽取180名男生调查其身高,方案(3)合理.
答案:(1)(2) (3)
13.某校高一年级有24个班,共1 000名学生,他们参加了一次数学测试.学校统计了所有学生的成绩,得到下列统计图.
(1)求该校高一年级学生本次测试成绩的平均数;
(2)假设随机抽取300名学生,按照比例分配的分层随机抽样的方法,试估计高一年级本次测试成绩的平均数.
解:(1)由题意并结合扇形统计图,可知男生共有 1 000×60%=
600(名),女生有1 000×40%=400(名).由成绩平均数条形图可得,该校高一年级学生本次测试成绩的平均数=(80×600+82.5×400)÷
1 000=81.
(2)随机抽取300名学生,采用比例分配的分层随机抽样的方法,则男生样本数为300×=180,女生样本数为300×=120.
故样本平均数为(180×80+120×82.5)÷300=81.
根据样本平均数来估计总体平均数,可得高一年级本次测试成绩的平均数为81.9.2 用样本估计总体
9.2.1 总体取值规律的估计
[目标导航]
核心知识目标 核心素养目标
1.了解极差的概念. 2.会求一组数据的极差,能决定一组数据组距与组数、将数据分组、列频率分布表,画频率分布直方图. 3.结合实例,能用样本估计总体的取值规律. 1.在学习绘制频率分布直方图的过程中,培养直观想象、数据分析的核心素养. 2.通过应用频率分布直方图等统计图表估计总体的取值规律,培养直观想象、数据分析和数学建模的核心素养.
画频率分布直方图的步骤
(1)求极差:极差为一组数据中最大值与最小值的差.
(2)决定组距与组数:分组时根据问题的需要可以先确定组距,也可以先确定组数.
(3)将数据分组:分组时可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值.
(4)列频率分布表:计算各小组的频率(),作出频率分布表.
(5)画频率分布直方图:频率分布直方图的纵轴表示,实际上就是频率分布直方图中各个小长方形的高,它反映了各组样本观测数据的疏密程度.小长方形的面积=组距×=频率,在频率分布直方图中,各小长方形的面积的总和等于1,即样本数据落在整个区间的频率为1.
1.下列关于频率分布直方图的说法正确的是( D )
(A)频率分布直方图的高表示取某数的频率
(B)频率分布直方图的高表示该组上的个体在样本中出现的频率
(C)频率分布直方图的高表示取某组上的个体在样本中出现的频数与组距的比值
(D)频率分布直方图的高表示取该组上的个体在样本中出现的频率与组距的比值
解析:要注意频率分布直方图的特点.在直方图中,纵轴(矩形的高)表示频率与组距的比值,其相应组距上的频率等于该组距上的矩形的面积.故选D.
2.将容量为100的样本数据按由小到大排列分成8个小组,如表所示,但第6组被墨汁污染,则第6组的频率为( C )
组号 1 2 3 4 5 6 7 8
频数 10 13 14 20 13 12 9
(A)0.14 (B)0.12 (C)0.09 (D)0.10
解析:第6组的频数为100-(10+13+14+20+13+12+9)=9.故第6组的频率为=0.09.故选C.
3.2020年6月初,某市采取了鼓励地摊经济的做法,该市各区的地摊的摊位数和食品摊位比例分别如图①②所示,现用分层随机抽样的方法抽取5%的摊位进行调查,则抽取的样本量与A区被抽取的食品摊位数分别为( A )
(A)210,24 (B)210,50
(C)1 500,24 (D)1 500,50
解析:样本量为(1 000+800+1 000+1 400)×5%=210,A区被抽取的食品摊位数1 000×0.48×5%=24.故选A.
4.某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是 .
解析:设该班人数为n,则20×(0.005+0.01)n=15,n=50.
答案:50
频率分布概念的理解
[例1] (1)已知样本10,8,10,8,6,13,11,10,12,7,9,8,12,9,11,12,9,10,11,10,那么频率为0.2的范围是( )
(A)5.5~7.5 (B)7.5~9.5
(C)9.5~11.5 (D)11.5~13.5
(2)某班学生在一次数学考试中各分数段以及人数的成绩分布为[0,80),2人;[80,90),6人;[90,100),4人;[100,110),8人;[110,120),12人;[120,130),5人;[130,140),6人;[140,150],2人.那么分数在[100,130)中的频数为 ,频率为 .
解析:(1)共20个数据,频率为0.2,在此范围内的数据有4个,只有在11.5~13.5范围内有4个数据:13,12,12,12.故选D.
(2)由[100,130)中的人数为8+12+5=25,得频数为25,频率为≈0.56.
答案:(1)D (2)25 0.56
频率概念的理解
将一批数据按照要求分成若干组,各组内数据的个数,叫做该组的频数,每组的频数除以样本容量的商叫做该组的频率,频率反映每组数据在样本中所占比例的大小.
即时训练1-1:一个容量为100的样本,其数据的分组与各组的频数如下:
组别 [0,10) [10,20) [20,30) [30,40) [40,50) [50,60) [60,70]
频数 12 13 24 15 16 13 7
则样本数据落在[10,40)上的频率为( )
(A)0.13 (B)0.39 (C)0.52 (D)0.64
解析:由题意可知数据在[10,40)上的有13+24+15=52(个),所以频率为=0.52.故选C.
[备用例1] (1)从一群学生中抽取一个一定容量的样本对他们的学习成绩进行分析,已知不超过70分的人数为8,其累计频率为0.4,则样本量是( )
(A)20 (B)40 (C)70 (D)80
(2)容量为100的某个样本,将数据分为10组,并填写频率分布表,若前七组频率之和为0.79,而剩下的三组的频率依次相差0.05,则剩下的三组中频率最大的一组频率为 .
解析:(1)由已知不超过70分的人数为8,累计频率为0.4,则这个样本量n==20.故选A.
(2)设剩下的三组中频率最大的一组的频率为x,则另两组的频率分别为x-0.05,x-0.1,而由频率和为1得0.79+(x-0.05)+(x-0.1)+x=1,解得x=0.12.
答案:(1)A (2)0.12
频率分布直方图的绘制
[例2] 从某校高三学生中抽取50名参加数学竞赛,成绩分组(单位:分)及各组的频数如下:
[40,50),2;[50,60),3;[60,70),10;[70,80),15;[80,90),12;[90,100],8.
(1)列出样本的频率分布表;
(2)画出频率分布直方图;
(3)估计成绩在[60,90)分的学生比例.
解:(1)频率分布表如下:
成绩分组 频数 频率
[40,50) 2 0.04
[50,60) 3 0.06
[60,70) 10 0.2
[70,80) 15 0.3
[80,90) 12 0.24
[90,100] 8 0.16
合计 50 1.00
(2)频率分布直方图如图所示.
(3)学生成绩在[60,90)分的频率为0.2+0.3+0.24=0.74=74%,所以估计成绩在[60,90)分的学生比例为74%.
绘制频率分布直方图应注意的问题
(1)首先画频率分布表,画表格时数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组,在频率分布直方图中,各个小长方形的面积等于各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和为1.
(2)在绘制出频率分布表后,画频率分布直方图的关键就是确定小矩形的高.一般地,频率分布直方图中两坐标轴上的单位长度一般是不一致的,合理的定高方法是“以一个恰当的单位长度”,然后以各组的“”所占的比例来定高.
即时训练2-1:为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄(单位:岁)情况如表所示:
分组/岁 频数 频率
[20,25) 5 0.05
[25,30) ① 0.20
[30,35) 35 ②
[35,40) 30 0.30
[40,45] 10 0.10
合计 100 1.00
(1)频率分布表中的①②位置应填什么数据
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在[30,35)岁的人数.
解:(1)设年龄在[25,30)岁的频数为x,年龄在[30,35)岁的频率为y.
法一 根据题意可得=0.20,=y,
解得x=20,y=0.35,
故①处应填20,②处应填0.35.
法二 由题意得5+x+35+30+10=100,
0.05+0.20+y+0.30+0.10=1,
解得x=20,y=0.35,故①处填20,②处填0.35.
(2)由频率分布表知年龄在[25,30)岁的频率是0.20,组距是5.
所以==0.04.
补全频率分布直方图如图所示.
根据频率分布直方图估计这500名志愿者中年龄在[30,35)岁的人数为500×0.35=175.
[备用例2] 为考查某校高二男生的体重,随机抽取44名高二男生,实测体重数据(单位:kg)如下:
57,61,57,57,58,57,61,54,68,51,49,64,50,48,65,52,56,46,54,49,51,47,55,55,54,42,51,56,55,51,54,51,60,62,43,55,56,61,52,69,64,46,54,48
将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.
解:以4为组距,列表如下:
分组 频率累计 频数 频率
[41.5,45.5) 2 0.045 5
[45.5,49.5) 7 0.159 1
[49.5,53.5) 8 0.181 8
[53.5,57.5) 16 0.363 6
[57.5,61.5) 正 5 0.113 6
[61.5,65.5) 4 0.090 9
[65.5,69.5] 2 0.045 5
频率分布直方图和频率分布折线图如图所示.
频率分布表及频率分布直方图的应用
探究角度1 求频率分布直方图纵坐标中的参数
[例3] 高二年级某班有50人,某次数学测验的分数(单位:分)在[50,100]内,现将这次数学测验的分数分成如下5个组:[50,60),[60,70),…,[90,100],绘制成如图所示的频率分布直方图,则图中的a值为( )
(A)0.032 (B)0.16
(C)0.32 (D)0.016
解析:根据频率和为1得2a×10=1-(0.008+0.032+0.028)×10=0.32,解得a=0.016.故选D.
由于频率分布直方图中的纵坐标为,因此涉及纵坐标中含参数问题,应根据频率之和为1列式求解.
即时训练3-1:某校从高二年级学生中随机抽取60名学生,将期中考试的政治成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100]后得到如图所示的频率分布直方图,则a= .
解析:由题意可得(0.01+0.015×2+a+0.025+0.005)×10=1,解得a=0.03.
答案:0.03
[备用例3] 某校高三年级文科学生600名,从参加期末考试的学生中随机抽出某班学生(该班共有50名同学),并统计了他们的数学成绩(成绩均为整数且满分为150分),数学成绩分组及各组频数如下表,则a= ,b= .
分组 频数 频率
[45,60) 2 0.04
[60,75) 4 0.08
[75,90) 8 0.16
[90,105) 11 0.22
[105,120) 15 0.30
[120,135) a b
[135,150] 4 0.08
合计 50 1
解析:因为频率总和是1,所以b=1-(0.04+0.08+0.16+0.22+0.30+0.08)=0.12.所以第6行的频数为50×0.12=6.所以a,b的值分别为6,0.12.
答案:6 0.12
探究角度2 根据频率分布直方图(表)求样本数据在某一区间内的频率(数)
[例4] 如图是样本容量为200的频率分布直方图.根据样本的频率分布直方图估计,样本数据落在(2,10)内的频数约为 .
解析:观察直方图易得数据落在(2,10)内的频率为数据落在(2,6)与(6,10)频率之和.根据频率=组距×矩形的高,可得样本数据落在(2,10)内的频率约为0.02×4+0.08×4=0.4.因此频数为200×0.4=80.
答案:80
(1)根据频率分布直方图(表)求样本数据在某一区间内的频率就是样本数据在该区间内的各组频率的和,而求解相应的频数还要根据频率乘样本容量.
(2)若所求区间包含频率分布直方图中非分组的端点,可以利用“比例法”求解.
即时训练4-1:某校从参加高一年级期末考试的学生中抽出60名学生,将其成绩(均为整数)分成六段(单位:分):[40,50),[50,60),…,[90,100],然后画出如图所示的频率分布直方图,则分数在[60,88)的人数为 .
解析:依题意分数段在[80,88)之间的人数所占频率x满足==,解得x=0.2,因此分数段在[60,88)段的人占的频率为(0.015+0.030)×10+0.2=0.65,分数在[60,88)的人数为0.65×60=39.
答案:39
探究角度3 巧用各个矩形面积的和为1解题
[例5] 在样本的频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个小长方形面积的和的,且样本量为200,则中间一组的频数为( )
(A)0.2 (B)0.25 (C)40 (D)50
解析:设中间一组的频率为x,则其他8组的频率为1-x,由题意知x=(1-x),得x=,所以中间一组频数为×200=50.故选D.
变式训练5-1:在样本的频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个小长方形面积的和的,中间一组的频数为50,则样本量为 .
解析:设样本量为x,则=,解得x=200.
答案:200
由于频率分布直方图的所有矩形的面积的和为1,因此涉及各矩形面积之间的关系时,可利用此性质解题.
折线图、条形图、扇形图及应用
[例6] (1)(多选题)某市为了了解游客人数的变化规律,提高旅游服务质量,收集并整理了2017年1月至2019年12月期间月接待游客量(单位:万人)的数据,绘制了如下的折线图.
下列结论正确的有( )
(A)月接待游客量逐月增加
(B)年接待游客量逐年增加
(C)各年的月接待游客量高峰期大致在7,8月
(D)各年1月至6月的月接待游客量相对于7月至12月,波动性较小,变化比较平稳
(2)某地农村2004年到2019年间人均居住面积的统计图如图所示,则增长最多的为( )
(A)2004年~2009年
(B)2009年~2014年
(C)2014年~2019年
(D)无法从图中看出
(3)观察如图所示的统计图,下列结论正确的是( )
(A)甲校女生比乙校女生多
(B)乙校男生比甲校男生少
(C)乙校女生比甲校男生少
(D)甲、乙两校女生人数无法比较
解析:(1)由折线图知2017年8月到9月的月接待游客量在减少,A错误.故选BCD.
(2)2004年~2009年的增长量为3.1,2009年~2014年的增长量为3.2,2014年~2019年的增长量为3.8.故选C.
(3)图中数据只是百分比,甲、乙两个学校的学生人数不知道,因此男生、女生的具体人数也无法得知.故选D.
(1)条形图是用一个单位长度表示一定的数量或频率,根据数量的多少或频率的大小画成长短不同的矩形条,条形图能清楚地表示出每个项目的具体数目或频率.
(2)扇形图是用整个圆面积表示总数(100%),用圆内的扇形面积表示各个部分所占总数的百分数.
(3)折线统计图反映数据随时间的变化趋势.
即时训练6-1:为了了解学生在家主动锻炼身体的情况,某校随机抽查了部分学生,对他们每天的运动时间进行调查,并将调查统计的结果分为四类:每天运动时间t≤20分钟的学生记为A类,20分钟60分钟记为D类.收集的数据绘制如图两幅不完整的统计图,请根据图中提供的信息,解答下列问题.
(1)这次共抽取了 名学生进行调查统计,抽查的学生每天的运动时间的中位数落在 类.
(2)将条形统计图补充完整,并求扇形统计图中D类所对应的扇形圆心角的度数.
(3)学校要求学生在家主动锻炼身体的时间必须超过20分钟才能达标,若该校共有3 000名学生,请你估计该校达标学生约有多少人
解:(1)这次共抽取了15÷30%=50名学生进行调查统计,抽查的学生每天的运动时间的中位数落在B类.
(2)D类有学生50-15-22-8=5(人),
补充完整的条形统计图如图所示,
扇形统计图中D类所对应的扇形圆心角的度数是360°×=36°.
(3)3 000×=2 100(人),
因此,该校达标学生约有2 100人.
[备用例4] (多选题)调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图和“90后”从事互联网行业岗位分布条形图,则下列结论中一定正确的是( )
(A)互联网行业从业人员中“90后”占一半以上
(B)互联网行业中从事技术岗位的“90后”人数超过总人数的20%
(C)互联网行业中从事运营岗位的“90后”人数比“80前”少
(D)互联网行业中从事运营岗位的“90后”人数比“80后”多
解析:设整个行业人数为1,因为互联网行业从业人员中“90后”占56 %,故A正确;
互联网行业中从事技术岗位的“90后”人数为1×0.56×0.396≈0.22=22 %,故B正确;
互联网行业中从事运营岗位的“90后”人数为1×0.56×0.17≈0.1>0.03,故C错误;
互联网行业中从事运营岗位的“90后”人数0.1<0.41,故D错误.故选AB.
[备用例5] (1)某中学初中部共有120名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为( )
(A)128 (B)144
(C)174 (D)167
(2)某位教师2018年的家庭总收入为80 000元,各种用途占比统计如图1所示的折线图.2019年收入的各种用途占比统计如图2所示的条形图,已知2019年的就医费用比2018年增加了4 750元,则该教师2019年的家庭总收入为( )
(A)100 000元 (B)95 000元
(C)90 000元 (D)85 000元
解析:(1)初中部女教师有120×70%=84(人),高中部女教师有150×(1-60%)=150×40%=60(人),则女教师共有84+60=144(人).故选B.
(2)由已知得,2018年的就医费用为80 000×10%=8 000(元),所以2019年的就医费用为8 000+4 750=12 750(元),所以该教师2019年的家庭总收入=85 000(元).故选D.
1.从一堆苹果中任取10个,称得它们的质量(单位:g)如下:
125 120 122 105 130 114 116 95 120 134
则样本数据落在[114.5,124.5)内的频率为( C )
(A)0.2 (B)0.3
(C)0.4 (D)0.5
解析:在125,120,122,105,130,114,116,95,120,134这10个数字中,落在[114.5,124.5)内的有116,120,120,122,共4个,所以样本数据在[114.5,124.5)内的频率为=0.4.故选C.
2.已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层随机抽样的方法抽取2%的学生进行调查,则样本量和抽取的高中生近视人数分别为( A )
(A)200,20 (B)100,20
(C)200,10 (D)100,10
解析:该地区中小学生总人数为3 500+2 000+4 500=10 000(人),则样本量为10 000×2%=200(人),其中抽取的高中生近视人数为2 000×2%×50%=20(人).故选A.
3.一组数据3,-1,0,2,x的极差为5,则x= .
解析:由x-(-1)=5,得x=4,由3-x=5,
得x=-2,故x的值为4或-2.
答案:4或-2
4.如图所示是甲、乙、丙、丁四组人数的扇形图,根据扇形图可知丙、丁两组的人数之和为 .
解析:甲组人数是120,占30%,则总人数是=400.而乙组人数是400×7.5%=30,则丙、丁两组人数之和为400-120-30=250.
答案:250
选题明细表
知识点、方法 题号
频率分布表 1,6,8
频率分布直方图的运用 3,4,9,10
折线图、条形图、扇形图及应用 2,5,7,13,14
频率分布直方图综合 11,12
基础巩固
1.容量为100的某个样本数据分成10组,并填写频率分布表,若前7组频率之和为0.79,则剩下3组的频率之和为( B )
(A)0.21% (B)0.21
(C)21 (D)无法确定
解析:样本频率和为1,则剩下3组的频率之和为0.21.故选B.
2.下列四个图中,用来表示不同品种的奶牛的平均产奶量最为合适的是( D )
解析:用统计图表示不同品种的奶牛的平均产奶量,即从图中可以比较各种数量的多少,因此“最为合适”的统计图是条形统计图.注意B选项中的图不能称为统计图.故选D.
3.某学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[20,40)(单位:元)的同学有34人,则n的值为( A )
(A)100 (B)1 000 (C)90 (D)900
解析:由题意,支出在[20,40)的同学有34人,由频率分布直方图可知,支出在[20,40)的同学的频率为(0.01+0.024)×10=0.34,所以n=
=100.故选A.
4.某校高三年级的学生参加了一次数学测试,学生的成绩全部介于60分到140分之间(满分150分),为统计学生的这次考试情况,从中随机抽取100名学生的考试成绩作为样本进行统计.将这100名学生的测试成绩的统计结果按如下方式分成八组:第一组[60,70),第二组[70,80),第三组[80,90),….如图是按上述分组方法得到的频率分布直方图的一部分,则第七组的频数为( A )
(A)8 (B)10 (C)12 (D)16
解析:设第七组的频率为p,p=1-(0.004+0.012+0.016+0.03+0.02+
0.006+0.004)×10=0.08.
故第七组的频数为100×0.08=8.故选A.
5.(多选题)某市某年12月17日至21日期间空气质量呈现重度及以上污染水平,经市政府批准,该市启动了空气重污染红色预警,期间实行机动车“单双号”限行等措施.某报社会调查中心联合问卷网,对
2 400人进行问卷调查,并根据调查结果得到如图所示的扇形图,则下列结论正确的是( ACD )
(A)“不支持”部分所占的比例大约是整体的
(B)“一般”部分所占的人数估计是800人
(C)扇形图中如果圆的半径为2,则“非常支持”部分扇形的面积是π
(D)“支持”部分所占的人数估计是1 100人
解析:“不支持”部分占2π---=,所以比例大约是整体的=
,A正确;“一般”部分所占比例为=,所以占的人数估计是2 400×
=400(人),B不正确;“非常支持”部分占比例=,所以面积是×π×22=,C正确;“支持”部分所占比例=,共有×2 400=1 100,
D正确.故选ACD.
6.一个频数分布表(样本量为50)不小心被损坏了一部分,只记得样本中数据在[20,60)内的频率为0.6,则估计样本在[40,50),[50,60)内的数据个数之和是 .
解析:根据题意,设分布在[40,50),[50,60)内的数据个数分别为x,y.
因为样本中数据在[20,60)内的频率为0.6,样本量为50,
所以=0.6,解得x+y=21.
即样本在[40,50),[50,60)内的数据个数之和为21.
答案:21
能力提升
7.某高中有1 300名高一学生,1 200名高二学生,1 500名高三学生,其性别比例如图所示,则该校女生人数是( A )
(A)1 660 (B)1 960 (C)2 040 (D)2 340
解析:由扇形图可知女生人数n=1 300×40%+1 200×45%+1 500×40%=
1 660.
故选A.
8.将一个样本量为100的数据分组,各组的频数如下:[17,19),1;
[19,21),1;[21,23),3;[23,25),3;[25,27),18;[27,29),16;
[29,31),28;[31,33],30.根据样本频率分布,估计小于29的数据大约占总体的( B )
(A)58% (B)42%
(C)40% (D)16%
解析:根据样本频率分布,估计小于29的数据大约占总体的百分比为×100%=42%.故选B.
9.(多选题)统计某校n名学生的某次数学同步练习成绩,根据成绩分数依次分成六组:[90,100),[100,110),[110,120),[120,130),
[130,140),[140,150],得到频率分布直方图如图所示,若不低于140分的人数为110,则下列说法正确的是( AC )
(A)m=0.031
(B)n=800
(C)100分以下的人数为60
(D)分数在区间[120,140)的人数占大半
解析:由题意,根据频率分布直方图的性质得10×(m+0.020+0.016+
0.016+0.011+0.006)=1,解得m=0.031.故A正确;因为不低于140分的频率为0.011×10=0.11,所以n==1 000,故B错误;由100分以下的频率为0.006×10=0.06,所以100分以下的人数为1 000×0.06=
60,故C正确;分数在区间[120,140)的人数占0.031×10+0.016×10=
0.47,应该是占小半.故D错误.故选AC.
10.某地区为了解小学生的身高发育情况,从某小学随机抽取100名同学,将他们的身高(单位:cm)数据绘制成频率分布直方图(如图).若a∶b=7∶1,由图可知,身高落在[110,130)范围内的学生人数是( D )
(A)35 (B)24 (C)46 (D)65
解析:因为10(a+b)=1-10×(0.010+0.020+0.030)=0.4,所以a+
b=0.04,
又a∶b=7∶1,解得a=0.035,所以身高落在[110,130)内的频率为10×(0.035+0.030)=0.65,
所以身高落在[110,130)范围内的学生人数为100×0.65=65.故选D.
11.(多选题)某机构调查了10 000名当地职工的月收入情况,并根据所得数据画出了如图所示的样本的频率分布直方图.
下列说法正确的是( ACD )
(A)月收入低于5 000元的职工有5 500名
(B)如果个税起征点调整至5 000元,估计有50%的当地职工会被征税
(C)月收入高于或等于7 000元的职工约为当地职工的5%
(D)根据此次调查,为使60%以上的职工不用缴纳个税,起征点应位于[5 000,6 000)内
解析:月收入低于5 000元的职工有10 000×(0.000 1+0.000 2+
0.000 25)×1 000=5 500(名),A正确;如果个税起征点调整至
5 000元,由(0.000 25+0.000 15+0.000 05)×1 000×100%=45%,可估计有45%的当地职工会被征税,B不正确;月收入高于或等于
7 000元的职工约占0.000 05×1 000×100%=5%,C正确;月收入低于5 000元的频率为0.55,低于6 000元的频率为0.8,D正确.故选ACD.
12.为了了解某校高三美术生的身体状况,抽查了部分美术生的体重(单位:kg),将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前3个小组的频率之比为1∶3∶5,第2个小组的频数为15,则前3个小组的频率之和为 ,被抽查的美术生的人数是 .
解析:设被抽查的美术生的人数为n,因为后2个小组的频率之和为(0.037 5+0.012 5)×5=0.25,所以前3个小组的频率之和为0.75.又前3个小组的频率之比为 1∶3∶5,第2个小组的频数为15,所以前3个小组的频数分别为5,15,25,所以n==60.
答案:0.75 60
应用创新
13.甲、乙、丙三家企业产品的成本分别为10 000,12 000,15 000,其成本构成如图所示,则关于这三家企业下列说法错误的是( C )
(A)成本最大的企业是丙企业
(B)费用支出最高的企业是丙企业
(C)支付工资最少的企业是乙企业
(D)材料成本最高的企业是丙企业
解析:甲企业的成本为10 000,乙企业的成本为12 000,丙企业的成本为15 000,故成本最大的是丙企业,故A正确;甲企业费用支出为
10 000×5%=500,乙企业费用支出为12 000×17%=2 040,丙企业费用支出为15 000×15%=2 250,故费用支出最高的企业是丙企业,故B正确;甲企业支付工资为10 000×35%=3 500,乙企业支付工资为
12 000×30%=3 600,丙企业支付工资为15 000×25%=3 750,故甲企业支付的工资最少,故C错误;甲企业材料成本为10 000×60%=6 000,乙企业材料成本为12 000×53%=6 360,丙企业材料成本为15 000×
60%=9 000,故材料成本最高的企业是丙企业,故D正确.故选C.
14.某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩(总分为100分)按照[40,50),[50,60),[60,70),[70,80),
[80,90),[90,100]分成6组,得到如图所示的频率分布直方图.已知不及格的人数比优秀(不低于90分)的人数多60,则高一年级的学生人数为( C )
(A)200 (B)300
(C)600 (D)700
解析:设高一年级共有学生x人.不及格的学生的频率为(0.005+
0.015)×10=0.2,优秀的学生的频率为0.010×10=0.1.由题意得(0.2-0.1)×x=60,解得x=600.故选C.9.2.2 总体百分位数的估计
[目标导航]
核心知识目标 核心素养目标
1.理解百分位数的统计含义. 2.结合实例,能用样本估计百分位. 1.在百分位数的计算过程中,培养数学运算和数据分析的核心素养. 2.通过百分位数的应用过程中,要把实际问题转化为数学问题,加强数学建模、数学运算和数据分析的核心素养.
1.第p百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步:按从小到大排列原始数据;
第2步:计算i=n×p%;
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
25%,50%,75%这三个分位数把一组数据由小到大排列后的数据分成四等份,因此称为四分位数.
1.某病患者8人的潜伏期(单位:天)分别为2,3,3,4,7,8,10,18,则它们的第50百分位数是( D )
(A)4或7 (B)4
(C)7 (D)5.5
解析:第50百分位数即中位数,为×(4+7)=5.5.故选D.
2.数据13,14,16,17,19,23,27,30的第70百分位数是( D )
(A)14 (B)17 (C)19 (D)23
解析:因为8×70%=5.6,故70%分位数是第6项数据23.故选D.
3.已知100个数据的第55百分位数是10,则下列说法正确的是( C )
(A)这100个数据中一定有55个数小于或等于10
(B)把这100个数据从小到大排列后,10是第55个数据
(C)把这100个数据从小到大排列后,10是第55个数据和第56个数据的平均数
(D)把这100个数据从小到大排列后,10是第54个数据和第55个数据的平均数
解析:因为100×55%=55为整数,所以第55个数据和第56个数据的平均数为第55百分位数,是10.故选C.
4.某同学在7天内每天参加体育锻炼的时间(单位:分)为65,65,66,74,73,81,85,则它们的第三四分位数是 .
解析:从小到大排序为65,65,66,73,74,81,85,第三四分位数即75%分位数,7×75%=5.25,所以第三四分位数是第6项数据81.
答案:81
求数据的第p百分位数
[例1] 抽查30袋洗衣粉,测量它们的净重(单位:g)如下:
482 485 485 508 508 509 497 497
498 499 500 485 486 488 490 501
502 505 490 491 492 493 495 495
495 496 500 506 508 509
估计第25,75百分位数.
解:把30个数据从小到大排列为
482 485 485 485 486 488 490 490
491 492 493 495 495 495 496 497
497 498 499 500 500 501 502 505
506 508 508 508 509 509
由25%×30=7.5,75%×30=22.5,
可知样本数据的第25,75百分位数,分别为第8,23项数据,
所以估计30袋洗衣粉第25,75百分位数分别为490,502.
求一组数据的百分位数时,一定要先将该组数据按照从小到大的顺序排列.
即时训练1-1:已知一组数据按从小到大排列为0,0,0,0,1,2,2,2,3,3,5,6,7,8,9,10,那么数据的25%分位数是 ,数据的75%分位数是 .
解析:因为这组数据有16个数,所以16×25%=4,16×75%=12,
所以数据的25%分位数是==0.5,
数据的75%分位数是==6.5.
答案:0.5 6.5
[备用例1] 学校庆国庆唱红歌比赛,12名评委对高一(5)班评分如下:
90 94 95 98 99 92 93 95 90 92 96 96
估计第30,80百分位数.
解:将12个分数从小到大排列为
90 90 92 92 93 94 95 95 96 96 98 99
由30%×12=3.6,80%×12=9.6,
可知样本数据的第30,80百分位数分别为第4,10项数据,
所以所求第30,80百分位数分别为92,96.
根据频率分布直方图求数据的第p百分位数
[例2] 某中学举行计算机知识竞赛,现将高一参赛学生的成绩(单位:分)进行整理后分成五组绘制成如图所示的频率分布直方图.
估计参赛学生的成绩的25%,90%分位数.
解:由直方图得,从左到右的第一、第二、第三、第四、第五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
成绩在60分以下的学生所占比例为30%>25%,
所以25%分位数一定位于[50,60)内.
由50+10×≈58.3,可以估计参赛学生的成绩的25%分位数为58.3;
成绩在80分以下的学生所占比例为30%+40%+15%=85%<90%,
成绩在90分以下的学生所占比例为30%+40%+15%+10%=95%>90%,
所以90%分位数一定位于[80,90)内.
由80+10×=85,可以估计参赛学生的成绩的90%分位数为85.
变式训练2-1:本例中,计算学生成绩的75%分位数.
解:由上述过程可知,学生成绩的75%分位数在第三组,由70+10×≈73.3,
所以估计参赛学生的成绩的75%分位数为73.3.
根据频率分布直方图计算样本数据的百分位数,首先要理解频率分布直方图中各组数据频率的计算方法,其次估计百分位数在哪一组,再应用方程的思想方法及比例法,设出百分位数,利用比例列方程求解.
即时训练2-1:为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图所示.
估计样本数据的75%分位数为 .
解析:依题意,产品数量在[45,55)的人数为0.020×20×10=4,占总数的20%,
产品数量在[55,65)的人数为0.040×20×10=8,占总数的40%,
产品数量在[65,75)的人数为0.025×20×10=5,占总数的25%,
产品数量在[75,85)的人数为0.010×20×10=2,占总数的10%,
产品数量在[85,95)的人数为0.005×20×10=1,占总数的5%.
所以75%分位数应位于[65,75)内,
由65+10×=71.
所以估计样本数据的75%分位数为71.
答案:71
[备用例2] 为了解学生在课外读物方面的支出情况(单位:元),抽取了100个同学进行调查,结果显示这些同学的支出都在[10,50),其中支出在[30,50)的同学有67人,其频率分布直方图如图所示,估计学生课外读物支出的样本数据的65%分位数.
解:由频率分布直方图可得支出在[40,50)的频率为1-(0.01+0.023+0.037)×10=0.3,
又支出在[30,50)的同学有67人,支出在[30,40)的频率为0.37,
因此,支出在[40,50)的同学共有
67×=30(人).
所以65%分位数应位于[30,40)内,因为课外读物支出在[0,40)的占70%,
所以30+10×≈38.65.所以估计学生课外读物支出的样本数据的65%分位数为38.65.
1.(多选题)下列说法正确的是( AC )
(A)若一组样本数据各不相等,则其第35百分位数大于第25百分位数
(B)若一组样本数据的第20百分位数是70,则在这组数据中有20%的数据大于70
(C)若一组样本数据的第20百分位数是35,则在这组数据中至少有80%的数据大于或等于35
(D)求一组数据的百分位数,可以将该组数据杂乱无章的排列
解析:根据百分位数的概念,选项AC正确;B错误.若一组样本数据的第20百分位数是70,则在这组数据中有20%的数据小于或等于70;D错误.求一组数据的百分位数,必须将该组数据按照从小到大的顺序排列.故选AC.
2.高二(1)班7人宿舍中每个同学的身高(单位:cm)分别为170,168,172,172,175,176,180,求这7人身高的第60百分位数为( B )
(A)168 (B)175 (C)172 (D)176
解析:将7人的身高从低到高排列:168,170,172,172,175,176,180.
因为7×60%=4.2,所以第5个数据为所求的第60百分位数,
即这7人的第60百分位数为175.故选B.
3.某学校组织学生参加知识竞赛,成绩(单位:分)的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100],则60分为成绩的第 百分位数.
解析:因为[20,40),[40,60)的频率为(0.005+0.01)×20=0.3,所以60分为成绩的第30百分位数.
答案:30
4.某良种培育基地正在培育一种小麦新品种,种植了25亩(1亩≈666.67平方米),所得亩产量(单位:kg)数据如下:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.样本数据的30%分位数为 .
解析:将这25个数按从小到大排列为357,359,367,368,375,388,
392,399,400,405,412,414,415,421,423,423,427,430,430,434,
443,445,445,451,454.
由30%×25=7.5,所以样本数据的30%分位数为第 8个数字,即399.
答案:399
选题明细表
知识点、方法 题号
总体百分位估计 1,2,3,4,6,11
频率分布直方图、折线图的百分位估计 7,8,12
综合应用 5,9,10,13,14
基础巩固
1.数据1,2,3,4,5,6的60%分位数为( D )
(A)3 (B)3.5 (C)3.6 (D)4
解析:由6×60%=3.6,所以数据1,2,3,4,5,6的60%分位数是第四个数.故选D.
2.“幸福感指数”是指某个人主观地评价他对自己目前生活状态的满意程度的指标,常用区间[0,10]内的一个数来表示,该数越接近10表示满意度越高.现随机抽取10位市民,他们的幸福感指数为3,4,5,5,
6,7,7,8,9,10,则这组数据的75%分位数是( C )
(A)7 (B)7.5 (C)8 (D)8.5
解析:数据3,4,5,5,6,7,7,8,9,10共10个,且10×75%=7.5,所以75%分位数是第8个数即8.故选C.
3.对某自行车赛手在相同条件下进行了12次测试,测得其最大速度(单位:m/s)的数据如下:27,38,30,36,35,31,33,29,38,34,28,36,则他的最大速度的第一四分位数是( B )
(A)29 (B)29.5 (C)30 (D)36
解析:数据从小到大排列为27,28,29,30,31,33,34,35,36,36,38,38,
12×25%=3,所以最大速度的第一四分位数是=29.5.故选B.
4.已知一组数据按从小到大排列为1,1,2,2,3,3,4,5,7,7,8,10,那么这组数据的25%分位数、75%分位数分别是( B )
(A)3,9 (B)2,7 (C)9,3 (D)7,2
解析:因为这组数据有12个数,所以12×25%=3,12×75%=9,
所以数据的25%分位数是==2,
数据的75%分位数是==7.
故选B.
5.某公园对“十一”黄金周7天假期的游客人数(单位:万人)进行了统计,如下表:
日期 10月 1日 10月 2日 10月 3日 10月 4日 10月 5日 10月 6日 10月 7日
游客 人数 /万人 1.5 2.2 2.2 3.8 1.5 2.2 0.6
则该公园“十一”黄金周7天假期游客人数的平均数为 ,第25百分位数是 .
解析:游客人数的平均数=×(1.5+2.2+2.2+3.8+1.5+2.2+0.6)=2(万人).将数据由小到大排列,因为 7×25%=1.75,所以这组数据的第25百分位数为 1.5万人.
答案:2万人 1.5万人
6.已知一组数据为16,18,1,2,3,3,4,8,4,5,6,2,16,2,7,8,12,15,9,
10,那么数据的35%分位数是 ,数据的50%分位数是 .
解析:这组数据按从小到大排列为1,2,2,2,3,3,4,4,5,6,7,8,8,
9,10,12,15,16,16,18.
因为这组数据有20个数,所以20×35%=7,20×50%=10,
所以数据的35%分位数是==4,
数据的50%分位数是==6.5.
答案:4 6.5
能力提升
7.如图所示是某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,由图可知这10天最低气温的第80百分位数是( D )
(A)-2 (B)0 (C)1 (D)2
解析:由折线图可知,这10天的最低气温按照从小到大的排列为-3,
-2,-1,-1,0,0,1,2,2,2,因为共有10个数据,所以10×80%=8,是整数,则这10天最低气温的第80百分位数是=2.故选D.
8.某班的全体学生参加消防安全知识竞赛,成绩(单位:分)的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),
[80,100],估计本班学生的消防安全知识成绩的第82百分位数是( C )
(A)75 (B)80 (C)88 (D)84
解析:由直方图得,从左到右的第一、第二、第三、第四小组的频率分别是0.10,0.20,0.40,0.30.
第一、第二、第三小组的频率之和为0.10+0.20+0.40=0.70<0.90,
所以第82百分位数处在第四组[80,100]内,
为80+20×=88.故选C.
9.(多选题)已知一组数据按从小到大排列为0,4,5,x,8,10,12,15,且这组数据的中位数是7,则( ABC )
(A)x=6
(B)该数据的平均数为7.5
(C)该数据的25%分位数是4.5
(D)该数据的25%分位数是6
解析:因为中位数为7,所以=7,即x=6,
所以该组数据的平均数为×(0+4+5+6+8+10+12+15)=7.5.
因为该组数据有8个数,所以8×25%=2,
所以数据的25%分位数是==4.5.
故选ABC.
10.(多选题)某校高三年级共有800名学生参加了数学测验(满分150分),已知这800名学生的数学成绩均不低于90分,将这800名学生的数学成绩分组并得到频率分布直方图(如图所示),则下列说法中正确的是( BCD )
(A)a=0.045
(B)这800名学生中数学成绩在110分以下的人数为160人
(C)这800名学生数学成绩的众数可近似认为是125
(D)这800名学生数学成绩的第75百分位数约为128.6
解析:(0.01+0.01+0.025+a+0.015+0.005)×10=1,解得a=0.035,故A错误;成绩在110分以下的人数为(0.01+0.01)×10×800=160,故B正确;由频率分布直方图可知众数可近似认为是125,故C正确;成绩的第75百分位数约为120+×10≈128.6,故D正确.故选BCD.
11.某中学从高一年级中抽取了30名男生,测量其体重,数据如下(单位:kg):
62 60 59 59 59 58 58 57 57 57
56 56 56 56 56 56 55 55 55 54
54 54 53 53 52 52 51 50 49 48
(1)求这30名男生体重的25%,75%分位数;
(2)估计本校高一男生体重的第80百分位数.
解:将数据按从小到大排序,可得
48 49 50 51 52 52 53 53 54 54
54 55 55 55 56 56 56 56 56 56
57 57 57 58 58 59 59 59 60 62
(1)由25%×30=7.5,75%×30=22.5,可知它们的25%,75%分位数是第8,23项数据,分别为53,57.
(2)由80%×30=24,可知第80百分位数为第24项与第25项数据的平均数,即×(58+58)=58.据此可以估计本校高一男生体重的第80百分位数为58.
12.某市为了了解人们对“中国梦”伟大构想的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:
[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有5人.
(1)求x;
(2)求抽取的x人的年龄的50%分位数(结果保留整数);
(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99,求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对“一带一路”的认知程度,并谈谈你的感想.
解:(1)第一组频率为0.01×5=0.05,
所以x==100.
(2)由题图可知年龄低于30岁的所占比例为40%,年龄低于35岁的所占比例为70%,所以抽取的x人的年龄的50%分位数在[30,35)内,由30+5×=≈32,所以抽取的x人的年龄的50%分位数为32.
(3)把参赛的10人的成绩按从小到大的顺序排列:88,90,92,92,95,
96,96,97,98,99,
计算10×20%=2,所以这10人成绩的20%分位数为=91,这10人成绩的平均数为×(88+90+92+92+95+96+96+97+98+99)=94.3.
评价:从第20百分位数和平均数来看,参赛人员的认知程度很高.
感想:结合本题和实际,符合社会主义核心价值观即可.
应用创新
13.如图是某市2020年4月1日至4月7日每天最高、最低气温(单位:℃)的折线统计图,这7天的日最高气温的第10百分位数为 ,
日最低气温的第80百分位数为 .
解析:由折线图可知,把日最高气温按照从小到大排序,得24,24.5,
24.5,25,26,26,27.
因为共有7个数据,所以7×10%=0.7,不是整数,所以这7天日最高气温的第10百分位数是第1个数据,为24 ℃.
把日最低气温按照从小到大排序,得12,12,13,14,15,16,17.
因为共有7个数据,所以7×80%=5.6,不是整数,所以这7天日最低气温的第80百分位数是第6个数据,为16 ℃.
答案:24 ℃ 16 ℃
14.某市环保局在2019年对该市进行为期一年的空气质量检测,得到每天的空气质量指数,从中随机抽取50个作为样本进行分析报告,样本数据分组区间为[0,10),[10,20),[20,30),[30,40),[40,50),由此得到样本的空气质量指数频率分布直方图,如图所示.则a的值为
,这一年度的空气质量指数的第80百分位数为 .
解析:由题意,得10×(0.032+0.03+a+0.01+0.008)=1,
解得a=0.02.
因为(0.01+0.02+0.032)×10=0.62<0.8,
0.62+0.03×10=0.92>0.8,
所以第80百分位数应位于[30,40)内.
由30+10×=36,可以估计这一年度的空气质量指数的第80百分位数约为36.
答案:0.02 369.2.3 总体集中趋势的估计
[目标导航]
核心知识目标 核心素养目标
1.了解数据的平均数、中位数和众数的概念. 2.会求数据的平均数、中位数和众数. 1.通过平均数、中位数和众数的运算,培养数学运算和数据分析的核心素养. 2.通过平均数、中位数和众数的应用,强化数学建模、数学运算和数据分析的核心素养.
1.平均数、中位数、众数的概念
平均数:数据x1,x2,x3,…,xn的平均数为=.
中位数:一般地,如果一组数据有奇数个数,且按照从小到大排列后为x1,x2,…,x2n+1,则称xn+1为这组数据的中位数.
如果一组数据有偶数个数,且按照从小到大排列后为x1,x2,…,x2n,则称为这组数据的中位数.
众数:一组数据中,某个数据出现的次数称为这个数据的频数,出现的次数最多的数据称为这组数据的众数.
2.众数、中位数和平均数的比较
名称 优点 缺点
平均数 平均数与每一个样本数据有关,对数据有“取齐”的作用,代表了一组数据的数值平均水平 样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变.数据越“极端”,对平均数的影响越大,因此一般的比赛记分中,常去掉“最高分”与“最低分”
中位数 中位数仅与数据的排列位置有关.某些数据的变动对中位数没有影响,不受少数几个极端数据的影响,中位数只有唯一一个 对极端值不敏感
众数 众数反映各数据出现的频率,其大小只与这组数据中的部分数据有关,它是样本数据的最大集中点 一组数据的众数可能有一个,也可能有多个,若数据中有两个或两个以上出现得最多,且出现次数一样多,则这些数据都是众数,若一组数据中每个数据出现的次数一样多,则没有众数,可见一个样本的众数可能多个,也可能没有
3.中位数、平均数与频率分布直方图的关系
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图①),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图②),那么平均数大于中位数;如果直方图在左边“拖尾”(图③),那么平均数小于中位数.也就是说,和中位数相比,平均数总是在“长尾巴”那边.
1.一组样本数据为:18,22,11,13,13,16,9,11,18,13,26,则这组数据的众数为( C )
(A)11 (B)12 (C)13 (D)18
解析:把这组数据按从小到大排列为9,11,11,13,13,13,16,18,18,22,26,则可知其众数为13.故选C.
2.已知一组数据:1,2,2,3,3,3,则这组数据的中位数是( C )
(A)2 (B) (C) (D)3
解析:数据从小到大排列为1,2,2,3,3,3,则这组数据的中位数是×(2+3)=.故选C.
3.假期里小菲和小琳结伴去超市买水果,三次购买的草莓价格和数量如表,从平均价格看,买得比较划算的是( C )
草莓价格/(元/kg) 12 10 8
小菲购买的数量/kg 2 2 2
小琳购买的数量/kg 1 2 3
(A)一样划算 (B)小菲划算
(C)小琳划算 (D)无法比较
解析:因为小菲购买的平均价格是(12×2+10×2+8×2)÷(2+2+2)=10(元/kg),小琳购买的平均价格是(12×1+10×2+8×3)÷(1+2+3)=(元/kg),所以小琳划算.故选C.
4.在某市2021年“创建文明城市”知识竞赛中,考评组从中抽取200份试卷进行分析,其分数的频率分布直方图如图所示,则这200份试卷的平均分数为 分.
解析:根据频率分布直方图可知平均分数为
45×0.01×10+55×0.03×10+65×0.04×10+75×0.02×10=62(分).
答案:62
样本数据的平均数、中位数和众数
[例1] 某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄(单位:岁)如下:
甲群 13,13,14,15,15,15,15,16,17,17;
乙群 54,3,4,4,5,6,6,6,6,56.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁 其中哪个统计量能较好地反映甲群市民的年龄特征
(2)乙群市民年龄的平均数、中位数和众数各是多少岁 其中哪个统计量能较好地反映乙群市民的年龄特征
解:(1)甲群市民年龄的平均数为
=
15(岁),中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为
=15(岁),
中位数为6岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响大;中位数不受几个极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.
(3)求样本数据的中位数和众数时,把数据按照从小到大的顺序排列后,按照其求法进行.
即时训练1-1:一般体操比赛的计分规则为:当评委亮分后,其成绩先去掉一个最高分,去掉一个最低分,再计算剩下分数的平均值,这是因为( )
(A)减少计算量 (B)避免故障
(C)剔除异常值 (D)活跃赛场气氛
解析:因为在体操比赛的评分中使用的是平均分,计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素给出过高或过低的分数对选手的得分造成较大的影响,从而降低误差,尽量公平.故选C.
即时训练1-2:(1)(多选题)小华所在的年级一班共有50名学生,一次体检测量了全班学生的身高,由此求得该班学生的平均身高是1.65 m,而小华的身高是1.66 m,则下列说法正确的是( )
(A)1.65 m是该班学生身高的平均水平
(B)班上比小华高的学生人数不会超过25人
(C)这组身高数据的中位数不一定是1.65 m
(D)这组身高数据的众数不一定是1.65 m
(2)已知一组数据按从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,则这组数据的平均数为 .
解析:(1)由平均数所反映的意义知A选项正确,由中位数与平均数的关系确定C选项正确,由众数与平均数的关系确定D选项正确,由于平均数受一组数据中的极大、小值的影响,故B选项错误.故选ACD.
(2)因为-1,0,4,x,7,14的中位数为5,
所以=5,所以x=6.
所以这组数据的平均数是=5.
答案:(1)ACD (2)5
[备用例1] 高一(3)班有男同学27名,女同学21名,在一次语文测验中,男同学的平均分是82分,中位数是75分,女同学的平均分是80分,中位数是80分.
(1)求这次测验全班的平均分(精确到0.01);
(2)估计全班成绩在80分以下(含80分)的同学至少有多少人;
(3)分析男同学的平均分与中位数相差较大的主要原因.
解:(1)利用平均数计算公式得=×(82×27+80×21)≈81.13(分).
(2)因为男同学成绩的中位数是75分,
所以至少有14人得分不超过75分.
又因为女同学成绩的中位数是80分,
所以至少有11人得分不超过80分.
所以估计全班至少有25人得分低于80分(含80分).
(3)男同学的平均分与中位数的差别较大,说明男同学的成绩中两极分化现象严重,分数高的和低的相差较大.
由频率分布直方图求平均数、中位数和众数
[例2] 某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
解:(1)由题干图知众数为=75,则这次测试数学成绩的众数为75分.
(2)由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,设为x,得0.1=0.03×(x-70),所以x≈73.3,即这次测试数学成绩的中位数约为73.3分.
变式训练2-1:若例2的条件不变,求数学成绩的平均分.
解:由题干图知这次数学成绩的平均数为×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72(分).
变式训练2-2:若例2条件不变,求80分以下的学生人数.
解:分数在[40,80)内的频率为(0.005+0.015+0.020+0.030)×10=0.7,
所以80分以下的学生人数为80×0.7=56.
用频率分布直方图估计总体数字特征的方法
(1)众数:最高小长方形底边中点的横坐标.
(2)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.
即时训练2-1:(1)200辆汽车通过某一段公路时的时速的频率分布直方图如图所示,则时速的众数、中位数的估计值为( )
(A)62 km,62.5 km (B)65 km,62 km
(C)65 km,62.5 km (D)62.5 km,62.5 km
(2)为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量得到频率分布直方图如图.
则①这20名工人中一天生产该产品的数量在[55,75)的人数是 ;
②这20名工人中一天生产该产品的数量的中位数为 ;
③这20名工人中一天生产该产品的数量的平均数为 .
解析:(1)因为最高的矩形为第三个矩形,
所以时速的众数的估计值为65 km.
前两个矩形的面积和为(0.01+0.03)×10=0.4.
因为0.5-0.4=0.1,×10=2.5,
所以时速的中位数的估计值为60+2.5=62.5 (km).故选C.
(2)①(0.04×10+0.025×10)×20=13.
②因为0.2+0.4>0.5,所以中位数一定在[55,65]之间,设中位数为x,则0.2+(x-55)×0.04=0.5,解得x=62.5.
③平均数为0.2×50+0.4×60+0.25×70+0.1×80+0.05×90=64.
答案:(1)C (2)13 62.5 64
[备用例2] 一批乒乓球,随机抽取100个进行检查,球的直径频率分布直方图如图.试估计这个样本的众数、中位数和平均数.
解:众数为=40(mm);
中位数为39.99+=39.998(mm);
四个矩形的面积分别是0.02×5=0.1,0.02×10=0.2,0.02×25=0.5,0.02×10=0.2.
平均数为39.96×0.1+39.98×0.2+40×0.5+40.02×0.2=39.996(mm).
对实际问题的决策
[例3] 小亮从自家苹果园中一棵树上任取了20个苹果,并得到它们的质量(单位:g)数据分布表如下:
分组 90~ 100 100~ 110 110~ 120 120~ 130 130~ 140 140~ 150
频数 1 2 3 10 3 1
(1)请根据这些数据画出该样本的条形统计图.
(2)如果用一个量来代表该树上苹果的规格,那么在中位数、平均数和众数中,哪个量合适 试讨论表中的数据,估计该苹果园苹果规格的合理性.
解:(1)由题可得条形图如图所示.
(2)根据已知数据和(1)中的频数分布直方图知,质量最多的是120~130 g,共10个,所以用众数作为该果园苹果的规格比较合适.
由该果园苹果树的年龄不同,苹果树上的苹果数存在差距,所以不能用这棵苹果树上的苹果质量估计该苹果园苹果规格的合理性.
平均数反映出样本数据的较多信息,对样本中的极端值更加敏感.
平均数、中位数和众数都是刻画“中心位置”的量,从不同的角度刻画了一组数据的集中趋势.
即时训练3-1:某电冰箱专卖店出售容积为182 L,185 L,228 L,268 L四种型号的同一品牌的冰箱,每出售一台,售货员就做一个记录,月底得到一组由15个268,66个228,18个185和11个182组成的数据.
(1)这组数据的平均数有实际意义吗
(2)这组数据的中位数、众数分别是多少
(3)专卖店总经理关心的是中位数还是众数
解:(1)这组数据的平均数没有实际意义,对专卖店经营没有任何参考价值.
(2)这组数据共有110个,中位数为228,众数为228.
(3)专卖店总经理最关心的是众数,众数是228,说明容积为228 L型号的冰箱销售量最大,它能为专卖店带来较多的利润,所以这种型号的冰箱要多进些.
[备用例3] 某工厂人员及周工资构成如表:
人员 经理 管理人员 高级技工 工人 学徒 合计
周工 资/元 2 200 1 250 1 220 1 200 490
人数 1 6 5 10 1 23
(1)求工厂人员工资的众数、中位数、平均数.
(2)平均数能客观地反映该工厂的工资水平吗 为什么
解:(1)由题中表格可知众数为1 200,中位数为1 220,平均数为(2 200+1 250×6+1 220×5+1 200×10+490)÷23=1 230(元/周).
(2)虽然平均数为1 230元/周,但从题干表格中所列出的数据可见,只有经理和6名管理人员的周工资在平均数以上,其余人的周工资都在平均数以下,故用平均数不能客观真实地反映该厂的工资水平.
1.在描述一组数据的集中趋势时,应用最广泛的是( C )
(A)众数 (B)中位数
(C)平均数 (D)全体数据
解析:由于平均数反映的是这组数据的平均大小,使用最广泛.故选C.
2.下列说法正确的是( D )
(A)一个样本的众数、平均数和中位数都是唯一的
(B)样本的平均数是频率分布直方图中最高长方形的中点对应的数据
(C)若改变一组数据中其中的一个数,则这组数据的平均数、中位数、众数都会发生改变
(D)一组数据的数字特征在原始数据中出现的是众数
解析:由于一个样本的平均数和中位数是唯一的.一个样本的众数可能多个,也可能没有,因此A错误;频率分布直方图中样本的平均数等于每个小矩形的面积乘小矩形底边中点的横坐标之和,因此B错误;若改变一组数据中的一个数,则这组数据的平均数一定会改变,而中位数与众数可能不变.
由于众数是在一组数据中出现次数最多的数,所以一定会在原始数据中出现.故选D.
3.统计学校排球队员的年龄,发现有12,13,14,15四种年龄,统计结果如下表:
年龄/岁 12 13 14 15
人数/个 2 4 6 8
根据表中信息可以判断该排球队员年龄的平均数、众数、中位数分别为( B )
(A)13,15,14 (B)14,15,14
(C)13.5,15,14 (D)15,15,15
解析:排球队员年龄的平均数为
==14,故平均数是14,15出现了8次,出现的次数最多,故众数是15.从小到大排列后,排在第10,11两个位置的数是14,14,故中位数是14.故选B.
4.有5个数据分别为2,4,5,6,8,则这5个数据的平均数是 .
解析:这5个数据的平均数为==5.
答案:5
选题明细表
知识点、方法 题号
众数、中位数 1,2,3,8,11,13
平均数 4,6,14
众数、平均数、中位数的综合运用 5,7,9,10,12
基础巩固
1.在某次考试中,共有100个学生参加考试,如果某题的得分情况
如表:
得分 0分 1分 2分 3分 4分
百分率(%) 37.0 8.6 6.0 28.2 20.2
那么这些得分的众数是( C )
(A)37.0% (B)20.2% (C)0分 (D)4分
解析:由题意得,得分为0分的百分率为37.0%,所占比例最大,所以这些得分的众数是0分.故选C.
2.从某中学抽取10名同学,得到他们的数学成绩(单位:分)如下:82,
85,88,90,92,92,92,96,96,98,则可得这10名同学数学成绩的众数、中位数分别为( A )
(A)92,92 (B)92,96
(C)96,92 (D)92,90
解析:将该组数据按从小到大的顺序排列为82,85,88,90,92,92,92,
96,96,98,所以这组数据的众数为92,中位数为×(92+92)=92.故
选A.
3.甲、乙两人进行5轮投篮训练,每轮投篮10次,每轮投进的次数如下.甲:7,7,9,8,8.乙:4,7,7,7,9.若甲的中位数为a,乙的众数为b,则a+b等于( B )
(A)14 (B)15 (C)16 (D)17
解析:甲组数据按从小到大排列为7,7,8,8,9,它的中位数是a=8,
乙组数据为4,7,7,7,9,它的众数为b=7,所以a+b=15.故选B.
4.已知一组数据x1,x2,x3,x4,x5的平均数是2,那么另一组数据2x1-
3,2x2-3,2x3-3,2x4-3,2x5-3的平均数为( A )
(A)1 (B)2 (C)3 (D)4
解析:一组数据x1,x2,x3,x4,x5的平均数是2,那么另一组数据2x1-3,
2x2-3,2x3-3,2x4-3,2x5-3的平均数为2×2-3=1.故选A.
5.某中学举行信息技术知识竞赛,现将高一参赛学生的成绩进行整理后分成五组,绘制成如图所示的频率分布直方图.已知图中从左到右的第一、第二、第三、第四、第五小组的频率分别是0.30,0.40,0.15,
0.10,0.05,则高一参赛学生的成绩的众数、中位数、平均成绩分别为( A )
(A)65 65 67 (B)65 70 67
(C)70 65 70 (D)65 65 70
解析:用频率分布直方图中最高矩形所在的区间的中点值作为众数的近似值,得出众数为65.
因为第一个小矩形的面积为0.3,
设第二个小矩形底边的一部分长为x,
则x×0.04=0.2,解得x=5,
所以中位数为60+5=65.
依题意,利用平均数的计算公式,
可得平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,
所以参赛学生的平均成绩为67分.故选A.
6.某班级统计一次数学测试后的成绩,并制成了如下的频率分布表,根据该表估计该班级的数学测试平均数为 分.
分组 [60,70) [70,80) [80,90) [90,100)
人数 5 15 20 10
频率 0.1 0.3 0.4 0.2
解析:平均数=65×0.1+75×0.3+85×0.4+95×0.2=82(分).
答案:82
7.如图是某校随机抽取100名学生数学月考成绩的频率分布直方图,据此估计该校本次月考数学成绩的总体情况(同一组中的数据用该组区间的中点值为代表),下列说法正确的是( D )
(A)平均数为74
(B)众数为60或70
(C)中位数为75
(D)该校数学月考成绩80以上的学生约占25%
解析:对于A,=0.005×10×55+0.04×10×65+0.03×10×75+
0.02×10×85+0.005×10×95=73,故A不正确;
对于B,由频率分布直方图可知众数为65,故B不正确;
对于C,设中位数为x,则0.005×10+0.04×10+0.03×(x-70)=0.5,
解得x=71,故C不正确;
对于D,数学月考成绩80以上的学生约占
0.02×10+0.005×10=0.25,
即为25%,故D正确.
故选D.
8.有一批种子,对于一颗种子来说,它可能1天发芽,也可能2天发芽,……如表是不同发芽天数的种子数的记录:
发芽天数 1 2 3 4 5 6 7 ≥8
种子数 8 26 22 24 12 4 2 0
统计每颗种子发芽天数得到一组数据,则这组数据的中位数是( B )
(A)2 (B)3 (C)3.5 (D)4
解析:将这98颗种子发芽天数从左到右按照从小到大的顺序排成一列,可知正中间两颗种子的发芽天数都是3,所以中位数为=3.故
选B.
能力提升
9.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为me,众数为m0,平均值为,则( D )
(A)me=m0= (B)me=m0<
(C)me解析:由题目所给的统计图可知,30个数据按大小顺序排列好后,中间两个数为5,6,故中位数为me==5.5.众数为m0=5,
平均值=×(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)=,
所以m0故选D.
10.在某次高中学科竞赛中,4 000名考生的参赛成绩按[40,50),
[50,60),[60,70),[70,80),[80,90),[90,100)分成六组,其频率分布直方图如图所示,则下列说法中错误的是( D )
(A)成绩在[70,80)内的考生人数最多
(B)不及格(60分以下)的考生人数约为1 000人
(C)考生竞赛成绩平均分的估计值为70.5分
(D)考生竞赛成绩中位数的估计值为75分
解析:根据统计图可知,[70,80)对应的频率除以组距的值最大,即频率最大,所以人数最多,故A正确;
不及格的频率为(0.010+0.015)×10=0.25,所以不及格的人数约为
4 000×0.25=1 000(人),故B正确;
根据频率分布直方图可知平均数为(45×0.01+55×0.015+65×0.02+
75×0.03+85×0.015+95×0.01)×10=70.5,故C正确;
前三组的频率之和为(0.01+0.015+0.02)×10=0.45<0.5,前四组的频率之和为(0.01+0.015+0.02+0.03)×10=0.75>0.5,
所以中位数在第四组数据中,且中位数为70+×10≈71.7,故D错误.故选D.
11.某次数学竞赛有100名同学参加,如图为这100名同学此次竞赛成绩的频率分布直方图,则a= ,这100名同学此次竞赛成绩的中位数约为 .(中位数精确到0.01)
解析:观察题中频率分布直方图可知,
所有小矩形面积之和为1,即(0.01+2a+0.03+0.025+0.005)×10=1,解得a=0.015;
分数在区间[40,70]之间频率之和为(0.01+2a)×10=0.4,第四组频率为0.03×10=0.3,故中位数位于第四组,设为x,则0.4+(x-70)×
0.03=0.5,解得x≈73.33.
答案:0.015 73.33
应用创新
12.若1,2,3,4,m(m∈R)这五个数的平均数等于其中位数,则m等于( D )
(A)0或5 (B)0或
(C)5或 (D)0或5或
解析:当m≤1时,数据1,2,3,4,m的中位数是2,平均数是(10+m)=2,解得m=0;
当1当2当3当m>4时,数据1,2,3,4,m的中位数是3,平均数是(10+m)=3,解得m=5.
综上知,m的可能取值是0或或5.故选D.
13.某部门有8位员工,其中6位员工的月工资(单位:元)分别为
8 200,8 300,8 500,9 100,9 500,9 600,另两位员工的月工资数据不清楚,但两人的月工资和为17 000元,则这8位员工月工资的中位数可能的最大值为( B )
(A)9 100 (B)8 800 (C)8 700 (D)8 500
解析:由于另外两位员工的月工资数据不清楚,但两人的月工资和为17 000元,若不考虑这2人,中位数为8 500+9 100=17 600,17 600÷
2=8 800,若这两人的月工资一个大于9 100,另一个小于8 500,则中位数不变,若这两个人的工资位于8 500与9 100之间,且这两个数关于8 800对称,8 500与9 100也是关于8 800对称,所以中位数也是8 800,此时这8位员工月工资的中位数取最大值为8 800.故选B.
14.某歌手大赛进行电视直播,比赛现场有6名特约嘉宾给每位参赛选手评分,场内外的观众可以通过网络平台给每位参赛选手评分.某选手参加比赛后,现场嘉宾的评分情况如下表:
嘉宾 A B C D E F
评分 96 95 96 89 97 98
场内外共有数万名观众参与了评分,组织方将观众评分按照[70,80),
[80,90),[90,100]分组,绘成频率分布直方图如图.
嘉宾评分的平均数为,场内外的观众评分的平均数为,所有嘉宾与场内外的观众评分的平均数为,则下列选项正确的是( C )
(A)= (B)>
(C)< (D)>>>
解析:由表格中的数据可知,
=≈95.17,
由频率分布直方图可知,
=75×0.2+85×0.3+95×0.5=88,
则>.
设场外的观众数为a(a>10 000),
则===88+<=91.585,
即<.故选C.9.2.4 总体离散程度的估计
9.3 统计案例 公司员工的肥胖情况调查分析
[目标导航]
核心知识目标 核心素养目标
1.了解“平均距离”的概念. 2.理解总体方差与样本方差、总体标准差与样本标准差的概念,掌握其特点. 3.会求具体问题中的“平均距离”、总体方差、样本方差、总体标准差、样本标准差. 4.会根据计算的结论对实际问题进行决策. 5.会根据要求编写统计分析报告. 1.通过标准差、方差和极差的学习,培养数学运算和数据分析的核心素养. 2.通过生活中具体的统计案例模型,进行提出问题、分析数据、建立模型、检验模型来强化数据分析、数学抽象及数学建模的核心素养.
1.极差
一种简单的度量数据离散程度的方法就是用极差.
2.平均距离
假设一组数据是x1,x2,x3,…,xn,用表示这组数据的平均数,我们用每个数据与平均数的差的绝对值作为“距离”,即|xi-|(i=1,2,3,…,n)作为xi到的“距离”.可以得到这组数据x1,x2,x3,…,xn到的“平均距离”为|xi-|.
3.方差与标准差
为了避免式中含有绝对值,通常改用平方来代替,即.我们称为这组数据的方差(variance).有时为了计算方差的方便,我们还把方差写成以下形式:-.方差的单位是原始数据的单位的平方.
称这组数据的标准差(standard deviation).
如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=为总体方差.S=为总体标准差.
与总体均值类似,总体方差也可以写成加权的形式.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,3,…,k),则总体方差为S2=fi.
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=为样本方差,s=为样本标准差.
1.下列刻画一组数据离散程度的是( B )
(A)平均数 (B)方差
(C)中位数 (D)众数
解析:方差能够刻画一组数据的离散程度.故选B.
2.与原数据单位不一样的是( D )
(A)众数 (B)平均数
(C)标准差 (D)方差
解析:由方差的意义可知,方差与原数据单位不一样.故选D.
3.在方差的计算公式s2=×[(x1-20)2+(x2-20)2+…+(x10-20)2]中,数字10和20分别表示( D )
(A)样本量和方差 (B)平均数和样本量
(C)样本方差和平均数 (D)样本量和平均数
解析:由方差的计算公式,可知D项正确.故选D.
4.样本中共有五个样本,其样本数据的值分别为a,0,1,2,3,若该样本的平均值为1,则a= ,这五个样本方差为 .
解析:由题意知×(a+0+1+2+3)=1,
解得a=-1.
所以样本方差为s2=×[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.
答案:-1 2
平均数、方差和标准差的概念
[例1] (1)高铁、扫码支付、共享单车、网购被称为中国的“新四大发明”,为评估共享单车的使用情况,选了n座城市作实验基地,这n座城市共享单车的使用量(单位:人次/天)分别为x1,x2,…,xn,下面给出的指标中可以用来评估共享单车使用量的稳定程度的是( )
(A)x1,x2,…,xn的平均数
(B)x1,x2,…,xn的标准差
(C)x1,x2,…,xn的最大值
(D)x1,x2,…,xn的中位数
(2)(多选题)下列说法正确的是( )
(A)方差是标准差的平方
(B)标准差的大小不会超过极差
(C)若一组数据的值大小相等,没有波动变化,则标准差为0
(D)标准差越大,表明各个样本数据在样本平均数周围越集中;标准差越小,表明各个样本数据在样本平均数周围越分散
解析:(1)表示一组数据x1,x2,…,xn的稳定程度是方差或标准差.
故选B.
(2)标准差越小,表明各个样本数据在样本平均数周围越集中;标准差越大,表明各个样本数据在样本平均数的周围越分散.故选ABC.
(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.
(2)由于平均数与每一个样本数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是中位数、众数都不具有的性质.
(3)众数考查各数据出现的频率,其大小只与这组数据中的部分数据有关.当一组数据中有不少数据多次重复出现时,其众数往往更能反映问题.
(4)某些数据的变动对中位数可能没有影响.中位数可能出现在所给数据中,也可能不在所给数据中.当一组数据中的个别数据变动较大时,可用中位数描述其集中趋势.
即时训练1-1:(多选题)甲、乙两支球队在某年的国际联赛中,甲队平均每场进球数为3.2,全年比赛进球个数的标准差为3,乙队平均每场进球数为1.8,全年比赛进球个数的标准差为0.3,则下列说法正确的有( )
(A)甲队的技术比乙队好
(B)乙队的发挥比甲队稳定
(C)乙队几乎每场都进球
(D)甲队的表现时好时坏
解析:由=3.2,=1.8,知甲队的技术比乙队好,由s甲=3,s乙=0.3,知乙队发挥比甲队稳定,又由s乙=0.3,可知乙队几乎每场都进球,由s甲=3,可知甲队比赛进球个数的标准差大,比赛时表现时好时坏,故ABCD均正确.故选ABCD.
平均数、方差和标准差的计算
探究角度1 根据样本数据计算方差
[例2] (1)某班有50名学生,某次数学考试的成绩经计算得到的平均分数是70分,标准差是s,后来发现记录有误,甲得70分误记为40分,乙得50分误记为80分,更正后重新计算得标准差为s1,则s与s1之间的大小关系是( )
(A)s=s1 (B)s(C)s>s1 (D)不能确定
(2)已知某样本的方差是5,样本中各数据的平方和是280,样本平均数是3,则样本量是 .
解析:(1)因为更正前后的平均数均为70分,
所以更正前的s2=×[(x1-70)2+(x2-70)2+…+(40-70)2+(80-70)2],
更正后的=×[(x1-70)2+(x2-70)2+…+(70-70)2+(50-70)2],
所以s2>,即s>s1.故选C.
(2)5=×[++…++n-2(x1+x2+…+xn)]=,
解得n=20.
答案:(1)C (2)20
样本方差与标准差
设样本的元素为x1,x2,…,xn,样本的平均数为,
(1)样本方差s2=[(x1-)2+(x2-)2+…+(xn-)2]或s2=(++…+)-.
(2)样本标准差
s=.
即时训练2-1:现有10个数,其平均数为3,且这10个数的平方和是100,那么这组数据的标准差是( )
(A)1 (B)2 (C)3 (D)4
解析:由s2=(++…+)-,
得s2=×100-32=1,
即标准差s=1.故选A.
即时训练2-2:甲、乙两名运动员分别进行了5次射击训练,成绩如下:
甲:7,7,8,8,10;乙:8,9,9,9,10.
若甲、乙两名运动员的平均成绩分别用x1,x2表示,方差分别用,表示,则( )
(A)x1>x2,> (B)x1>x2,<
(C)x1
解析:x1=×(7+7+8+8+10)=8,x2=×(8+9+9+9+10)=9,
=×[(7-8)2+(7-8)2+(8-8)2+(8-8)2+(10-8)2]=1.2,
=×[(8-9)2+(9-9)2+(9-9)2+(9-9)2+(10-9)2]=0.4,
所以x1.故选D.
探究角度2 利用方差的性质计算方差
[例3] 一组数据中的每一个数据都乘3,再减去50,得到一组新数据,若求得新的数据的平均数是1.6,方差是3.6,则原来数据的平均数和方差分别是( )
(A)17.2,3.6 (B)54.8,3.6
(C)17.2,0.4 (D)54.8,0.4
解析:设一组数据为xi(i=1,2,3,…,n),平均数为,方差为,所得一组新数据为yi(i=1,2,3,…,n),平均数为,方差为,
则yi=3xi-50(i=1,2,3,…,n),
==1.6,
所以=1.6,
所以3-50=1.6,所以==17.2.
由题意得=[++…+]=3.6,
所以[++…+]=3.6,
所以9×[++…+]=3.6,
所以9×[++…+]=3.6,
所以9=3.6,所以=0.4.
故选C.
若一组数据x1,x2,…,xn的平均数为,方差为s2,那么mx1+a,mx2+a,…,mxn+a的平均数是m+a,方差为m2s2.
即时训练3-1:已知一组数据x1,x2,…,xn的平均数为2,方差为5,则数据2x1+1,2x2+1,…,2xn+1的平均数与方差s2分别为( )
(A)=4,s2=10 (B)=5,s2=11
(C)=5,s2=20 (D)=5,s2=21
解析:根据题意,数据x1,x2,…,xn的平均数为2,方差为5,则数据2x1+1,2x2+1,…,2xn+1的平均数=2×2+1=5,其方差s2=22×5=20.
故选C.
探究角度3 频率分布直方图中的方差计算
[例4] 某班50名学生一次调研考试的数学成绩(满分:100分)的频率分布直方图如图所示.
(1)根据频率分布直方图,完成以下频数分布表;
成绩 [60,70) [70,80) [80,90) [90,100)
频数
(2)估计这50名学生的数学成绩的平均分及方差(同一组中的数据用该组区间的中点值为代表).
解:(1)由直方图可得成绩在[60,70)的有0.02×10×50=10(人),
在[70,80)的有0.03×10×50=15(人),
在[80,90)的有0.04×10×50=20(人),
在[90,100)的有0.01×10×50=5(人).
补全频数分布表如表.
成绩 [60,70) [70,80) [80,90) [90,100)
频数 10 15 20 5
(2)由(1)知这50名学生的数学成绩的平均分为×(65×10+75×15+85×20+95×5)=79,
方差s2=(65-79)2×0.2+(75-79)2×0.3+(85-79)2×0.4+(95-79)2×
0.1=84.
根据频率分布直方图求一组数据的方差的方法:先利用组中值乘频率(即每组矩形的面积)求和得,再将平均数减去每组的组中值平方后乘该组的频率求和.
即时训练4-1:在一次区域统考中,为了了解各学科的成绩情况,从所有考生中随机抽出20位考生的成绩进行统计分析,其中数学学科的频率分布直方图如图所示,据此估计,在本次考试中数学成绩的方差为 (同一组中的数据用该组区间的中点值为代表).
解析:根据频率分布直方图,得
该组数据的平均数是=55×0.010×10+65×0.020×10+75×0.035×10+85×0.030×10+
95×0.005×10=75;
方差是s2=(55-75)2×0.1+(65-75)2×0.2+(75-75)2×0.35+(85-75)2×0.3+
(95-75)2×0.05=110.
答案:110
利用方差、标准差对实际问题进行决策
[例5] 某教育集团为了了解家长对学校教学情况的满意度,每年底都随机邀请8名学生家长代表对集团内甲、乙两所学校进行家长满意度的民主测评(满意度最高分110,最低分0,分数越高说明家长满意度越高,分数越低说明家长满意度越低).去年测评的数据如下:
甲校 98,110,97,108,100,103,86,98;
乙校 108,101,94,105,96,93,97,106.
(1)分别计算甲、乙两所学校去年家长满意度测评数据的平均数、中位数.
(2)分别计算甲、乙两所学校去年家长满意度的方差.
(3)根据以上数据你认为这两所学校哪所学校家长民满意度比较好
解:(1)甲学校家长满意度的平均数为
=
=100,
甲学校家长满意度的中位数为=99;
乙学校家长满意度的平均数为
=
=100,
乙学校家长满意度的中位数为=99.
(2)甲学校家长满意度的方差为
=×[(-2)2+102+(-3)2+82+0+32+(-14)2+(-2)2]=48.25;
乙学校家长满意度的方差为
=×[82+12+(-6)2+52+(-4)2+(-7)2+(-3)2+62]=29.5.
(3)由(1)(2)知甲、乙两学校家长满意度的平均数相同、中位数相同,而乙学校家长满意度的方差小于甲学校家长满意度的方差,所以乙学校家长满意度比较好.
(1)在实际问题中,仅靠平均数不能完全反映问题,还要研究偏离平均数的离散程度(即方差与标准差).
(2)方差(标准差)刻画一组数据离平均数波动的幅度大小.方差(标准差)较大,数据的离散程度较大;方差(标准差)较小,数据的离散程度较小.
即时训练5-1:甲、乙两人在相同条件下各打靶10次,每次命中的环数分别是
甲:8,6,7,8,6,5,9,10,4,7;
乙:6,7,7,8,6,7,8,7,9,5.
(1)分别计算以上两组数据的平均数.
(2)分别求出两组数据的方差.
(3)根据计算结果,估计甲、乙的射击情况.若要从这两人中选一人参加射击比赛,选谁去合适
解:(1)=×(8+6+7+8+6+5+9+10+4+7)=7(环),
=×(6+7+7+8+6+7+8+7+9+5)=7(环).
(2)由方差公式s2=[(x1-)2+(x2-)2+…+(xn-)2],得=3,=1.2.
(3)=,说明甲、乙两人的平均水平相当.
又>,说明甲射击情况波动比乙大.
因此,乙比甲射击情况稳定.
从成绩的稳定性考虑,应选择乙参加比赛.
[备用例题] 甲、乙两机床同时加工直径为100 cm的零件,为检验质量,从中抽取6件测量数据为
甲:99 100 98 100 100 103
乙:99 100 102 99 100 100
(1)分别计算两组数据的极差、平均数及方差;
(2)根据计算说明哪台机床加工零件的质量更稳定.
解:(1)甲的极差为103-98=5,
乙的极差为102-99=3.
=×(99+100+98+100+100+103)=100,
=×(99+100+102+99+100+100)=100,
=×[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+
(103-100)2]=,
=×[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+
(100-100)2]=1.
(2)由(1)知=,比较它们的方差,
因为>,故乙机床加工零件的质量更稳定.
1.一组数据的方差一定是( D )
(A)正数 (B)负数
(C)任意实数 (D)非负数
解析:方差可为0和正数.故选D.
2.一组数据的方差是4,将这组数据中的每个数据都乘5,所得到的新数据的方差是( D )
(A)5 (B)25 (C)50 (D)100
解析:设原数据为x,新的数据为5x,故新的方差为52×4=100.故选D.
3.某工厂技术人员对三台智能机床生产数据统计后发现,甲车床每天生产次品数的平均数为1.5,标准差为1.28;乙车床每天生产次品数的平均数为1.2,标准差为0.87;丙车床每天生产次品数的平均数为1.2,标准差为1.28.由此数据可以判断生产性能最好且较稳定的为( C )
(A)无法判断 (B)甲车床
(C)乙车床 (D)丙车床
解析:由题意,乙丙车床每天生产次品数的平均数最小,且乙的标准差较丙的标准差小,所以可以判断生产性能最好且较稳定的为乙车床.故选C.
4.已知某射击运动员连续进行了10次射击,其成绩的频率分布表如下:
环数 8 9 10
频率 0.3 0.4 0.3
则该运动员射击成绩的方差为 .
解析:因为=8×0.3+9×0.4+10×0.3=9,
所以方差s2=(8-9)2×0.3+(9-9)2×0.4+(10-9)2×0.3=0.6.
答案:0.6
选题明细表
知识点、方法 题号
平均数、方差、标准差的概念及理解 1,3,12
平均数、方差、标准差的计算 4,5,7,8,9,10,11
对实际问题的决策 2,6,13,14
基础巩固
1.(多选题)下列说法中正确的个数为( ACD )
(A)数据的极差越小,样本数据分布越集中、稳定
(B)数据的平均数越小,样本数据分布越集中、稳定
(C)数据的标准差越小,样本数据分布越集中、稳定
(D)数据的方差越小,样本数据分布越集中、稳定
解析:由数据的极差、标准差、方差的定义可知,它们都可以影响样本数据的分布和稳定性,而数据的平均数则与之无关,故B不正确,
A,C,D正确.故选ACD.
2.某射击队要从甲、乙、丙、丁四名队员中选出一名选手去参加射击比赛,四人的平均成绩和方差如下表,根据表格中数据判断,参赛最为合适的是( C )
甲 乙 丙 丁
平均成绩 8.5 8.8 8.8 8
方差s2 3.5 3.5 2.1 8.7
(A)甲 (B)乙 (C)丙 (D)丁
解析:由题表可知,丙的平均成绩较高,且发挥比较稳定,应派丙去参赛最合适.故选C.
3.在教学调查中,甲、乙、丙三个班的数学测试成绩分布如图①、图②、图③,假设三个班的平均分都是75分,s1,s2,s3分别表示甲、乙、丙三个班数学测试成绩的标准差,则有( D )
(A)s3>s1>s2 (B)s2>s1>s3
(C)s1>s2>s3 (D)s3>s2>s1
解析:所给图是成绩分布图,平均分是75分,在题图①中,集中在75分附近的数据最多,题图③中从50分到100分均匀分布,所有成绩不集中在任何一个数据附近,题图②介于两者之间.由标准差的意义可得s3>s2>s1.故选D.
4.已知一组正数x1,x2,x3,x4的方差为s2=(+++-16),则数据x1+2,x2+2,x3+2,x4+2的平均数为( C )
(A)2 (B)3 (C)4 (D)6
解析:因为s2=(+++-16),由方差的计算公式可得,
正数x1,x2,x3,x4的平均数=2,所以数据x1+2,x2+2,x3+2,x4+2的平均数为2+2=4.故选C.
5.甲、乙两名同学6次考试的成绩统计如图,甲、乙两组数据的平均数分别为m1,m2,标准差分别为n1,n2则( C )
(A)m1n2
(C)m1>m2,n1m2,n1>n2
解析:由甲、乙两名同学6次考试的成绩统计图知,
甲组数据靠上,乙组数据靠下,
甲组数据相对集中,乙组数据相对分散,
由甲、乙两组数据的平均数分别为m1,m2,标准差分别为n1,n2,
得m1>m2,n1故选C.
6.某校甲班、乙班各有49名学生,两班在一次数学测验中的成绩(满分100分)统计如下表:
班级 平均数 众数 中位数 标准差
甲班 79 70 87 19.8
乙班 79 70 79 5.2
根据上述表格,对比甲、乙两班的成绩,对甲班提出的教学建议是 ,对乙班提出的教学建议是 .
解析:甲班学生成绩的中位数为87分,说明高于或等于87分的学生占一半以上,而平均数为79分,标准差很大,说明低分也多,两极分化严重,建议对学习有困难的同学多给一些帮助;
乙班学生成绩的中位数和平均数均为79分,标准差小,说明学生成绩之间差别较小,成绩很差的学生少,但成绩优异的学生也很少,建议采取措施提高优秀率.
答案:对学习有困难的同学多一些帮助 采取措施提高优秀率
能力提升
7.数据5,7,7,8,10,11的中位数和标准差分别为( D )
(A)中位数为7,标准差为2
(B)中位数为7,标准差为4
(C)中位数为7.5,标准差为4
(D)中位数为7.5,标准差为2
解析:数据5,7,7,8,10,11的中位数是×(7+8)=7.5;
平均数是=×(5+7+7+8+10+11)=8,方差是s2=×[(-3)2+(-1)2+(-1)2+02+22+32]=4,标准差是s=2.故选D.
8.样本中共有5个个体,其值分别是a,1,2,3,4,若样本的平均数是2,则样本的极差和标准差分别是( D )
(A)5和2 (B)5和
(C)4和2 (D)4和
解析:由题意得a+1+2+3+4=5×2,解得a=0.
所以样本的极差为4-0=4.
样本的方差为s2=×[(0-2)2+(1-2)2+(2-2)2+(3-2)2+(4-2)2]=2,
所以标准差为.故选D.
9.某科研机构研究发现,某品种中医药的药物成分甲的含量x(单位:g)与药物功效y(单位:药物单位)之间具有关系y=10x-x2.检测这种药品一个批次的5个样本,得到成分甲的平均值为4 g,标准差为 g,
则估计这批中医药的药物功效的平均值为( A )
(A)22药物单位 (B)20药物单位
(C)12药物单位 (D)10药物单位
解析:设5个样本的成分甲的含量分别为x1,x2,x3,x4,x5,平均值为,则=4,
++…+=(++…+)-5=10,
所以++…+=90,
则对应的y1+y2+…+y5=10(x1+x2+…x5)-(++…+)=110,
所以估计这批中医药的药物功效的平均值为22.故选A.
10.已知数据x1,x2,…,x10的方差为1,且[+++…+
]=170,则数据x1,x2,…,x10的平均数是 .
解析:因为数据x1,x2,…,x10的方差为1,
所以+++…+=10,
所以(++…+)+10-2(x1+x2+…+x10)=10,
所以(++…+)-10=10,①
因为+++…+=170,
所以(++…+)-4(x1+x2+…+x10)+40=170,
所以(++…+)-40+40=170,②
将②-①得-4-12=0,
解得=-2或=6.
答案:-2或6
11.若40个数据的平方和是56,平均数是,则这组数据的方差是 ,标准差是 .
解析:设这40个数据为xi(i=1,2,…,40),平均数为,
则s2=×[(x1-)2+(x2-)2+…+(x40-)2]
=×[++…++40-2(x1+x2+…+x40)]
=×[56+40×()2-2××40×]
=×(56-40×)
=0.9.
所以s===.
答案:0.9
应用创新
12.(多选题)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则下列说法正确的是( AC )
(A)甲的成绩的平均数等于乙的成绩的平均数
(B)甲的成绩的中位数等于乙的成绩的中位数
(C)甲的成绩的方差小于乙的成绩的方差
(D)甲的成绩的极差小于乙的成绩的极差
解析:甲的平均数为×(4+5+6+7+8)=6,乙的平均数为×(5×3+6+9)=6,
甲的成绩的方差为2,乙的成绩的方差为2.4,故AC正确,由题图知甲的中位数为6,乙的中位数为5,所以B错;甲的成绩的极差为8-4=4,乙的成绩的极差为9-5=4,甲、乙的极差相等,所以D错.故选AC.
13.已知A,B两部电影同时在9月30日全国上映,每天的票房统计如图所示.
有下列四个结论:
①这8天A电影票房的平均数比B电影票房的平均数高;
②这8天A电影票房的方差比B电影票房的方差大;
③这8天A电影票房的中位数与B电影票房的中位数相同;
④根据这8天的票房对比,预测10月8日B电影票房超过A电影票房的概率较大.
其中正确结论的序号为 .
解析:这8天A电影票房的平均数为×(2.9+3.9+3.7+3.1+2.6+2.5+2.3+1.6)≈2.8,
这8天B电影票房的平均数为×(2.1+2.6+2.9+2.7+2.6+2.5+2.4+1.8)≈2.5,
所以A的比B电影票房的平均数高,故①正确;
这8天A电影票房的方差×[(2.9-2.8)2+(3.9-2.8)2+(3.7-2.8)2+
(3.1-2.8)2+(2.6-2.8)2+(2.5-2.8)2+(2.3-2.8)2+(1.6-2.8)2]≈0.5,
这8天B电影票房的方差×[(2.1-2.5)2+(2.6-2.5)2+(2.9-2.5)2+
(2.7-2.5)2+(2.6-2.5)2+(2.5-2.5)2+(2.4-2.5)2+(1.8-2.5)2]≈0.1,
所以A电影票房比B电影票房的方差大,故②正确;
这8天A电影票房的中位数为≈2.8与B电影票房的中位数
为≈2.6不相同,故③错误;
根据这8天的票房对比,B电影票房方差较小,波动较小,且从10月6日开始超过A电影票房,故④正确.
答案:①②④
14.某汽车租赁公司为了调查A型汽车与B型汽车的出租情况,现随机抽取这两种车各50辆,分别统计每辆车在某个星期内的出租天数,统计数据如表:
A型汽车
出租天数 3 4 5 6 7
车辆数 3 30 5 7 5
B型汽车
出租天数 3 4 5 6 7
车辆数 10 10 15 10 5
(1)试根据上面的统计数据,判断这两种车在某个星期内的出租天数的方差的大小关系;(只需写出结果)
(2)如果A型汽车与B型汽车每辆车每天出租获得的利润相同,该公司需要购买一辆汽车,请你根据所学的统计知识,给出建议应该购买哪一种车,并说明你的理由.
解:(1)由数据的离散程度,可以看出B型汽车在某个星期内出租天数的方差较大.
(2)50辆A型汽车出租天数的平均数为==4.62,
50辆B型汽车出租天数的平均数为==4.8.
方案一:A型汽车在某个星期内出租天数的平均数为4.62,B型汽车在某个星期内出租天数的平均数为4.8,选择B型汽车的出租车的利润较大,应该购买B型汽车.
方案二:A型汽车在某个星期内出租天数的平均数为4.62,B型汽车在某个星期内出租天数的平均数为4.8,而B型汽车出租天数的方差较大,所以应该购买A型汽车.(任选其一)章末总结
网络建构
知识辨析
判断下列说法是否正确.(请在括号中填“√”或“×”)
1.抽签法和随机数法都是不放回抽样.( √ )
2.抽签法抽签时,先抽签的人占便宜.( × )
3.利用随机数表抽样时,开始位置和读数方向可以任意选择.( √ )
4.分层随机抽样中,为确保公平性,在每层都应用同一抽样方法.( × )
5.频率分布直方图中每个小长方形的面积等于相应组的频率,各个小长方形面积之和小于1.( × )
6.从总体中抽取一个样本,用样本的分布估计总体的分布,样本容量越小估计越准确.( × )
7.在样本数据中,频率分布最大值所对应的样本数据是众数.( √ )
题型一 随机抽样
[例1] 某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如表所示:
人数 管理 技术开发 营销 生产 共计
老年 40 40 40 80 200
中年 80 120 160 240 600
青年 40 160 280 720 1 200
小计 160 320 480 1 040 2 000
(1)若要抽取40人调查身体状况,则应怎样抽样
(2)若要开一个25人的讨论单位发展和薪金调整方面的座谈会,则应怎样抽选出席人
(3)若要抽20人调查对东京奥运会举办情况的了解,则应怎样抽样
解:(1)按老年、中年、青年分层,用比例分配的分层随机抽样法抽取,分配比例为=.故老年人、中年人、青年人分别抽取4人、12人、24人.
(2)按管理、技术开发、营销、生产分层,用比例分配的分层随机抽样法抽取.分配比例为=,故管理、技术开发、营销、生产分别抽取2人、4人、6人、13人.
(3)用随机数法:
对全部2 000人随机编号,号码是1,2,3,…,2 000.利用信息技术生成20个不同的随机数,把产生的随机数作为抽中的编号,与编号对应的20人就是要抽取的样本.
研究统计问题的基本思想方法就是从总体中抽取样本,用样本估计总体,因此选择适当的抽样方法抽取具有代表性的样本对整个统计问题起着至关重要的作用.
简单随机抽样是最简单和最基本的抽样方法.在进行分层随机抽样时要用到简单随机抽样方法.当总体中的个体数较少时,常采用简单随机抽样;当已知总体由差异明显的几部分组成时,常采用分层随机抽样.实现简单随机抽样,常用抽签法和随机数法.
跟踪训练1:问题:①某小区有800户家庭,其中高收入家庭200户,中等收入家庭480户,低收入家庭120户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为100的样本;②从10名学生中抽取3人参加座谈会.方法:(1)简单随机抽样;(2)分层随机抽样.则问题与方法配对正确的是( )
(A)①(1),②(2) (B)①(2),②(1)
(C)①(1),②(1) (D)①(2),②(2)
解析:问题①中的总体是由差异明显的几部分组成的,故可采用分层随机抽样方法;问题②中总体的个数较少,故可采用简单随机抽样.故选B.
题型二 总体取值规律与百分位数的估计
[例2] 根据表或图,估计月均用水量的样本数据的80%和95%分位数.
分组 频数累积 频数 频率
[1.2,4.2) 23 0.23
[4.2,7.2) 32 0.32
[7.2,10.2) 13 0.13
[10.2,13.2) 9 0.09
[13.2,16.2) 9 0.09
[16.2,19.2) 正 5 0.05
[19.2,22.2) 3 0.03
[22.2,25.2) 4 0.04
[25.2,28.2] 2 0.02
合计 100 1.00
解析:由题表可知,月均用水量在13.2 t以下的居民用户所占比例为
23%+32%+13%+9%=77%.
在16.2 t以下的居民用户所占的比例为
77%+9%=86%.
因此,80%分位数一定位于[13.2,16.2)内.
由13.2+3×=14.2,
可以估计月均用水量的样本数据的80%分位数约为14.2.
类似地,
由22.2+3×=22.95,
可以估计月均用水量的样本数据的95%分位数约为22.95.
与频率分布直方图有关问题的常见类型及解题策略
(1)已知频率分布直方图中的部分数据,求其他数据,可根据频率分布直方图中的数据求出样本与整体的关系,利用频率之和等于1就可求出其他数据.
(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.
(3)已知频率分布直方图,估计总体的第p百分位数,可利用累计频率估计第p百分位数所在的小组,再把本组数据看成均匀分布计算.
跟踪训练2:高三年级有500名学生,为了了解数学学科的学习情况,现从中随机抽出若干名学生在一次测试中的数学成绩(单位:分),制成如表所示的频率分布表:
分组 频数 频率
[85,95) ① ②
[95,105) 0.050
[105,115) 0.200
[115,125) 12 0.300
[125,135) 0.275
[135,145) 4 ③
[145,155] 0.050
合计 ④
(1)表格中①②③④处的数值分别为 , , , ;
(2)在图中画出[85,155]的频率分布直方图;
(3)根据题中信息估计总体数学成绩的60%分位数.
解:(1)由题意和表中数据可知,随机抽取的人数为=40.由统计知识知④处应填1,③处应填0.100,②处应填0.025,①处应填1.
(2)频率分布直方图如图所示.
(3)由频率分布表知,前四组的频率之和为0.025+0.050+0.200+0.300=0.575,前五组的频率之和为0.025+0.050+0.200+0.300+0.275=0.850,所以样本数据的60%分位数一定在第五组[125,135)内,
由125+10×≈125.9,估计总体数学成绩的60%分位数为125.9.
题型三 总体集中趋势与离散程度的估计
[例3] 甲、乙两人在相同的条件下各射靶10次,每次射靶成绩(单位:环)如图所示.
(1)填写下表.
平均数 方差 中位数 命中9环以上 (包括9环)
甲 7 1.2 1
乙 5.4 3
(2)请从以下四个不同的角度对这次测试进行分析.
①从平均数和方差分析偏离程度;
②从平均数和中位数分析谁的成绩好些;
③从平均数和命中9环以上(包括9环)的次数分析谁的成绩好些;
④从折线图上两人射击命中环数及走势分析谁更有潜力.
解:(1)乙的射靶环数依次为2,4,6,8,7,7,8,9,9,10,所以=×(2+4+6+8+7+7+8+9+9+10)=7,乙的射靶环数按从小到大的顺序排列为2,4,6,7,7,8,8,9,9,10,所以中位数为=7.5;甲的射靶环数按从小到大的顺序排列为5,6,6,7,7,7,7,8,8,9,所以中位数为7.于是填充后的表格如表所示.
平均数 方差 中位数 命中9环以上 (包括9环)
甲 7 1.2 7 1
乙 7 5.4 7.5 3
(2)①甲、乙的平均数相同,均为7,但<,说明甲偏离平均数的程度小,而乙偏离平均数的程度大.
②甲、乙平均水平相同,而乙的中位数比甲大,可见乙射靶环数的优秀次数比甲多.
③甲、乙平均水平相同,而乙命中9环以上(包括9环)的次数比甲多2次,可见乙的射靶成绩比甲好.
④从折线图上看,乙的成绩呈上升趋势,而甲的成绩在平均线上波动不大,说明乙的状态在提升,有潜力可挖.
平均数、中位数和众数从不同角度刻画数据的集中趋势;极差、方差和标准差都是刻画数据的离散程度,一组数据的方差或标准差越大,说明这组数据的离散程度越大.
跟踪训练3:某工厂有工人1 000名,其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),现用分层随机抽样方法(按A类、B类分两层)从该工厂的工人中共抽取100名工人,调查他们的生产能力(生产能力指一天加工的零件数).
(1)A类工人和B类工人各抽取多少人
(2)将A类工人和B类工人的抽查结果分别绘制成频率分布直方图(如图1和图2).
①就生产能力而言,A类工人中个体间的差异程度与B类工人中个体间的差异程度哪个更小 (不用计算,可通过观察直方图直接回答
结论)
②分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数(同一组中的数据用该组区间的中点值作代表).
解:(1)A类工人中应抽取250×=25(人),B类工人中应抽取750×=75(人).
(2)①从直方图可以判断:B类工人中个体间的差异程度更小.
②=0.16×105+0.32×115+0.20×125+0.20×135+0.12×145=123,
=0.08×115+0.20×125+0.48×135+0.24×145=133.8,
=×123+×133.8=131.1.
故A类工人生产能力的平均数、B类工人生产能力的平均数以及全工厂工人生产能力的平均数的估计值分别为123,133.8和131.1.
第九章 检测试题
选题明细表
知识点、方法 题号
随机抽样 1,2,4,13,17,19
统计图表 3,6,11,14
百分位数、样本的数字特征 5,7,8,9,16,20
统计知识的综合运用 10,12,15,18,21,22
一、单项选择题(本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的)
1.下列问题中,最适合用简单随机抽样方法抽样的是( B )
(A)某县从该县中、小学生中抽取200人调查他们的视力情况
(B)从15种疫苗中抽取5种检测是否合格
(C)某大学共有学生5 600人,其中专科生有1 300人、本科生3 000人、研究生1 300人,现抽取样本量为280的样本调查学生利用网络查找学习资料的情况
(D)某学校兴趣小组为了了解移动支付在大众中的熟知度,要对
15~75岁的人群进行随机抽样调查
解析:A.中学生、小学生有群体差异,宜采用分层随机抽样;B.样本数量较少,宜采用简单随机抽样;C.专科生、本科生、研究生有群体差异,宜采用分层随机抽样;D.年龄对于移动支付的了解有较大影响,宜采用分层随机抽样.
故选B.
2.我国古代数学算经十书之一的《九章算术》中有一“衰分”问题,今有北乡八千七百五十人,西乡七千二百五十人,南乡八千三百五十人,凡三乡,发役四百八十七人,则西乡遣人( D )
(A)一百零五人 (B)一百二十五人
(C)一百三十五人 (D)一百四十五人
解析:因为西乡占=,
所以西乡遣人×487=145(人).故选D.
3.为了解学生在“弘扬传统文化,品读经典文学”月的阅读情况,现从全校学生中随机抽取了部分学生,并统计了他们的阅读时间(阅读时间t∈[0,50]),分组整理数据得到如图所示的频率分布直方图,则图中a的值为( A )
(A)0.028 (B)0.030
(C)0.280 (D)0.300
解析:由(0.006+a+0.040+0.020+0.006)×10=1,得a=0.028.故选A.
4.某校高一、高二、高三年级各有学生数分别为800,1 000,800
(单位:人),现用分层随机抽样的方法抽取一个容量为n的样本了解网课学习情况,样本中高一学生的人数为48人,那么此样本量n为( C )
(A)108 (B)96 (C)156 (D)208
解析:因为高一、高二、高三学生的数量之比依次为800∶1 000∶800=4∶5∶4,现用分层随机抽样的方法抽出的样本中高一学生有
48人,所以由分层随机抽样性质,得=,解得n=156.
故选C.
5.某校高一年级随机抽取15名男生,测得他们的身高数据,如表
所示:
编号 身高 编号 身高 编号 身高
1 173 6 169 11 168
2 179 7 177 12 175
3 175 8 175 13 172
4 173 9 174 14 169
5 170 10 182 15 176
那么这组数据的第80百分位数是( C )
(A)175 (B)176
(C)176.5 (D)170
解析:这15个数据按照从小到大排列,可得168,169,169,170,172,
173,173,174,175,175,175,176,177,179,182.
因为80%×15=12,所以第80百分位数为第12项与第13项数据的平均数,即×(176+177)=176.5.故选C.
6.某地区中小学生人数比例和近视情况分别如图①和图②所示,为了了解该地区中小学生的近视形成原因,用分层随机抽样的方法随机抽取2%的学生进行调查,其中被抽取的小学生有80人,则样本量和该地区的高中生近视人数分别为( D )
(A)100,50 (B)100,1 250
(C)200,50 (D)200,1 250
解析:由分层随机抽样的概念可得样本量为=200,
则该地区中高中生有=2 500(人),
该地区近视的高中生人数为2 500×50%=1 250(人).故选D.
7.某工厂10名工人某天生产同一类型零件,生产的件数分别是10,
12,14,14,15,15,16,17,17,17,记这组数据的平均数为a,中位数为b,众数为c,则( D )
(A)a>b>c (B)b>c>a
(C)c>a>b (D)c>b>a
解析:因为平均数a=×(10+12+14×2+15×2+16+17×3)=14.7,中位数b=15,众数c=17,则c>b>a.故选D.
8.若样本1+x1,1+x2,1+x3,…,1+xn的平均数是10,方差为2,则对于样本2+2x1,2+2x2,2+2x3,…,2+2xn,下列结论正确的是( D )
(A)平均数为20,方差为4
(B)平均数为11,方差为4
(C)平均数为21,方差为8
(D)平均数为20,方差为8
解析:因为样本1+x1,1+x2,1+x3,…,1+xn的平均数是10,方差为2,
所以样本2+2x1,2+2x2,2+2x3,…,2+2xn的平均数为2×10=20,方差为22×2=8.
故选D.
二、多项选择题(本大题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多项是符合题目要求的.全部选对的得5分,选对但不全的得2分,有选错的得0分)
9.已知一组数据x1,x2,x3,x4,x5的平均数和方差均为2,则下列叙述正确的有( AD )
(A)x1+1,x2+1,x3+1,x4+1,x5+1的平均数为3
(B)x1+1,x2+1,x3+1,x4+1,x5+1的方差为3
(C)2x1,2x2,2x3,2x4,2x5的方差为4
(D)2x1+2,2x2+2,2x3+2,2x4+2,2x5+2的方差为8
解析:对A,B选项,将每个数据在原基础上加1,故平均数加1,但是方差保持不变,
故其平均数是3,方差是2,故A正确;B错误;
对C,将每个数据乘2,故其方差变为原来的4倍,即为8,故C错误;
对D,将每个数据乘2再加2,故其方差也变为原来的4倍,即为8,
故D正确.
故选AD.
10.空气质量指数大小分为六级.指数越大说明污染的情况越严重,对人体危害越大.指数范围在0~50,51~100,101~150,151~200,
201~300,大于300分别对应“优”“良”“轻度污染”“中度污染”“重度污染”“严重污染”六个等级.如图是某市连续14天的空气质量指数趋势图,下列说法正确的有( ACD )
(A)这14天中有4天空气质量指数为“良”
(B)这14天中空气质量指数的中位数是103
(C)从2日到5日空气质量越来越差
(D)连续三天中空气质量指数方差最小的是9日到11日
解析:14天中有1日,3日,12日,13日空气质量指数为良,共4天,
故A正确;
14天中的中位数为=103.5,故B错误;
从2日到5日空气质量指数越来越高,故空气质量越来越差,故C正确;
观察折线图可知D显然成立.
故选ACD.
11.为了增强学生体质,某校积极组织学生进行跳绳锻炼.学校统计了100名学生的跳绳成绩(单位:次/分),锻炼之前他们的成绩的条形图如图①,经过三个月的锻炼后,他们的成绩的条形图如图②,对比锻炼前后,关于这100名学生,下面结论正确的是( BD )
(A)经过锻炼后,跳绳成绩在[160,180)内的人数没有改变
(B)经过锻炼后,跳绳成绩在[140,160)内的人数减少10人
(C)跳绳成绩在[120,140)内所占比例没有变化,说明锻炼对跳绳成绩没有影响
(D)经过锻炼后,原来跳绳成绩在[100,120)内的学生跳绳成绩都有
提高
解析:对于A,锻炼前成绩在[160,180)内的人数为0.3×100=30,
锻炼后成绩在[160,180)内的人数为0.4×100=40,故A不正确;
对于B,锻炼前成绩在[140,160)内的人数为0.4×100=40,
锻炼后成绩在[140,160)内的人数为0.3×100=30,
所以经过锻炼后,跳绳成绩在[140,160)内的人数减少10人,故B
正确;
对于C,跳绳成绩在[120,140)内所占比例没有变化,但整体成绩提高,故C不正确;
对于D,由题图②,可知没有跳绳成绩在[100,120)内的学生,
所以原来跳绳成绩在[100,120)内的学生跳绳成绩都有提高,故D
正确.
故选BD.
12.PM2.5是衡量空气质量的重要指标,如图是某地7月1日到10日的PM2.5日均值(单位:μg/m3)的折线图,则下列关于这10天中PM2.5日均值的说法正确的是( AD )
(A)众数为30
(B)中位数是31
(C)平均数小于中位数
(D)后4天的方差小于前4天的方差
解析:众数即是出现次数最多的数字,由折线图可得,众数为30,故A正确;
中位数即是处在中间位置的数字,将折线图中数字由小到大依次排序,得到17,25,30,30,31,32,34,38,42,126,处在中间位置的数字是31,
32,因此中位数为31.5,故B错;
由折线图可得,平均数为
×(17+25+30+30+31+32+34+38+42+126)=40.5>31.5,故C错;
前4天的平均数为=27.5,后4天的平均数为=33.75.
前4天方差为=×[(38-27.5)2+(25-27.5)2+(17-27.5)2+(30-27.5)2]=58.25,
后4天方差为=×[(42-33.75)2+(31-33.75)2+(32-33.75)2+(30-33.75)2]=23.187 5,
所以后4天的方差小于前4天的方差,故D正确.
故选AD.
三、填空题(本大题共4小题,每小题5分,共20分.将答案填在题中的横线上)
13.如表是关于某校高一年级男女生选科意向的调查数据,人数如表所示:
选修物理 选修历史
男生 160 40
女生 80 120
现要在所有参与调查的人中用分层随机抽样的方法抽取n个人做进一步的调查,若在“选修物理的男生”中抽取了8人,则n的值为 .
解析:根据分层随机抽样方法得=,解得n=20.
答案:20
14.某校开展网络知识竞赛活动,现从参加该活动的学生中随机抽取了100名学生,将他们的比赛成绩(满分为100分)分为5组:[50,60),
[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图,则该100名学生中成绩在80分(含80分)以上的人数为 .
解析:由题可得(0.005+0.020+0.035+a+0.010)×10=1,解得a=0.03.
该100名学生中成绩在80分(含80分)以上的人数为100×(0.03+
0.01)×10=40.
答案:40
15.我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,给出下列四个结论:
①第3天至第11天复工复产指数均超过80%;
②这11天期间,复产指数增量大于复工指数的增量;
③第9天至第11天复产指数增量大于复工指数的增量;
④第1天至第3天复工指数的方差大于第2天至第4天复工指数的
方差.
其中所有正确结论的序号是 .
解析:由折线图可得,第3天至第11天复工复产指数均超过80%,
故①正确;
由折线图可得,第1天复产指数与复工指数的差大于第11天复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故②错误;
由折线图可得,第9天至第11天复产指数增量大于复工指数的增量,故③正确;
由折线图可得,第1天至第3天复工指数波动较小,第2天至第4天复工指数波动较大,所以第1天至第3天复工指数的方差小于第2天至第4天复工指数的方差,故④错误.
答案:①③
16.已知五个互不相等的样本x1,x2,x3,x4,x5(xi∈N),它们的平均数为7,标准差为2,则样本数据中最大值为 .
解析:因为数据为五个互不相等的自然数,
不妨设x1由它们的平均数为7,标准差为2,
得x1+x2+x3+x4+x5=35,方差为4,
那么x5≥9,
当x5=9时,
数据依次为5,6,7,8,9,
则样本的方差为×[(5-7)2+(6-7)2+(7-7)2+(8-7)2+(9-7)2]=2,
不满足题意;
当x5=10时,
数据依次为4,6,7,8,10,
则样本的方差为×[(4-7)2+(6-7)2+(7-7)2+(8-7)2+(10-7)2]=4,
满足题意;
当x5=11时,
x1+x2+x3+x4=24,
那么x1≤4,此时+>20,
方差大于4,不满足题意.
所以样本数据中最大值为10.
答案:10
四、解答题(本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤)
17.(本小题满分10分)
某中学为了了解学生的体育锻炼时间,采用简单随机抽样法抽取了100名学生,对其平均每日参加体育锻炼的时间(单位:分)进行调查,按平均每日体育锻炼时间分组统计如下表:
分组 [0,30) [30,60) [60,90) [90,120) [120,150) [150,180]
男生 人数 2 16 19 18 5 3
女生 人数 3 20 10 2 1 1
若将平均每日参加体育锻炼的时间不低于120分钟的学生称为“锻炼达人”.
(1)估计我校7 000名学生中“锻炼达人”有多少人
(2)从这100名学生的“锻炼达人”中按性别分层随机抽取5人参加某项体育活动,求男生和女生各抽取了多少人
解:(1)由题表可知,100名学生中“锻炼达人”的人数为10人,将频率视为概率,我校7 000名学生中“锻炼达人”为7 000×=700(人).
(2)由(1)知,100名学生中“锻炼达人”有10人,其中男生8人,女生2人,从10人中按性别分层随机抽取5人参加体育活动,则男生抽取
4人,女生抽取1人.
18.(本小题满分12分)
从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标 值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
(1)作出这些数据的频率分布直方图;
(2)求这种产品质量指标值的众数、中位数和平均数.(中位数保留两位小数)
解:(1)如表所示的频率分布表:
质量指标 值分组 [75,85) [85,95) [95,105) [105,115) [115,125)
频数 6 26 38 22 8
频率 0.06 0.26 0.38 0.22 0.08
频率分布直方图如图所示.
(2)由频率分布直方图知,众数为100.
设中位数为a,
因为0.06+0.26=0.32,
所以中位数在[95,105)内,
则(a-95)×0.038=0.5-0.32,
解得a≈99.74.
平均数=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
19.(本小题满分12分)
某市调查了A,B,C三类工种的生产情况,在调查的所有职工中,A工种占40%,B工种占50%,C工种占10%.现用分层随机抽样的方法从调查的全体职工中抽取一个容量为n的样本.试确定:
(1)若n=200,则在A工种、B工种、C工种中分别应抽取多少人
(2)若抽取的A工种比C工种多30人,则抽取的B工种有多少人
解:(1)A工种应抽取的人数为200×40%=80,
B工种应抽取的人数为200×50%=100,
C工种应抽取的人数为200×10%=20.
(2)若抽取的A工种比C工种多30人,
则40%n-10%n=30,解得n=100.
故抽取的B工种有n·50%=100×50%=50(人).
20.(本小题满分12分)
某学校对男、女学生进行有关“习惯与礼貌”的评分,记录如下.
男:54,70,57,46,90,58,63,46,85,73,55,66,38,44,56,75,35,58,
94,58.
女:77,55,69,58,76,70,77,90,51,53,63,64,69,83,83,65,100,75.
(1)分别计算男、女学生得分的平均数;
(2)分别计算男、女学生得分的四分位数.
解:(1)男学生的平均数为=×(54+70+57+46+90+58+63+46+85+
73+55+66+38+44+56+75+35+58+94+58)=61.05,
女学生得分的平均数=×(77+55+69+58+76+70+77+90+51+53+63+
64+69+83+83+65+100+75)=71.
(2)男、女学生得分从小到大排列为
男:35,38,44,46,46,54,55,56,57,58,58,58,63,66,70,73,75,85,
90,94.
女:51,53,55,58,63,64,65,69,69,70,75,76,77,77,83,83,90,100.
男、女学生得分的四分位数如下表:
25%分位数 50%分位数 75%分位数
男生 50 58 71.5
女生 63 69.5 77
21.(本小题满分12分)
学校为了了解全校学生的阅读情况,现随机调查了200名学生每周阅读时间(单位:时)并绘制如图所示的频率分布直方图.
(1)为查找影响学生阅读时间的因素,学校团委决定从每周阅读时间为[6.5,7.5),[7.5,8.5)的学生中抽取6名参加座谈会,你认为6个名额应该怎么分配
(2)利用样本估计总体的方法,估计全校每周阅读时间的中位数a.
(a的值精确到0.01)
解:(1)每周阅读时间为[6.5,7.5)的学生中抽取2名,
每周阅读时间为[7.5,8.5)的学生中抽取4名.
理由:每周阅读时间为[6.5,7.5)与每周阅读时间为[7.5,8.5)是差异明显的两层,
为保持样本结构与总体结构的一致性,提高样本的代表性,
宜采用分层随机抽样的方法抽取样本,
因为两者频率分别为0.1,0.2,所以按照1∶2进行名额分配.
(2)因为0.03+0.1+0.2+0.35=0.68>0.5,
所以中位数a∈[8.5,9.5),
由0.03+0.1+0.2+(a-8.5)×0.35=0.5,
解得a=+8.5≈8.99.
22.(本小题满分12分)
为了解学生的周末学习时间(单位:时),高一年级某班班主任对本班40名学生某周末的学习时间进行了调查,将所得数据整理绘制出如图所示的频率分布直方图,根据直方图所提供的信息:
(1)求该班学生周末的学习时间不少于15小时的人数.
(2)估计这40名同学周末学习时间的25%分位数.
(3)如果用该班学生周末的学习时间作为样本去推断该校高一年级全体学生周末的学习时间,这样推断是否合理 说明理由.
解:(1)由题图可知,该班学生周末的学习时间不少于15小时的频率为(0.045+0.045)×5=0.45,
则40名学生中周末的学习时间不少于20小时的人数为40×0.45=18.
(2)学习时间在5小时以下的频率为0.02×5=0.1<0.25,
学习时间在10小时以下的频率为0.1+0.04×5=0.3>0.25,
所以25%分位数在[5,10)之间,
5+5×=8.75.
则估计这40名同学周末学习时间的25%分位数为8.75.
(3)不合理,样本的选取只选在高一某班,不具有代表性.