第九章 统 计
9.1 随机抽样
9.1.1 简单随机抽样
@研习任务一 全面调查与抽样调查
走进 教材
[问题1] 一天,爸爸叫儿子去买一盒火柴.临出门前,爸爸嘱咐儿子要买能划燃的火柴.儿子拿着钱出门了,过了好一会儿,儿子才回到家.
“火柴能划燃吗?”爸爸问.
“都能划燃.”
“你这么肯定?”
儿子递过一盒划过的火柴,兴奋地说:“我每根都试过啦.”
在这则笑话中,儿子采用的是什么调查方式?这种调查方式为什么不好?适宜采用什么方法调查?
提示:普查;这种调查方式具有破坏性;抽样调查.
[知识梳理]
1.全面调查和抽样调查
对 每一个 调查对象都进行调查的方法,称为全面调查又称普查.根据一定的目的,从总体中抽取 一部分 个体进行调查,并以此为依据对总体的情况作出 估计 和 推断 的调查方法,称为抽样调查.
2.总体和个体
把调查对象的 全体 称为总体,组成总体的每一个调查对象称为个体.
为了强调调查目的,也可以把调查对象的某些 指标的全体 作为总体,每一个调查对象的 相应指标 作为个体.
题型 调研
[典例1] (1)下列调查方式,你认为合适的是( A )
A.了解某地每天的流动人口数,采用抽样调查
B.了解旅客上飞机前的安检,采用抽样调查
C.了解某地居民端午假期的出行方式,采用全面调查
D.日光灯管厂要检测一批灯管的使用寿命,采用全面调查
解析:调查范围广,应采用抽样调查,故A正确;涉及安全,事关重大,应采用全面调查,故B错误;调查范围广,应采用抽样调查,故C错误;调查具有破坏性,应采用抽样调查,故D错误.
(2)(多选)(2024·陕西榆林神木中学月考)为了了解某校240名高一学生的身高情况,从中抽取了40名学生进行测量.下列说法正确的是( ABD )
A.总体是240名学生的身高
B.个体是每一名学生的身高
C.样本是任意40名学生的身高
D.样本容量是40
解析:在这个问题中,总体是240名学生的身高,个体是每一名学生的身高,样本是抽取的40名学生的身高,样本容量是40.
巧归纳
全面调查对数据掌握的相对非常准确.但是如果调查本身有破坏性,或者花费很高的话,那么应该采用抽样调查更好.
[练习题1] 下列调查方式中合适的是( C )
A.要了解一批节能灯的使用寿命,采用普查方式
B.调查某班级同学的身高,采用抽样调查方式
C.调查沱江某段水域的水质情况,采用抽样调查方式
D.调查某市中学生每天的就寝时间,采用普查方式
解析:要了解节能灯的使用寿命,由于调查具有毁损性,所以宜采取抽样调查的方式;要调查某班级同学的身高,由于人数较少,宜采用普查的方式;对某市中学生每天的就寝时间的调查宜采用抽样调查的方式.
@研习任务二 简单随机抽样
走进 教材
[问题2] 假设口袋中有红色和白色共1 000个小球,除颜色外,小球的大小、质地完全相同.你能通过抽样调查的方法估计袋中红球所占的比例吗?
提示:我们可以从袋中随机地摸出一个球,记录颜色后放回,摇匀后再摸出一个球,如此重复n次,即可用红球出现的频率估计出红球的比例,也可以采用不放回的摸球去估计红球的比例.
[知识梳理]
简单随机抽样的概念
放回简单随机抽样 不放回简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中 逐个 抽取n(1≤n<N)个个体作为样本
如果抽取是放回的,且每次抽取时总体内的各个 个体 被抽到的概率都 相等 ,把这样的抽样方法叫做放回简单随机抽样 如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,把这样的抽样方法叫做不放回简单随机抽样
简单随机抽样:放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样,通过简单随机抽样获得的样本称为简单随机样本
温馨提示:
从总体中,逐个不放回地随机抽取n个个体作为样本与一次性批量随机抽取n个个体作为样本,两种方法是等价的.
题型 调研
[典例2] (1)下列抽样中,不是简单随机抽样的是( A )
A.从无数个个体中抽取50个个体作为样本
B.仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查
C.从装有36个大小、形状都相同的号签的盒子中不放回地逐个抽出6个号签
D.箱子里共有100个零件,从中选出10个零件进行质量检验,在抽样操作中,从中任意取出1个零件进行质量检验后,再把它放回箱子里
(2)(2024·山西长治第二中学月考)下列问题中,最适合用简单随机抽样方法抽样的是( B )
A.某单位有员工40人,其中男员工30人,女员工10人,从中抽取8人调查吸烟情况
B.从20台电视机中抽取5台进行质量检查
C.中央电视台要对春节联欢晚会的收视率进行调查,从全国观众中选10 000名观众
D.某公司在甲、乙、丙三地分别有120个、80个、150个销售点,要从中抽取35个调查收入情况
解析:对于选项A、D,总体中的个体有明显差异,不适合用简单随机抽样;对于选项C,全国人数较多,且人口太分散,不适合用简单随机抽样;对于选项B,总体中的个体数较少,且个体之间无明显差异,适合用简单随机抽样.
巧归纳
简单随机抽样必须具备的三个特点
(1)总体中的个体数N是有限的.
(2)抽取的样本是从总体中逐个抽取的.
(3)简单随机抽样是一种等可能的抽样.
如果3个特点有一个不满足,就不是简单随机抽样.
[练习题2] (1)(2024·陕西宝鸡期中)从52名学生中选取5名学生参加“希望杯”全国数学邀请赛,若采用简单随机抽样的方法抽取,则每人入选的可能性( C )
A.都相等,且为
B.都相等,且为
C.都相等,且为
D.都不相等
解析:对于简单随机抽样,在抽样过程中每一个个体被抽取的机会都相等,若样本容量为n,总体中的个体数为N,则每一个个体被抽到的可能性都是.因此每人入选的可能性都相等,且为.故选C.
(2)从总体容量为N的一批零件中,通过简单随机抽样抽取一个容量为30的样本,若每个零件被抽到的可能性为0.25,则N的值为( A )
A.120 B.200
C.150 D.100
(3)一口袋中有6个大小、质地相同的小球,从中不放回地抽取3次,则某一特定小球被抽出的可能性为 ,第三次抽取时每一小球被抽出的可能性为 .
答案:
解析:因为简单随机抽样每个个体被抽到的可能性为,所以某一特定小球被抽出的可能性为,而抽样是不放回的抽样,第一次抽取时每个小球被抽到的可能性为,第二次为,第三次为.
(4)下列抽取样本的方法是简单随机抽样吗?为什么?
①在机器传送带上每隔10个抽取一件产品作为样本;
②从无限多个个体中抽取50个个体作为样本;
③箱子里共有100个零件,从中选取10个零件进行检验,在抽样操作时,从中任意地拿出一个零件进行质量检验后再把它放回箱里;
④从50个个体里一次性随机抽取5个个体作为样本.
解:①不是,因为传送带上的产品数量不确定.
②不是,因为个体的数目无限.
③是放回简单随机抽样.
④是,因为它是一次性批量随机抽取,与逐个不放回随机抽取含义一样.
@研习任务三 抽样方法
走进 教材
[问题3] 一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全体高一年级学生的平均身高,以便设定可调节课桌椅的标准高度.已知树人中学高一年级有712名学生,如果要通过简单随机抽样的方法调查高一年级学生的平均身高.应该怎样抽取样本?
提示:可以采用抽签法或随机数法抽取一部分学生的样本进行调查.
[知识梳理]
1.抽签法
先给个体进行编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.
2.随机数法
先给个体进行编号,用随机数工具产生总体范围内的整数随机数,把产生的随机数作为抽中的编号,使编号对应的个体进入样本.重复上述过程,直到抽足样本所需要的个体数.
温馨提示:
(1)当总体个数较少时采用抽签法.
(2)产生随机数的方式有多种:①用随机试验生成随机数;②用信息技术生成随机数:ⅰ.用计算器生成随机数;ⅱ.用电子表格软件生成随机数;ⅲ.用R统计软件生成随机数.
(3)如果生成的随机数有重复,可以剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的数量.
题型 调研
题型一 抽签法
[典例3] (1)(2024·河北石家庄高一期中)在对101个人进行一次抽样时,先采用抽签法从中剔除一个人,再在剩余的100人中随机抽取10人,那么下列说法正确的是( B )
A.这种抽样方法对于被剔除的个体是不公平的,因为他们失去了被抽到的机会
B.每个人在整个抽样过程中被抽到的机会相等,因为每个人被剔除的可能性相等,不被剔除的机会也是相等的
C.因为采用了两步进行抽样,所以无法判断每个人被抽到的可能性是多少
D.每个人被抽到的可能性不相等
解析:因为第一次剔除时采用抽签法,对每个人来说可能性相等,然后随机抽取10人每个人的机会也是相等的,所以总的来说每个人的机会都是相等的,被抽到的可能性都是相等的.故选B.
(2)从40件产品中随机抽取10件进行检查,写出抽签法抽取样本的过程.
解:①编号:将40个个体进行编号,号码为1,2,3,…,40;
②制签:将号码分别写在形状、大小等无差别的均匀硬纸片上,制成号签;
③搅拌:将号签放入一个不透明的容器中,充分搅拌;
④抽取:从容器中不放回依次抽取10个号签,并记录号码,这样所得的号码对应的个体组成样本.
巧归纳
抽签法抽样的步骤
一般地,用抽签法从容量为N的总体中抽取一个容量为n的样本的步骤为
(1)把总体中的N个个体编号(号码可以从1到N).
(2)将这N个号码写在形状、大小相同的签上(签可以是小球、卡片或纸条).
(3)将这些号签放在同一个不透明的箱子里均匀搅拌.
(4)从箱子中每次随机地抽出一个号签不放回,并记录其编号,连续抽取n次.
(5)将总体中与抽到的号签的编号相一致的n个个体取出.
[练习题3] (1)抽签法确保样本具有代表性的关键是( B )
A.制签 B.搅拌均匀
C.逐一抽取 D.抽取不放回
(2)下列抽样试验中,适合用抽签法的是( B )
A.从某厂生产的3 000件产品中抽取600件进行质量检验
B.从某厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
C.从甲、乙两厂生产的两箱(每箱15件)产品中抽取6件进行质量检验
D.从某厂生产的3 000件产品中抽取10件进行质量检验
解析:个体数和样本容量较小时适合用抽签法,排除A、D;C中甲、乙两厂生产的两箱产品质量可能差别较大,也不适合.故选B.
题型二 随机数法
[典例4] (1)(2024·山西临汾模拟)现从某学校450名同学中用随机数法随机抽取30人参加一项活动,将这450名同学分别编号为001,002,…,449,450,要求从下表第2行第5列的数字开始向右读,则第5个被抽到的编号为 447 .
第1行:16 22 77 94 39 49 54 43 54 82 17 37 93 23 78 87 35 20 96 43 84 26 34 91 64
第2行:84 42 17 53 31 57 24 55 06 88 77 04 74 47 67 21 76 33 50 25 83 92 12 06 76
第3行:63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 79
解析:由题可知抽取到的编号依次为175,331,068,047,447,…,故第5个被抽到的编号为447.
(2)某市质监局要检查某公司某个时间段生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取10袋进行检验.
①利用随机数法抽取样本时,应如何操作?
②如果用随机数法生成部分随机数如下所示,据此写出应抽取的袋装牛奶的编号.
162,277,943,949,545,354,821,737,932,354,873,520,964,384,263,491,648,642,175,331,572,455,068,877,047,447,672,172,065,025,834,216,337,663,013,785,916,955,567,199,810,507,175,128,673,580,667.
解:①第一步,将500袋牛奶编号为001,002,…,500.
第二步,用随机数工具产生001~500范围内的随机数.
第三步,把产生的随机数作为抽中的编号,使与编号对应的袋装牛奶进入样本.
第四步,重复上述过程,直到产生10个不同编号等于样本所需要的数量.
②应抽取的袋装牛奶的编号为162,277,354,384,263,491,175,331,455,068.
巧归纳
当总体容量较大,样本容量不大时,用随机数法抽取样本较好.
[练习题4] (1)使用简单随机抽样从1 000件产品中抽出50件进行某项调查,合适的抽样方法是( B )
A.抽签法 B.随机数法
C.随机抽样法 D.以上都不对
(2)总体由编号为01,02,…,39,40的40个个体组成,从中选取5个个体.利用科学计算器依次生成一组随机数如下,则选出来的第5个个体的编号为( B )
66 06 58 61 54 35 02 42 35
48 96 32 14 52 41 52 48
A.54 B.14
C.35 D.32
@研习任务四 用样本平均数估计总体平均数
走进 教材
[问题4] 我们从某中学高一年级抽取一个容量为50的样本,测量这50名学生的身高,通过这些数据,我们可以计算出样本的平均数为164.3,据此,我们可以估计高一年级全体学生的平均身高吗?
提示:测量这50名学生的身高,可以估计高一年级全体学生的平均身高为164.3 cm左右.
[知识梳理]
1.总体平均数
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称= = Yi 为总体均值,又称总体平均数.
2.加权平均数
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式 =fiYi .
3.样本平均数
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称= = yi 为样本均值,又称样本平均数.在简单随机抽样中,常用样本平均数去估计总体平均数.
温馨提示:
(1)不同样本的平均数不同,即样本的平均数具有随机性;
(2)大部分样本平均数离总体平均数不远,在总体平均数附近波动;
(3)增加样本容量可以提高估计效果.
题型 调研
[典例5] 据报道,某公司的33名职工的月工资(单位:元)如下:
职务 董事长 副董事长 董事 总经理 经理 管理员 职员
人数 1 1 2 1 5 3 20
工资 5 500 5 000 3 500 3 000 2 500 2 000 1 500
(1)求该公司职工月工资的平均数(精确到元);
(2)假设副董事长的工资从5 000元提升到20 000元,董事长的工资从5 500元提升到30 000元,那么新的平均数又是什么(精确到元)?
(3)你认为工资的平均数能反映这个公司员工的工资水平吗?结合此问题谈一谈你的看法.
解:(1)该公司职工月工资的平均数
=1 500+×(4 000+3 500+2 000×2+1 500+1 000×5+500×3+0×20)≈1 500+591=2 091(元).
(2)平均数'=1 500+×(28 500+18 500+2 000×2+1 500+1 000×5+500×3+0×20)≈1 500+1 788=3 288(元).
(3)在这个问题中,因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数偏差较大,所以平均数不能反映这个公司员工的工资水平.
巧归纳
1.在简单随机抽样中,我们常用样本平均数去估计总体平均数.
2.总体平均数是一个确定的数,样本平均数具有随机性(因为样本具有随机性).
3.一般情况下,样本量越大,估计越准确.
[练习题5] 某校组织了一次关于“生活小常识”的知识竞赛.在参加的所有学生中随机抽取100位学生的回答情况进行统计,具体如下:答对5题的有10人;答对6题的有30人;答对7题的有30人;答对8题的有15人;答对9题的有10人;答对10题的有5人.则在这次知识竞赛中这所学校平均每位学生答对的题数大约为 7 .
解析:抽取的100位学生答对题目的平均数是×(5×10+6×30+7×30+8×15+9×10+10×5)=7.
因此在这次知识竞赛中这所学校平均每位学生答对的题数大约为7.
@课后提素养
1.(多选)为了了解某市高三毕业生升学考试中数学成绩的情况,从参加考试的学生中随机抽查了1 000名学生的数学成绩进行统计分析,在这个问题中,下列说法正确的是( BD )
A.总体指的是该市参加升学考试的全体学生
B.个体指的是每一名学生的数学成绩
C.样本量指的是1 000名学生
D.样本是指1 000名学生的升学考试数学成绩
解析:总体是该市高三毕业生升学考试中数学成绩的全体,A错误;个体是每一名学生的数学成绩,B正确;样本是抽查的1 000名学生的升学考试的数学成绩,样本量是1 000,C错误,D正确.故选BD.
2.(多选)下列抽样方法不是简单随机抽样的是( AC )
A.从平面直角坐标系中抽取5个点作为样本
B.某可乐公司从仓库中的1 000箱可乐中一次性随机抽取20箱进行质量检查
C.某连队从120名战士中,挑选出50名最优秀的战士去参加抢险救灾活动
D.从10个手机中逐个不放回地随机抽取2个进行质量检验(假设10个手机已编号)
解析:对于A,平面直角坐标系中有无数个点,这与要求总体中的个体数有限不相符,故A中的抽样方法不是简单随机抽样;对于B,一次性随机抽取与逐个不放回地随机抽取是等价的,故B中的抽样方法是简单随机抽样;对于C,挑选的50名战士是最优秀的,不符合简单随机抽样的等可能性,故C中的抽样方法不是简单随机抽样;对于D,易知D中的抽样方法是简单随机抽样.
3.从一批产品中用简单随机抽样的方法抽取了一部分作为样本,检测产品的合格率,其中甲检验员从中抽取了50件产品,其合格率为94.5%,乙检验员从中抽取了100件产品,其合格率为95.6%,则估计该产品合格率更接近于 乙 检验员检测的结果.
4.某电视台举行颁奖典礼,邀请20名港台、内地艺人演出,其中从30名内地艺人中随机挑选10人,从18名香港艺人中随机挑选6人,从10名台湾艺人中随机挑选4人.试分别用抽签法和随机数法确定选中的艺人.
解:抽签法:
第一步,将30名内地艺人从01到30编号,然后用相同的纸条做成30个号签,在每个号签上写上这些编号,揉成团,然后放入一个不透明小筒中摇匀,从中逐个不放回地抽出10个号签,则相应编号的艺人参加演出.
第二步,运用相同的办法分别从18名香港艺人中抽取6人,从10名台湾艺人中抽取4人.
随机数法:
第一步,将30名内地艺人从01到30编号,准备10个大小、质地一样的小球.小球上分别写上数字0,1,2,…,9.把它们放入一个不透明的袋中,从袋中有放回地摸取2次,每次摸取前充分搅拌,并把第一次、第二次摸到的数字分别作为十位、个位数字,这样就生成了一个随机数,如果这个随机数在1~30范围内,就代表了对应编号的艺人被抽中,否则舍弃编号,重复抽取随机数,剔除重复的编号,直到抽中10名艺人为止.
第二步,运用相同的办法分别从18名香港艺人中抽取6人,从10名台湾艺人中抽取4人.
@课时作业(四十四)
基础巩固
1.下列抽样属于简单随机抽样的是( D )
A.在路口随机揽下一个人调查抽烟史
B.某班级从50名同学中,挑选出5名最优秀的同学参加数学竞赛
C.从实数集中抽取100个实数作为样本
D.一彩民选号,从装有36个大小、形状都相同的号签的盒子中无放回地抽出6个号签
解析:A、C不是简单随机抽样,因为简单随机抽样要求被抽取的总体的个数是有限的;B不是简单随机抽样,因为这5名同学是从中挑选出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求;D是简单随机抽样,因为总体中的个数是有限的,并且是从总体中逐个进行抽取的,是不放回、等可能的抽样.
2.下列不能产生随机数的是( D )
A.抛掷骰子试验
B.抛硬币
C.计算器
D.抛正方体(六个面上分别写有1,2,2,3,4,5)
解析:D选项中出现2的概率为,出现1,3,4,5的概率均是,故不能产生随机数.
3.某中学进行了一次期末统一考试,该校为了了解高一年级1 000名学生的考试成绩,从中随机抽取了100名学生的成绩进行统计分析,下列说法正确的是( D )
A.1 000名学生是总体
B.每个学生是个体
C.1 000名学生的成绩是一个个体
D.样本量是100
4.从某批零件中抽取50个,然后再从50个中抽出40个进行合格检查,发现合格品有36个,则该批产品的合格率为( C )
A.36% B.72%
C.90% D.25%
解析:×100%=90%.故选C.
5.若样本平均数为,总体平均数为μ,则( D )
A.=μ B.≈μ
C.μ是的估计值 D.是μ的估计值
解析:样本平均数为,总体平均数为μ,统计学中,通常利用样本数据估计总体数据,∴样本平均数是总体平均数μ的估计值.
6.一个布袋中有10个同样质地的小球,从中不放回地依次抽取3个小球,则某一特定小球被抽到的可能性是 ,第三次抽取时,剩余每个小球被抽到的可能性是 .
解析:因为简单随机抽样过程中,每个个体被抽到的可能性是相等的,均为(N表示总体中含有的个体数,n表示总体中逐个不放回抽取的个体数),所以某一特定小球被抽到的可能性是.因为本题中的抽样是不放回抽样,所以第一次抽取时,每个小球被抽到的可能性为,第二次抽取时,还剩下9个小球,每个小球被抽到的可能性为,第三次抽取时,还剩下8个小球,每个小球被抽到的可能性为.
7.某工厂抽取50个机械零件检验其直径大小,得到如下数据:
直径(单位:cm) 12 13 14
频数 12 34 4
估计这50个零件的直径大约为 12.84 cm.
解析:==12.84(cm).
8.为了调查某市城区某小河流的水体污染状况,就某个指标,某学校甲班的同学抽取了样本量为50的5个样本,乙班的同学抽取了样本量为100的5个样本,得到如下数据:
抽样序号
1 2 3 4 5
样本量为50 的平均数 123.1 120.2 125.4 119.1 123.6
样本量为100 的平均数 119.8 120.1 121.0 120.3 120.2
据此可以认定 乙 班的同学调查结果能够更好地反映总体,这两个班的同学调查的该项指标约为 120 (答案不唯一,只要合理即可).
解析:由抽样调查的意义可以知道,增加样本量可以提高估计效果,所以乙班同学的调查结果能更好地反映总体,由表可知,该项指标约为120.
9.某校从高一全体男生中用简单随机抽样的方法抽取了20人,测量出他们的体重情况如下(单位:kg):
65 56 70 82 66 72 54 86 70 62
58 72 64 60 76 72 80 68 58 66
试估计该校高一男生的平均体重,以及体重在60~75 kg(包括60 kg和75 kg)之间的人数所占比例.
解:这20名男生的平均体重为
=67.85(kg).
这20名男生中体重在60~75 kg(包括60 kg和75 kg)之间的人数为12,
故这20名男生体重在60~75 kg(包括60 kg和75 kg)之间的人数所占比例为=0.6.
所以估计该校高一男生的平均体重约为67.85 kg,体重在60~75 kg(包括60 kg和75 kg)之间的人数所占比例约为0.6.
更上层楼
10.在需要评委打分的比赛中,为防止极端值对平均分的影响,计算最终平均分的时候,需要去掉最高分和最低分.如果在某次比赛中,n(n≥3)位评委所打分数去掉一个最高分算得平均分记为,去掉一个最低分算得平均分记为,同时去掉一个最高分和一个最低分算得平均分记为,那么,,的大小关系为( D )
A.≥≥ B.≥≥
C.≥≥ D.≥≥
解析:假设最高分为a,最低分为b,去掉最高分和最低分的平均分为c=,其余分数的和为(n-2)c,由题意可知a≥c≥b,评委所打分数去掉一个最高分a算得平均分===c+≤c=,去掉一个最低分b算得平均分为===c+≥c=,所以,,的大小关系为≥≥,故选D.
11.从一群做游戏的小孩中随机抽出k人,一人分一个苹果,让他们返回继续游戏.过了一会儿,再从中任取m人,发现其中有n个小孩曾分过苹果,估计参加游戏的小孩的总人数为( C )
A. B.k+m-n
C. D.不能估计
解析:设参加游戏的小孩有x人,则=,因此x=.
12.实践中常采用“捉一放一捉”的方法估计一个鱼塘中鱼的数量.如从这个鱼塘中随机捕捞出100条鱼,将这100条鱼分别做一记号后再放回鱼塘,数天后再从鱼塘中随机捕捞出108条鱼,其中有记号的鱼有9条,从而可以估计鱼塘的鱼共有 1 200 条.
13.某中学高一年级有400人,高二年级有320人,高三年级有280人,用随机数法在该中学抽取容量为n的样本,若每人被抽到的可能性为20%,则n等于 200 .
解析:由=20%,解得n=200.
探究发现·(重点班选做)
14.某学校开展一次知识竞赛活动,共有三个问题,其中第1,2题满分都是15分,第3题满分是20分.每个问题或者得满分,或者得0分.活动结果显示,每个参赛选手至少答对一道题,有6名选手只答对其中一道题,有12名选手只答对其中两道题.答对第1题的人数与答对第2题的人数之和为26,答对第1题的人数与答对第3题的人数之和为24,答对第2题的人数与答对第3题的人数之和为22.则参赛选手中三道题全答对的人数是 2 ,所有参赛选手的平均分是 29.5 .
解析:设x1,x2,x3分别表示答对第1题,第2题,第3题的人数.
则有解得
又只答对其中一题的人数为6,只答对其中两题的人数为12,
设三道题全答对的人数为x,则参赛选手人数为6+12+x.
所以6×1+12×2+3x=36,解得x=2,
所以三道题全答对的人数是2,
所以所有参赛选手共有6+12+2=20(人),
所以所有参赛选手的平均分是=×(14×15+12×15+10×20)=29.5.
15.为了节约用水,制定阶梯水价,同时又不加重居民生活负担,某市物价部门在8月份调查了本市某小区300户居民中的50户居民,得到如下数据:
用水量 /m3 18 19 20 21 22 23 24 25 26
频数 2 4 4 6 12 10 8 2 2
物价部门制定的阶梯水价实施方案为
月用水量 水价/(元/m3)
不超过21 m3 3
超过21 m3的部分 4.5
(1)计算这50户居民的用水的平均数.
(2)写出水价的函数关系式,并计算月用水量为28 m3时的水费.
(3)物价部门制定的阶梯水价合理吗?为什么?
解:(1)=×(18×2+19×4+20×4+21×6+22×12+23×10+24×8+25×2+26×2)=22.12(m3).
(2)设月用水量为x m3,
则水价为f(x)=
当x=28时,f(28)=4.5×28-31.5=94.5(元).
(3)不合理.从时间上看,物价部门是在8月份调查的居民月用水量,而这个月,该市的居民月用水量普遍偏高,不能代表居民全年的月用水量;从居民比例上看,仅仅有16户居民,即32%的居民月用水量没有超过21 m3,加重了大部分居民的负担.
9.1.2 分层随机抽样
9.1.3 获取数据的途径
@研习任务一 分层随机抽样
走进 教材
[问题1] 在树人中学高一年级的712名学生中,男生有326名,女生有386名.能否利用这个辅助信息改进简单随机抽样方法,减少“极端”样本的出现,从而提高对整个年级平均身高的估计效果呢?
提示:我们知道,影响身高的因素有很多,性别是其中的一个主要因素.高中男生的身高普遍高于女生的身高,而相同性别的身高差异相对较小.我们可以利用性别和身高的这种关系,把高一年级学生分成男生和女生两个身高有明显差异的群体,对两个群体分别进行简单随机抽样,然后汇总作为总体的一个样本.由于在男生和女生两个群体中都抽取了相应的个体,这样就能有效地避免“极端”样本.
[问题2] 对男生、女生分别进行简单随机抽样,样本量在男生、女生中应如何分配?
提示:自然地,为了使样本的结构与总体的分布相近,人数多的群体应多抽一些,人数少的群体应少抽一些.因此,按男生、女生在全体学生中所占的比例进行分配是一种比较合理的方式.即男生样本量=×总样本量,女生样本量=×总样本量.这样无论是男生还是女生,每个学生被抽到的概率都相等.当总样本量为50时,可以计算出从男生、女生中分别应抽取的人数为n男=×50≈23,n女=×50≈27.
[知识梳理]
1.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个 子总体 ,在每个子总体中独立地进行 简单随机抽样 ,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样.
2.层:每一个 子总体 称为层.
3.比例分配:在分层随机抽样中,如果每层样本量都与层的大小 成比例 ,那么称这种样本量的分配方式为比例分配.
在分层随机抽样中,如果层数分为2层,第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n.用X1,X2,…,XM表示第1层各个个体的变量值,用x1,x2,…,xm表示第1层样本的各个个体的变量值;用Y1,Y2,…,YN表示第2层各个个体的变量值,用y1,y2,…,yn表示第2层样本的各个个体的变量值,则第1层的总体平均数和样本平均数分别为
==Xi,
==xi.
第2层的总体平均数和样本平均数分别为
==Yi,
==yi.
总体平均数和样本平均数分别为
=,=.
由于用第1层的样本平均数可以估计第1层的总体平均数,用第2层的样本平均数可以估计第2层的总体平均数,因此我们可以用=+估计总体平均数.
在比例分配的分层随机抽样中,==,可得+=+=.因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数.
题型 调研
题型一 分层随机抽样的概念
[典例1] (1)某中学有老年教师20人,中年教师65人,青年教师95人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,则合适的抽样方法是( C )
A.抽签法 B.随机数法
C.分层随机抽样 D.其他抽样方法
(2)某地区的大一新生中,来自东部平原地区的学生有2 400人,中部丘陵地区的学生有1 600人,西部山区的学生有1 000人.计划从中选取100人调查学生的视力情况,现已了解到来自东部、中部、西部三个地区学生的视力情况有较大差异,而这三个地区男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( D )
A.随机数法
B.按性别分层随机抽样
C.抽签法
D.按地区分层随机抽样
巧归纳
分层随机抽样的前提和遵循的两条原则
(1)前提:分层随机抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占的比例抽取.
(2)遵循的两条原则:
①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则.
②分层随机抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
[练习题1] 某电视台就观众对某一节目的喜欢程度进行调查,参加调查的人数为12 000,其中持各种态度的人数如表所示:
很喜欢 喜欢 一般 不喜欢
2 435 4 567 3 926 1 072
电视台为了进一步了解观众的具体想法和意见,打算从中抽取60人进行更为详细的调查,应怎样进行抽样?
解:因为总体中人数较多,所以不宜采用简单随机抽样.又由于持不同态度的人数差异较大,故选择分层随机抽样的方法.
采用分层随机抽样方法,其总体容量为12 000.
“很喜欢”占,应取的人数为60×≈12;
“喜欢”占,应取的人数为60×≈23;
“一般”占,应取的人数为60×≈20;
“不喜欢”占,应取的人数为60×≈5.
从“很喜欢”“喜欢”“一般”和“不喜欢”中应分别抽取12人、23人、20人、5人.
题型二 分层随机抽样的应用
[典例2] (1)甲校有3 600名学生,乙校有5 400名学生,丙校有1 800名学生,为统计三所学校学生某方面的情况,计划采用分层随机抽样法,抽取一个容量为90的样本,应在甲、乙、丙三所学校分别抽取学生( B )
A.30人,30人,30人
B.30人,45人,15人
C.20人,30人,10人
D.30人,50人,10人
解析:方法一:根据题意,可知抽样比为=,应在甲、乙、丙三所学校分别抽取学生3 600×=30(人),5 400×=45(人),1 800×=15(人).
方法二:因为3 600∶5 400∶1 800=2∶3∶1,于是将90分成2∶3∶1的三部分.设三部分抽取的个体数分别为2x,3x,x,由3x+2x+x=90,得x=15,故甲、乙、丙三所学校抽取的人数分别为30,45,15.
(2)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层随机抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( B )
A.101 B.808
C.1 212 D.2 012
解析:四个社区抽取的总人数为12+21+25+43=101,由分层随机抽样可知,=,解得N=808.故选B.
[练习题2] 一批产品中,有一级品100个,二级品60个,三级品40个,选择一种合适的抽样方法,从这批产品中抽取一个容量为20的样本.
解:由题意可知,用分层随机抽样的方法比较好.
因为样本容量与总体中个体数的比为20∶200=1∶10,所以需从一级品中抽取×100=10(个),从二级品中抽取×60=6(个),从三级品中抽取×40=4(个).
将一级品的100个按00,01,…,99编号;将二级品的60个产品按00,01,…,59编号;将三级品的40个产品按00,01,…,39编号;采用随机数法,分别从中抽取10个、6个、4个号码,这样就得到一个容量为20的样本.
题型三 用样本平均数估计总体平均数
[典例3] 某学校为了调查高一年级学生的体育锻炼情况,从甲、乙、丙3个班中,按分层随机抽样的方法获得了部分学生一周的锻炼时间(单位:h),数据如表.
甲 6 6.5 7 7.5 8
乙 6 7 8 9 10 11 12
丙 3 4.5 6 7.5 9 10.5 12 13.5
(1)求三个班中学生人数之比;
(2)估计这个学校高一的学生中,一周的锻炼时间超过10 h的百分比;
(3)估计这个学校高一年级学生一周的平均锻炼时间.
解:(1)三个班学生人数之比为5∶7∶8.
(2)由题意知样本中一周的锻炼时间超过10 h的有5人,故高一年级学生一周的锻炼时间超过10 h的百分比为×100%=25%.
(3)从甲班抽取的5名学生的总时间为6+6.5+7+7.5+8=35(h).
从乙班抽取的7名学生的总时间为6+7+8+9+10+11+12=63(h).
从丙班抽取的8名学生的总时间为3+4.5+6+7.5+9+10.5+12+13.5=66(h).
则样本平均数为==8.2(h).
估计这个学校高一年级学生一周的平均锻炼时间为8.2 h.
巧归纳
在分层随机抽样中,如果第一层的样本量为m,平均值为x;第二层的样本量为n,平均值为y,则样本的平均值为
[练习题3] 在考察某高中的学生身高时,采用分层随机抽样的方法,得到了男生身高的平均数为172,女生身高的平均数为162.
(1)如果没有其他信息,怎样估计总体平均数?
(2)如果知道抽取的样本中,男生有20人,女生有15人,怎样估计总体平均数?
解:(1)作为估计来说,我们可以选择男生(或女生)样本的平均数作为总体对应值的估计,但这样的选择没有充分利用已有的数据,显然不够好.另外一种估计的方法是取每一层样本平均数作为总体的估计,即估计总体平均数为=167.
(2)由加权平均数公式代入,得样本的平均数为≈167.71,
因此估计总体平均数为167.71.
@研习任务二 获取数据的途径
走进 教材
[知识梳理]
获取数据的 基本途径 适用类型 注意问题
通过 调查 获取数据 对于有限总体问题,一般通过抽样调查或普查的方法获取数据 要充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误
通过 试验 获取数据 没有现存的数据可以查询 严格控制试验环境,通过精心的设计安排试验,以提高数据质量
获取数据的 基本途径 适用类型 注意问题
通过 观察 获取数据 自然现象 借助专业测量设备通过长久的持续观察获取数据
通过 查询 获得数据 众多专家研究过,其收集的数据有所存储 必须根据问题背景知识“清洗”数据,去伪存真
题型 调研
题型一 获取数据途径的选择
[典例4] (1)为了研究近年我国高等教育发展状况,小明需要获取近年来我国大学生入学人数的相关数据,他获取这些数据的途径最好是( D )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
解析:因为近年来我国大学生入学人数的相关数据有所存储,所以小明获取这些数据的途径最好是通过查询获得数据.
(2)下列数据一般是通过试验获取的是( D )
A.2024年某市的降雨量
B.2024年某地新生儿数量
C.某学校高一年级同学的数学测试成绩
D.某种特效中成药的配方
解析:某种特效中成药的配方的数据一般通过试验获得.
巧归纳
选择获取数据的途径的依据
选择获取数据的途径主要是根据所要研究问题的类型,以及获取数据的难易程度.有的数据可以有多种获取途径,有的数据只能通过一种途径获取,选择合适的方法和途径能够更好地提高数据的可靠性.
[练习题4] 统计学通过收集数据和分析数据来认识未知现象,在实践中获取数据的途径多种多样,下面四项研究适合通过调查获得数据的为 ③ ,适合通过试验获得数据的为 ① ,适合通过观察获得数据的为 ④ ,适合通过查询获得数据的为 ② .
①新品种杂交水稻是否具有更高的产量;
②2023年全国居民消费价格指数;
③高中生的平均睡眠时间;
④某行星的运动轨迹.
解析:对于①,新品种杂交水稻的产量没有现存的数据可以查询,需要通过对比试验的方法获取数据;对于②,2023年全国居民消费价格指数可以通过查询国家统计局网站获得数据,降低收集数据的成本;对于③,高中生群体属于有限群体,一般采用抽样调查或普查的方法获得数据;对于④,某行星的运动轨迹属于自然现象,不能人为控制,也不能通过试验获取数据,只能通过长期的观察获取数据.
题型二 数据途径方法设计
[典例5] 为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗?
解:这样的调查结果不能很好地反映该市市民的意愿.
(1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.
(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
巧归纳
在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
[练习题5] 为了创建“和谐平安”校园,某校决定在开学前将学校的电灯电路使用情况进行检查,以排除安全隐患,获取电灯电路的相关数据应该用什么方法?为什么?
解:由于一个学校的电灯电路数目不算大,属于有限总体问题,所以应该通过全面调查获取数据,并且对创建“和谐平安”校园来说,必须排除任一潜在或已存在的安全隐患,故必须用普查的方法.
@课后提素养
1.分层随机抽样又称为类型抽样,即将相似的个体归入一类(层),然后每层各抽取若干个个体构成样本,所以分层随机抽样为保证每个个体等可能入样,必须进行( C )
A.每层等可能抽样
B.每层不等可能抽样
C.所有层同一抽样比,等可能抽样
D.所有层抽同样多样本容量,等可能抽样
解析:保证每个个体等可能的入样,是简单随机抽样、分层随机抽样共同的特征,为了保证这一点,分层时用同一抽样比是不可少的.故选C.
2.(多选)某单位共有老年人120人,中年人360人,青年人n人,为调查他们的身体健康状况,需要抽取一个样本量为m的样本,用分层随机抽样的方法进行抽样调查,若样本中的中年人人数为6,则n和m的值可以是( ABD )
A.n=360,m=14 B.n=420,m=15
C.n=540,m=18 D.n=660,m=19
解析:若样本中的中年人人数为6,则老年人人数为120×=2,青年人人数为n×=,所以2+6+=m,得8+=m,将选项依次代入,可知选项A、B、D符合,故选ABD.
3.某企业三个分厂生产同一种电子产品,三个分厂的产量分布如图所示.现在用分层随机抽样方法从三个分厂生产的产品中共抽取100件进行使用寿命的测试,则第一分厂应抽取的件数为 50 ;测试结果为第一、二、三分厂取出的产品的平均使用寿命分别为1 020 h,980 h,1 030 h,估计这个企业生产的产品的平均使用寿命为 1 015 h.
解析:由分层随机抽样可知,第一分厂应抽取100×50%=50(件).
由样本的平均数估计总体的平均数,可知这批电子产品的平均使用寿命约为1 020×50%+980×20%+1 030×30%=1 015(h).
@课时作业(四十五)
基础巩固
1.(多选)(2024·重庆三峡名校联盟高一下联考)某工厂生产小、中、大三种型号的客车,产品数量之比为2∶5∶3,为检验生产车辆是否合格,现打算抽取一个样本进行调查,若样本中的小型号客车有14辆,则下列说法正确的是( AD )
A.此样本量为70
B.此样本中,大型号客车比中型号客车多14辆
C.此样本中,大型号客车有30辆
D.应采用的抽样方法为分层随机抽样
解析:设此样本量为x,由题意得×x=14,解得x=70,A正确;此样本中,大型号客车有×70=21(辆),中型号客车有×70=35(辆),B、C错误;因为车辆有明显的差异,所以应采用的抽样方法为分层随机抽样,D正确.
2.为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是( C )
A.简单随机抽样
B.按性别分层随机抽样
C.按学段分层随机抽样
D.其他抽样方法
3.(多选)某中学高一年级有20个班,每班50人;高二年级有30个班,每班45人.甲就读于高一,乙就读于高二.学校计划从这两个年级中共抽取235人进行视力调查,下列说法中正确的有( ABD )
A.应该采用分层随机抽样法
B.高一、高二年级应分别抽取100人和135人
C.乙被抽到的可能性比甲大
D.该问题中的总体是高一、高二年级的全体学生的视力
解析:由于各年级的年龄段不一样,因此应采用分层随机抽样法.由于比例为=,因此高一年级1 000人中应抽取100人,高二年级1 350人中应抽取135人,甲、乙被抽到的可能性都是,因此只有C不正确,故选ABD.
4.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层随机抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是( C )
A.4 B.5 C.6 D.7
解析:由题知抽样比为=,则抽取的植物油类种数是10×=2,抽取的果蔬类食品种数是20×=4,所以抽取的植物油类与果蔬类食品种数之和是2+4=6.
5.(2024·河南开封高一期末)某俱乐部有男生490人,女生510人,按男生、女生进行分层随机抽样,得到男生、女生的平均身高分别为170.2 cm和160.8 cm.则下列说法错误的是( C )
A.若各层按比例分配抽取样本量为100的样本,可以用×170.2+×160.8≈165.4(cm)来估计总体平均值
B.若从男生、女生中抽取的样本量分别为30和70,可以用×170.2+×160.8≈163.6(cm)来估计总体平均值
C.若从男生、女生中抽取的样本量分别为30和70,则总样本的均值为×170.2+×160.8≈163.6(cm)
D.如果仅根据男生、女生的样本均值,无法计算出总体的均值
解析:由分层随机抽样的概念可得样本平均值为×170.2+×160.8≈165.4(cm),由此可以估计总体平均值约为165.4 cm,故A正确;由平均数的计算公式可得,样本平均值为×170.2+×160.8≈163.6(cm),由此可以估计总体平均值约为163.6 cm,故B正确;由B可知,163.6为样本平均值,我们可以由此估计出总体平均值,而不是确定的总体平均值,故C错误;如果仅根据男生、女生的样本均值,可以估计出总体的均值,不能计算出总体的均值,故D正确.故选C.
6.(2024·四川乐山高一期中)某学校高中部共有学生2 100名,高中部各年级男、女生人数如表所示.已知在高中部学生中随机抽取1名学生,抽到高三年级女生的概率是0.2,现用分层随机抽样的方法在高中部抽取60名学生,则应在高二年级抽取的学生人数为( B )
高一年级 高二年级 高三年级
女生 372 y x
男生 327 z 420
A.12 B.16 C.18 D.24
解析:因为在高中部学生中随机抽取1名学生,抽到高三年级女生的概率是0.2,
所以=0.2,解得x=420,
所以高二年级的学生人数为2 100-372-327-420-420=561,
所以用分层随机抽样的方法在高中部抽取60名学生,则应在高二年级抽取的学生人数为60×≈16,故选B.
7.已知某乡农田有山地8 000亩,丘陵12 000亩,平地24 000亩,洼地4 000亩.现抽取农田480亩估计全乡农田粮食平均亩产量,采用 分层随机 抽样的方法比较合理,其中山地应抽 80 亩.
解析:×8 000=80.
8.为了了解我国电视机的销售情况,小张在某网站上下载了下图:
小张获取数据的途径是通过 查询 获得数据.
解析:由于从互联网搜索获得数据的方式是查询,因此小张获取数据的途径是通过查询获得数据.
9.某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如表所示:
管理 技术开发 营销 生产 合计
老年 40 40 40 80 200
中年 80 120 160 240 600
青年 40 160 280 720 1 200
合计 160 320 480 1 040 2 000
(1)若要抽取40人调查身体状况,则应怎样抽样?
(2)若要开一个25人的座谈会来讨论单位发展与薪资调整方面的规划,则应怎样抽选出席人?
解:(1)因为身体状况会因年龄而有差异,所以要抽取40人调查身体状况,应采用按年龄分层随机抽样的方法.从老年人中抽取40×=4(人),从中年人中抽取40×=12(人),从青年人中抽取40×=24(人).
(2)要开一个25人的座谈会来讨论单位发展与薪资调整方面的规划,应采用按部门分层随机抽样法.
从管理部抽取25×=2(人),从技术开发部抽取25×=4(人),从营销部抽取25×=6(人),从生产部抽取25×=13(人).
更上层楼
10.(多选)对下面三个抽样最适宜采用的抽样方法判断正确的是( CD )
①从某厂生产的3 000件产品中抽取600件进行质量检验;
②一次数学竞赛中,某班有10人的成绩在110分以上,40人的成绩在90~110分,10人的成绩低于90分,现在从中抽取12人的成绩了解有关情况;
③运动会服务人员为参加400 m决赛的其中6名同学安排跑道.
A.①②适宜采用分层随机抽样
B.②③适宜采用分层随机抽样
C.②适宜采用分层随机抽样
D.③适宜采用简单随机抽样
解析:①从某厂生产的3 000件产品中抽取600件进行质量检验,不满足分层随机抽样的条件;②总体由差异明显且互不重叠的几部分组成,要从中抽取12人的成绩了解有关情况,适合采用分层随机抽样的方法;③运动会服务人员为参加400 m决赛的6名同学安排跑道,具有随机性,适合用简单随机抽样.故选CD.
11.(2024·江西南昌五中高一月考)一个盒子中有若干白色围棋子,为了估计其中围棋子的数目,小明将100颗黑色的围棋子放入其中,充分搅拌后随机抽出了20颗,数得其中有5颗黑色的围棋子,根据这些信息可以估计白色围棋子的数目约为( B )
A.200颗 B.300颗
C.400颗 D.500颗
解析:设白色围棋子的数目为n,则由已知可得=,解得n=300,即白色围棋子的数目约为300颗.故选B.
12.某地有居民100 000户,其中普通家庭99 000户,高收入家庭1 000户.从普通家庭中以简单随机抽样的方式抽取990户,从高收入家庭中以简单随机抽样的方式抽取100户进行调查,发现共有120户家庭拥有3套或3套以上住房,其中普通家庭50户,高收入家庭70户.依据这些数据并结合所掌握的统计知识,你认为该地拥有3套或3套以上住房的家庭所占比例的合理估计是 5.7% .(填百分数)
解析:该地拥有3套或3套以上住房的家庭估计有99 000×+1 000×=5 700(户).
所以所占比例的合理估计是5 700÷100 000=5.7%.
探究发现·(重点班选做)
13.(多选)分层随机抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法,在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何?”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税?则下列说法正确的是( ACD )
A.甲应付51钱
B.乙应付32钱
C.丙应付16钱
D.三者中甲付的钱最多,丙付的钱最少
解析:依题意由分层随机抽样可知,抽样比为100÷(560+350+180)=,
则甲应付×560=51(钱);
乙应付×350=32(钱);
丙应付×180=16(钱),
51>32>16.
14.为了对某课题进行研究,分别从A,B,C三所高校中用分层随机抽样的方法抽取若干名教授组成研究小组,其中高校A有m名教授,高校B有72名教授,高校C有n名教授(其中0<m≤72≤n,m,n∈N*).
(1)若A,B两所高校中共抽取3名教授,B,C两所高校中共抽取5名教授,求m,n;
(2)若高校B中抽取的教授人数是高校A和C中抽取的教授总人数的,求三所高校的教授的总人数.
解:(1)∵0<m≤72≤n,A,B两所高校中共抽取3名教授,B,C两所高校中共抽取5名教授,∴高校B中抽取2名教授,高校A中抽取1名教授,高校C中抽取3名教授,
∴==,解得m=36,n=108.
(2)∵高校B中抽取的教授人数是高校A和C中抽取的教授总人数的,∴(m+n)=72,解得m+n=108,
∴三所高校的教授的总人数为m+n+72=180.
9.2 用样本估计总体
9.2.1 总体取值规律的估计
@研习任务一 频率分布直方图
走进 教材
[问题] 我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一户居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费.为使大部分居民的日常生活不受影响,那么标准a定为多少比较合理呢?
(1)为了确定一个较为合理的用水标准,你认为需要做哪些工作?
(2)为了了解全市居民用户月均用水量的整体分布情况,应该采用怎样的方法?
(3)假设通过简单随机抽样,获得100位居民用户的月均用水量数据(单位:t)如下表:
9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.0
2.2 8.6 13.8 5.4 10.2 4.9 6.8 14.0 2.0 10.5
2.1 5.7 5.1 16.8 6.0 11.1 1.3 11.2 7.7 4.9
2.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.4
3.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.0
22.2 10.8 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.9
5.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.7
5.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.3
5.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.9 1.8
7.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6
上述100个数据中的最大值和最小值分别是多少?由此说明样本数据的变化范围是什么?
提示:(1)为了确定一个较为合理的用水标准a,必须先了解全市居民日常用水量的分布情况,比如月均用水量在哪个范围的居民最多,他们占全市居民的百分比情况等.
(2)采用抽样调查的方式,通过分析样本观测数据来估计全市居民用户月均用水量的分布情况.
(3)最大值是28.0 t,最小值是1.3 t,样本数据的变化范围是26.7 t.
[知识梳理]
1.频数:将一批数据按要求分为若干组,各组内的数据的 个数 .
2.频率:各个小组数据在样本量中所占的 比例 的大小.
3.制作频率分布直方图的步骤
第一步,求极差,即一组数据中最大值与最小值的差.
第二步,决定组距与组数.为了方便起见,一般取等长组距,并且组距应力求“取整”.
第三步,将数据分组.通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.
第四步,列频率分布表.统计各组数据的频数,计算频率,作出频率分布表.
第五步,画频率分布直方图.画图时,以横轴表示分组,纵轴(各小长方形的高)表示 .
温馨提示:
频率分布直方图的纵轴表示,频数分布直方图的纵轴表示频数.
题型 调研
[典例1] 某车站在春运期间为了了解旅客购票情况,随机抽样调查了100名旅客从开始在售票窗口排队到购到车票所用的时间t(以下简称为购票用时,单位:min),下面是这次调查统计分析得到的频率分布表和频率分布直方图.
分组 频数 频率
0≤t<5 0 0
5≤t<10 10 0.10
10≤t<15 10 ②0.10
15≤t<20 ①50 0.50
20≤t≤25 30 0.30
合计 100 1.00
(1)这次抽样的样本量是多少?
(2)在表中填写出缺失的数据并补全频率分布直方图.
(3)旅客购票用时的平均数可能落在哪一组?
解:(1)样本量是100.
(2)所补频率分布直方图如图中的阴影部分所示.
(3)设旅客平均购票用时为 min,则有
≤
<,
即15≤<20.
所以旅客购票用时的平均数可能落在第四组15≤t<20中.
巧归纳
(1)频率分布表从数值直观反映各组的频率,频率分布直方图则更形象地描绘出频率与样本分布趋势.所以通常通过两者综合考查估计样本的某些特征.
(2)绘制频率分布直方图的步骤如下
①求极差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.
(3)频率分布表中的频数累计有时略去不写.
[练习题1] 为了了解九年级学生中女生的身高(单位:cm)情况,某中学对九年级部分女生身高进行了一次测量,所得数据整理后列出的频率分布表如下:
分组 频数 频率
[145.5,149.5) 1 0.02
[149.5,153.5) 4 0.08
[153.5,157.5) 20 0.40
[157.5,161.5) 15 0.30
[161.5,165.5) 8 0.16
[165.5,169.5] m n
合计 M N
(1)求出表中m,n,M,N所表示的数分别是多少?
(2)画出频率分布直方图;
(3)九年级全体女生中身高在哪组的人数最多?估计九年级学生中女生的身高在161.5 cm及以上的频率.
解:(1)方法一:N=1.00,n=1-(0.02+0.08+0.40+0.30+0.16)=0.04,
=,∴m=2,
M=1+4+20+15+8+2=50.
方法二:M==50,m=50-(1+4+20+15+8)=2,N=1.00,n===0.04.
(2)作出直角坐标系,纵轴表示,横轴表示身高,画出频率分布直方图如图所示.
(3)由频率分布直方图可知,样本中身高在[153.5,157.5)内的人数最多,且身高在161.5 cm及以上的频率为0.16+0.04=0.20,由此可估计九年级全体女生中身高在[153.5,157.5)内的人数最多,九年级学生中女生的身高在161.5 cm及以上的频率为0.20.
@研习任务二 频率分布直方图的应用
题型 调研
[典例2] (1)某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[5,40]中,其频率分布直方图如图所示,则在抽样的100根中,有 30 根棉花纤维的长度小于20 mm.
解析:由题意知,棉花纤维的长度小于20 mm的频率为(0.01+0.01+0.04)×5=0.3,故在抽样的100根中,棉花纤维的长度小于20 mm的有0.3×100=30(根).
(2)(2024·吉林四平期末)为了了解某工厂生产的产品情况,从该工厂生产的产品中随机抽取一个容量为20的样本,测量它们的尺寸(单位:mm),并分为[92,94),[94,96),[96,98),[98,100),[100,102),[102,104),[104,106]七组,其频率分布直方图如图所示.
①求图中x的值;
②根据频率分布直方图,估计200件该产品中尺寸在[98,100)内的件数;
③记产品尺寸在[98,102)内的为优等品,每件可获利5元;在[92,94)内的为不合格品,每件亏损2元;其余的为合格品,每件可获利3元.已知每台机器一个月共生产3 000件产品.以样本在各组的频率代替总体在各组的频率,若每台机器在一个月内生产的产品所获得的利润未达到11 000元,则需要对该工厂设备实施升级改造.试判断是否需要对该工厂设备实施升级改造.
解:①由(0.02+0.04+0.06+0.07+0.09+0.10+x)×2=1,解得x=0.12.
②估计200件该产品中尺寸在[98,100)内的件数为200×0.09×2=36.
③由题意可得,这批产品中优等品有
3 000×(0.18+0.20)=1 140(件),
不合格品有3 000×0.04=120(件),
合格品有3 000-1 140-120=1 740(件),
所以每台机器在一个月内生产的产品所获得的利润为1 140×5+1 740×3-120×2=10 680(元),
因为10 680<11 000,所以需要对该工厂设备实施升级改造.
巧归纳
(1)频率分布直方图的性质
①因为小矩形的面积=组距×=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小;
②在频率分布直方图中,各小矩形的面积之和等于1;
③=样本容量.
(2)频率分布直方图反映了样本在各个范围内取值的可能性,由抽样的代表性利用样本在某一范围内的频率,可近似地估计总体在这一范围内的可能性.
[练习题2] (1)如图是容量为100的样本的频率分布直方图,试根据图中的数据填空.
①样本数据落在范围[6,10)内的频率为 0.32 ;
②样本数据落在范围[10,14)内的频数为 36 ;
③总体在[2,6)的频率约为 0.08 .
解析:在频率分布直方图中,用小矩形的面积表示频率,则样本数据落在范围[6,10)内的频率为4×0.08=0.32,样本数据落在范围[10,14)内的频数为4×0.09×100=36,用样本的频率估计总体的频率,可知总体在[2,6)的频率约为0.02×4=0.08.
(2)为了解某校高一年级学生的体能情况,抽取部分学生进行一分钟跳绳测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形的面积之比为2∶4∶17∶15∶9∶3,第二小组的频数为12.
①第二小组的频率是多少?样本容量是多少?
②若次数在110以上(含110)为达标,则该校全体高一年级学生的达标率是多少?
解:①由于频率分布直方图是以面积的形式反映数据落在各小组内的频率大小的,因此第二小组的频率为=0.08.
又因为第二小组的频率=,
所以样本容量===150.
②由频率分布直方图可估计,该校高一年级学生的达标率为×100%=88%.
@课后提素养
1.在频率分布直方图中,小长方形的面积等于( C )
A. B.组距×频率
C.频率 D.样本数据
解析:由频率分布直方图的意义知,小长方形的面积是样本的频率.故选C.
2.为了鼓励学生积极锻炼身体,强健体魄,某学校决定每学期对体育成绩在年级前100名的学生给予专项奖励.已知该校高三年级共有500名学生,如图是该年级学生本学期体育测试成绩的频率分布直方图.据此估计,能够获得该项奖励的高三学生的最低分数为( B )
A.89 B.88
C.87 D.86
解析:由题意,得=0.2,[90,95)的频率为0.02×5=0.1,[85,90)的频率为0.05×5=0.25,则0.1<0.2<0.25,则第100名在[85,90)中,设分数为x,[x,90)的频率为0.2-0.1=0.1,所以==,则x=88.
3.某班组织学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数为( B )
A.45 B.50 C.55 D.60
解析:根据题中频率分布直方图可知成绩低于60分的有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.010,每组数据的组距为20,则成绩低于60分的频率为(0.005+0.010)×20=0.3.因为低于60分的人数是15,所以该班的学生人数是15÷0.3=50.
4.从某小区抽取100户居民用户进行月用电量调查,发现他们的月用电量都在50~350 kW·h之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示.
则该直方图中x的值为 0.004 4 .
解析:由(0.002 4+0.003 6+0.006 0+x+0.002 4+0.001 2)×50=1,得x=0.004 4.
@课时作业(四十六)
基础巩固
1.在抽查产品尺寸的过程中,将其尺寸分成若干组,[a,b)是其中的一组,该组的频率为m,在频率分布直方图中,该组对应的小长方形的高为h,则|a-b|等于( B )
A.hm B. C. D.h+m
解析:=h,故|a-b|=组距==.
2.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组.如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( C )
A.6 B.8
C.12 D.18
解析:由频率分布直方图可得第一组与第二组频率之和为1×(0.24+0.16)=0.4,又其频数为20,故样本容量为=50,而第三组的频率为0.36,因此其频数为50×0.36=18,故第三组中有疗效的人数为18-6=12.
3.为了了解一片经济林的生长情况,随机测量了其中100株树木的底部周长(单位:cm).根据所得数据画出样本的频率分布直方图(如图),那么在这100株树木中,底部周长小于110 cm的株数是( C )
A.30 B.60
C.70 D.80
4.某校为了解高三学生的身体情况,抽取了100名女生的体重,将所得的数据整理后,画出了如图所示的频率分布直方图,则所抽取的女生中体重在[40,45) kg的人数是( A )
A.10 B.2
C.5 D.15
解析:由图可知频率=×组距,频率=0.02×5=0.1,所以女生体重在[40,45) kg的人数为0.1×100=10.
5.采用简单随机抽样抽到一个容量为20的样本数据,分组后,各组的频数如下表:
分组 [10,20) [20,30) [30,40) [40,50) [50,60) [60,70]
频数 2 3 x 5 y 2
已知样本数据在区间[20,40)内的频率为0.35,则样本数据在区间[50,60)内的频率为( D )
A.0.70 B.0.50 C.0.25 D.0.20
解析:由题意得,=0.35,解得x=4,则y=20-2-3-4-5-2=4,故所求频率为=0.20.
6.(2024·河南南阳检测)中小学生的视力状况受到社会的广泛关注,某市有关部门从全市6万名高一学生中随机抽取了400名,对他们的视力状况进行一次调查统计,将所得到的有关数据绘制成频率分布直方图,如图所示.从左至右五个小组的频率之比依次是5∶7∶12∶10∶6,则全市高一学生视力在[3.95,4.25)范围内的学生约有 7 500 人.
解析:由题图知,第五小组的频率为0.5×0.3=0.15,所以第一小组的频率为0.15×=0.125,所以全市6万名高一学生中视力在[3.95,4.25)范围内的学生约有60 000×0.125=7 500(人).
7.某市共有5 000名高三学生参加联考,为了了解这些学生对数学知识的掌握情况,现从中随机抽出若干名学生在这次测试中的数学成绩(单位:分),制成频率分布表:
分组 频数 频率
[80,90) ① ②
[90,100) 0.050
[100,110) 0.200
[110,120) 36 0.300
[120,130) 0.275
[130,140) 12
[140,150] 0.050
合计
根据上面的频率分布表,可知①处的数值为 3 ,②处的数值为 0.025 .
解析:设样本容量为n,由成绩位于[110,120)的频数为36,频率为=0.300,得n=120,所以成绩位于[130,140)的频率为=0.100.
所以②处的数值为1-0.050-0.200-0.300-0.275-0.100-0.050=0.025,①处的数值为0.025×120=3.
8.为增强市民节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄分布情况如下表所示:
分组(单位:岁) 频数 频率
[20,25) 5 0.05
[25,30) ① 0.20
[30,35) 35 ②
[35,40) 30 0.30
[40,45] 10 0.10
合计 100 1.00
(1)频率分布表中的①②位置应填什么数据?
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在[30,35)的人数.
解:(1)设年龄在[25,30)的频数为x,年龄在[30,35)的频率为y.根据题意可得=0.20,=y,解得x=20,y=0.35,故①处应填20,②处应填0.35.
(2)由频率分布表知年龄在[25,30)的频率是0.20,组距是5,所以==0.04.
补全频率分布直方图如图所示.
根据频率分布直方图估计这500名志愿者中年龄在[30,35)的人数为500×0.07×5=175.
9.电视传媒为了解某市100万观众对足球节目的收看情况,随机抽取了100名观众进行调查.根据调查结果绘制的观众每周平均收看足球节目时间的频率分布直方图如图,将每周平均收看足球节目时间不低于1.5小时的观众称为“足球迷”,并将其中每周平均收看足球节目时间不低于2.5小时的观众称为“铁杆足球迷”.
(1)试估算该市“足球迷”和“铁杆足球迷”的人数;
(2)该市要举办一场足球比赛,已知该市的足球场可容纳10万名观众.根据调查,如果票价定为100元/张,那么非“足球迷”均不会到现场观看,而“足球迷”均愿意前往现场观看.如果票价提高10x(x∈N)元/张,那么“足球迷”中非“铁杆足球迷”愿意前往现场观看的人数会减少10x%,“铁杆足球迷”愿意前往现场观看的人数会减少%,则票价至少定为多少元/张时,才能使前往现场观看足球比赛的观众不超过10万人?
解:(1)由题图得该市“足球迷”约有100×(0.16+0.10+0.06)×0.5=16(万人),
“铁杆足球迷”约有100×0.06×0.5=3(万人).
(2)设票价为(100+10x)元/张,则“足球迷”中非“铁杆足球迷”约有13(1-10x%)万人,“铁杆足球迷”约有3万人愿意去现场观看足球比赛.
令13(1-10x%)+3=16--≤10,
化简得13x2+113x-660≥0,
解得x≤-或x≥4,
由x∈N,得x≥4且x∈N.
故票价至少定为100+40=140元/张时,才能使前往现场观看足球比赛的观众不超过10万人.
更上层楼
10.为了了解某幼儿园儿童的身高情况,抽查该园120名儿童的身高绘制成如图所示的频率分布直方图,则抽查的120名儿童身高大于或等于98 cm且小于104 cm的有( A )
A.90名 B.75名
C.65名 D.40名
解析:由图可知身高大于或等于98 cm且小于104 cm的儿童的频率为(0.1+0.15+0.125)×2=0.75,抽查的120名儿童有120×0.75=90(名)儿童的身高大于或等于98 cm且小于104 cm.
11.(2024·天津滨海新区开学考试)随着卡塔尔世界杯的举办,全民对足球的热爱程度有所提高,组委会在某场比赛结束后,随机抽取了若干名球迷对足球“喜爱度”进行调查评分,把喜爱程度较高的按年龄分成5组,其中第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图.已知第一组与第二组共有32人,第三组中女性球迷有4人,则第三组中男性球迷人数为( C )
A.16 B.18
C.20 D.24
解析:由题意结合题中频率分布直方图可得,第一组与第二组的频率之和为(0.01+0.07)×5=0.4,第三组的频率为0.06×5=0.3.
因为第一组与第二组共有32人,所以样本容量为=80,
所以第三组的人数为80×0.3=24,所以第三组中男性球迷人数为24-4=20.故选C.
12.对某种电子元件使用寿命进行跟踪调查,所得样本频率分布直方图如图.由图可知,这一批电子元件中寿命在100~300 h的电子元件的数量与寿命在300~600 h的电子元件的数量的比是( C )
A.1∶2 B.1∶3
C.1∶4 D.1∶6
解析:由题意,寿命在100~300 h的电子元件的频率为100×=0.2,寿命在300~600 h的电子元件的频率为100×=0.8,则寿命在100~300 h的电子元件的数量与寿命在300~600 h的电子元件的数量比大约是0.2∶0.8=1∶4.
13.从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图),由图中数据可知a= 0.030 .若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层随机抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为 3 .
解析:因为频率分布直方图中的各个矩形的面积之和为1,所以有10×(0.005+0.035+a+0.020+0.010)=1,解得a=0.030.由频率分布直方图可知身高在三个区间内的学生总数为100×10×(0.030+0.020+0.010)=60.其中身高在[140,150]内的学生人数为10,所以从身高在[140,150]内的学生中选取的人数为×18=3.
探究发现·(重点班选做)
14.某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,所以样本中男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,估计总体中男生和女生人数的比例为3∶2.
9.2.2 总体百分位数的估计
@研习任务一 统计图表的识别
走进 教材
[知识梳理]
扇形图,条形图、折线图
统计图表 主要应用
扇形图 直观描述各类数据占总数的比例
条形图 直观描述不同类别或分组数据的频数和频率
折线图 描述数据随时间的变化趋势
题型 调研
[典例1] (1)(2024·广东东莞期中)某市四区夜市的摊位数和食品摊位比例分别如图1、图2所示,为提升夜市消费品质,现用分层随机抽样的方法抽取6%的摊位进行调查分析,则抽取的样本容量与A区被抽取的食品摊位数分别为( D )
A.210,24 B.210,27
C.252,24 D.252,27
解析:根据分层随机抽样的原则知,抽取的样本容量为(1 000+800+1 000+1 400)×6%=252;A区被抽取的食品摊位数为1 000×6%×0.45=27.故选D.
(2)(2024·辽宁葫芦岛期末)某商场一年中各月份的收入、支出情况的统计如图所示,则下列说法中错误的是(注:利润=收入-支出)( D )
A.2~3月份的收入的变化率与11~12月份的收入的变化率相同
B.支出的最大值与最小值之比是6∶1
C.第三季度的平均收入为50万元
D.利润最高的月份是2月份
解析:由题图可知2~3月份的收入的变化率与11~12月份的收入的变化率相同,故A中说法正确;由题图可知,支出的最大值是60,最小值是10,则支出的最大值与最小值之比是6∶1,故B中说法正确;由题图可知,第三季度的平均收入为×(40+50+60)=50(万元),故C中说法正确;由题图可知,利润最高的月份是3月份和10月份,故D中说法错误.故选D.
巧归纳
1.条形图的特点
(1)能够显示每组中的具体数据.
(2)易于比较数据之间的差别.
2.扇形图的特点
(1)用扇形图的面积表示部分在总体中所占的百分比.
(2)易于显示每组数据相对于总数的大小.
3.折线图的作用和特点
作用:(1)表示数量的多少.
(2)以折线的上升和下降来表示统计数量的增减变化.
特点:易于显示数据的变化趋势,可以直观地反映数据的变化及各组之间的差别.
[练习题1] (1)某所学校在一个学期的开支分布的扇形图如图①所示,在该学期的水、电、交通开支(单位:万元)如图②所示,则该学期的水电费开支占总开支的百分比为( B )
A.12.25% B.16.25%
C.11.25% D.9.25%
解析:由题图②知,水、电支出占水、电、交通支出的比例为=,
由题图①知,水、电、交通支出占学校一个学期总开支的比例为,因此,该学期的水电费开支占总开支的百分比为×==16.25%.
(2)(多选)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布扇形图、“90后”从事互联网行业岗位分布条形图,则下列结论中一定正确的是( ABC )
A.互联网行业从业人员中“90后”占一半以上
B.互联网行业中“90后”从事技术岗位的人数超过总人数的20%
C.互联网行业中从事运营岗位的“90后”人数比“80前”多
D.互联网行业中从事技术岗位的“90后”人数比“80后”多
解析:互联网行业从业人员中“90后”占56%,故A正确;互联网行业中“90后”从事技术岗位的人数占总人数的39.6%×56%=22.176%,超过总人数的20%,故B正确;互联网行业中从事运营岗位的“90后”人数比“80前”多,故C正确;互联网行业中从事技术岗位的“90后”人数不一定比“80后”多,故D错误.
@研习任务二 百分位数的定义
走进 教材
[问题] “全班有25%的人数学成绩低于83分”这句话是什么意思?
提示:这句话的意思是全班小于83分的人数不少于全班人数的25%,大于或等于83分的人数不少于1-25%=75%.
[知识梳理]
1.第p百分位数的定义
一般地,一组数据的 第p百分位数 是这样一个值,它使得这组数据中至少有 p% 的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
2.计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第 j 项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
3.四分位数
25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为 四分位数 ,其中第25百分位数也称为第一四分位数或下四分位数,第75百分位数也称为第三四分位数或上四分位数.
题型 调研
[典例2] (1)以下数据为参加数学竞赛决赛的15人的成绩(单位:分):78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,则这15人成绩的第80百分位数是( B )
A.90 B.90.5
C.91 D.91.5
解析:把成绩按从小到大的顺序排列为56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,
因为15×80%=12,所以这15人成绩的第80百分位数是=90.5.
(2)为考察某校高二年级男生的身高,随机抽取38名高二男生,实测身高数据(单位:cm)如下:
171 163 163 166 166 168 168
160 168 165 171 169 167 169
168 170 160 168 174 165 168
174 159 167 156 157 164 169
176 157 162 161 158 164 163
163 167 161
则该校高二年级男生身高的第75百分位数估计为 168 .
解析:把这38名男生的身高数据按从小到大排序,可得
156 157 157 158 159 160 160 161
161 162 163 163 163 163 164 164
165 165 166 166 167 167 167 168
168 168 168 168 168 169 169 169
170 171 171 174 174 176
由75%×38=28.5,可知样本数据的第75百分位数为168.据此可估计该校高二年级男生身高的第75百分位数约为168.
巧归纳
求百分位数时的注意点
(1)一定要将数据按照从小到大的顺序排列;
(2)一定要确定i=n×p%的结果是否为整数.
[练习题2] 下表为12名毕业生的起始月薪:
毕业生 起始月薪 毕业生 起始月薪
1 2 850 7 2 890
2 2 950 8 3 130
3 3 050 9 2 940
4 2 880 10 3 325
5 2 755 11 2 920
6 2 710 12 2 880
根据表中所给的数据计算第85百分位数.
解:将12个数据从小到大排序:2 710,2 755,2 850,2 880,2 880,2 890,2 920,2 940,2 950,3 050,3 130,3 325.
计算i=12×85%=10.2,所以所给数据的第85百分位数是3 130.
@研习任务三 由频率分布直方图估计百分位数
题型 调研
[典例3] 如图是将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出的频率分布直方图,则此班的模拟考试成绩的80%分位数约是 124.44 .(结果保留两位小数)
解析:由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,
分数在130分以下的学生所占的比例为(0.01+0.015+0.015+0.03+0.022 5)×10×100%=92.5%,
因此,80%分位数一定位于[120,130)内.
由120+×10≈124.44,得此班的模拟考试成绩的80%分位数约为124.44.
巧归纳
由频率分布直方图求百分位数的方法
(1)要注意频率分布直方图中小矩形的面积,就是数据落在该组的频率.
(2)一般采用方程的思想,设出第p百分位数,根据其意义列出方程并求解即可.
[练习题3] (2024·安徽安庆模拟)为了解学生每天的体育运动时间,某市教育部门对全市高中学生进行调查,随机抽取1 000名学生每天进行体育运动的时间,按照时长(单位:分钟)分成6组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90].对统计数据整理得到如图所示的频率分布直方图,则估计该市高中学生每天体育运动时间的第25百分位数为( C )
A.43.5 B.45.5
C.47.5 D.49.5
解析:由频率之和为1得10×(0.01+0.02+0.03+2a+0.01)=1,解得a=0.015,
因为10×0.01=0.1<0.25,10×0.01+10×0.02=0.3>0.25,
所以第25百分位数位于[40,50)内,
故第25百分位数为40+×10=47.5.
故可以估计该市高中学生每天体育运动时间的第25百分位数为47.5.故选C.
@课后提素养
1.为了调查甲、乙两个网站受欢迎的程度,随机选取了14天,统计上午8:00~10:00各自的点击量,统计数据如下:
甲网站:28,20,38,41,55,24,64,52,66,70,67,72,73,58;
乙网站:5,12,21,14,36,37,19,42,54,45,42,6,61,71.
为了反映甲、乙网站点击量的变化趋势,下列统计图合适的是( A )
A.折线图 B.条形图
C.扇形图 D.频率分布直方图
解析:折线图能直观反映数据的变化趋势.故选A.
2.(多选)(2024·江苏南京模拟)新能源汽车包括纯电动汽车、增程式电动汽车、混合动力汽车、燃料电池汽车、氢发动机汽车等.我国的新能源汽车近年来发展迅速,连续8年产销量位居世界第一.下面两图分别是2018年至2023年我国新能源汽车年产量和占比(占我国汽车年总产量的比例)情况,则( BC )
A.2018年至2023年我国新能源汽车年产量逐年增加
B.2018年至2023年我国新能源汽车年产量的极差为626.4万辆
C.2023年我国汽车年总产量超过2 700万辆
D.2020年我国汽车年总产量不低于2019年我国汽车年总产量
解析:对于A选项,由题图可知,2019年到2020年我国新能源汽车年产量在下降,故A错误;对于B选项,2018年至2023年我国新能源汽车年产量的极差为705.8-79.4=626.4(万辆),故B正确;对于C选项,2023年我国汽车年总产量约为≈2 757(万辆),故C正确;对于D选项,2020年我国汽车年总产量为=2 587.5(万辆),2019年我国汽车年总产量约为≈2 822.22(万辆),所以2020年我国汽车年总产量低于2019年我国汽车年总产量,故D错误.故选BC.
3.一组样本数据的频率分布直方图如图所示,试估计此样本数据的第50百分位数为 .
4.下列判断正确的是 ①③ .
①若一组样本数据各不相等,则其75%分位数大于25%分位数;
②若一组样本数据的10%分位数是23,则在这组数据中有10%的数据大于23;
③若一组样本数据的24%分位数是24,则在这组数据中至少有76%的数据大于或等于24.
@课时作业(四十七)
基础巩固
1.(2024·黑龙江佳木斯一中高一期末)将10个数据按照从小到大的顺序进行排列,第四个数据被墨水污染:2,4,5,,10,14,15,39,41,50,已知第40百分位数是8.5,则第四个数据是( D )
A.5 B.7.5 C.8 D.7
解析:由题意,得10×40%=4,即第40百分位数是第4位数和第5位数的平均数,设第4位数为x,则=8.5,解得x=7.故选D.
2.某校高三年级一共有1 200名同学参加数学测验,已知所有学生成绩的第80百分位数是103分,则数学成绩不低于103分的人数至少为( B )
A.220 B.240 C.250 D.300
解析:因为1 200×80%=960,所以低于103分的学生最多有960人,所以不低于103分的学生至少有1 200-960=240(人).故选B.
3.一组数据:53,57,45,61,79,49,x,若这组数据的第80百分位数与第60百分位数的差为3,则x=( A )
A.58或64 B.58
C.59或64 D.59
解析:将已知的6个数从小到大排序为45,49,53,57,61,79.若x≤57,则这组数据的第80百分位数与第60百分位数分别为61和57,他们的差为4,不符合条件;若x≥79,则这组数据的第80百分位数与第60百分位数分别为79和61,它们的差为18,不符合条件;若57<x<79,则这组数据的第80百分位数与第60百分位数分别为x和61(或61和x),则=3,解得x=58或x=64.故选A.
4.一组数据为6,47,49,15,42,41,7,39,43,40,36,且这组数据的一个四分位数是15,则它是( B )
A.15%分位数 B.25%分位数
C.50%分位数 D.75%分位数
解析:将数据由小到大排列:6,7,15,36,39,40,41,42,43,47,49,一共11项,由11×25%=2.75,得25%分位数是15.
5.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图,估计这200名学生每周的自习时间数据的第30百分位数为( C )
A.22 B.21.25
C.22.5 D.25
解析:从频率分布直方图上可以看出第一组的频率为0.05.第二组的频率为0.25.前两组的频率之和为0.3,所以第30百分位数为22.5.故选C.
6.如图是某市2024年4月1日至4月7日每天最高、最低气温的折线统计图,这7天的日最高气温的第10百分位数为 24 ,日最低气温的第80百分位数为 16 .
解析:由折线图可知,把日最高气温按照从小到大排序,得24,24.5,24.5,25,26,26,27,因为共有7个数据,且7×10%=0.7,不是整数,所以这7天日最高气温的第10百分位数是第1个数据,为24.把日最低气温按照从小到大排序,得12,12,13,14,15,16,17,因为共有7个数据,且7×80%=5.6,不是整数,所以这7天日最低气温的第80百分位数是笫6个数据,为16.
7.(2024·河南焦作期中)某党支部理论学习小组抽取的10名党员在某学习平台的学习成绩如下:83,85,88,90,91,91,92,93,96,97,则这10名党员学习成绩的75%分位数为 93 .
解析:因为10×75%=7.5,
所以这10名党员学习成绩的75%分位数为93.
8.某市为了了解人们对“中国梦”的伟大构想的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有5人.
(1)求x;
(2)求抽取的x人的年龄的50%分位数(结果保留整数);
(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99,求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对“一带一路”的认知程度,并谈谈你的感想.
解:(1)第一组频率为0.01×5=0.05,
所以x==100.
(2)由题图可知年龄低于30岁的人所占比例为40%,年龄低于35岁的人所占比例为70%,所以抽取的100人的年龄的50%分位数在[30,35)内,由30+5×=≈32,所以抽取的100人的年龄的50%分位数为32.
(3)把参赛的10人的成绩按从小到大的顺序排列:88,90,92,92,95,96,96,97,98,99,因为10×2(共43张PPT)
第九章 统 计
综合微评(四)
A. ①(a),②(b) B. ①(b),②(a)
C. ①(a),②(a) D. ①(b),②(b)
解析:问题①中的总体是由差异明显的几部分组成的,故可采用分层随机抽样方法; 问题②中总体的个数较少,故可采用简单随机抽样.故选B.
B
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
B
A. 12 B. 20 C. 29 D. 23
解析:依次从数表中读出的有效编号为12,02,01,04,15,20,得到选出来的第6 个个体的编号为20,故选B.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析:根据方差表示数据稳定程度,越稳定方差越小,甲、乙、丙三人数据中,丙集 中在6环,乙平均分散,甲分散在两边,所以丙最稳定,方差最小;甲最不稳定,方 差最大.故选A.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 极差 B. 平均数
C. 中位数 D. 都不相同
B
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 该公司职工的测试成绩不低于60分的人数约占总人数的80%
B. 该公司职工测试成绩的中位数约为75分
C. 该公司职工测试成绩的平均值约为68分
D. 该公司职工测试成绩的众数约为60分
C
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 64
B. 54
C. 48
D. 27
B
解析:前两组中的频数为100×(0.05+0.11)=16.因为后五组频数和为62,所以前 三组频数和为38.所以第三组频数为38-16=22.又最大频率为0.32,故第四组频数为 0.32×100=32.所以a=22+32=54.故选B.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
体重 22 24 26 27 28 29 31
频数 1 1 2 3 3 2 2
B
A. 0.144 B. 0.152
C. 0.76 D. 0.076
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
8. 某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地 了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入 构成比例,得到如下饼图:
建设前经济收入构成比例
建设后经济收入构成比例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 新农村建设后,种植收入减少
B. 新农村建设后,其他收入增加了一倍以上
C. 新农村建设后,养殖收入增加了一倍
D. 新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
A
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析:设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为 2a.新农村建设前后,各项收入的对比如下表:
新农村
建设前 新农村
建设后 新农村建设
后变化情况 结论
种植收入 60%a 37%×2a
=74%a 增加 A错误
其他收入 4%a 5%×2a
=10%a 增加了
一倍以上 B正确
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
新农村
建设前 新农村
建设后 新农村建设
后变化情况 结论
养殖收入 30%a 30%×2a
=60%a 增加了
一倍 C正确
养殖收入
+第三产
业收入 (30%+
6%)a=
36%a (30%+
28%)×2a
=116%a 超过经济
收入2a
的一半 D正确
故选A.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
二、选择题:本题共3小题,每小题6分,共18分.在每小题给出的选项中,有多项符 合题目要求,全部选对的得6分,部分选对的得部分分,有选错的得0分.
9. 某公司对旗下的甲、乙两个门店在1至9月的营业额(单位:万元)进行统计并得 到如图所示的折线图.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 甲门店的营业额折线图具有较好的对称性,故平均营业额约为32万元
B. 根据甲门店的营业额折线图可知,该门店营业额的平均值在[20,25](单位:万 元)内
C. 根据乙门店的营业额折线图可知,其营业额总体是上升趋势
D. 乙门店在这9个月中的营业额的极差为25万元
BCD
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 甲厂轮胎宽度的平均数大于乙厂轮胎宽度的平均数
B. 甲厂轮胎宽度的众数大于乙厂轮胎宽度的众数
C. 甲厂轮胎宽度的中位数与乙厂轮胎宽度的中位数相同
D. 甲厂轮胎宽度的极差小于乙厂轮胎宽度的极差
ACD
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析:题中雷达图展示了甲、乙两厂轮胎宽度的6个不同数据,据此观察和计算,甲 厂轮胎宽度的平均数是195,众数是194,中位数是194.5,极差是3;乙厂轮胎宽度的 平均数是194,众数是195,中位数是194.5,极差是5.则A、C、D正确,B错误.故选 ACD.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
A. 甲球员连续5场比赛得分都不低于24分
B. 乙球员连续5场比赛得分都不低于24分
C. 丙球员连续5场比赛得分都不低于24分
D. 丙球员连续5场比赛得分的第60百分位数大于24
AD
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解析:设甲球员的5场篮球比赛得分按从小到大排列为x1,x2,x3,x4,x5,则 x1≤x2≤x3≤x4≤x5,x3=26,且24至少出现2次,故x1=x2=24,A正确;设乙球员 的5场篮球比赛得分按从小到大排列为y1,y2,y3,y4,y5,则y1≤y2≤y3≤y4≤y5, y3=29,取y1=20,y2=23,y4=29,y5=29,可得其满足题中条件,但有2场得分低 于24,B错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
三、填空题:本题共3小题,每小题5分,共15分.
10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
60.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
四、解答题:本题共5小题,共77分.解答应写出文字说明、证明过程或演算步骤.
15. (本小题满分13分)某机械厂三个车间共有工人1 000名,各车间男、女工人数如 表所示.
第一车间 第二车间 第三车间
女工人 170 120 y
男工人 180 x z
已知在全厂工人中随机抽取1名,抽到第二车间男工人的可能性是0.13.该厂第三车间 的男、女比例为3∶2.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(1)求x,y,z的值.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)现用分层随机抽样的方法在全厂男工人中抽取55名工人进行技术比武,则应在 第三车间抽取多少名男工人?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
16. (本小题满分15分)20名学生某次数学考试成绩(单位:分)的频率分布直方图 如图.
(1)求频率分布直方图中a的值;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)分别求出成绩落在[50,60)与[60,70)中的学生人数.
解:(2)成绩落在[50,60)中的学生人数为 2×0.005×10×20=2(人).
成绩落在[60,70)中的学生人数为3×0.005×10×20 =3(人).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
17. (本小题满分15分)(2024·北京十中高一期中)某公司为了解用户对其产品的满 意程度,采用分层随机抽样的方法从A,B两个地区共抽取了500名用户,用户根据 满意程度对该公司产品进行评分(满分100分),该公司将收集到的数据按照[20, 40),[40,60),[60,80),[80,100]进行分组,绘制成如图所示的频率分布直方 图,已知A地区用户约为40 000人,B地区用户约为10 000人.
A地区用户满意度评分频率
分布直方图
B地区用户满意度评分频率分布直方图
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(1)求该公司采用分层随机抽样的方法从A,B两个地区分别抽取的用户人数;
(2)估计B地区所有用户中,对该产品评分不低于80分的用户人数;
解:(2)由频率分布直方图,知B地区抽取的用户中,对该产品评分不低于80分的 用户频率为0.005×20=0.1,所以估计B地区所有用户中,对该产品评分不低于80分 的用户人数为0.1×10 000=1 000.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
18. (本小题满分17分)为了了解学生参加体育活动的情况,学校对学生进行随机抽 样调查,其中一个问题是“你平均每天参加体育活动的时间是多少?”,共有4个选 项:A. 1.5小时以上;B. 1~1.5小时;C. 0.5~1小时;D. 0.5小时以下.图①,② 是根据调查结果绘制的两幅不完整的统计图,请你根据统计图提供的信息,解答下列 问题.
图①
图②
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(1)本次一共调查了多少名学生?
解:(1)从题图可知,选A的共60人,占总人数的百分比为30%,所以总人数为 60÷30%=200,即本次一共调查了200名学生.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)在图①中将B对应的部分补充完整.
解:(2)被调查的学生中,选B的有200-60-30-10=100(人),补充完整的条 形统计图如图所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(3)若该校有3 000名学生,请估计全校约有多少名学生平均每天参加体育活动的时 间在0.5小时以下.
解:(3)3 000×5%=150,估计全校约有150名学生平均每天参加体育活动的时间 在0.5小时以下.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
19. (本小题满分17分)一家经销鲜花产品的商店,为保障售出的百合花品质,每天 从云南鲜花基地空运固定数量的百合花,如有剩余则免费分赠给第二天购花的顾客, 如果不足,则从本地鲜花供应商处进货.某年四月前10天,商店百合花的售价为每枝2 元,从云南空运来的百合花每枝进价为1.6元,本地供应商处百合花每枝进价为1.8 元.商店这10天的订单中百合花的需求量(单位:枝)依次为:251,255,231, 243,263,241,265,255,244,252.
(1)求该年四月前10天订单中百合花需求量的平均数和众数,并完成频率分布 直方图;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
(2)预计该年四月的后20天,订单中百合花需求量的频率分布与四月前10天相同, 百合花进货价格与售价均不变,请根据(1)中频率分布直方图判断(同一组中的需 求量数据用该组区间的中点值作代表,位于各区间的频率代替位于该区间的概率), 商店每天从云南固定空运250枝,还是255枝百合花,四月的后20天百合花销售总利润 会更大?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
解:(2)设订单中百合花需求量为a枝.
由(1)中频率分布直方图,知a可能取值为235,245,255,265,相应频率分别为0.1,0.3,0.4,0.2,
∴20天中a取235,245,255,265相应的天数分别为2,6,8,4.
①若空运250枝,
当a=235时,当日利润为235×2-250×1.6=70(元),
当a=245时,当日利润为245×2-250×1.6=90(元),
当a=255时,当日利润为255×2-250×1.6-5×1.8=101(元),
当a=265时,当日利润为265×2-250×1.6-15×1.8=103(元),
故四月的后20天百合花销售总利润为70×2+90×6+101×8+103×4=1 900(元).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
②若空运255枝,
当a=235时,当日利润为235×2-255×1.6=62(元),
当a=245时,当日利润为245×2-255×1.6=82(元),
当a=255时,当日利润为255×2-255×1.6=102(元),
当a=265时,当日利润为265×2-255×1.6-10×1.8=104(元),
故四月的后20天百合花销售总利润为62×2+82×6+102×8+104×4=1 848(元).
∵1 900>1 848,
∴每天从云南固定空运250枝百合花,四月的后20天百合花销售总利润更大.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19(共19张PPT)
第九章 统 计
章末总结
第*页
知识体系构建
第*页
高考热点追踪
A. x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B. x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C. x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D. x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
BD
1
2
3
4
5
6
7
1
2
3
4
5
6
7
B
1
2
3
4
5
6
7
A. 讲座前问卷答题的正确率的中位数小于70%
B. 讲座后问卷答题的正确率的平均数大于85%
C. 讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D. 讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案:B
1
2
3
4
5
6
7
3. (2021·全国甲理)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调 查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
C
A. 该地农户家庭年收入低于4.5万元的
农户比率估计为6%
B. 该地农户家庭年收入不低于10.5万元
的农户比率估计为10%
C. 估计该地农户家庭年收入的平均值不
超过6.5万元
D. 估计该地有一半以上的农户,其家庭
年收入介于4.5万元至8.5万元之间
1
2
3
4
5
6
7
解析:由频率分布直方图知年收入低于4.5万元的农户比率估计为(0.02+0.04)×1 =0.06=6%,故A正确;年收入不低于10.5万元的农户比率估计为(0.04+ 0.02×3)×1=0.10=10%,故B正确;估计该地农户家庭年收入的平均值约为 3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+ 11×0.04+12×0.02+13×0.02+14×0.02=7.68>6.5,故C错误;家庭年收入介于 4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1=0.64> 0.5,故D正确.故选C.
1
2
3
4
5
6
7
A. 两组样本数据的样本平均数相同
B. 两组样本数据的样本中位数相同
C. 两组样本数据的样本标准差相同
D. 两组样本数据的样本极差相同
CD
1
2
3
4
5
6
7
=sx,故C正确;对于选项D,设样本数据x1,x2,…,xn中,xn最大,x1最小,因 为yi=xi+c,所以样本数据y1,y2,…,yn中,yn最大,y1最小,极差yn-y1= (xn+c)-(x1+c)=xn-x1,故D正确.故选CD.
1
2
3
4
5
6
7
0.98
1
2
3
4
5
6
7
患病者
6. (2023·全国新高考Ⅱ卷)某研究小组经过研究发现某种疾病的患病者与未患病者 的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的 频率分布直方图:
未患病者
1
2
3
4
5
6
7
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳 性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概 率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据 在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
解:(1)设X为患病者指标,Y为未患病者指标,由患病者指标的频率分布直方 图,知p(c)=P(X≤c)=(c-95)×0.002=0.5%,解得c=97.5.
则q(c)=P(Y>c)=(100-97.5)×0.010+5×0.002=0.035=3.5%.
1
2
3
4
5
6
7
(2)设函数f(c)=p(c)+q(c).当c∈[95,105]时,求f(c)的解析式, 并求f(c)在区间[95,105] 的最小值.
1
2
3
4
5
6
7
7. (2023·全国乙理)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效 应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地 选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸 缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1, 2,…,10),试验结果如下:
试验序号i 1 2 3 4 5 6 7 8 9 10
伸缩率xi 545 533 551 522 575 544 541 568 596 548
伸缩率yi 536 527 543 530 560 533 522 550 576 536
1
2
3
4
5
6
7
1
2
3
4
5
6
7
1
2
3
4
5
6
7