中小学教育资源及组卷应用平台
9.2 用样本估计总体
【学习要求】
1.了解扇形统计图、折线统计图和频数直方图的概念和特征;理解频率直方图的含义及其制作步骤。
2.掌握从常见统计图表中获取有用的信息,体会统计数学在实际生活中的应用,通过实例,理解百分位数的含义。
3.掌握求样本数据的众数、中位数、平均数;.理解用样本的数字特征、直方图估计总体的集中趋势。
4.理解方差、标准差的含义,会计算方差和标准差。
【思维导图】
【知识梳理】
1.总体离散程度的估计
(1)极差:一组数据中的最大值与最小值的差称为极差.
(2)方差与标准差:一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;标准差:
(3)总体方差和标准差:如果总体中所有个体的变量值分别为,,总体平均数为,则称为总体方差,为总体标准差.
(4)样本方差和标准差:如果一个样本中个体的变量值分别为,,,样本平均数为,则称为样本方差,为样本标准差.
(5)加权方差:如果总体的个变量值中,不同的值共有()个,记为,,,其中出现的频数为(),则总体方差为.
2.总体集中趋势的估计
(1)平均数
①定义:一组数据的和与这组数据的个数的商.数据,,的平均数为.
②特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
(2)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数。②特征:一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(3)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
3.三种数字特征的优缺点
名 称 优 点 缺 点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众 数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
4.在频率分布直方图中平均数,中位数,众数的估计值
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
5.第百分位数
(1)第百分位数的概念:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算第p百分位数的步骤:第1步,按从小到大排列原始数据;第2步,计算;第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.另外,像第1百分位数,第5百分位数,第95百分位数和第99百分位数在统计中也经常被使用.
6.频率分布表与频率分布直方图
(1)频数与频率:将一批数据按要求分为若干个组,各组内数据的个数叫该组的频数.每组数据的频数除以全体数据的个数的商叫该组数据的频率.频率反映各个小组数据在样本量中所占比例的大小.
(2)样本的频率分布及频率分布表:根据随机抽取的样本量的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况)就叫做样本的频率分布.
为了能直观地显示样本的频率分布情况,通常将样本量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,这张表叫做频率分布表.分组、频数、频率是频率分布表中最基本也是必要的三列,在实际操作中,每组的频数是通过类似统计选票时的“唱票”的方式进行统计的,所以通常频率分布表中还会有“频数累计”一列.
(3)用样本的频率分布估计总体的分布:在实际应用中,总体分布可以为合理决策提供依据(总体分布描述的是总体在各个范围内个体的百分比).总体分布一般不好直接获得,往往通过样本的频率分布估计总体分布.用样本估计总体,是研究统计问题的一个基本思想方法误区.
(4)样本的频率分布直方图:为了将频率分布表中的结果直观形象地表现出来,常画出频率分布直方图.画图时,应以横轴表示分组、纵轴表示各组频率与组距的比值,以各个组距为底,以各频率除以组距的商为高,画成小长方形,这样得到的直方图就是频率分布直方图.
(5)绘制频率分布直方图的步骤及频率分布直方图的性质
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
7.统计图表
(1)条形统计图:用单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按照一定的顺序排列起来,这样的统计图称为条形统计图.
优点:条形统计图不但可以直观地反映数据分布的大致情况,还可以清晰地表示出各个区间的具体数目,易于比较数据间的差别.
缺点:会损失数据的部分信息且不能明确显示部分与整体的关系.
(2)折线统计图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示定的数量,根据样本值和数量的多少描出相应点,然后用直线段顺次连接相邻点,得到一条折线,用这条折线表示样本数据情况,这种表达和分析数据的统计图称为折线统计图.
优点:折线统计图不但可以表示数量的多少,而且能够用折线的起伏清楚直观地表示数量的增减变化的情况. 缺点:不能直观反映数据的分布情况且不适合总体分布较多的情况.
(3)扇形统计图:扇形统计图中,用整个圆面积代表总体,圆内的各个扇形分别代表总体中的不同部分,扇形面积的大小反映所表示的那部分占总体的百分比的大小.
优点:扇形统计图可以很清楚地表示各部分与总体之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比. 缺点:会丢失部分数据信息且不适合总体中部分较多的情况.
【高频考点】
高频考点1. 条形图,折线图,扇形图的实际应用
【方法点拨】
(1)条形统计图:
优点:条形统计图不但可以直观地反映数据分布的大致情况,还可以清晰地表示出各个区间的具体数目,易于比较数据间的差别.缺点:会损失数据的部分信息且不能明确显示部分与整体的关系.
(2)折线统计图:
优点:折线统计图不但可以表示数量的多少,而且能够用折线的起伏清楚直观地表示数量的增减变化的情况. 缺点:不能直观反映数据的分布情况且不适合总体分布较多的情况.
(3)扇形统计图:
优点:扇形统计图可以很清楚地表示各部分与总体之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比. 缺点:会丢失部分数据信息且不适合总体中部分较多的情况.
1.(2022春·山东临沂·高一统考期末)某居民小区户主人数和户主对户型结构的满意率如图(1)和图(2)所示,为了解该小区户主对户型结构的满意程度,用比例分配的分层随机抽样方法抽取的户主作为样本进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A., B., C., D.,
【答案】A
【详解】由图(1)得该小区户主总人数为人,
所以样本容量为人,其中四居室户主有人,
由图(2)得抽取的户主中对四居室满意的有人,故选:A.
2.(2022春·四川泸州·高二统考期末)在新冠肺炎疫情期间,各口罩企业都加大了生产力度,如图是2022年第一季度五个企业的生产量情况,则下列叙述正确的是( )
A.2022年第一季度生产总量的增长率由低到高排位第5的是E企业
B.2022年第一季度生产总量和增速由高到低排位均居同一位次的企业只有一个
C.2021年同期C企业的生产总量不超过2000万只
D.与2021年同期相比,各企业2022年第一季度的生产总量都实现了增长
【答案】D
【详解】由图可知,增长率最低的是企业,A错;
生产总量从低到高排列为,增速从低到高排列为,两者位居同一位次的和两个,B错;2021年同期C企业的生产总量为,C错;从图表知各企业2022年第一季度的生产总量的增长率均为正数,因此生产总量都实现了增长,D正确.故选:D.
3.(2022·全国·高三专题练习)下图是国家统计局年月发布的规模以上工业日均原油产量(单位:万吨)的月度走势情况,现有如下说法:
①年月至年月,规模以上工业原油的日均产量的极差为;
②从年月至年月中随机抽取个月份,月增速超过的概率为;
③年月份,规模以上工业原油总产量约为万吨;
则说法错误的个数为( )
A. B. C. D.
【答案】B
【详解】对于①,年月至年月,规模以上工业原油的日均产量的极差为,①正确;对于②,年月至年月中,月增速超过超过的月份有月、月和月,
随机抽取个月,月增速超过超过的概率为,②错误;
对于③,年月份,规模以上工业原油总产量约为万吨,③正确.故选:B.
4.(2022秋·陕西西安·高三长安一中校考期中)如图是甲、乙两人高考前10次数学模拟成绩的折线图,则下列说法正确的是( )
A.甲的数学成绩最后3次逐渐降低
B.甲的数学成绩在130分以上的次数少于乙的数学成绩在130分以上的次数
C.甲有7次考试成绩比乙高
D.甲数学成绩的极差大于乙数学成绩的极差
【答案】C
【详解】对于A,由折线图可知最后三次数学成绩逐渐升高,故A说法错误;
对于B,甲的数学成绩在130分以上的次数为6次,乙的数学成绩在130分以上的次数为5次,故B说法错误;对于C, 甲有7次考试成绩比乙高,故C的说法正确;
对于D,由折线图可知,甲乙两人的数学成绩的最高成绩相同,甲的最低成绩为120分,
乙的最低成绩为110分,因此甲数学成绩的极差小于乙数学成绩的极差,D说法错误.故选:C.
5.(多选)(2022·山东济南·济南市历城第二中学校考模拟预测)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法正确的有( )
A.57周岁以上参保人数最少 B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐 D.31周岁以上的人群约占参保人群80%
【答案】ACD
【详解】解:由扇形图可知,57周岁以上参保人数最少,故A正确;
由折线图可知,18~30周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故B错误;由条形图可知,C险种参保比例最高,故C正确;
由扇形图可知,31周岁以上的人群约占参保人群80%,故D正确,故选:ACD.
高频考点2 . 频率分布直方图的应用
【方法点拨】样本的频率分布直方图:为了将频率分布表中的结果直观形象地表现出来,常画出频率分布直方图.画图时,应以横轴表示分组、纵轴表示各组频率与组距的比值,以各个组距为底,以各频率除以组距的商为高,画成小长方形,这样得到的直方图就是频率分布直方图.
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
1.(2022秋·天津南开·高三天津四十三中校考期末)如图是容量为500的样本的频率分布直方图,那么样本数据落在内的频率,频数分别为( )
A. B. C. D.
【答案】D
【详解】根据题意,易知样本数据落在内的频率为,频数为.
故选:D.
2.(2022秋·河北衡水·高二校考开学考试)某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天课外阅读所用时间的数据,结果用频数直方图(如图)表示,则课外阅读时间在内的学生的频率为( )
A.10 B.15 C.0.2 D.0.3
【答案】C
【详解】根据频数直方图可知课外阅读时间在内的学生的人数为,
所以课外阅读时间在内的学生的频率为.故选:C.
3.(2022秋·上海黄浦·高二校考期末)根据《中华人民共和国道路交通安全法》规定:车辆驾驶员血液酒精浓度在20~80mg/100ml(不含80)之间,属于酒后驾车,处暂扣一个月以上三个月以下驾驶证,并处200元以上500元以下罚款;血液酒精浓度在80mg/100ml(含80)以上时,属醉酒驾车,处十五日以下拘留和暂扣三个月以上六个月以下驾驶证,并处500元以上2000元以下罚款.据《法制晚报》报道,2009年8月15日至8月28日,全国查处酒后驾车和醉酒驾车共28800人,如图是对这28800人血液中酒精含量进行检测所得结果的频率分布直方图,则属于醉酒驾车的人数约为__________
【答案】4320
【详解】由题意结合频率分布直方图可得,醉酒驾车,即血液酒精浓度在80mg/100ml(含80)以上的人数约为:.故答案为:4320.
4.(2022秋·江苏南通·高三统考阶段练习)某学校为了调查学生在一天生活方面的支出情况,抽出了一个容量为的样本,其频率分布直方图如图所示,其中支出在元的学生90人,则样本中支出不少于40元的人数有__________.
【答案】198
【详解】设的频率为,由频率分布直方图可得:,解得,则,故样本中支出不少于40元的人数为.故答案为:198.
5.(2022秋·陕西西安·高三统考阶段练习)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准吨,一位居民的月用水量不超过的部分按平价收费,超出的部分按议价收费为了了解居民用水情况,通过抽样,获得了某年位居民每人的月均用水量单位:吨,将数据按照,,分成组,制成了如图所示的频率分布直方图.
(1)求直方图中的值;(2)设该市有万居民,估计全市居民中月均用水量不低于吨的人数,并说明理由;(3)若该市政府希望使的居民每月的用水量不超过标准吨,估计的值,并说明理由.
【答案】(1)(2)万,理由见解析(3),理由见解析
【详解】(1),;
(2)由图可得月均用水量不低于吨的频率为:,
由,得全市居民中月均用水量不低于吨的人数约为万;
(3)由图可得月均用水量低于吨的频率为:;
月均用水量低于吨的频率为:;
则吨.
高频考点3 . 频率分布折线图的应用
1.(2022·全国·高三专题练习)空气质量指数是反映空气质量状况的指数,其对应关系如下表:
指数值
空气质量 优 良 轻度污染 中度污染 重度污染 严重污染
为监测某化工厂排放废气对周边空气质量指数的影响,某科学兴趣小组在校内测得10月1日—20日指数的数据并绘成折线图如下:
下列叙述正确的是( )A.这天中指数值的中位数略大于
B.这天中的空气质量为优的天数占
C.10月4日到10月11日,空气质量越来越好
D.总体来说,10月中旬的空气质量比上旬的空气质量好
【答案】B
【详解】由折线图知以上有个,以下有个,中位数是两边两个数的均值,观察比的数离远点,因此两者均值大于但小于150,A错;
空气质量为优的有天,占,B正确;10月4日到10月11日,空气质量越来越差,C错;
10月上旬的空气质量指数值在以下的多,中旬的空气质量指数值在以上的多,
上旬的空气质量比中旬的空气质量好,D错.故选:B.
2.(2022·高一课时练习)(多选)如图给出的是某高校土木工程系大四55名学生期末考试专业成绩的频率折线图,其中组距为10,且本次考试中最低分为50分,最高分为100分.根据图中所提供的信息,下列结论中正确的是( )
A.成绩是75分的人数为20 B.成绩是100分的人数比成绩是50分的人数多
C.成绩落在内的人数为35 D.成绩落在内的人数为20
【答案】CD
【详解】成绩落在内的人数为,不能说成绩是75分的人数为20,所以A错误,D正确;从频率折线图看不出成绩是100分的人数比成绩是50分的人数多,只能看出成绩落在内的人数和成绩落在内的人数相等,所以B错误;
成绩落在内的人数为,所以C正确.故选:CD.
3.(多选)(2022秋·江西·高二校联考阶段练习)为了了解某外贸企业职工对“一带一路”的认知程度,随机抽取了名职工组织了“一带一路”知识竞赛,满分为分(分及以上为认知程度较高),并将所得成绩分组得到了如图所示的频率分布折线图.从频率分布折线图中得到的这名职工成绩的以下信息正确的是( )
A.成绩是分或分的职工人数是 B.对“一带一路”认知程度较高的人数是人
C.中位数是 D.平均分是
【答案】BD
【详解】对于A选项,由于频率分布折线图表示的是某一个范围的频率,不能判断成绩是分或分的职工人数,A选项错误;
对于B选项,由题意可得,
所以,成绩分及以上的职工人数为人,B选项正确;
对于C选项,设中位数为,
,,所以,,
由题意可得,解得,C选项错误;
对于D选项,平均分为,D选项正确.故选:BD.
高频考点4. 百分位数的计算
【方法点拨】第百分位数的概念:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
计算第p百分位数的步骤:第1步,按从小到大排列原始数据;第2步,计算;第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
1.(2023·安徽马鞍山·统考一模)现有一组数据: ,则这组数据的第85百分位数是( )
A.652 B.668 C.671 D.674
【答案】C
【详解】由题意这组数共12个,则,
将这组数据从小到大排列为,
故这组数据的第85百分位数为第11个数,即671,故选:C
2.(2023·广东·统考一模)为深入推进“五育”并举,促进学生身心全面和谐发展,某校于上周六举办跳绳比赛.现通过简单随机抽样获得了22名学生在1分钟内的跳绳个数如下(单位:个):
估计该校学生在1分钟内跳绳个数的第65百分位数为( )
A.124 B. C. D.
【答案】C
【详解】解:因为,22名学生的跳绳成绩从小到大第15个数为,
所以,该校学生在1分钟内跳绳个数的第65百分位数为 故选:C
3.(2023·吉林·长春十一高校联考模拟预测)新时期党史学习教育,是党中央立足党的百年历史新起点、统筹中华民族复兴战略全局和世界百年末有之大变局,为动员全党全国满怀信心投身全面建设社会主义现代化国家而做出重大决策.某企业成立的党史学习教育督查组为调研本单位的党史学习情况,到某部门对10名成员进行了问卷測试,成绩如下:90,92,92,93,93,94,95,96,99,100,则这组数据的第75百分位数是______.
【答案】96
【详解】这组数据从小到大排列为90,92,92,93,93,94,95,96,99,100,
因为,所以这组数据的第75百分位数第八个数为.故答案为:96.
4.(2023·上海闵行·上海市校考模拟预测)某单位为了解该単位党员开展学习党史知识活动情况,随机抽取了部分党员,对他们一周的党史学习时间进行了统计,统计数据如下表所示:则该单位党员一周学习党史时间的第40 百分位数分别是 ___________.
党史学习时间(小时) 7 8 9 10 11
党员人数 6 10 9 8 7
【答案】
【详解】因为,
所以第40 百分位数为第16个数和第17个数的平均数,即,故答案为:.
5.(2023秋·北京·高一校考期末)某公司16个销售店某月销售产品数量单位:台的茎叶图如图所示,已知数据落在中的频率为,分位数为 __________.
【答案】
【详解】数据落在中的频率为,即数据落在的数据有个,
则将数据从小到大排列得
又,故分位数为第12个数和第13个数的平均数,即故答案为:
高频考点5 . 百分位数在统计表或统计图中的应用
1.(2022秋·云南昆明·高三统考开学考试)为了解某种作物的生长情况,抽取该作物植株高度(单位:cm)的一个随机样本,整理得到样本频率分布直方图如图所示.由此样本估计,该作物植株高度的80%分位数约为______cm.
【答案】78
【详解】由图可知,从左到右矩形的面积为:0.2,0.4,0.25,
因为0.2+0.4+0.25=0.85>0.8,所以80%分位数位于第3个矩形,
设80%分位数为x,所以.故答案为:78.
2.(2023·上海·高三专题练习)某校对学生成绩进行统计(折合百分制,得分为整数),考虑该次竞赛的成绩分布,将样本分成5组,绘成频率分布直方图(如图),图中从左到右依次为第一组到第五组,各小组的小长方形的高的比为,第五组的频数为12.
(1)该样本的容量是多少?(2)成绩落在哪一组中的人数最多?并求该小组的频率;
(3)该样本的第75百分位数在第几组中?
【答案】(1)96;(2)第三组,;(3)第四组.
【详解】(1)在频率分布直方图中,各小组的小长方形的高的比为,则第五组的频率为,而第五组的频数为12,所以样本的容量.
(2)由频率分布直方图知,分段内的人数最多,该小组为第三组,该小组的频率为.
(3)第一、二、三、四、五组的频数分别为6,18,36,24,12,该样本的第75百分位数位于第72名,72名位于第四组.
3.(2022春·山东聊城·高一统考期末)某高校在2021年的强基计划考试成绩中,随机抽取100名学生的成绩,分组如下:
第一组 第二组 第三组 第四组 第五组
绘制成频率分布直方图,如图所示.(1)根据频率分布直方图求出第二组的频数,并估计该100名学生成绩的第80百分位数;(2)现需从成绩较高的第三 四 五组中按比例用分层抽样的方法抽取12名学生进行座谈,求第三 四 五组各应抽取多少名学生进行座谈.
【答案】(1),177.5
(2)第三组抽取人;从第四组抽取人;从第五组抽取人
(1)解:由频率分布直方图可知,第二组的频率为,所以第二组的频数为.由频率分布直方图可知,成绩在175分以下的学生所占比例为,成绩在180分以下的学生所占比例为,因此,第80百分位数一定位于内.由,可得样本数据的第80百分位数约为.
(2)解:因为第三 四 五组小矩形的高之比为3:2:1,所以从第三 四 五组中抽取学生数之比为3:2:1,从第三组抽取人;从第四组抽取人;从第五组抽取人.
4.(2022春·福建·高一福建师大附中校考期末)某单位为了更好地开展党史学习教育,举办了一次党史知识测试,其200名职工成绩的频率分布直方图如图所示,则___________,这200名职工成绩的第75百分位数为___________.
【答案】
【详解】解:根据题意,,解得,
由于前三组的频率和为,前四组的频率和为,
所以,这200名职工成绩的第75百分位数为.故答案为:;
5.(2022春·浙江宁波·高一校考期末)为了了解我市参加年浙江高中数学学考的考试结果情况,从中选取名同学将其成绩(百分制,均为正数)分成、、、、、六组后,得到部分频率分布直方图(如图),观察图形,回答下列问题:
(1)求分数在内的频率;(2)根据频率分布直方图,估计本次考试成绩的均值和分位数.
【答案】(1) (2)均值为分,分位数为分
(1)解:由频率分布直方图可知,分数在内的频率为.
(2)解:本次考试成绩的均值为(分),
分数在内的频率为,分数在内的频率为,
设本次考试成绩的分位数为,则,则,解得,
因此,本次考试成绩的均值为分,分位数为分.
高频考点6. 在数据中计算众数,中位数,平均数
【方法点拨】
名 称 优 点 缺 点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众 数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
1.(2022春·河南安阳·高一统考期末)某校举办《中国梦》主题演讲比赛,五位评委给某位参赛选手的评分分别为84,84,86,,87,若这组数据的平均数为85,则这组数据的中位数为( )
A.84 B.85 C.86 D.87
【答案】A
【详解】依题意,,解得,
该选手所得分从小到大依次为:84,84,84,86,87,
所以这组数据的中位数为84. 故选:A
2.(多选)(2022秋·河南南阳·高一校考阶段练习)某地一年之内12个月的降水量分别为:56,46,53,48,51,53,71,58,56,56,64,66,则关于该地区的月降水量,以下说法正确的是( )
A.20%分位数为51 B.75%分位数为61
C.中位数为56 D.平均数为57
【答案】ABC
【详解】将数据从小到大排列得:46,48,51,53,53,56,56,56,58,64,66,71;
共12个数据,
因为,所以分位数为第三个数据,即为,故A选项正确;
因为,所以分位数为,故B选项正确;
该组数据的中位数为,故C选项正确;
该组数据的平均数为,故D选项错误. 故选:ABC
3.(多选)(2022·高一课时练习)已知一组数据丢失了其中一个,另外六个数据分别是、、、、、,若这组数据的平均数、中位数、众数依次成等差数列,则丢失的数据可能为( )
A. B. C. D.
【答案】AC
【详解】设丢失的数据为,则七个数据的平均数为,众数是.
由题意知,这组数据的平均数、中位数、众数依次成等差数列,
若,则中位数为,此时平均数,解得;
若,则中位数为,此时,解得;
若,则中位数为,此时,解得.
综上,丢失数据的所有可能取值为、、.故选:AC.
4.(2022秋·辽宁沈阳·高一沈阳市第一二〇中学校考期末)已知是1,2,3,,5,6,7这7个数据的中位数,且1,2,,这四个数据的平均数为1,则的最小值为______.
【答案】##
【详解】∵x是1,2,3,x,5,6,7这七个数据的中位数,∴,
∵1,2,x2,﹣y这四个数据的平均数为1,∴,∴
∵中,在时,递增,也是一个递增函数,∴函数是一个增函数,
∴的最小值为,故答案为:.
5.(2022·全国·高三专题练习)已知一组数据分别是,若这组数据的平均数、中位数、众数成等差数列,则数据的所有可能值为__________.
【答案】-11或3或17
详解:由题得这组数据的平均数为,众数是2,
若x≤2,则中位数为2,此时x=﹣11,
若2<x<4,则中位数为x,此时2x=,x=3,
若x≥4,则中位数为4,2×4=,x=17,
所有可能值为﹣11,3,17.故填 -11或3或17.
6.(2022·高一课时练习)某餐厅共有7名员工,所有员工的工资情况如下表:
人员 经理 厨师甲 厨师乙 会计 服务员甲 服务员乙 勤杂工
人数 1 1 1 1 1 1 1
工资/元 30000 7000 5000 4500 3600 3400 3200
(1)求餐厅所有员工的平均工资.(2)求餐厅所有员工工资的中位数.
(3)用平均数还是用中位数描述该餐厅员工工资的一般水平比较恰当?
(4)去掉经理的工资后,其他员工的平均工资是多少?是否也能反映该餐厅员工工资的一般水平?
【答案】(1)(2)4500(3)中位数(4),能
(1)解:平均工资为.
(2)解:由表格可知中位数为.
(3)解:因为经理的工资比其他人的总和还要多,故用中位数描述该餐厅员工工资的一般水平比较恰当.
(4)解:去掉经理的工资后,其他员工的平均工资为.
此时平均工资能反映该餐厅员工工资的一般水平.
高频考点7 . 在茎叶图中计算众数,中位数,平均数
1.(2022·全国·高三专题练习)某学生准备参加某科目考试,在12次模拟考试中,所得分数的茎叶图如图所示,则此学生该门功课考试成绩的众数与中位数分别为( )
A.95,94 B.95,94.5
C.93,94.5 D.95,95
【答案】B
【详解】由茎叶图可得众数为95,中位数为,故选:B.
例题2.(2022春·陕西咸阳·高一武功县普集高级中学校考阶段练习)某中学从甲、乙两个班中各选出7名学生参加2022年“希望杯”全国数学邀请赛,他们取得成绩的茎叶图如图,其中甲班学生成绩的中位数是84,乙班学生成绩的平均数是86,则xy的值为( )
A.36 B.12 C.10 D.24
【答案】D
【详解】因为甲班学生成绩的中位数是84,
所以根据茎叶图可得为中位数,即,解得.
又因为乙班学生成绩的平均数是86,
即,解得,故.故选:D.
例题3.(2022·内蒙古呼伦贝尔·海拉尔第二中学校考模拟预测)两姐妹同时推销某一商品,现抽取他们其中8天的销售量(单位:台),得到的茎叶图如图所示,已知妹妹的销售量的平均数为14,姐姐的销售量的中位数比妹妹的销售量的众数大2,则的值为______.
【答案】13
【详解】因为妹妹的销售量的平均数为14,
所以,解得,由茎叶图知:妹妹的销售量的众数是14,
因为姐姐的销售量的中位数比妹妹的销售量的众数大2,
所以姐姐的销售量的中位数是16,所以,解得,
所以,故答案为:13
4.(2022秋·四川·高二校考期中)将选手的9个得分去掉1个最高分,去掉一个最低分,7个剩余分数的平均分为91,现场做的9个分数的茎叶图,后来一个数据模糊,无法辨认,在图中以表示,则的值为____________
【答案】4
【详解】根据茎叶图中的数据,可知去掉的最低分为87,最高分为99,
剩余7个数为87,90,90,91,91,,94,
个剩余分数的平均分为91,
,解得.故答案为:4.
5.(2022秋·陕西榆林·高二校考期末)在某市的科技创新大赛活动中,10位评委分别对甲学校的作品“乒兵球简易发球器”和乙学校的作品“感应垃圾桶”进行了评分,得分的茎叶图如图.
(1)根据茎叶图写出甲、乙两所学校的作品得分的中位数;
(2)根据茎叶图计算甲、乙两所学校的作品得分的平均数,并判断哪一件作品更受评委的欢迎?
【答案】(1)甲学校作品得分的中位数为,乙学校作品得分的中位数为;
(2)甲学校作品得分的平均数为,乙学校作品得分的平均数为,甲学校的作品更受评委的欢迎.
【详解】(1)甲学校作品的得分由小到大排列为:62,65,68,75,77,83,84,91,92,93,
所以甲学校作品得分的中位数为;
乙学校作品的得分由小到大排列为:60,63,75,75,77,79,81,82,87,91,
所以乙学校作品得分的中位数为.
(2)甲学校作品得分的平均数为;
乙学校作品得分的平均数为.
甲学校作品得分的中位数和平均数都大于乙学校作品得分的中位数和平均数,
所以甲学校的作品更受评委的欢迎.
高频考点8. 总体集中趋势在频率分布直方图中的估计
1.(2022春·广东清远·高一校考阶段练习)为了解某地区老年人体育运动情况,随机抽取了200名老年人进行调查.根据调查结果绘制了下面日均体育运动时间的频率分布直方图,则日均体育运动时间的众数和中位数分别是( )
A.35,35 B.40,35 C.30,30 D.35,30
【答案】D
【详解】由频率分布直方图可得第四组的频率最大,故众数为35,
前三组的频率之和为,故中位数为30,故选:D
2.(2022秋·四川成都·高二四川省成都市新都一中校联考期末)成都电视台在全市范围内开展创建全国文明典范城市知识竞赛,随机抽取名参赛者的成绩统计如下表:
成绩分组 频数 频率
10 0.10
25
35 0.35
0.20
10 0.10
(1)请求出,,的值,并画出频率分布直方图;(2)请估计这名参赛者成绩的众数和平均值.
【答案】(1),作图见解析
(2)众数75,平均数74.5
【详解】(1)由[70,80)组数据可得:
(2)众数
平均值为.
3.(2022秋·四川达州·高二统考期末)在某校2022年春季的高一学生期末体育成绩中随机抽取50个,并将这些成绩共分成五组:,得到如图所示的频率分布直方图.在的成绩为不达标,在的成绩为达标.
(1)根据样本频率分布直方图求的值,并估计样本的众数和中位数(中位数精确到个位);
(2)已知50名学生中有22名女生,其中女生体育测试成绩不达标的有8人,那么男生体育测试成绩达标的有多少人?男生体育测试成绩不达标的有多少人?
【答案】(1),众数为65,中位数为73
(2)男生体育测试成绩不达标的有12人,男生体育测试成绩达标的有16人
【详解】(1)由频率分布直方图可得,
解得,
由频率分布直方图可知成绩在的最多,所以众数为65,
因为前两组的频率和为,前三组的频率和为,所以中位数在第三组,
设中位数为,则,
解得,所以中位数约为73;
(2)由频率分布直方图可知体育测试成绩不达标的人数为,
则体育测试成绩达标的人数为30人,
因为50名学生中有22名女生,其中女生体育测试成绩不达标的有8人,
所以男生体育测试成绩不达标的有12人,男生体育测试成绩达标的有16人.
4.(2022·高二课时练习)对某校高三年级学生参加社区服务次数进行统计,随机抽取名学生作为样本,得到这名学生参加社区服务的次数,根据此数据作出了频数与频率的统计表和频率分布直方图.
分组 频数 频率
10 0.25
24
2 0.05
合计 1
(1)求表中、及图中的值;
(2)若该校高三年级学生有240人,试估计该校高三年级学生参加社区服务的次数在区间上的人数;(3)估计这次学生参加社区服务次数的众数、中位数以及平均数.(结果精确到0.01)
【答案】(1),,(2)60(3)众,数17.50,中位17.08,平均数17.25
(1)解:由分组上的频数是,频率是,可得,解得,
因为频数之和为,所以,解得,所以.
因为a是对应分组的频率与组距的商,所以.
(2)解:因为该校高三年级学生有人,在上的频率是,
所以估计该校高三年级学生参加社区服务的次数在此区间上的人数力.
(3)解:估计这次学生参加社区服务次数的众数是.
因为,又且,所以中位数在区间上.
因为中位数及前面的数的频率之和为0.5,设样本中位数为x,
则,解得.
估计这次学生参加社区服务次数的中位数是17.08.
样本平均数是,
估计这次学生参加社区服务次数的平均数是17.25.
高频考点9. 标准差与方差的应用
【方法点拨】
方差与标准差:一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;标准差:
总体方差和标准差:如果总体中所有个体的变量值分别为,,总体平均数为,则称为总体方差,为总体标准差.
样本方差和标准差:如果一个样本中个体的变量值分别为,,,样本平均数为,则称为样本方差,为样本标准差.
1.(2023秋·上海浦东新·高二统考期末)某校高二(1)班为了调查学生线上授课期间的体育锻炼时间的差异情况,抽取了班级5名同学每周的体育锻炼时间,分别为6,6.5,7,7,8.5(单位:小时),则可以估计该班级同学每周的体育锻炼时间的方差为 ___________.
【答案】0.7##
【详解】解:数据为6,6.5,7,7,8.5,
所以平均数为:,
则方差为,故答案为:0.7
2.(2022秋·浙江湖州·高二校考阶段练习)A工厂年前加紧手套生产,设该工厂连续5天生产的手套数依次为,,,,(单位:万只),若这组数据,,,,的方差为1.44,且,,,,的平均数为4,则该工厂这5天平均每天生产手套___________万只.
【答案】
【详解】依题意得,设,,,,的平均数为,
根据方差的计算公式有,
∴,
即,又,∴.故答案为:.
3.(2022·高一课时练习)已知样本的平均数是10,方差是4,则_____;
【答案】91
【详解】因为样本的平均数是10,方差是4,所以,
,则 ,
解得 或 ,所以,故答案为:91
4.(2023·全国·高三专题练习)甲 乙两台机床同时生产一种零件,在10天中,两台机床每天生产的次品数分别为:
甲
乙
(1)分别计算这两组数据的平均数和标准差;
(2)由(1)的计算结果,分析哪台机床的性能更好.
【答案】(1)甲:, ,乙:,(2)乙机床性能更好
(1)记甲组数据的平均数和标准差分别为,乙组数据的平均数和标准差分别为
则
(2)由(1)知,所以甲机床生产出的次品数高于乙机床生产出的次品数;又,所以乙机床的性能比甲机床的性能更加稳定.
综上,乙机床性能比甲机床稳定,且生产的次品数更低,所以乙机床的性能更好.
高频考点10. 用平均数和标准差分析数据
1.(2023·全国·高三专题练习)甲乙两工厂生产某种产品,抽取连续5个月的产品生产产量(单位:件)情况如下:甲:80、70、100、50、90;乙:60、70、80、55、95,则下列说法中正确的是( )
A.甲平均产量高,甲产量稳定 B.甲平均产量高,乙产量稳定
C.乙平均产量高,甲产量稳定 D.乙平均产量高,乙产量稳定
【答案】B
【详解】对于甲:可得平均数
方差
同理对于乙:可得平均数,方差
∵∴甲平均产量高,乙产量稳定故选:B.
2.(2022春·上海杨浦·高三复旦附中校考阶段练习)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”,根据过去10天甲、乙、丙、丁四地新增病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为2,总体方差为3
C.丙地:总体均值为1,总体方差大于0 D.丁地:中位数为2.5,总体方差为3
【答案】B
【详解】对于A,例如:10天病例数为总体均值为3,中位数为4
但是某一天的病例超过了7,故选项A错误;
对于B,设连续10天,每天新增疑似病例分别为:
假设第一天超过了7人,设为8人,则,
因为总体方差为3,所以说明连续10天,每天新增疑似病例不超过7人,故选项B正确;
对于C,对于C,例如: 10天病例数为:,总体均值为1,
方差大于0,但是存在大于7人的数,故选项C错误;
对于D,例如:10天病例数为
中位数为,平均数为,
均值为,
但是在大于7的数,故选项D错误.故选:B.
3.(2022春·湖北襄阳·高一襄阳四中校考阶段练习)某中学数学组积极研讨网上教学策略,决定先采取甲、乙两套方案教学,并对分别采取两套方案教学的班级进行了次测试,成绩统计结果如图所示.
(1)请填写下表(要求写出计算过程):
平均数 方差
甲
乙
(2)从下列三个不同的角度对这次方案选择的结果进行分析:
①从平均数和方差相结合看(分析哪种方案的成绩更好);
②从折线图上两种方案的走势看(分析哪种方案更有潜力).
【答案】(1)表格见解析
(2)①答案见解析;②答案见解析
【详解】(1)解:由折线图中的数据可得甲方案测试成绩的平均分为,方差为
乙方案测试成绩的平均分为,
方差为.填表如下:
平均数 方差
甲
乙
(2)解:①甲、乙两种方案的平均数相等,且,
故乙方案的成绩更稳定,故乙方案的成绩更好;
②从折线图的走势上看甲方案更有潜力,
因为使用甲方案成绩稳步提高,而使用乙方案成绩不稳定,忽高忽低.
4.(2022秋·河南南阳·高一校考阶段练习)下图表示的是甲、乙两人在一次射击比赛中中靶的情况(击中靶中心的圆面为10环,靶中各数字表示该数字所在圆环被击中时所得的环数),每人各射击了5次.
(1)请用列表法将甲、乙两人的射击成绩统计出来,并求两人的平均环数;
(2)求甲、乙两人这次的射击环数的方差,并判断甲、乙二人的射击成绩谁更稳定;
【答案】(1)成绩统计表见解析,两人的平均环数都为8.6.
(2),,乙的射击成绩更稳定.
【详解】(1)甲、乙两人的射击成绩统计表如下:
环数 7 8 9 10
甲命中次数 1 1 2 1
乙命中次数 0 3 1 1
(环, (环.
(2),
,
,.两人的总体水平相同,乙的射击成绩更稳定.
高频考点11. 求总体平均数和总体方差、标准差
1.(2022·广东广州·统考一模)为调查某地区中学生每天睡眠时间,采用样本量比例分配的分层随机抽样,现抽取初中生800人,其每天睡眠时间均值为9小时,方差为1,抽取高中生1200人,其每天睡眠时间均值为8小时,方差为,则估计该地区中学生每天睡眠时间的方差为( )
A. B. C. D.
【答案】B
【详解】该地区中学生每天睡眠时间的平均数为:(小时),
该地区中学生每天睡眠时间的方差为:
.故选:B
2.(多选)(2022秋·辽宁朝阳·高二校联考阶段练习)2022年4月23日至25日,以“阅读新时代,查进新征程”为主题的首届全民阅读大会胜利召开,目的是为了弘扬全民阅读风尚,共建共享书香中国.某学校共有学生2000人,其中高一800人,高二、高三各600人,学校为了了解学生在暑假期间每天的读书时间,按照分层随机抽样的方法从全校学生中抽取100人,其中高一学生、高二学生,高三学生每天读书时间的平均数分别为,,,每天读书时间的方差分别为,,,则下列正确的是( )
A.从高一学生中抽取40人
B.抽取的高二学生的总阅读时间是1860小时
C.被抽取的学生每天的读书时间的平均数为3小时
D.估计全体学生每天的读书时间的方差为
【答案】ACD
【详解】对A,根据分层抽样,分别从高一学生、高二学生,高三学生中抽取40人,30人,30人,故A正确;对B,抽取的高二学生的总阅读时间是,故B错误;
对C,被抽取的学生每天的读书时间的平均数为(小时),故C正确;
对D,被抽取的学生每天的读书时间的方差为,所以估计全体学生每天的读书时间的方差为,故D正确.故选:ACD.
3.(2022春·广东肇庆·高一统考期末)一所初级中学为了估计全体学生的平均身高和方差,通过抽样的方法从初一年级随机抽取了30人,计算得这30人的平均身高为154cm,方差为30;从初二年级随机抽取了40人,计算得这40人的平均身高为167cm,方差为20;从初三年级随机抽取了30人,计算得这30人的平均身高为170cm,方差为10.依据以上数据,若用样本的方差估计全校学生身高的方差,则全校学生身高方差的估计值为_________.
【答案】64.4
【详解】初一学生的样本记为,,…,,方差记为,初二学生的样本记为,,…,,方差记为,初三学生的样本记为,,…,,方差记为.
设样本的平均数为,则,
设样本的方差为.则
又,故,
同理,,
因此,
.答案:.
4.(2022春·安徽合肥·高一合肥市第六中学校考期末)(1)树人中学高一(1)班50名同学期中考试(100分制)数学成绩的频率分布直方图如图所示,成绩分组区间是,,,,,,试求数学成绩的分位数(保留一位小数);
(2)树人中学组建足球队备战全市高中生足球联赛.队员分别来自高一、高二两个年级,且高一年级队员占队员总数的.已知高一年级队员体重(单位:kg)的平均数为70,方差为300;高二年级队员体重的平均数为60,方差为200.求足球队全体队员体重的平均数及方差.
【答案】(1);(2)平均数为;方差为.
【详解】(1)由频率分布直方图可知:
,解得:,
于是,占比,占比,
占比,
故数学成绩的80%分位数为;
(2)由题意知:高一队员在所有队员中所占权重为,,
高二年级队员在所有队员中所占权重为,,
全部队员体重的平均数为.
全部队员的体重的方差为:.
高频考点12. 频率分布直方图与数字特征的综合应用
1.(2023·全国·高三专题练习)某“双一流A类”大学就业部从该校2020年已就业的大学本科毕业生中随机抽取了100人进行问卷调查,其中一项是他们的月薪收入情况,调查发现,他们的月薪收入在1.65万元到2.35万元之间,根据统计数据分组,得到如下的频率直方图,同一组数据用该区间的中点值作代表.
(1)求这100人月薪收入的样本平均数和样本方差;(2)该校在某地区就业的2018届本科毕业生共50人,决定于2019年国庆长假期间举办一次同学联谊会,并收取一定的活动费用,有两种收费方案:
方案一:设,月薪落在区间Ω左侧的每人收取400元,月薪落在区间Ω内的每人收取600元,月薪落在区间Ω右侧的每人收取800元;方案二:按每人个月薪水的3%收取.
用该校就业部统计的这100人月薪收入的样本频率进行估算,哪一种收费方案能收到更多的费用.
参考数据:.
【答案】(1)平均数2;方差(2)方案一
【详解】(1)样本平均数(万元),样本方差(万元2).
(2)方案一:(万元),.
月薪落在区间Ω左侧收取费用约为(万元);
月薪落在区间Ω内收取费用约为(万元);
月薪落在区间Ω右侧收取费用约为(万元).
因此这50人共收取费用约为(万元).
方案二:这50人共收取费用约为(万元).故方案一能收到更多的费用.
2.(2022·高一课时练习)某中学教研室从高二年级随机抽取了50名学生的十月份语文成绩(满分100分,成绩均为不低于40分的整数),得到如图所示的频率分布直方图.
(1)根据频率分布直方图估计该组数据的平均数和标准差s(求标准差准确到0.01,同一组中的数据用该组区间的中点值为代表);(2)成绩位于的有多少人?所占百分比是多少?
【答案】(1)74.2,12.62 (2)成绩位于的有48人,所占百分比为96%
(1).
.∴.
(2)由(1)得s≈12.62.∴,.
结合题图,得成绩位于[48.96,99.44]外的只有2人.即成绩位于的有48人,所占百分比为96%.
3.(2022春·广东茂名·高一化州市第一中学校考阶段练习)从某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
(1)根据上表补全所示的频率分布直方图;
(2)估计这种产品质量指标值的平均数、方差(同一组中的数据用该组区间的中点值作代表)及中位数(保留一位小数);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
【答案】(1)频率分布直方图见解析;
(2)平均数为,方差为,中位数为99.7;
(3)不能认为该企业伸长的这种产品符合“质量指标不低于95的产品至少要占全部产品的80%”的规定﹒
(1)
补全后的频率分布直方图如图所示,
(2)质量指标值的样本平均数为:,
质量指标值的样本方差为:,
∴这种产品质量指标值的平均数约为100,方差约为104.
第一组频率为:0.06,第二组频率为:0.26,第三组频率为:0.38,
∵0.06+0.26<0.5,0.06+0.26+0.38>0.5,
∴中位数落在第三组内,设中位数为x,
则,解得,因此,中位数为99.7;
(3)质量指标值不低于95的产品所占比例约为,
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标不低于95的产品至少要占全部产品的80%”的规定.
4.(2023秋·重庆沙坪坝·高二重庆八中校考期末)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量表得如下频数分布表:
质量指标值分组
频数 6 26 38 22 8
(1)在下表中作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)已知在这些数据中,质量指标值落在区间内的产品的质量指标值的平均数为94,方差为40,所有这100件产品的质量指标值的平均数为100,方差为202,求质量指标值在区间内的产品的质量指标值的方差.
【答案】(1)答案见解析(2)平均数为100,方差为104.(3)300
【详解】(1)由题意可知,分组,,,,,对应的频率分别为. 则频率分布直方图如下图所示:
(2)质量指标值的样本平均数为
.
质量指标值的样本方差为
(3)由题,质量指标值落在区间内的产品有70件,
设质量指标值分别为,则平均数为,方差为,
质量指标值落在区间内的产品有30件,
设质量指标值分别为,则平均数为,方差为,
设这100件产品的质量指标值的平均数为,
方差为,则,
所以,又因为,则,
又因为,则,所以
高频考点13 .方差的性质
1.(2023·全国·模拟预测)已知一组数据:的平均数是4,方差是2,则由和11这四个数据组成的新数据组的方差是( )
A.27 B. C.12 D.11
【答案】B
【详解】因为一组数据,,的平均数是4,方差是2,
所以,所以,
所以,11的平均数为
,
所以,11的方差为
故选:B
2.(多选)(2023·重庆·统考一模)已知两组样本数据和的均值和方差分别为和,若且,则( )
A. B. C. D.
【答案】ABD
【详解】,,
因为,所以,A正确;
,B正确;
,
同理可得:
,
故,C错误,D正确. 故选:ABD
3.(2023秋·广东·高三校联考期末)已知数据,,,…,的众数、平均数、方差、第80百分位数分别是,,,,数据,,,…,的众数、平均数、方差、第80百分位数分别是,,,,且满足,则下列结论正确的是( )
A. B.
C. D.
【答案】ACD
【详解】由题意可知,两组数据满足,
由平均数计算公式得,
所以,故A正确;
由它们的众数也满足,则有,故B错误;
由方差的性质得,故C正确;
对于数据,,,,,假设其第80百分位数为,
当是整数时,,当不是整数时,设其整数部分为,则,
所以对于数据,,,,,假设其第80百分位数为,
当是整数时,,
当不是整数时,设其整数部分为,则,
所以,故D正确.故选:ACD.
4.(2023秋·江苏镇江·高二江苏省丹阳高级中学校考期末)已知样本数据的平均数与方差分别是和,若,且样本数据的平均数与方差分别是和,则______.
【答案】
【详解】由题意得,,解得,,
,
,
.故答案为:4044
【课后训练】
全卷共22题 满分:150分 时间:120分钟
一 选择题:本题共8小题,每小题5分,共40分.每小题给出的四个选项中,只有一项是符合题目要求的.
1.(2022·四川雅安·统考一模)采购经理指数(PMI),是通过对企业采购经理的月度调查结果统计汇总、编制而成的指数,它涵盖了企业采购、生产、流通等各个环节,包括制造业和非制造业领域,是国际上通用的检测宏观经济走势的先行指数之一,具有较强的预测、预警作用.制造业PMI高于时,反映制造业较上月扩张;低于,则反映制造业较上月收缩.下图为我国2021年1月—2022年6月制造业采购经理指数(PMI)统计图.
根据统计图分析,下列结论最恰当的一项为( )
A.2021年第二、三季度的各月制造业在逐月收缩
B.2021年第四季度各月制造业在逐月扩张
C.2022年1月至4月制造业逐月收缩
D.2022年6月PMI重回临界点以上,制造业景气水平呈恢复性扩张
【答案】D
【详解】对于A项,由统计图可以得到,只有9月份的制造业指数低于,故A项错误;
对于B项,由统计图可以得到,10月份的制造业指数低于,故B项错误;
对于C项,由统计图可以得到,1、2月份的制造业指数高于,故C项错误;
对于D项,由统计图可以得到,从4月份的制造业指数呈现上升趋势,且在2022年6月PMI超过,故D项正确.故选:D.
2.(2022·辽宁·抚顺市第二中学校联考三模)下列一组数据、、、、、、、、、的分位数为( )
A. B. C. D.
【答案】D
【详解】题干中共个数,因为,所以,所求的分位数为.故选:D.
3.(2022·四川内江·四川省内江市第六中学校考模拟预测)某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是( )
A.若按专业类型进行分层抽样,则张三被抽到的可能性比李四大
B.若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人
C.采用分层抽样比简单随机抽样更合理
D.该问题中的样本容量为100
【答案】A
【详解】对于选项A,张三与李四被抽到的可能性一样大,故A错误;
对于选项B,理学专业应抽取的人数为,
工学专业应抽取的人数为,故B正确;
对于选项C,因为各专业差异比较大,所以采用分层随机抽样更合理,故C正确;
对于选项D,该问题中的样本容量为100,故D正确.故选:A.
4.(2022·天津南开·南开中学校考模拟预测)为了解“双减”政策实施后学生每天的体育活动时间,研究人员随机调查了该地区1000名学生每天进行体育运动的时间,按照时长(单位:分钟)分成6组:第一组,第二组,第三组,第四组,第五组,第六组,经整理得到如图的频率分布直方图,则可以估计该地区学生每天体育活动时间的第25百分位数约为( )
A.42.5分钟 B.45.5分钟 C.47.5分钟 D.50分钟
【答案】C
【详解】由频率之和为1得:,解得:,
由,,
故第25百分位数位于内,则第25百分位数为,
可以估计该地区学生每天体育活动时的第25百分位数约为47.5故选:C
5.(2022·广东中山·中山纪念中学校考模拟预测)经团委统计,某校申请“志愿服务之星”的10名同学在本学期的志愿服务时长(单位:小时)分别为26、25、23、24、29、25、32、25、24、23,记这一组数据的平均数为,上四分位数为,众数为,则( )
A. B. C. D.
【答案】A
【详解】将10个数据由小到大排列:23,23,24,24,25,25,25,26,29,32,则平均数;
上四分位数为第75百分位数,
因为,故上四分位数为第8个数,;
25出现3次,最多,众数.所以,故选:A
6.(2022·全国·安阳市第二中学校联考模拟预测)眼睛是心灵的窗户,然而随着网络、手机、平板电脑等电子产品的普及,越来越多的青少年的视力情况堪忧,因此,为了唤醒大家对视力损害的重视,每年的6月6日被定为全国爱眼日,每年10月的第二个星期四被定为世界爱眼日.某小学为了了解在校学生的视力情况,对所有在校学生的视力进行检测,所得数据统计如图所示,则该小学所有学生视力的中位数约为( ).
A.4.50 B.4.93 C.5.10 D.4.87
【答案】D
【详解】由题图可知,前5个小矩形的面积分别为,,,,,
前4个小矩形的面积之和为,
前5个小矩形的面积之和为,
故所求中位数为,故选:D.
7.(2022·青海西宁·统考二模)某校举办抗击新冠疫情科普知识演讲活动,如图是七位评委为某选手打出的分数的茎叶图,去掉一个最高分和一个最低分后,剩下数据的平均数是( )
A.87 B.86 C.85 D.84
【答案】C
【详解】去掉一个最高分93和一个最低分79后,剩下数据的平均数是
故选:C.
8.(2022·云南昆明·昆明一中校考模拟预测)某单位有男职工60人,女职工40人,其中男职工平均年龄为35岁,方差为6,女职工平均年龄为30岁,方差是1,则该单位全体职工的平均年龄和方差分别是( )
A.32.5,3.5 B.33,7 C.33,10 D.32.5,4
【答案】C
【详解】设男职工年龄分别为:,男职工年龄平均数为,方差为,女职工年龄分别为,女职工年龄平均数为,方差为,则,,
即,,,
同理,,
即,,
该单位全体职工的平均年龄:,
方差为:
故该单位全体职工的平均年龄和方差分别是33,10. 故选:C
二 选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.(2022·浙江·模拟预测)下列统计量中,能度量样本,,…,的离散程度的是( )
A.样本,,…,的极差 B.样本,,…,的中位数
C.样本,,…,的标准差 D.样本,,,…,的方差
【答案】ACD
【详解】对于A,极差为一组数据中最大值与最小值的差,极差越大数据越分散,极差越小数据越集中,故该样本的极差能度量该样本的离散程度,故A正确;
对于B,中位数为一组数据中中间的数,故该样本的中位数刻画了该样本的集中趋势,故B错误;
对于C,标准差刻画了数据的离散程度或波动幅度,标准差越大,数据离散程度越大,标准差越小,数据的离散程度越小,故该样本的标准差能度量该样本的离散程度,故C正确;
对于D,在刻画数据的分散程度上,方差和标准差是一样的,又样本,,,…,的方差与样本,,…,的方差是一样的,故样本,,,…,的方差能度量样本,,…,的的离散程度,故D正确.故选:ACD.
10.(2022·安徽芜湖·安徽师范大学附属中学校考模拟预测)五月初,受疫情影响线下课暂停,某校组织学生居家通过三种方式自主学习,每种学习方式人数分布如图1所示,解封后为了解学生对这三种学习方式的满意程度,利用分层抽样的方法抽取4%的同学进行满意率调查,得到的数据如图2所示. 则下列说法中正确的是( )
A.样本容量为240 B.若,则本次自主学习学生的满意度不低于四成
C.总体中对方式二满意的学生约为300人 D.样本中对方式一满意的学生为24人
【答案】ACD
【详解】对A,由饼图可得总人数为,故样本容量为,故A正确;
对B,当时,满意的人数为,故满意度为,故B错误;
对C,总体中对方式二满意的学生约为人,故C正确;
对D,样本中对方式一满意的学生为人,故D正确;故选:ACD
11.(2022·河北·模拟预测)根据第七次全国人口普查结果,居住在城镇的人口为90199万人,占全国人口的,与第六次全国人口普查相比,城镇人口比重上升14.2个百分点.随着我国新型工业化、信息化和农业现代化的深入发展和农业转移人口市民化政策落实落地,10年来我国新型城镇化进程稳步推进,城镇化建设取得了历史性成就.如图所示的是历次全国人口普查城乡居住人口及城镇居住人口比重的统计图,根据图中信息,下列说法正确的是( )
A.这七次全国人口普查乡村居住人口先增加后减少
B.城镇居住人口的比重的中位数为
C.乡村居住人口的极差不超过25000万
D.这七次全国人口普查乡村居住人口的平均数超过城镇居住人口的平均数
【答案】ABD
【详解】对,由图可知这七次全国人口普查乡村居住人口先增加后减少,A正确;
对B,由图可知城镇居住人口的比重的中位数为,B正确;
对C,由图可知乡村居住人口的极差超过25000万,C错误;
对D,由图可知,村居住人口的整体数据基本都大于城镇居住人口的数据,
故这七次全国人口普查乡村居住人口的平均数超过城镇居住人口的平均数,D正确.故选:ABD.
12.(2022·天津武清·校考模拟预测)2021年是中国共产党建党100周年,为全面贯彻党的教育方针,提高学生的审美水平和人文素养,促进学生全面发展.某学校高一年级举办了班级合唱活动.现从全校学生中随机抽取部分学生,并邀请他们为此次活动评分(单位:分,满分100分),对评分进行整理,得到如图所示的频率分布直方图,则下列结论不正确的是( )
A.
B.学生评分的中位数的估计值为85
C.学生评分的众数的估计值为85
D.若该学校有3000名学生参与了评分,则估计评分超过80分的学生人数为1200
【答案】ABD
【详解】对于A,,A不正确;
对于B,学生评分在内的频率为0.6,则学生评分的中位数t在内,
则有,解得,B不正确;
对于C,学生评分在的频率最大,则学生评分的众数的估计值为85,C正确;
对于D,因评分超过80分的频率为0.6,则估计评分超过80分的学生人数为,D不正确.故选:ABD
三 填空题:本题共4小题,每小题5分,共20分.
13.(2022·甘肃·模拟预测)在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的,且样本容量为140,则中间一组的频数为____________.
【答案】40
【详解】设中间一个小长方形面积为,其他8个长方形面积为,
根据频率分布直方图各小矩形面积之和为1,得,则,即中间一组的频率为,
所以中间一组的频数为.故答案为:40.
14.(2022·天津滨海新·天津市滨海新区塘沽第一中学校考模拟预测)下表记录了某地区一年之内的月降水量.
月份 1 2 3 4 5 6 7 8 9 10 11 12
月降水量/mm 58 48 53 46 56 56 51 71 56 53 64 66
根据上述统计表,该地区月降水量的中位数是______;分位数是_________.
【答案】 56 64
【详解】数据按从小到大排序得:46,48,51,53,53,56,56,56,58,64,66,71,
它的中位数为56;,第10个数是64故答案为:56,64
15.(2022·上海长宁·统考一模)甲、乙两城市某月初连续7天的日均气温数据如图所示,则在这7天中;
①甲城市日均气温的中位数与平均数相等;②甲城市的日均气温比乙城市的日均气温稳定
③乙城市日均气温的极差为 ;④乙城市日均气温的众数为
以上判断正确的是___________(写出所有正确判断的序号)
【答案】①④
【详解】甲城市的气温分别为:;
乙城市的气温分别为:.
对选项①:甲城市气温的中位数为;平均数为,正确;
对选项②:根据折线图知乙城市的日均气更温稳,错误;
对选项③:乙城市日均气温的极差为,错误;
对选项④:乙城市日均气温的众数为,正确. 故答案为:①④
16.(2022·全国·校联考三模)若数据,,,,,,,,4,6的方差为5,则数据,,,,,,,,3,7的方差为__________.
【答案】5.6##
【详解】设数据,,,,,,,,4,6的平均数为,则数据,,,,,,,,3,7的平均数为,
所以,即有
,
因此数据,,,,,,,,3,7的方差为
. 故答案为:
四 解答题:本题共6小题,共70分.解答应写出文字说明 证明过程或演算步骤.
17.(2022·四川泸州·四川省泸县第二中学校联考模拟预测)大米根据颗粒、质地、色泽、香味等评分指标打分,得分在区间、、、内分别评定为四级大米、三级大米、二级大米、一级大米.某经销商从农民手中收购一批大米,共袋(每袋),并随机抽取袋分别进行检测评级,得分数据的频率分布直方图如图所示:
(1)求的值,并用样本估计,该经销商采购的这批大米中,一级大米和二级大米的总量能否达到采购总量一半以上;
(2)该经销商计划在下面两个方案中选择一个作为销售方案:
方案1:将采购的袋大米不经检测,统一按每袋元直接售出;
方案2:将采购的袋大米逐袋检测分级,并将每袋大米重新包装成包(每包),检测分级所需费用和人工费共元,各等级大米每包的售价和包装材料成本如下表所示:
大米等级 四级 三级 二级 一级
售价(元/包)
包装材料成本(元/包)
该经销商采用哪种销售方案所得利润更大?通过计算说明理由.
【答案】(1),一级大米和二级大米的总量能够达到采购总量的一半以上
(2)经销商采用方案2所得利润更大,理由见解析
(1)解:,.
,
所以,估计经销商采购的这批大米中,一级大米和二级大米的总量能够达到采购总量的一半以上.
(2)解:若经销商采用方案1,则收入为元.
若经销商采用方案2,
袋大米中四级大米约袋,包,
三级大米约袋,包,
二级大米约袋,包,
一级大米约袋,包,
袋大米共卖元.
袋大米的包装袋成本为元,
则收入为元,
,且袋大米成本相同,
所以,该经销商采用方案2所得利润更大
18.(2022·新疆·统考三模)阿克苏冰糖心苹果主要产地位于天山托木尔峰南麓,因为冬季寒冷,所以果品生长期病虫害发生少,加上昼夜温差大、光照充足,用无污染的冰川雪融水浇灌、沙性土壤栽培、高海拔的生长环境,使苹果的果核部分糖分堆积成透明状,形成了世界上独一无二的“冰糖心”,某果园秋季新采摘了一批苹果,从中随机加取50个作为样本,称出它们的重量(单位:克),将重量按照进行分组,得到频率分布直方图如图所示(同一组中的数据以该组区间的中点值为代表).
(1)估计这批苹果中每个苹果重量的平均数、中位数、众数;
(2)该果园准备把这批苹果销售出去,据市场行情,有两种销售方案:
方案一:所有苹果混在一起,价格为3元/千克;
方案二:将不同重量的苹果分开,重量不小于160克的苹果的价格为4元/千克,重量小于160克的苹果的价格为2.4元/千克,但每1000个苹果果园需支付10元分拣费.
试比较分别用两种方案销售10000个苹果的收入高低.
【答案】(1)平均数克,中位数,众数;
(2)方案二的销售收入更高.
(1)由题意可得: ,解得 ,
故每个苹果重量的平均数为:
(克),
又 ,所以中位数刚好为160;
众数为最高矩形对应区间的中点值,即为170;
故估计这批苹果中每个苹果重量的平均数、中位数、众数分别为 ;
(2)若采用方案一,估计收入约为 (元);
若采用方案二,重量小于160克的苹果的总重量约为:(千克),
重量不小于160克的苹果的总重量约为: (千克),
故估计收入约为 (元),
因此,方案二的销售收入更高
19.(2022·全国·模拟预测)我国航空事业的发展,离不开航天器上精密的零件.某车间使用数控机床制造一种圆形齿轮零件.由于零件的高精度要求,该车间负责人需要每隔一个生产周期对所生产零件的直径进行统计,排查机床可能存在的问题并及时调试维修.已知该负责人在两个相邻生产周期(分别记为周期Ⅰ和周期Ⅱ)中分别随机检查了枚零件,测量得到的直径(单位:)如下表所示:
周期Ⅰ 4.9 5.1 5.0 5.0 5.1 5.0 4.9 5.2 5.0 4.8
周期Ⅱ 4.8 5.2 5.0 5.0 4.8 4.8 5.2 5.1 5.0 5.1
周期Ⅰ和周期Ⅱ中所生产零件直径的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;(2)判断机床在周期Ⅱ是否出现了比周期Ⅰ更严重的问题(如果,则认为机床在周期Ⅱ出现了比周期Ⅰ更严重的问题,否则不认为出现了更严重的问题).
【答案】(1)5.0;5.0;0.012;0.022 (2)无法推测机床在周期Ⅱ出现了比周期Ⅰ更严重的问题.
(1)由表可知
(2)由(1)可知,
因此在的显著性水平下,无法推测机床在周期Ⅱ出现了比周期Ⅰ更严重的问题.
20.(2022·河南·模拟预测)本学期某校举行了有关垃圾分类知识测试活动(满分10分,分值为整数),并从该校七年级和八年级中各随机抽取40名学生的测试成绩,整理如下:
小明将样本中的成绩进行了数据处理,如表为数据处理的一部分:
根据图表,解答问题:
年级 平均数 众数 中位数 方差
七年级 7.5 7 7 2.8
八年级 8 2.35
(1)填空:表中的______,______;(2)你认为______年级的成绩更加稳定,理由是______;
(3)若规定6分及6分以上为合格,该校八年级共1200名学生参加了此次测试活动,估计参加此次测试活动成绩合格的学生人数是多少?
【答案】(1)7.5、7.5 (2)八,八年级成绩的方差小于七年级 (3)(人)
(1)解:平均数,
因为,所以数据从小到大排列的第个数是,第个数是,
所以数据的中位数;
(2)解:因为,,,所以八年级成绩更稳定,
因为八年级成绩的方差小于七年级;
(3)解:样本中八年级学生成绩合格的频率为,
所以估计参加此次测试活动成绩合格的学生人数是(人)
21.(2022秋·黑龙江佳木斯·高二建三江分局第一中学校考开学考试)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:,,,,并整理得到如下频率分布直方图:
(1)已知样本中分数在的学生有5人,试估计总体中分数小于40的人数;(2)试估计测评成绩的第三四分位数;(3)已知样本中男生与女生的比例是3:1,男生样本的均值为70,方差为10,女生样本的均值为80,方差为12,请计算出总体的方差.
【答案】(1)20人 (2)78.75 (3)
【详解】(1)由频率分布直方图知,分数在的频率为,
在样本中分数在的人数为(人),
在样本中分数在的人数为95人,所以估计总体中分数在的人数为(人),总体中分数小于40的人数为20人
(2)测试成绩从低到高排序,样本中分数在的频率为,
样本中分数在的频率为,则75%分位数在之间,
所以估计测评成绩的75%分位数为.
(3)总样本的均值为,
所以总样本的方差为
22.(2023·上海·高三专题练习)为了切实维护居民合法权益,提高居民识骗防骗能力,守好居民的“钱袋子”,某社区开展“全民反诈在行动——反诈骗知识竞赛”活动,现从参加该活动的居民中随机抽取了100名,统计出他们竞赛成绩分布如下:
成绩X 人数
2
22
28
(1)求,的值,并补全频率分布直方图;(2)估计该社区居民竞赛成绩的平均数和方差(同一组中的数据用该组区间的中点值作代表);(3)以频率估计概率,若,社区获得“反诈先进社区”称号,若,社区获得“反诈先锋社区”称号,试判断该社区可获得哪种称号(为竞赛成绩标准差)?
【答案】(1);,图见解析(2)75,100(3)该社区可获得“反诈先进社区”称号
【详解】(1)解:由题可知:,,
所以100名居民竞赛成绩在组内频率/组距为,补全频率分布直方图如下:
(2)解:估计该社区居民竞赛成绩的平均数
,
估计该社区居民竞赛成绩的方差
(3)解:由(1)可得,
所以
∵ 所以该社区可获得“反诈先进社区”称号.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com) 15中小学教育资源及组卷应用平台
9.2 用样本估计总体
【学习要求】
1.了解扇形统计图、折线统计图和频数直方图的概念和特征;理解频率直方图的含义及其制作步骤。
2.掌握从常见统计图表中获取有用的信息,体会统计数学在实际生活中的应用,通过实例,理解百分位数的含义。
3.掌握求样本数据的众数、中位数、平均数;.理解用样本的数字特征、直方图估计总体的集中趋势。
4.理解方差、标准差的含义,会计算方差和标准差。
【思维导图】
【知识梳理】
1.总体离散程度的估计
(1)极差:一组数据中的最大值与最小值的差称为极差.
(2)方差与标准差:一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;标准差:
(3)总体方差和标准差:如果总体中所有个体的变量值分别为,,总体平均数为,则称为总体方差,为总体标准差.
(4)样本方差和标准差:如果一个样本中个体的变量值分别为,,,样本平均数为,则称为样本方差,为样本标准差.
(5)加权方差:如果总体的个变量值中,不同的值共有()个,记为,,,其中出现的频数为(),则总体方差为.
2.总体集中趋势的估计
(1)平均数
①定义:一组数据的和与这组数据的个数的商.数据,,的平均数为.
②特征:平均数对数据有“取齐”的作用,代表该组数据的平均水平,任何一个数据的改变都会引起平均数的变化,这是众数和中位数都不具有的性质.所以与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中极端值的影响较大,使平均数在估计总体时的可靠性降低.
(2)众数
①定义:一组数据中出现次数最多的数据(即频率分布最大值所对应的样本数据)称为这组数据的众数。②特征:一组数据的众数可能不止一个,也可能没有,反映了该组数据的集中趋势.
(3)中位数
①定义:一组数据按从小到大(或从大到小)的顺序排成一列,处于最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)称为这组数据的中位数.
②特征:一组数据的中位数是唯一的,反映了该组数据的集中趋势.在频率分布直方图中,中位数左边和右边的直方图的面积相等.
3.三种数字特征的优缺点
名 称 优 点 缺 点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众 数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
4.在频率分布直方图中平均数,中位数,众数的估计值
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
5.第百分位数
(1)第百分位数的概念:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算第p百分位数的步骤:第1步,按从小到大排列原始数据;第2步,计算;第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.另外,像第1百分位数,第5百分位数,第95百分位数和第99百分位数在统计中也经常被使用.
6.频率分布表与频率分布直方图
(1)频数与频率:将一批数据按要求分为若干个组,各组内数据的个数叫该组的频数.每组数据的频数除以全体数据的个数的商叫该组数据的频率.频率反映各个小组数据在样本量中所占比例的大小.
(2)样本的频率分布及频率分布表:根据随机抽取的样本量的大小,分别计算某一事件出现的频率,这些频率的分布规律(取值状况)就叫做样本的频率分布.
为了能直观地显示样本的频率分布情况,通常将样本量、样本中出现该事件的频数以及计算所得的相应频率列在一张表中,这张表叫做频率分布表.分组、频数、频率是频率分布表中最基本也是必要的三列,在实际操作中,每组的频数是通过类似统计选票时的“唱票”的方式进行统计的,所以通常频率分布表中还会有“频数累计”一列.
(3)用样本的频率分布估计总体的分布:在实际应用中,总体分布可以为合理决策提供依据(总体分布描述的是总体在各个范围内个体的百分比).总体分布一般不好直接获得,往往通过样本的频率分布估计总体分布.用样本估计总体,是研究统计问题的一个基本思想方法误区.
(4)样本的频率分布直方图:为了将频率分布表中的结果直观形象地表现出来,常画出频率分布直方图.画图时,应以横轴表示分组、纵轴表示各组频率与组距的比值,以各个组距为底,以各频率除以组距的商为高,画成小长方形,这样得到的直方图就是频率分布直方图.
(5)绘制频率分布直方图的步骤及频率分布直方图的性质
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
7.统计图表
(1)条形统计图:用单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按照一定的顺序排列起来,这样的统计图称为条形统计图.
优点:条形统计图不但可以直观地反映数据分布的大致情况,还可以清晰地表示出各个区间的具体数目,易于比较数据间的差别.
缺点:会损失数据的部分信息且不能明确显示部分与整体的关系.
(2)折线统计图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示定的数量,根据样本值和数量的多少描出相应点,然后用直线段顺次连接相邻点,得到一条折线,用这条折线表示样本数据情况,这种表达和分析数据的统计图称为折线统计图.
优点:折线统计图不但可以表示数量的多少,而且能够用折线的起伏清楚直观地表示数量的增减变化的情况. 缺点:不能直观反映数据的分布情况且不适合总体分布较多的情况.
(3)扇形统计图:扇形统计图中,用整个圆面积代表总体,圆内的各个扇形分别代表总体中的不同部分,扇形面积的大小反映所表示的那部分占总体的百分比的大小.
优点:扇形统计图可以很清楚地表示各部分与总体之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比. 缺点:会丢失部分数据信息且不适合总体中部分较多的情况.
【高频考点】
高频考点1. 条形图,折线图,扇形图的实际应用
【方法点拨】
(1)条形统计图:
优点:条形统计图不但可以直观地反映数据分布的大致情况,还可以清晰地表示出各个区间的具体数目,易于比较数据间的差别.缺点:会损失数据的部分信息且不能明确显示部分与整体的关系.
(2)折线统计图:
优点:折线统计图不但可以表示数量的多少,而且能够用折线的起伏清楚直观地表示数量的增减变化的情况. 缺点:不能直观反映数据的分布情况且不适合总体分布较多的情况.
(3)扇形统计图:
优点:扇形统计图可以很清楚地表示各部分与总体之间的关系,即扇形统计图能清楚地表示出各部分在总体中所占的百分比. 缺点:会丢失部分数据信息且不适合总体中部分较多的情况.
1.(2022春·山东临沂·高一统考期末)某居民小区户主人数和户主对户型结构的满意率如图(1)和图(2)所示,为了解该小区户主对户型结构的满意程度,用比例分配的分层随机抽样方法抽取的户主作为样本进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )
A., B., C., D.,
2.(2022春·四川泸州·高二统考期末)在新冠肺炎疫情期间,各口罩企业都加大了生产力度,如图是2022年第一季度五个企业的生产量情况,则下列叙述正确的是( )
A.2022年第一季度生产总量的增长率由低到高排位第5的是E企业
B.2022年第一季度生产总量和增速由高到低排位均居同一位次的企业只有一个
C.2021年同期C企业的生产总量不超过2000万只
D.与2021年同期相比,各企业2022年第一季度的生产总量都实现了增长
3.(2022·全国·高三专题练习)下图是国家统计局年月发布的规模以上工业日均原油产量(单位:万吨)的月度走势情况,现有如下说法:
①年月至年月,规模以上工业原油的日均产量的极差为;
②从年月至年月中随机抽取个月份,月增速超过的概率为;
③年月份,规模以上工业原油总产量约为万吨;
则说法错误的个数为( )
A. B. C. D.
4.(2022秋·陕西西安·高三长安一中校考期中)如图是甲、乙两人高考前10次数学模拟成绩的折线图,则下列说法正确的是( )
A.甲的数学成绩最后3次逐渐降低
B.甲的数学成绩在130分以上的次数少于乙的数学成绩在130分以上的次数
C.甲有7次考试成绩比乙高
D.甲数学成绩的极差大于乙数学成绩的极差
5.(多选)(2022·山东济南·济南市历城第二中学校考模拟预测)某保险公司为客户定制了A,B,C,D,E共5个险种,并对5个险种参保客户进行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法正确的有( )
A.57周岁以上参保人数最少 B.18~30周岁人群参保总费用最少
C.C险种更受参保人青睐 D.31周岁以上的人群约占参保人群80%
高频考点2 . 频率分布直方图的应用
【方法点拨】样本的频率分布直方图:为了将频率分布表中的结果直观形象地表现出来,常画出频率分布直方图.画图时,应以横轴表示分组、纵轴表示各组频率与组距的比值,以各个组距为底,以各频率除以组距的商为高,画成小长方形,这样得到的直方图就是频率分布直方图.
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.④列频率分布表.计算各小组的频率,第组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示.实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
1.(2022秋·天津南开·高三天津四十三中校考期末)如图是容量为500的样本的频率分布直方图,那么样本数据落在内的频率,频数分别为( )
A. B. C. D.
2.(2022秋·河北衡水·高二校考开学考试)某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天课外阅读所用时间的数据,结果用频数直方图(如图)表示,则课外阅读时间在内的学生的频率为( )
A.10 B.15 C.0.2 D.0.3
3.(2022秋·上海黄浦·高二校考期末)根据《中华人民共和国道路交通安全法》规定:车辆驾驶员血液酒精浓度在20~80mg/100ml(不含80)之间,属于酒后驾车,处暂扣一个月以上三个月以下驾驶证,并处200元以上500元以下罚款;血液酒精浓度在80mg/100ml(含80)以上时,属醉酒驾车,处十五日以下拘留和暂扣三个月以上六个月以下驾驶证,并处500元以上2000元以下罚款.据《法制晚报》报道,2009年8月15日至8月28日,全国查处酒后驾车和醉酒驾车共28800人,如图是对这28800人血液中酒精含量进行检测所得结果的频率分布直方图,则属于醉酒驾车的人数约为__________
4.(2022秋·江苏南通·高三统考阶段练习)某学校为了调查学生在一天生活方面的支出情况,抽出了一个容量为的样本,其频率分布直方图如图所示,其中支出在元的学生90人,则样本中支出不少于40元的人数有__________.
5.(2022秋·陕西西安·高三统考阶段练习)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准吨,一位居民的月用水量不超过的部分按平价收费,超出的部分按议价收费为了了解居民用水情况,通过抽样,获得了某年位居民每人的月均用水量单位:吨,将数据按照,,分成组,制成了如图所示的频率分布直方图.
(1)求直方图中的值;(2)设该市有万居民,估计全市居民中月均用水量不低于吨的人数,并说明理由;(3)若该市政府希望使的居民每月的用水量不超过标准吨,估计的值,并说明理由.
高频考点3 . 频率分布折线图的应用
1.(2022·全国·高三专题练习)空气质量指数是反映空气质量状况的指数,其对应关系如下表:
指数值
空气质量 优 良 轻度污染 中度污染 重度污染 严重污染
为监测某化工厂排放废气对周边空气质量指数的影响,某科学兴趣小组在校内测得10月1日—20日指数的数据并绘成折线图如下:
下列叙述正确的是( )A.这天中指数值的中位数略大于
B.这天中的空气质量为优的天数占
C.10月4日到10月11日,空气质量越来越好
D.总体来说,10月中旬的空气质量比上旬的空气质量好
2.(2022·高一课时练习)(多选)如图给出的是某高校土木工程系大四55名学生期末考试专业成绩的频率折线图,其中组距为10,且本次考试中最低分为50分,最高分为100分.根据图中所提供的信息,下列结论中正确的是( )
A.成绩是75分的人数为20 B.成绩是100分的人数比成绩是50分的人数多
C.成绩落在内的人数为35 D.成绩落在内的人数为20
3.(多选)(2022秋·江西·高二校联考阶段练习)为了了解某外贸企业职工对“一带一路”的认知程度,随机抽取了名职工组织了“一带一路”知识竞赛,满分为分(分及以上为认知程度较高),并将所得成绩分组得到了如图所示的频率分布折线图.从频率分布折线图中得到的这名职工成绩的以下信息正确的是( )
A.成绩是分或分的职工人数是 B.对“一带一路”认知程度较高的人数是人
C.中位数是 D.平均分是
高频考点4. 百分位数的计算
【方法点拨】第百分位数的概念:一般地,一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
计算第p百分位数的步骤:第1步,按从小到大排列原始数据;第2步,计算;第3步,若不是整数,而大于的比邻整数为,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
1.(2023·安徽马鞍山·统考一模)现有一组数据: ,则这组数据的第85百分位数是( )
A.652 B.668 C.671 D.674
2.(2023·广东·统考一模)为深入推进“五育”并举,促进学生身心全面和谐发展,某校于上周六举办跳绳比赛.现通过简单随机抽样获得了22名学生在1分钟内的跳绳个数如下(单位:个):
估计该校学生在1分钟内跳绳个数的第65百分位数为( )
A.124 B. C. D.
3.(2023·吉林·长春十一高校联考模拟预测)新时期党史学习教育,是党中央立足党的百年历史新起点、统筹中华民族复兴战略全局和世界百年末有之大变局,为动员全党全国满怀信心投身全面建设社会主义现代化国家而做出重大决策.某企业成立的党史学习教育督查组为调研本单位的党史学习情况,到某部门对10名成员进行了问卷測试,成绩如下:90,92,92,93,93,94,95,96,99,100,则这组数据的第75百分位数是______.
4.(2023·上海闵行·上海市校考模拟预测)某单位为了解该単位党员开展学习党史知识活动情况,随机抽取了部分党员,对他们一周的党史学习时间进行了统计,统计数据如下表所示:则该单位党员一周学习党史时间的第40 百分位数分别是 ___________.
党史学习时间(小时) 7 8 9 10 11
党员人数 6 10 9 8 7
5.(2023秋·北京·高一校考期末)某公司16个销售店某月销售产品数量单位:台的茎叶图如图所示,已知数据落在中的频率为,分位数为 __________.
高频考点5 . 百分位数在统计表或统计图中的应用
1.(2022秋·云南昆明·高三统考开学考试)为了解某种作物的生长情况,抽取该作物植株高度(单位:cm)的一个随机样本,整理得到样本频率分布直方图如图所示.由此样本估计,该作物植株高度的80%分位数约为______cm.
2.(2023·上海·高三专题练习)某校对学生成绩进行统计(折合百分制,得分为整数),考虑该次竞赛的成绩分布,将样本分成5组,绘成频率分布直方图(如图),图中从左到右依次为第一组到第五组,各小组的小长方形的高的比为,第五组的频数为12.
(1)该样本的容量是多少?(2)成绩落在哪一组中的人数最多?并求该小组的频率;
(3)该样本的第75百分位数在第几组中?
3.(2022春·山东聊城·高一统考期末)某高校在2021年的强基计划考试成绩中,随机抽取100名学生的成绩,分组如下:
第一组 第二组 第三组 第四组 第五组
绘制成频率分布直方图,如图所示.(1)根据频率分布直方图求出第二组的频数,并估计该100名学生成绩的第80百分位数;(2)现需从成绩较高的第三 四 五组中按比例用分层抽样的方法抽取12名学生进行座谈,求第三 四 五组各应抽取多少名学生进行座谈.
4.(2022春·福建·高一福建师大附中校考期末)某单位为了更好地开展党史学习教育,举办了一次党史知识测试,其200名职工成绩的频率分布直方图如图所示,则___________,这200名职工成绩的第75百分位数为___________.
5.(2022春·浙江宁波·高一校考期末)为了了解我市参加年浙江高中数学学考的考试结果情况,从中选取名同学将其成绩(百分制,均为正数)分成、、、、、六组后,得到部分频率分布直方图(如图),观察图形,回答下列问题:
(1)求分数在内的频率;(2)根据频率分布直方图,估计本次考试成绩的均值和分位数.
高频考点6. 在数据中计算众数,中位数,平均数
【方法点拨】
名 称 优 点 缺 点
平均数 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 对极端值不敏感
众 数 体现了样本数据的最大集中点 众数只能传递数据中的信息的很少一部分,对极端值不敏感
1.(2022春·河南安阳·高一统考期末)某校举办《中国梦》主题演讲比赛,五位评委给某位参赛选手的评分分别为84,84,86,,87,若这组数据的平均数为85,则这组数据的中位数为( )
A.84 B.85 C.86 D.87
2.(多选)(2022秋·河南南阳·高一校考阶段练习)某地一年之内12个月的降水量分别为:56,46,53,48,51,53,71,58,56,56,64,66,则关于该地区的月降水量,以下说法正确的是( )
A.20%分位数为51 B.75%分位数为61
C.中位数为56 D.平均数为57
3.(多选)(2022·高一课时练习)已知一组数据丢失了其中一个,另外六个数据分别是、、、、、,若这组数据的平均数、中位数、众数依次成等差数列,则丢失的数据可能为( )
A. B. C. D.
4.(2022秋·辽宁沈阳·高一沈阳市第一二〇中学校考期末)已知是1,2,3,,5,6,7这7个数据的中位数,且1,2,,这四个数据的平均数为1,则的最小值为______.
5.(2022·全国·高三专题练习)已知一组数据分别是,若这组数据的平均数、中位数、众数成等差数列,则数据的所有可能值为__________.
6.(2022·高一课时练习)某餐厅共有7名员工,所有员工的工资情况如下表:
人员 经理 厨师甲 厨师乙 会计 服务员甲 服务员乙 勤杂工
人数 1 1 1 1 1 1 1
工资/元 30000 7000 5000 4500 3600 3400 3200
(1)求餐厅所有员工的平均工资.(2)求餐厅所有员工工资的中位数.
(3)用平均数还是用中位数描述该餐厅员工工资的一般水平比较恰当?
(4)去掉经理的工资后,其他员工的平均工资是多少?是否也能反映该餐厅员工工资的一般水平?
高频考点7 . 在茎叶图中计算众数,中位数,平均数
1.(2022·全国·高三专题练习)某学生准备参加某科目考试,在12次模拟考试中,所得分数的茎叶图如图所示,则此学生该门功课考试成绩的众数与中位数分别为( )
A.95,94 B.95,94.5
C.93,94.5 D.95,95
例题2.(2022春·陕西咸阳·高一武功县普集高级中学校考阶段练习)某中学从甲、乙两个班中各选出7名学生参加2022年“希望杯”全国数学邀请赛,他们取得成绩的茎叶图如图,其中甲班学生成绩的中位数是84,乙班学生成绩的平均数是86,则xy的值为( )
A.36 B.12 C.10 D.24
例题3.(2022·内蒙古呼伦贝尔·海拉尔第二中学校考模拟预测)两姐妹同时推销某一商品,现抽取他们其中8天的销售量(单位:台),得到的茎叶图如图所示,已知妹妹的销售量的平均数为14,姐姐的销售量的中位数比妹妹的销售量的众数大2,则的值为______.
4.(2022秋·四川·高二校考期中)将选手的9个得分去掉1个最高分,去掉一个最低分,7个剩余分数的平均分为91,现场做的9个分数的茎叶图,后来一个数据模糊,无法辨认,在图中以表示,则的值为____________
5.(2022秋·陕西榆林·高二校考期末)在某市的科技创新大赛活动中,10位评委分别对甲学校的作品“乒兵球简易发球器”和乙学校的作品“感应垃圾桶”进行了评分,得分的茎叶图如图.
(1)根据茎叶图写出甲、乙两所学校的作品得分的中位数;
(2)根据茎叶图计算甲、乙两所学校的作品得分的平均数,并判断哪一件作品更受评委的欢迎?
高频考点8. 总体集中趋势在频率分布直方图中的估计
1.(2022春·广东清远·高一校考阶段练习)为了解某地区老年人体育运动情况,随机抽取了200名老年人进行调查.根据调查结果绘制了下面日均体育运动时间的频率分布直方图,则日均体育运动时间的众数和中位数分别是( )
A.35,35 B.40,35 C.30,30 D.35,30
2.(2022秋·四川成都·高二四川省成都市新都一中校联考期末)成都电视台在全市范围内开展创建全国文明典范城市知识竞赛,随机抽取名参赛者的成绩统计如下表:
成绩分组 频数 频率
10 0.10
25
35 0.35
0.20
10 0.10
(1)请求出,,的值,并画出频率分布直方图;(2)请估计这名参赛者成绩的众数和平均值.
3.(2022秋·四川达州·高二统考期末)在某校2022年春季的高一学生期末体育成绩中随机抽取50个,并将这些成绩共分成五组:,得到如图所示的频率分布直方图.在的成绩为不达标,在的成绩为达标.
(1)根据样本频率分布直方图求的值,并估计样本的众数和中位数(中位数精确到个位);
(2)已知50名学生中有22名女生,其中女生体育测试成绩不达标的有8人,那么男生体育测试成绩达标的有多少人?男生体育测试成绩不达标的有多少人?
4.(2022·高二课时练习)对某校高三年级学生参加社区服务次数进行统计,随机抽取名学生作为样本,得到这名学生参加社区服务的次数,根据此数据作出了频数与频率的统计表和频率分布直方图.
分组 频数 频率
10 0.25
24
2 0.05
合计 1
(1)求表中、及图中的值;
(2)若该校高三年级学生有240人,试估计该校高三年级学生参加社区服务的次数在区间上的人数;(3)估计这次学生参加社区服务次数的众数、中位数以及平均数.(结果精确到0.01)
高频考点9. 标准差与方差的应用
【方法点拨】
方差与标准差:一组数据,,,,用表示这组数据的平均数,
则这组数据的方差:;标准差:
总体方差和标准差:如果总体中所有个体的变量值分别为,,总体平均数为,则称为总体方差,为总体标准差.
样本方差和标准差:如果一个样本中个体的变量值分别为,,,样本平均数为,则称为样本方差,为样本标准差.
1.(2023秋·上海浦东新·高二统考期末)某校高二(1)班为了调查学生线上授课期间的体育锻炼时间的差异情况,抽取了班级5名同学每周的体育锻炼时间,分别为6,6.5,7,7,8.5(单位:小时),则可以估计该班级同学每周的体育锻炼时间的方差为 ___________.
2.(2022秋·浙江湖州·高二校考阶段练习)A工厂年前加紧手套生产,设该工厂连续5天生产的手套数依次为,,,,(单位:万只),若这组数据,,,,的方差为1.44,且,,,,的平均数为4,则该工厂这5天平均每天生产手套___________万只.
3.(2022·高一课时练习)已知样本的平均数是10,方差是4,则_____;
4.(2023·全国·高三专题练习)甲 乙两台机床同时生产一种零件,在10天中,两台机床每天生产的次品数分别为:
甲
乙
(1)分别计算这两组数据的平均数和标准差;
(2)由(1)的计算结果,分析哪台机床的性能更好.
高频考点10. 用平均数和标准差分析数据
1.(2023·全国·高三专题练习)甲乙两工厂生产某种产品,抽取连续5个月的产品生产产量(单位:件)情况如下:甲:80、70、100、50、90;乙:60、70、80、55、95,则下列说法中正确的是( )
A.甲平均产量高,甲产量稳定 B.甲平均产量高,乙产量稳定
C.乙平均产量高,甲产量稳定 D.乙平均产量高,乙产量稳定
2.(2022春·上海杨浦·高三复旦附中校考阶段练习)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间没有发生规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”,根据过去10天甲、乙、丙、丁四地新增病例数据,一定符合该标志的是( )
A.甲地:总体均值为3,中位数为4 B.乙地:总体均值为2,总体方差为3
C.丙地:总体均值为1,总体方差大于0 D.丁地:中位数为2.5,总体方差为3
3.(2022春·湖北襄阳·高一襄阳四中校考阶段练习)某中学数学组积极研讨网上教学策略,决定先采取甲、乙两套方案教学,并对分别采取两套方案教学的班级进行了次测试,成绩统计结果如图所示.
(1)请填写下表(要求写出计算过程):
平均数 方差
甲
乙
(2)从下列三个不同的角度对这次方案选择的结果进行分析:
①从平均数和方差相结合看(分析哪种方案的成绩更好);
②从折线图上两种方案的走势看(分析哪种方案更有潜力).
4.(2022秋·河南南阳·高一校考阶段练习)下图表示的是甲、乙两人在一次射击比赛中中靶的情况(击中靶中心的圆面为10环,靶中各数字表示该数字所在圆环被击中时所得的环数),每人各射击了5次.
(1)请用列表法将甲、乙两人的射击成绩统计出来,并求两人的平均环数;
(2)求甲、乙两人这次的射击环数的方差,并判断甲、乙二人的射击成绩谁更稳定;
高频考点11. 求总体平均数和总体方差、标准差
1.(2022·广东广州·统考一模)为调查某地区中学生每天睡眠时间,采用样本量比例分配的分层随机抽样,现抽取初中生800人,其每天睡眠时间均值为9小时,方差为1,抽取高中生1200人,其每天睡眠时间均值为8小时,方差为,则估计该地区中学生每天睡眠时间的方差为( )
A. B. C. D.
2.(多选)(2022秋·辽宁朝阳·高二校联考阶段练习)2022年4月23日至25日,以“阅读新时代,查进新征程”为主题的首届全民阅读大会胜利召开,目的是为了弘扬全民阅读风尚,共建共享书香中国.某学校共有学生2000人,其中高一800人,高二、高三各600人,学校为了了解学生在暑假期间每天的读书时间,按照分层随机抽样的方法从全校学生中抽取100人,其中高一学生、高二学生,高三学生每天读书时间的平均数分别为,,,每天读书时间的方差分别为,,,则下列正确的是( )
A.从高一学生中抽取40人
B.抽取的高二学生的总阅读时间是1860小时
C.被抽取的学生每天的读书时间的平均数为3小时
D.估计全体学生每天的读书时间的方差为
3.(2022春·广东肇庆·高一统考期末)一所初级中学为了估计全体学生的平均身高和方差,通过抽样的方法从初一年级随机抽取了30人,计算得这30人的平均身高为154cm,方差为30;从初二年级随机抽取了40人,计算得这40人的平均身高为167cm,方差为20;从初三年级随机抽取了30人,计算得这30人的平均身高为170cm,方差为10.依据以上数据,若用样本的方差估计全校学生身高的方差,则全校学生身高方差的估计值为_________.
4.(2022春·安徽合肥·高一合肥市第六中学校考期末)(1)树人中学高一(1)班50名同学期中考试(100分制)数学成绩的频率分布直方图如图所示,成绩分组区间是,,,,,,试求数学成绩的分位数(保留一位小数);
(2)树人中学组建足球队备战全市高中生足球联赛.队员分别来自高一、高二两个年级,且高一年级队员占队员总数的.已知高一年级队员体重(单位:kg)的平均数为70,方差为300;高二年级队员体重的平均数为60,方差为200.求足球队全体队员体重的平均数及方差.
高频考点12. 频率分布直方图与数字特征的综合应用
1.(2023·全国·高三专题练习)某“双一流A类”大学就业部从该校2020年已就业的大学本科毕业生中随机抽取了100人进行问卷调查,其中一项是他们的月薪收入情况,调查发现,他们的月薪收入在1.65万元到2.35万元之间,根据统计数据分组,得到如下的频率直方图,同一组数据用该区间的中点值作代表.(1)求这100人月薪收入的样本平均数和样本方差;(2)该校在某地区就业的2018届本科毕业生共50人,决定于2019年国庆长假期间举办一次同学联谊会,并收取一定的活动费用,有两种收费方案:方案一:设,月薪落在区间Ω左侧的每人收取400元,月薪落在区间Ω内的每人收取600元,月薪落在区间Ω右侧的每人收取800元;方案二:按每人个月薪水的3%收取.用该校就业部统计的这100人月薪收入的样本频率进行估算,哪一种收费方案能收到更多的费用.参考数据:.
2.(2022·高一课时练习)某中学教研室从高二年级随机抽取了50名学生的十月份语文成绩(满分100分,成绩均为不低于40分的整数),得到如图所示的频率分布直方图.
(1)根据频率分布直方图估计该组数据的平均数和标准差s(求标准差准确到0.01,同一组中的数据用该组区间的中点值为代表);(2)成绩位于的有多少人?所占百分比是多少?
3.(2022春·广东茂名·高一化州市第一中学校考阶段练习)从某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
(1)根据上表补全所示的频率分布直方图;
(2)估计这种产品质量指标值的平均数、方差(同一组中的数据用该组区间的中点值作代表)及中位数(保留一位小数);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
4.(2023秋·重庆沙坪坝·高二重庆八中校考期末)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量表得如下频数分布表:
质量指标值分组
频数 6 26 38 22 8
(1)在下表中作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)已知在这些数据中,质量指标值落在区间内的产品的质量指标值的平均数为94,方差为40,所有这100件产品的质量指标值的平均数为100,方差为202,求质量指标值在区间内的产品的质量指标值的方差.
高频考点13 .方差的性质
1.(2023·全国·模拟预测)已知一组数据:的平均数是4,方差是2,则由和11这四个数据组成的新数据组的方差是( )
A.27 B. C.12 D.11
2.(多选)(2023·重庆·统考一模)已知两组样本数据和的均值和方差分别为和,若且,则( )
A. B. C. D.
3.(2023秋·广东·高三校联考期末)已知数据,,,…,的众数、平均数、方差、第80百分位数分别是,,,,数据,,,…,的众数、平均数、方差、第80百分位数分别是,,,,且满足,则下列结论正确的是( )
A. B.
C. D.
4.(2023秋·江苏镇江·高二江苏省丹阳高级中学校考期末)已知样本数据的平均数与方差分别是和,若,且样本数据的平均数与方差分别是和,则______.
【课后训练】
全卷共22题 满分:150分 时间:120分钟
一 选择题:本题共8小题,每小题5分,共40分.每小题给出的四个选项中,只有一项是符合题目要求的.
1.(2022·四川雅安·统考一模)采购经理指数(PMI),是通过对企业采购经理的月度调查结果统计汇总、编制而成的指数,它涵盖了企业采购、生产、流通等各个环节,包括制造业和非制造业领域,是国际上通用的检测宏观经济走势的先行指数之一,具有较强的预测、预警作用.制造业PMI高于时,反映制造业较上月扩张;低于,则反映制造业较上月收缩.下图为我国2021年1月—2022年6月制造业采购经理指数(PMI)统计图.
根据统计图分析,下列结论最恰当的一项为( )
A.2021年第二、三季度的各月制造业在逐月收缩
B.2021年第四季度各月制造业在逐月扩张
C.2022年1月至4月制造业逐月收缩
D.2022年6月PMI重回临界点以上,制造业景气水平呈恢复性扩张
2.(2022·辽宁·抚顺市第二中学校联考三模)下列一组数据、、、、、、、、、的分位数为( )
A. B. C. D.
3.(2022·四川内江·四川省内江市第六中学校考模拟预测)某高中为了了解本校学生考入大学一年后的学习情况,对本校上一年考入大学的同学进行了调查,根据学生所属的专业类型,制成饼图,现从这些同学中抽出100人进行进一步调查,已知张三为理学专业,李四为工学专业,则下列说法不正确的是( )
A.若按专业类型进行分层抽样,则张三被抽到的可能性比李四大
B.若按专业类型进行分层抽样,则理学专业和工学专业应抽取30人和20人
C.采用分层抽样比简单随机抽样更合理
D.该问题中的样本容量为100
4.(2022·天津南开·南开中学校考模拟预测)为了解“双减”政策实施后学生每天的体育活动时间,研究人员随机调查了该地区1000名学生每天进行体育运动的时间,按照时长(单位:分钟)分成6组:第一组,第二组,第三组,第四组,第五组,第六组,经整理得到如图的频率分布直方图,则可以估计该地区学生每天体育活动时间的第25百分位数约为( )
A.42.5分钟 B.45.5分钟 C.47.5分钟 D.50分钟
5.(2022·广东中山·中山纪念中学校考模拟预测)经团委统计,某校申请“志愿服务之星”的10名同学在本学期的志愿服务时长(单位:小时)分别为26、25、23、24、29、25、32、25、24、23,记这一组数据的平均数为,上四分位数为,众数为,则( )
A. B. C. D.
6.(2022·全国·安阳市第二中学校联考模拟预测)眼睛是心灵的窗户,然而随着网络、手机、平板电脑等电子产品的普及,越来越多的青少年的视力情况堪忧,因此,为了唤醒大家对视力损害的重视,每年的6月6日被定为全国爱眼日,每年10月的第二个星期四被定为世界爱眼日.某小学为了了解在校学生的视力情况,对所有在校学生的视力进行检测,所得数据统计如图所示,则该小学所有学生视力的中位数约为( ).
A.4.50 B.4.93 C.5.10 D.4.87
7.(2022·青海西宁·统考二模)某校举办抗击新冠疫情科普知识演讲活动,如图是七位评委为某选手打出的分数的茎叶图,去掉一个最高分和一个最低分后,剩下数据的平均数是( )
A.87 B.86 C.85 D.84
8.(2022·云南昆明·昆明一中校考模拟预测)某单位有男职工60人,女职工40人,其中男职工平均年龄为35岁,方差为6,女职工平均年龄为30岁,方差是1,则该单位全体职工的平均年龄和方差分别是( )
A.32.5,3.5 B.33,7 C.33,10 D.32.5,4
二 选择题:本题共4小题,每小题5分,共20分.在每小题给出的选项中,有多项符合题目要求.全部选对的得5分,部分选对的得2分,有选错的得0分.
9.(2022·浙江·模拟预测)下列统计量中,能度量样本,,…,的离散程度的是( )
A.样本,,…,的极差 B.样本,,…,的中位数
C.样本,,…,的标准差 D.样本,,,…,的方差
10.(2022·安徽芜湖·校考模拟预测)五月初,受疫情影响线下课暂停,某校组织学生居家通过三种方式自主学习,每种学习方式人数分布如图1所示,解封后为了解学生对这三种学习方式的满意程度,利用分层抽样的方法抽取4%的同学进行满意率调查,得到的数据如图2所示. 则下列说法中正确的是( )
A.样本容量为240 B.若,则本次自主学习学生的满意度不低于四成
C.总体中对方式二满意的学生约为300人 D.样本中对方式一满意的学生为24人
11.(2022·河北·模拟预测)根据第七次全国人口普查结果,居住在城镇的人口为90199万人,占全国人口的,与第六次全国人口普查相比,城镇人口比重上升14.2个百分点.随着我国新型工业化、信息化和农业现代化的深入发展和农业转移人口市民化政策落实落地,10年来我国新型城镇化进程稳步推进,城镇化建设取得了历史性成就.如图所示的是历次全国人口普查城乡居住人口及城镇居住人口比重的统计图,根据图中信息,下列说法正确的是( )
A.这七次全国人口普查乡村居住人口先增加后减少
B.城镇居住人口的比重的中位数为
C.乡村居住人口的极差不超过25000万
D.这七次全国人口普查乡村居住人口的平均数超过城镇居住人口的平均数
12.(2022·天津武清·校考模拟预测)2021年是中国共产党建党100周年,为全面贯彻党的教育方针,提高学生的审美水平和人文素养,促进学生全面发展.某学校高一年级举办了班级合唱活动.现从全校学生中随机抽取部分学生,并邀请他们为此次活动评分(单位:分,满分100分),对评分进行整理,得到如图所示的频率分布直方图,则下列结论不正确的是( )
A.
B.学生评分的中位数的估计值为85
C.学生评分的众数的估计值为85
D.若该学校有3000名学生参与了评分,则估计评分超过80分的学生人数为1200
三 填空题:本题共4小题,每小题5分,共20分.
13.(2022·甘肃·模拟预测)在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的,且样本容量为140,则中间一组的频数为____________.
14.(2022·天津滨海新·校考模拟预测)下表记录了某地区一年之内的月降水量.
月份 1 2 3 4 5 6 7 8 9 10 11 12
月降水量/mm 58 48 53 46 56 56 51 71 56 53 64 66
根据上述统计表,该地区月降水量的中位数是______;分位数是_________.
15.(2022·上海长宁·统考一模)甲、乙两城市某月初连续7天的日均气温数据如图所示,则在这7天中;
①甲城市日均气温的中位数与平均数相等;②甲城市的日均气温比乙城市的日均气温稳定
③乙城市日均气温的极差为 ;④乙城市日均气温的众数为
以上判断正确的是___________(写出所有正确判断的序号)
16.(2022·全国·校联考三模)若数据,,,,,,,,4,6的方差为5,则数据,,,,,,,,3,7的方差为__________.
四 解答题:本题共6小题,共70分.解答应写出文字说明 证明过程或演算步骤.
17.(2022·四川泸州·四川省泸县第二中学校联考模拟预测)大米根据颗粒、质地、色泽、香味等评分指标打分,得分在区间、、、内分别评定为四级大米、三级大米、二级大米、一级大米.某经销商从农民手中收购一批大米,共袋(每袋),并随机抽取袋分别进行检测评级,得分数据的频率分布直方图如图所示:
(1)求的值,并用样本估计,该经销商采购的这批大米中,一级大米和二级大米的总量能否达到采购总量一半以上;(2)该经销商计划在下面两个方案中选择一个作为销售方案:
方案1:将采购的袋大米不经检测,统一按每袋元直接售出;
方案2:将采购的袋大米逐袋检测分级,并将每袋大米重新包装成包(每包),检测分级所需费用和人工费共元,各等级大米每包的售价和包装材料成本如下表所示:
大米等级 四级 三级 二级 一级
售价(元/包)
包装材料成本(元/包)
该经销商采用哪种销售方案所得利润更大?通过计算说明理由.
18.(2022·新疆·统考三模)阿克苏冰糖心苹果主要产地位于天山托木尔峰南麓,因为冬季寒冷,所以果品生长期病虫害发生少,加上昼夜温差大、光照充足,用无污染的冰川雪融水浇灌、沙性土壤栽培、高海拔的生长环境,使苹果的果核部分糖分堆积成透明状,形成了世界上独一无二的“冰糖心”,某果园秋季新采摘了一批苹果,从中随机加取50个作为样本,称出它们的重量(单位:克),将重量按照进行分组,得到频率分布直方图如图所示(同一组中的数据以该组区间的中点值为代表).
(1)估计这批苹果中每个苹果重量的平均数、中位数、众数;
(2)该果园准备把这批苹果销售出去,据市场行情,有两种销售方案:
方案一:所有苹果混在一起,价格为3元/千克;
方案二:将不同重量的苹果分开,重量不小于160克的苹果的价格为4元/千克,重量小于160克的苹果的价格为2.4元/千克,但每1000个苹果果园需支付10元分拣费.
试比较分别用两种方案销售10000个苹果的收入高低.
19.(2022·全国·模拟预测)我国航空事业的发展,离不开航天器上精密的零件.某车间使用数控机床制造一种圆形齿轮零件.由于零件的高精度要求,该车间负责人需要每隔一个生产周期对所生产零件的直径进行统计,排查机床可能存在的问题并及时调试维修.已知该负责人在两个相邻生产周期(分别记为周期Ⅰ和周期Ⅱ)中分别随机检查了枚零件,测量得到的直径(单位:)如下表所示:
周期Ⅰ 4.9 5.1 5.0 5.0 5.1 5.0 4.9 5.2 5.0 4.8
周期Ⅱ 4.8 5.2 5.0 5.0 4.8 4.8 5.2 5.1 5.0 5.1
周期Ⅰ和周期Ⅱ中所生产零件直径的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;(2)判断机床在周期Ⅱ是否出现了比周期Ⅰ更严重的问题(如果,则认为机床在周期Ⅱ出现了比周期Ⅰ更严重的问题,否则不认为出现了更严重的问题).
20.(2022·河南·模拟预测)本学期某校举行了有关垃圾分类知识测试活动(满分10分,分值为整数),并从该校七年级和八年级中各随机抽取40名学生的测试成绩,整理如下:
小明将样本中的成绩进行了数据处理,如表为数据处理的一部分:
根据图表,解答问题:
年级 平均数 众数 中位数 方差
七年级 7.5 7 7 2.8
八年级 8 2.35
(1)填空:表中的______,______;(2)你认为______年级的成绩更加稳定,理由是______;
(3)若规定6分及6分以上为合格,该校八年级共1200名学生参加了此次测试活动,估计参加此次测试活动成绩合格的学生人数是多少?
21.(2022秋·黑龙江佳木斯·高二建三江分局第一中学校考开学考试)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:,,,,并整理得到如下频率分布直方图:
(1)已知样本中分数在的学生有5人,试估计总体中分数小于40的人数;(2)试估计测评成绩的第三四分位数;(3)已知样本中男生与女生的比例是3:1,男生样本的均值为70,方差为10,女生样本的均值为80,方差为12,请计算出总体的方差.
22.(2023·上海·高三专题练习)为了切实维护居民合法权益,提高居民识骗防骗能力,守好居民的“钱袋子”,某社区开展“全民反诈在行动——反诈骗知识竞赛”活动,现从参加该活动的居民中随机抽取了100名,统计出他们竞赛成绩分布如下:
成绩X 人数
2
22
28
(1)求,的值,并补全频率分布直方图;(2)估计该社区居民竞赛成绩的平均数和方差(同一组中的数据用该组区间的中点值作代表);(3)以频率估计概率,若,社区获得“反诈先进社区”称号,若,社区获得“反诈先锋社区”称号,试判断该社区可获得哪种称号(为竞赛成绩标准差)?
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com) 15