北师大版(2019)高中数学必修第一册第六章统计课时学案(5份打包)

文档属性

名称 北师大版(2019)高中数学必修第一册第六章统计课时学案(5份打包)
格式 zip
文件大小 1.5MB
资源类型 教案
版本资源 北师大版(2019)
科目 数学
更新时间 2022-12-13 19:11:47

内容文字预览

§1 获取数据的途径
1.1 直接获取与间接获取数据
1.2 普查和抽查
1.3 总体和样本
核心知识目标 核心素养目标
1.知道获取数据的方法有直接获取数据与间接获取数据. 2.知道调查的方式有普查和抽查. 3.了解总体、样本、样本容量的概念,了解数据的随机性. 1.通过学习获取数据的途径,培养数据分析素养. 2.通过对总体、样本等概念的学习,培养数学抽象素养.
 直接获取与间接获取数据
知识点1:直接获取与间接获取数据
获取数据的方法有两种:直接获取与间接获取.
直接获取是指通过社会调查或观察、试验等途径获取数据.直接获取的数据称为直接数据或一手数据.
间接获取是指借助各种媒介,包括报纸杂志、统计报表和年鉴、广播、电视或互联网等获取数据.间接获取的数据称为间接数据或二手数据.
[思考1-1] 直接获取数据有什么优点与缺点 应该注意哪些问题
提示:优点:可信度高;缺点:费时费力.直接获取数据时,应注意数据来源的广泛性、代表性、均衡性.
[思考1-2] 间接获取数据有什么优点与缺点 使用间接数据时,要注意哪些方面
提示:优点:快捷、高效;缺点:真实性、准确性参差不齐.使用间接数据,要注意以下两个方面:
①对下载的数据进行多方的核实,确保数据的真实性、准确性;
②引用间接数据时要注明数据来源,尊重他人的劳动成果,保护他人的知识产权.
[例1] 研究下列问题,要直接获取数据,可以采用什么形式
①某城市元旦前后的气温;②某种新型电器元件使用寿命的测定;③电视台想知道某一个节目的收视率.
解:①通过观察获取数据;②通过试验获取数据;③通过调查获取数据.
变式训练1-1:“中国天眼”为500米口径球面射电望远镜,是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是(  )
(A)通过调查获取数据 (B)通过试验获取数据
(C)通过观察获取数据 (D)通过查询获得数据
解析:易知“中国天眼”是通过观察获取数据,故选C.
变式训练1-2:(多选题)下列说法正确的是(  )
(A)直接获取是指通过社会调查或观察、试验等渠道获取数据,直接获取的数据称为直接数据或一手数据,获取数据时应注意数据来源的广泛性、代表性、均衡性
(B)间接获取是指借助各种媒介,包括报纸杂志、统计报表和年鉴、广播、电视或互联网等获取数据,间接获取的数据称为间接数据或二手数据
(C)了解并正确理解间接数据的含义、计算方法,以防止误用、错用他人的数据
(D)互联网的最大优势是,人们可以利用强大的搜索功能,在整个网络上查找所需要的数据.但从网络上查找的数据,因为数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真,为进一步的数据分析奠定基础
解析:根据直接获取数据和间接获取数据的要求,以上说法全部正确,故选ABCD.
在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
 普查和抽查
[问题1] 下列调查中哪些是用普查方式,哪些是用抽查方式来收集数据的
(1)为了了解我们班级的每个学生穿几号鞋,向全班同学做调查;
(2)为了了解我们学校高一年级学生穿几号鞋,向我们所在班的全体同学做调查;
(3)为了了解我们班的同学们每天的睡眠时间,在每个小组中各选取2名学生做调查;
(4)为了了解我们班的同学们每天的睡眠时间,选取班级中学号为双数的所有学生做调查.
提示:(1)普查;(2)(3)(4)抽查.
知识点2:一般地说,在调查过程中,有两种获取数据的方法:普查和抽查.
普查是为了掌握调查对象的整体情况,对全体调查对象进行研究的一种调查方式.从全体调查对象中,按照一定的方法抽取一部分对象作为代表进行调查分析,并以此推断全体调查对象的状况,这种抽取一部分对象的调查方式叫作抽样调查,简称抽查.
[思考2] 与普查相比,抽查的主要优点是什么 抽查有什么缺点
提示:优点:迅速、及时,节约人力、物力和财力.缺点:因为抽查是由部分推及全体,所以其结果具有不确定性.
[例2] (1)在某传染病严重流行期间,学校、车站、机场等公共场所设有体温监测仪,检查这些公共场所的所有人员的体温,这是对这些公共场所人员的普查还是抽查 为什么要采取这种调查方式
(2)有关部门对某品牌某一批号的婴幼儿奶粉进行质量检查,应采用哪种调查方法 并说明其合理性.
解:(1)普查.这种调查方式虽然耗费大量的人力、物力、财力,但对于防止传染病的蔓延非常有效,可以准确查出并隔离疑似传染病人.
(2)应采用抽查的方法.因为这是破坏性的检查,不可能进行普查,而且是从同一批产品中随机抽取,所以对抽取的部分产品进行检查所得到的结果基本能代表全体产品的情况.
变式训练2-1:下列调查项目中,哪些适宜普查 哪些适宜抽样调查
(1)在中学生中,喜欢阅读大学生、中学生写的小说的学生占百分之多少;
(2)了解到某飞机航班有新冠肺炎密切接触者,对该飞机上乘客做核酸检测;
(3)即将进入市场的大量肉类是否符合防疫标准;
(4)全国观众对中央电视台春节联欢晚会的满意程度.
解:(1)(4)适宜抽样调查,(2)(3)适宜普查.
普查与抽查的适用情况
(1)普查一般适用于总体容量不大,要获取详实、系统和全面的信息.
(2)抽查一般适用于大批量检验,或者检验具有破坏性.
 总体与样本
[问题2] (1)某校高中学生有1 200名,校医务室想对全体高中学生的身高情况做一次调查,为了不影响正常教学活动,准备抽取50名学生作为调查对象.
(2)电灯泡厂要检查一批灯泡(10万个)的使用寿命,其方法是给灯泡连续通电,直到灯泡不亮为止.显然,工厂不能这样一一检查每个灯泡,而只能从中抽取一部分灯泡(比如80个)进行检查,然后用这部分灯泡的使用寿命,去估计这批灯泡的使用寿命.
在以上两个情景中,总体分别是什么
提示:(1)中的总体是某校1 200名高中学生的身高;(2)中的总体是10万个灯泡的使用寿命.
知识点3:调查对象的全体称为总体,从总体中抽取的部分称为样本,其过程称为抽样,样本中个体的数目称为样本容量,简称样本量.总体中各类数据的百分比称为总体分布.
[例3] 某校高中学生有1 200名,校医务室想对全体高中学生的身高情况做一次调查,为了不影响正常教学活动,准备抽取50名学生作为调查对象.校医务室若从高一年级中抽取50名学生的身高来估计全校高中学生的身高,你认为这样的调查结果会怎样
解:由于学生的身高会随着年龄的增长而增高,校医务室想了解全校高中学生的身高情况,在抽样时应当关注高中各年级学生的身高,并且还要分性别进行抽查.如果只抽取高一的学生,结果一定是片面的.
变式训练3-1:某城市准备出台关于私家车的政策,以缓解城市的交通拥堵状况,为此要进行民意调查.某小组调查了一些拥有私家车的市民,你认为这样的抽样是否具有代表性
解:不具有代表性.理由如下:
调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
抽样调查应该注意的问题
(1)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的,因此,尽可能保证被抽中的单位在总体中的均匀分布,不至于出现倾向性误差.
(2)抽取的全部样本单位作为一个“代表团”,用整个“代表团”来代表总体.而不是用随意挑选的个别单位代表总体.
(3)所抽选的调查样本容量即样本量,是根据调查误差的要求,经过科学的计算确定的,在调查样本的数量上有可靠的保证.
(4)抽样调查有误差,调查前就可以根据调查样本数量和总体中各单位之间的差异程度进行计算,并控制在允许范围以内,使调查结果准确程度较高.
调查问卷的设计
[典例] 请设计一份问卷,调查你们班同学阅读课外书的情况.
试题情境:调查问卷设计.
必备知识:获取数据方式,总体与样本的关系.
关键能力:全面分析问题能力.
学科素养:逻辑推理.
解:调查问卷设计如下:
姓名    所在班级   
请回答下列问题
(1)你一般在什么时间阅读课外书 (  )
(A)每天课间
(B)每天放学回家
(C)周末或假期
(D)老师安排的阅读课上
(2)你喜欢读的课外书有(  )
(A)散文
(B)报告文学
(C)小说
(D)所学功课的辅导资料
(E)其他的
(3)你的课外书的来源是(  )
(A)同学介绍的
(B)老师推荐的
(C)在书店中偶然发现的
(D)家长推荐的
(E)从宣传资料上看到的
(4)你是怎样阅读课外书的 (  )
(A)粗略阅读
(B)详细阅读
(C)大部分是粗略阅读的
(D)大部分是详细阅读的
(5)你认为课外阅读和学习的关系是(  )
(A)能促进学习
(B)与学习没多大关系
(C)妨碍学习
(6)你的家长对你阅读课外书持什么态度 (  )
(A)支持
(B)反对
(C)从不过问
(7)你最喜欢哪一类课外书
(8)你在阅读课外书时遇到过哪些困难
(9)你在这方面有什么打算
[素养演练] 设计一份学生食堂饭菜质量、饭菜价格、服务质量满意程度的调查问卷.
解:设计调查问卷如下:
满意 一般 不满意
您对我校食堂饭菜质量是否满意
您对我校食堂饭菜价格是否满意
您对我校食堂服务质量是否满意
[例1] 设计调查问卷时,下列提问是否合适 如果不合适应该怎样改进
(1)你来学校的方式是(  )
(A)乘坐私家车 (B)乘坐公交车
(C)步行 (D)其他
(2)你对老师的教学满意吗 (  )
(A)比较满意 (B)满意
(C)非常满意
解:(1)不合适.提供的选项不够全面,应增加选项“骑自行车”,因为自行车也是初中生上学使用的主要交通工具之一.
(2)不合适.提供选择的选项不够全面,应增加选项“不满意、不太满意、非常不满意”,因为所有选项中都是满意,不便于学生表达真实想法.另外问题改为“你对××科老师的教学是否满意 ”可使调查目的更明确.
[例2] 某公司想调查一下本公司员工对某项规章制度的意见,由于本公司车间工人工作任务繁重,负责该项事务的公司办公室向本公司的50名中层及以上领导干部派发了问卷,统计后便得到了调查意见,公司办公室获取数据的途径是什么 你认为该调查结果具有代表性吗 为什么
解:公司办公室是通过调查获取数据的.但是这些数据不具有代表性.因为公司的规章制度往往是领导干部制定的,而这部分员工的意见不能很好地代表全体员工,所以结果是片面的,不合理的,不具有代表性.
基础巩固
知识点一:直接获取与间接获取数据
1.为了研究近年来我国高等教育发展状况,小明需要获取近年来我国大学生入学人数的相关数据,他获取这些数据的途径最好是( D )
(A)通过调查获取数据 (B)通过试验获取数据
(C)通过观察获取数据 (D)通过查询获得数据
解析:因为近年来我国大学生入学人数的相关数据有所存储,所以小明获取这些数据的途径最好是通过查询获得数据.故选D.
2.为了了解某年级同学每天参加体育锻炼的时间,比较恰当地收集数据的方法是( B )
(A)查阅资料 (B)问卷调查
(C)做试验 (D)以上均不对
解析:首先明确收集数据的几种方法:查资料、做试验和做调查;接下来根据人数的多少以及调查的目的进行选择即可.问卷调查能达到目的,比较适合.故选B.
知识点二:普查、抽查及总体、样本
3.下列事件中最适合使用普查方式收集数据的是( A )
(A)为制作校服,了解某班同学的身高情况
(B)了解全市九年级学生的视力情况
(C)了解一种节能灯的使用寿命
(D)了解我省农民的年人均收入情况
解析:A项人数不多,适合使用普查方式,符合题意;B项人数较多,结果的实际意义不大,因而不适合用普查方式,不符合题意;C项是具有破坏性的调查,因而不适合用普查方式,不符合题意;D项工作量巨大,不适合用普查方式,不符合题意.故选A.
4.医生要检验人血液中血脂的含量,采取的调查方法应该是( B )
(A)普查
(B)抽样调查
(C)既不能普查也不能抽样调查
(D)普查与抽样调查都可以
解析:由题意知只能抽样调查,不能普查.故选B.
5.下列试验适合用抽样调查方法获取数据的序号是    .
①考察一片草皮的平均高度;
②检查某食品单位职工的身体状况;
③考查参加某次考试的3万考生的数学答题情况;
④检验一个人的血液中白细胞的含量是否正常.
解析:①该问题用普查的方法很难实现,适合用抽样调查的方法获取数据;
②体检,必须了解每个职工的身体状况,不适合用抽样调查的方法获取数据;
③3万考生的答题情况用普查的方法获取数据不合适,适合用抽样调查的方法获取数据;
④该问题只能用抽样调查的方法获取数据.
答案:①③④
6.为了了解某班学生的期末考合格率,要从该班50人中选20人进行考查分析,则50人的期末考成绩是     ,样本是      ,样本量是     .
解析:由总体、样本、样本量的定义,即可得出答案.
答案:总体 抽取的20人的期末成绩 20
能力提升
7.(多选题)影响获取数据可靠程度的因素包括( ABC )
(A)获取方法设计
(B)所用专业测量设备的精度
(C)调查人员的认真程度
(D)数据的大小
解析:只有数据的大小不影响获取数据的可靠程度,故选ABC.
8.下列说法不正确的是( D )
(A)通过调查获取数据时,无论采用什么抽样方法,关键是要有效避免抽样过程中的人为错误
(B)通过试验获取数据时需要严格控制好试验环境
(C)通过观察获取数据时,由于自然现象会随着时间的变化而变化,一般不能用抽样的方法获取数据
(D)通过查询获取数据时,可以直接采用“拿来主义”即可
解析:由获取数据的途径的各种方法的特点与要求,可知D选项错误.故选D.
9.下列调查所抽取的样本具有代表性的是( D )
(A)利用某地七月份的日平均最高气温值估计该地全年的日平均最高气温
(B)在农村调查市民的平均寿命
(C)利用一块试验水稻田的产量估计水稻的实际产量
(D)为了了解一批洗衣粉的质量情况,从仓库中任意抽取100袋进行检验
解析:A项中某地七月份的日平均最高气温值不能代表全年的日平均最高气温;B项中在农村调查得到的平均寿命不能代表市民的平均寿命;C项中试验水稻田的产量与水稻的实际产量相差可能较大,只有D项正确.故选D.
10.学校兴趣小组要对本市某社区的居民睡眠时间进行研究,得到了以下10个数据(单位:h):
5.6,7.8,8.0,7.3,3.2,7.9,6.8,7.5,8.6,7.8.
去掉数据     能很好地提高样本数据的代表性.
解析:由题意知数据3.2明显低于其他几个数据,是极端值,所以去掉这个数据,能够更好地提高样本数据的代表性.
答案:3.2
11.一名交警在高速公路上随机观测了6辆车的行驶速度,然后做出了一份报告,调查结果如下表:
车序号 1 2 3 4 5 6
速度/(km/h) 66 65 71 54 69 58
(1)交警采取的是    调查方式;
(2)为了强调调查目的,这次调查的样本是        ,个体是         .
解析:(1)从高速公路上抽取一部分,则为抽样调查.
(2)根据样本和个体的定义填写即可.
答案:抽样 6辆车的行驶速度 每一辆车的行驶速度
12.某地气象台记录了本地6月份的日最高气温(如下表所示).
日最高 气温/℃ 20 22 24 25 26 28 29 30
频数 5 4 6 6 4 2 2 1
(1)气象台获取数据的途径是什么
(2)求本地6月份的日最高气温的平均数.(精确到0.1)
解:(1)通过观察获取数据.
(2)本地6月份的日最高气温的平均数为
≈24.3(℃).
13.某校在开学前将学校的电灯电路使用情况进行检查,以便排除安全隐患,获得路灯的相关数据应该用什么方法 为什么
解:用普查方法.由于一个学校的电灯电路数目不算大,属于有限总体问题,所以应该通过调查获取数据,为了校园安全,必须排除任一潜在或已存在的安全隐患,故必须用普查的方式.
应用创新
14.一家著名的全国性连锁服装店进行了一项关于当年秋季服装流行色的民意调查,调查者通过向顾客发放饮料,并让顾客通过挑选饮料杯上印着的颜色来对自己喜欢的服装颜色“投票”.根据这次调查结果,在某大城市甲,服装颜色的众数是红色,而当年全国服装协会发布的调查结果是咖啡色.
(1)这个结果是否代表甲城市的人的看法
(2)你认为这两种调查的差异是由什么引起的
解:(1)这个结果只能说明甲城市中光顾这家服装连锁店的人比其他人较少倾向于选择咖啡色,因此光顾连锁店的人不能代表甲城市其他人群的想法.
(2)这两种调查的差异是由样本容量的大小及代表性所引起的.
因为甲城市的调查结果来自该城市光顾这家服装连锁店的人群,这个样本不能很好地代表全国民众的观点.§2 抽样的基本方法
2.1 简单随机抽样
2.2 分层随机抽样
核心知识目标 核心素养目标
1.理解简单随机抽样的概念,会描述抽签法及随机数法的步骤,能灵活应用相关知识从总体中抽取样本. 2.理解分层随机抽样的概念,掌握其实施步骤. 3.理解分层随机抽样与简单随机抽样的区别与联系. 1.通过实例,体验简单随机抽样和分层随机抽样的科学性及可靠性,培养学生分析问题、解决问题的能力. 2.在概念形成和问题的解决过程中,培养学生的数学抽象核心素养.
 简单随机抽样
[问题1] 要在10个人中选取3个人作为代表参加某次活动,应该怎样抽取
提示:先把10个人编号,如编号为1,2,3,4,5,6,7,8,9,10,把号码写在号签上,将号签放在一个不透明容器中,搅拌均匀后,每次从中不放回抽取一个号签,连续抽取3次.这种方式可以保证每个人被抽到的可能性是相等的.
知识点1:简单随机抽样
一般地,从N(N为正整数)个不同个体构成的总体中,逐个不放回地抽取n(1≤n问题1解答用的方法就是抽签法.
[思考1] 抽签法的具体步骤是什么 抽签法有哪些优点和缺点
提示:具体步骤:(1)将总体中的每个个体编号;(2)抽签.
优点:简单易行,当总体个数不多的时候搅拌均匀很容易,个体有均等的机会被抽中,从而能保证样本的代表性.
缺点:当总体个数较多时很难搅拌均匀,产生的样本代表性差的可能性很大.这时应该用随机数法.
[例1] 省农科站要检测某品牌种子的发芽率,计划采用随机数法从该品牌800粒种子中抽取60粒进行检测,现将这800粒种子编号如下001,002,…,800,若从随机数表第8行第7列的数7开始向右读,则所抽取的第4粒种子的编号是    .(如表是某个随机数表第7行至第9行)
8442 1753 3157 2455 0688 7704 7447 6721 7633 5025 8392 1206 76
6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 79
3321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54
解析:前四个为785,567,199,507.
答案:507
变式训练1-1:从某班50名同学中选出5名参加户外活动,利用随机数法抽取样本时,先将50名同学按01,02,…,50进行编号,然后从随机数表的第1行第5列和第6列数字开始从左往右依次选取2个数字,则选出的第5个个体的编号为(注:下表为某个随机数表的第1行与第2行)(  )
0347 4373 8636 9647 3661 4698 6371 6297
7424 6792 4281 1457 2042 5332 3732 1676
(A)24 (B)36 (C)46 (D)47
解析:依次选取43,36,47,46,24.故选A.
变式训练1-2:利用随机数表进行抽样的具体步骤是什么 结合自己的体会说说随机数法的优缺点.
解:利用随机数表进行抽样的具体步骤:
(1)给总体中的每个个体编号;
(2)在随机数表中随机抽取某行某列作为抽样的起点,并规定读取方法;
(3)依次从随机数表中抽取样本号码,凡是抽到编号范围内的号码,就是样本的号码,并剔除相同的号码,直到抽满为止.
相对于抽签法有效地避免了搅拌不均匀的弊端,但读数和计数时容易出错.
(1)简单随机抽样的特点
①总体的个数有限;②逐个进行抽取;③不放回抽样;④等可能抽样.
简单随机抽样体现了抽样的客观性与公平性,因为比较简单,所以是其他更复杂的抽样方法的基础.
(2)抽签法和随机数法是简单随机抽样的两种常用方法.它们之间的联系与区别如下:
①抽签法与随机数法两种方法都简便易行,在总体个数不多时,都行之有效;
②当总体中的个数很多时,对个体编号的工作量很大,抽签法和随机数法均不适用;
③抽签法中将总体的编号“均匀搅拌”比较困难,用此种方法产生的样本代表性差,而随机数法中每个个体被抽到的可能性相等.
 分层随机抽样
[问题2] 在对某中学高一年级500名学生身高的调查中,采取简单随机抽样的方式抽取了50名学生.可能出现样本中50个个体大部分来自高个子或矮个子的情形,这种“极端”样本的平均数会大幅度地偏离总体平均数,从而使得估计出现较大的误差.现在知道该中学男、女同学身高差异较大,且男、女同学数基本相等,能否利用总体中的这个信息对抽样方法进行改进
提示:可以考虑男、女同学各抽取25人.
知识点2:分层随机抽样
将总体按其属性特征分成互不交叉的若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的个体,这种抽样方法通常叫作分层随机抽样.
[思考2] 分层随机抽样中,每个个体被抽到的可能性相等吗
提示:相等.
[例2] 某公司有在职人员160人,其中行政人员有16人,技术人员有112人,后勤人员有32人.为了了解在职人员对公司机构改革的意见,要从中抽取一个容量为20的样本,请利用分层随机抽样的方法抽取,写出抽样过程.
解:抽样过程如下:
第一步,确定抽样比,样本容量与总体容量的比为=.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);从技术人员中抽取112×=14(人);从后勤人员中抽取32×=4(人).
第三步,采用简单随机抽样的方法,抽取行政人员2人,技术人员14人,后勤人员4人.
第四步,把抽取的个体组合在一起组成所需样本.
变式训练2-1:某公司招聘考试分甲卷、乙卷、丙卷按比例录取,其录取比例为11∶7∶2.若录取人数为100,则丙卷录取人数为   .
解析:由题意,招聘考试录取人数为100,则丙卷录取人数为100×=10.
答案:10
分层随机抽样问题的解题策略
(1)确定抽样比.可依据各层总数与样本数之比,确定抽样比.
(2)求某一层的样本数或总体个数.可依据题意求出抽样比,再由某层总体个数(或样本数)确定该层的样本数(或总体数).
(3)求各层的样本数.可依据题意,先求出各层的抽样比,再求出各层样本数.
抽样方法的综合运用
[典例] 教育部门要了解初、高中六个年级共3 000名学生的视力情况,现采用抽样调查,各年级人数如表所示:
年级 初一 初二 初三 高一 高二 高三 总计
人数 560 520 500 500 480 440 3 000
调查 人数              
(1)如果按10%的比例抽样,样本是什么 样本容量是多少
(2)考虑到不同年级学生的视力差异,为了保证样本有较好的代表性,应该采用什么抽样方法 各年级分别应调查多少人 将结果填写在上面的表中.
(3)如果要从你所在班级的50名学生中抽取5名进行调查,可以采用什么抽样方法 请设计一个抽样方案,保证每人有相同的机会被抽到.
试题情境:抽样调查.
必备知识:简单随机抽样和分层随机抽样.
关键能力:数学运算能力.
学科素养:数据分析.
解:(1)因为3 000×10%=300,所以样本是抽取的300名学生的视力情况;样本容量是300.
(2)分层随机抽样.各年级调查人数如表所示:
年级 初一 初二 初三 高一 高二 高三 总计
人数 560 520 500 500 480 440 3 000
调查 人数 56 52 50 50 48 44 300
(3)简单随机抽样.方案如下:对50名学生按1~50分别进行编号,并将号码写在50张卡片上,把卡片装在一个不透明盒子中,混合均匀后,从中抽取5张卡片,得到5个号码,选出对应这5个号码的学生.
[素养演练] (1)总体由编号为01,02,…,29,30的30个个体组成,现从中抽取一个容量为10的样本,请在下面的随机数表中从第1行第5列开始,从左向右依次读取2个数字,试求选出的第5个个体的编号;
7029 1712 1340 3312 3826 1389 5103
5662 1837 3596 8350 8775 9712 5593
(2)若以上30个编号是30个篮球的编号,其中01号到21号这21个是甲厂生产的,22号到30号这9个是乙厂生产的,从中抽取10个篮球作为一个样本,写出你用到的抽样方法和抽样过程.
解:(1)从随机数表的第1行第5列开始,向右读取,依次选取小于30的2个数字,选出的5个个体的编号依次为17,12,13,26,03,则第5个个体的编号为03.
(2)先用分层随机抽样,然后用简单随机抽样,过程如下:
先将产品分成两层,第一层:甲厂生产的21个篮球,第二层:乙厂生产的9个篮球,
然后确定每一层抽取的样品数.
因为21∶9=7∶3,
抽取10个样本,所以用简单随机抽样方法在甲厂生产的篮球中抽取7个,在乙厂生产的篮球中抽取3个.
简单随机抽样时,可以利用抽签法或随机数法.
[例题] 某公司生产A,B,C三种不同型号的轿车,产量之比为2∶3∶4,为检验该公司的产品质量,用分层随机抽样的方法抽取一个容量为n的样本,若样本中A型号的轿车比B型号的轿车少8辆,则n等于(  )
(A)96 (B)72 (C)48 (D)36
解析:设样本中A型号轿车有x辆,
则B型号轿车有(x+8)辆,
则=,解得x=16,即A型号轿车有16辆,
则=,解得n=72.
故选B.
基础巩固
知识点一:简单随机抽样
1.下列抽样方法是简单随机抽样的是( D )
(A)从50个零件中一次性抽取5个做质量检验
(B)从50个零件中有放回地抽取5个做质量检验
(C)从实数集中随机抽取10个分析奇偶性
(D)运动员从8个跑道中随机选取一个跑道
解析:A不是,因为“一次性”抽取与“逐个”抽取含义不同;B不是,因为是有放回抽样;C不是,因为实数集是无限集.故选D.
2.某老师为了解某班41名同学居家学习期间上课、休息等情况,决定将该班学生编号为01,02,…,41.利用下面的随机数表选取10名学生进行调查,选取方法是从下面随机数表的第1行的第2列和第3列数字开始由左到右依次选取两个数字,则选出来的第5名同学的编号为( D )
7256 0813 0258 3249 8702 4812 9728 0198
3104 9231 4935 8209 3624 4869 6938 7481
(A)25 (B)24 (C)29 (D)19
解析:依次从随机数表中读出的5个有效编号为25,30,24,29,19,所以选出来的第5位同学的编号为19.故选D.
知识点二:分层随机抽样
3.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层随机抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n等于( C )
(A)45 (B)54 (C)90 (D)126
解析:甲种型号的产品所占的比例为=,18÷=90,故样本容量n=90.
故选C.
4.某校对全校1 600名男、女生的视力状况进行调查,现用分层随机抽样的方法抽取一个容量为200的样本,已知女生比男生少抽10人,则该校的女生人数应该为( A )
(A)760 (B)800 (C)860 (D)780
解析:设该校的女生人数为x,
则男生人数为(1 600-x),
按照分层随机抽样的原理,
可得各层的抽样比为=,
所以女生应抽取人,男生应抽取人,
所以+10=,
解得x=760.故选A.
5.某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样和分层随机抽样,则最合适的抽样方法是    .
解析:总体是由差异明显的几部分组成的,则最合适的抽样方法是分层随机抽样.
答案:分层随机抽样
能力提升
6.(多选题)某工厂的质检人员对生产的100件产品,采用随机数法抽取10件.检查这100件产品采用下面的编号方法,其中正确的是( CD )
(A)1,2,3,…,100
(B)01,02,03,…,100
(C)001,002,003,…,100
(D)00,01,02,…,99
解析:根据随机数法的要求,只有编号的数字位数相同,才能达到随机等可能抽样.故选CD.
7.从某500件产品中随机抽取50件进行质检,利用随机数法抽取样本时,先将这500件产品按001,002,003,…,500进行编号.如果从随机数表的第7行第4列的数2开始,从左往右读数,则依次抽取的第5个个体的编号是( C )
附:随机数表第6行至第8行各数如下
1622 7794 3949 5443 5482 1737 9323 7887 3520 9643 8426 3491 64(第6行)
8442 1753 3157 2455 0688 7704 7447 6721 7206 5025 8342 1633 76(第7行)
6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 79(第8行)
(A)217 (B)245 (C)421 (D)206
解析:从随机数表的第7行第4列的数开始读,依次抽取的个体编号是217,157,245,206,421.故选C.
8.从一群做游戏的小孩中随机抽出k人,一人分一个苹果,让他们返回继续做游戏.过了一会儿,再从中任取m人,发现其中有n个小孩曾分过苹果,估计做游戏的小孩的人数为( C )
(A) (B)k+m-n
(C) (D)不能估计
解析:设做游戏的小孩有x人,则=,x=.故选C.
9.若某省规定学业水平考试中历史科各等级人数所占比例依次为:A等级15%,B等级35%,C等级30%,D,E等级共25%.现采用分层随机抽样的方法,从某省参加历史学业水平考试的学生中抽取100人作为样本,则该样本中获得A或B等级的学生中一共有( A )
(A)45人 (B)60人
(C)50人 (D)90人
解析:由题意,A,B等级人数所占比例依次为A等级15%,B等级30%,
则A或B等级所占比例为45%,
所以100人的样本中,获得A或B等级的学生一共有45人.故选A.
10.已知某地区中小学学生人数如图所示.为了解该地区学生参加某项社会实践活动的意向,拟采用分层随机抽样的方法进行调查.若高中需抽取20名学生,则小学与初中共需抽取的学生人数为    .
解析:设小学与初中共需抽取的学生人数为x,
依题意可得=,解得x=85.
答案:85
11.某学校在校学生有2 000人,为了加强学生的锻炼意识,学校举行了跑步和登山比赛,每人都参加且每人只参加其中一项比赛,各年级参加比赛的人数情况如下:
高一年级 高二年级 高三年级
跑步人数 a b c
登山人数 x y z
其中a∶b∶c=2∶5∶3,全校参加登山的人数占总人数的.为了了解学生对本次活动的满意程度,用分层随机抽样的方法从中抽取一个200人的样本进行调查,则高三年级参加跑步的学生中应抽取的人数为     ;若x=y=150,则z的值是    .
解析:由题意,全校参加跑步的人数占总人数的,
所以高三年级参加跑步的总人数为×2 000×=450,
则高三年级参加跑步的学生中应抽取的人数为×450=45.
z=×2 000-150×2=200.
答案:45 200
12.某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%,登山组的职工占参加活动总人数的,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同的年龄层的职工对本次活动的满意程度,现用分层随机抽样的方法从参加活动的全体职工中抽取容量为200的样本.试求:
(1)游泳组中,青年人、中年人、老年人分别所占的比例;
(2)游泳组中,青年人、中年人、老年人分别应抽取的人数.
解:(1)设登山组人数为x,总人数为4x,游泳组中,青年人、中年人、老年人所占比例分别为a,b,c,
则=47.5%,
=10%,
解得b=50%,c=10%.
故a=1-50%-10%=40%.
即游泳组中,青年人、中年人、老年人所占比例分别为40%,50%,10%.
(2)游泳组中,抽取的青年人人数为200××40%=60;
抽取的中年人人数为200××50%=75;
抽取的老年人人数为200××10%=15.
应用创新
13.分层随机抽样是将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,组成一个样本的抽样方法.在《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱.欲以钱多少衰出之,问各几何 ”其译文为:今有甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,问三人各应付多少税 则下列说法错误的是( B )
(A)甲应付51钱
(B)乙应付32钱
(C)丙应付16钱
(D)三者中甲付的钱最多,丙付的钱最少
解析:抽样比为=,
则甲应付×560=51(钱);
乙应付×350=32(钱);
丙应付×180=16(钱).
故选B.
14.某单位有老年人27人,中年人55人,青年人81人.为了调查他们的身体状况,需从中抽取一个容量为36的样本,最适合的抽样方法是( C )
(A)抽签法
(B)随机数法
(C)先从中年人中剔除一人,然后用分层随机抽样
(D)先从老年人中剔除一人,然后用分层随机抽样
解析:由于总体由三部分构成,所以采用分层随机抽样完成.
分层随机抽样直接算结果不是整数,所以先从中年人中剔除一人,然后再分层.
此时抽样比为==,
则老年人应抽取27×=6(人),中年人应抽取54×=12(人),青年人应抽取81×=18(人).故选C.§3 用样本估计总体分布
3.1 从频数到频率
3.2 频率分布直方图
核心知识目标 核心素养目标
1.了解频数与频率的关系,能合理利用频数和频率估计总体分布. 2.会列频率分布表、画频率分布直方图和折线图,会用样本频率分布直方图估计总体分布. 3.能综合利用各种统计表和统计图解答有关实际问题. 1.通过画频率分布直方图的过程,培养学生耐心细致、严谨认真的科学态度. 2.经历用统计的方法解决实际问题的过程,培养数学运算、数据分析素养.
 从频数到频率
[问题1] 某次数学考试中,数学老师统计了他所教的两个班级的成绩,一班有5个同学不及格,二班的不及格率为10%.根据这些数据,你能判断哪一个班考得更好吗
提示:不能判断,因为我们不知道一班的总人数.若是一班总人数为50,那么不及格率也是10%,两班成绩一样;如果一班人数多于50,则一班成绩好一些;如果一班人数少于50,则一班成绩差一些.
知识点1:从频数到频率
频率反映了相对总数而言的相对强度,其所携带的总体信息远超过频数,在实际问题中,如果总体容量比较小,频数也可以较客观地反映总体分布;当总体容量较大时,频率就更能客观地反映总体分布.在统计中,经常要用样本数据的频率去估计总体中相应的频率,即对总体分布进行估计.
[例1] 下面是某高中学校2014至 2020年考生人数、本科录取人数及录取率,请根据表中数据说明频数与频率的不同之处.
年份 2014 2015 2016 2017 2018 2019 2020
考生人数 795 905 1 020 1 030 1 203 1 259 1 321
本科录取人数 320 369 428 448 523 530 535
本科录取率 0.40 0.41 0.42 0.43 0.43 0.42 0.40
解:从本科录取人数看,逐年递增,但是从本科录取率看,从2019年开始有下降的趋势,所以随频数的增大,频率趋近于一个稳定值.
变式训练1-1:甲、乙2人站在罚球处进行定点投篮,其比赛结果如表所示:
甲 乙
投中数 30 25
未中数 20 15
判断两人在投中率上谁更优秀一些.
解:甲投中的频数是30,频率是=60%,
乙投中的频数是25,频率是=62.5%,
因为62.5%>60%,所以乙在投中率上更优秀一些.
当两个样本的样本容量相等或者相差不大的情况下,可以用频数比较总体分布的差异;当两个样本的样本容量相差较大的情况下,可以用频率比较总体分布的差异.
 频率分布直方图
[问题2] 为了直观反映样本数据分布情况,我们已经学习了一些常见的统计图的使用方法,请解答下面的问题.
(1)某中学甲、乙两个班参加了一次数学考试,考试人数每班都为40人,每个班的考试成绩分为A,B,C,D,E五个等级,绘制的统计图如图:
根据以上统计图提供的信息,则D等级这一组人数较多的班级是  .
(2)某班全体学生某次测试成绩(单位:分)的统计图如下图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若不低于80分的人数是15,则该班的学生人数是    .
提示:(1)由题意得甲班D等级的人数为13,乙班D等级的人数为40×30%=12<13,所以D等级这一组人数较多的班级是甲班.
提示:(2)由题意,根据给定的统计图,可得成绩在[80,100]分之间的频率为20×0.015=0.3,又成绩不低于80分的人数是15,则该班的学生人数是=50.
知识点2:频率分布直方图
在问题2(2)中,每个小矩形的底边长是该组的组距,每个小矩形的高是该组的频率与组距的比,从而每个小矩形的面积等于该组的频率,即每个小矩形的面积=组距×=频率.我们把这样的图叫作频率分布直方图.频率分布直方图以面积的形式反映了数据落在各个小组的频率的大小.
[思考1] 频率分布直方图中,所有小矩形面积之和是多少
提示:频率分布直方图中,所有小矩形面积之和为1.
[例2] 为了了解某中学的女生身体发育情况,对该中学的60名女生的身高进行了测量,结果如下(单位: cm):
167 154 159 166 169 159 156 166 162 158 159 156 166 160 164 160 157 156 157 161 158 158 153 158 164 158 163 158 163 157 162 162 159 154 165 166 157 151 146 151 158 160 163 158 163 163 162 161 154 165 162 162 159 157 159 149 164 168 159 153
画出频率分布直方图,并利用这个频率分布直方图估计该中学女生身高在[161.5,169.5]内的频率.
解:(1)计算极差:169-146=23(cm).
(2)确定组距与组数:该中学女生身高在[146,169]内,以4为组距,≈6,可以分为6组.
(3)分组:由于组距为4,6个组距的总长度超过极差,因此可以使第一组的左端点略小于数据中的最小值,最后一组的右端点略大于数据中的最大值,于是得到 [145.5,149.5),[149.5,153.5),…,[165.5,169.5].
(4)列频率分布表:
小组 频数 频率
[145.5,149.5) 2
[149.5,153.5) 4
[153.5,157.5) 11
[157.5,161.5) 20
[161.5,165.5) 16
[165.5,169.5] 7
(5)画出频率分布直方图,如图所示.
根据频率分布直方图估计该中学女生身高在[161.5,169.5]内的频率是+=.
变式训练2-1:为增强市民的节能环保意识,某市面向全市征召义务宣传志愿者,现从符合条件的500名志愿者中随机抽取100名志愿者,他们的年龄情况如下表所示(单位:岁):
分组 频数 频率
[20,25) 5 0.05
[25,30) ① 0.20
[30,35) 35 ②
[35,40) 30 0.30
[40,45] 10 0.10
总计 100 1.00
(1)频率分布表中的①②位置应填什么数据
(2)补全如图所示的频率分布直方图,再根据频率分布直方图估计这500名志愿者中年龄在[30,35)岁的人数.
解:(1)设年龄在[25,30)岁的频数为x,年龄在[30,35)岁的频率为y,
根据题意可得=0.20,=y,
解得x=20,y=0.35,
故①处应填20,②处应填0.35.
解:(2)由频率分布表知年龄在[25,30)岁的频率是0.20,组距是5,
所以==0.04.
补全频率分布直方图如图所示,
根据频率分布直方图估计这500名志愿者中年龄在[30,35)岁的人数为500×0.07×5=175.
绘制频率分布直方图的步骤
(1)计算极差;
(2)确定组距与组数;
(3)分组;
(4)列表;
(5)画频率分布直方图.
 频率折线图
[问题3] 超速行驶是交通事故频发的主要原因之一.交警部门统计某日7:00~9:00经过某高速公路测速点的汽车的速度,得到如下折线图,若该路段汽车限速为110 km/h,则超速行驶的汽车有多少辆
提示:由图可知超过限速110 km/h的汽车有60+20=80(辆).
知识点3:在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图.
[思考2] 我们现在要作出例2中的频率分布直方图对应的频率折线图,在原来分组的两边所加的区间(虚设区间)是什么
提示:在左边增加区间[141.5,145.5],在右边增加区间[169.5,173.5]
[例3] 作出由例2中的频率分布直方图得到的频率折线图,并写出频率折线图与横轴围成的封闭多边形的面积(不必说明理由).
解:在左边增加区间[141.5,145.5],在右边增加区间[169.5,173.5],并取这两个区间的中点,然后取原图中六个矩形的顶端中点,从左至右依次连接这8个点得到频率折线图,如图所示.
频率折线图与横轴围成的封闭多边形的面积是1.
频率分布直方图和频率折线图能够直观地表明样本数据的分布情况,但是从频率分布直方图及频率折线图本身不能得出原始数据的内容,也就是说,把数据表示成频率分布直方图或频率折线图后,原有的具体数据信息就被抹掉了.解答有关用坐标系表示的统计图时,关键是理解横坐标和纵坐标的意义,据此转化为解题所需要的频率,最终都是利用频数与频率的关系求解.
基础巩固
知识点一:从频数到频率
1.某产品的次品率为0.02%,则随机购入该产品20 000件,下列说法中正确的是( D )
(A)其中的次品数一定为4
(B)其中的次品数一定大于4 
(C)其中的次品数一定小于4 
(D)其中的次品数大约为4
解析:根据频率的意义,可知次品数大约为20 000×0.02%=4.故选D.
2.容量为100的样本数据,分组后的频数如表:
分组 [40,50) [50,60) [60,70) [70,80) [80,90) [90,100]
频数 5 12 20 38 17 8
则样本数据落在区间[80,100]内的频率是( A )
(A)0.25 (B)0.35 (C)0.45 (D)0.55
解析:由题意可得样本数据落在区间[80,100]内的频数为17+8=25,则所求频率为=0.25.故选A.
知识点二:频率分布直方图
3.某学校组织学生参加数学测试,某班成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若成绩不低于60分的人数是35,则该班的学生人数是( B )
(A)45 (B)50 (C)55 (D)60
解析:由题可知成绩不低于60分的频率为(0.02+0.015)×20=0.7,又成绩不低于60分的人数是35,所以该班的学生人数是=50.故选B.
4.(多选题)某学校为了调查学生在一周生活方面的支出情况,抽出了一个容量为n的样本,其频率分布直方图如图所示,其中支出在区间[50,60]内的学生有60人,则下列说法正确的是( BC )
(A)样本中支出在区间[50,60]内的频率为0.03
(B)样本中支出不少于40元的人数为132
(C)n的值为200
(D)若该校有2 000名学生,则一定有600人支出在区间[50,60]内
解析:样本中支出在区间[50,60]内的频率为1-(0.01+0.024+
0.036)×10=0.3,故A错误;样本中支出不少于40元的人数为0.36×
+60=132,故B正确;n的值为=200,故C正确;若该校有2 000名学生,则可能有0.3×2 000=600人支出在区间[50,60]内,故D错误.故选BC.
5.从某小学随机抽取100名学生,将他们的身高(单位:cm)数据绘制成如图所示的频率分布直方图,则a的值是     ;身高在[120,130)内的学生人数为    .
解析:由题图知(0.035+a+0.020+0.010+0.005)×10=1,解得a=0.03,
所以身高在[120,130)内的学生人数为100×0.03×10=30.
答案:0.03 30
能力提升
6.小波一星期的总开支分布如图(1)所示,一星期的食品开支如图(2)所示,则小波一星期的鸡蛋开支占总开支的百分比为( C )
(A)30% (B)10%
(C)3% (D)不能确定
解析:观察题图2得,小波一星期的食品开支为30+40+100+80+50=300(元);观察题图1得,小波一星期的总开支为=1 000(元),所以小波一星期的鸡蛋开支占总开支的百分比为×100%=3%.故选C.
7.某校100名学生的数学测试成绩频率分布直方图如图所示,分数不低于a即为优秀,如果优秀的人数为20人,则a的估计值是( C )
(A)130 (B)140
(C)133 (D)137
解析:由已知可以判断a∈[130,140),所以[(140-a)×0.015+10×
0.01]×100=20.解得a≈133.故选C.
8.三峡大坝专用公路沿途山色秀美,风景怡人.为确保安全,全程限速为80 km/h.为了解汽车实际通行情况,经过监测发现某时段200辆汽车通过这段公路的车速均在[50,90](km/h)内,根据监测结果得到如图(1)组距为10的频率折线图:
请根据频率折线图,将图(2)频率分布直方图补充完整(用阴影部分
表示).
解:由折线图,完成频率分布直方图如图.
应用创新
9.(多选题)某企业2020年12个月的收入与支出数据的折线图如图:
已知:利润=收入-支出,根据该折线图,下列说法正确的是( AC )
(A)该企业2020年1月至6月的总利润低于2020年7月至12月的总利润
(B)该企业2020年第一季度的利润约是60万元
(C)该企业2020年4月至7月的月利润持续增长
(D)该企业2020年11月份的月利润最大
解析:由企业2020年12个月的收入与支出数据的折线图得,
在A中,该企业2020年1月至6月的总利润约为
x1=(30+40+35+30+50+60)-(20+25+10+20+22+30)=118(万元),
该企业2020年7月至12月的总利润约为
x2=(80+75+75+80+90+80)-(28+22+30+40+45+50)=265(万元),
所以该企业2020年1月至6月的总利润低于2020年7月至12月的总利润,故A正确;
在B中,该企业2020年第一季度的利润约是
(30+40+35)-(20+25+10)=50(万元),故B错误;
在C中,该企业2020年4月至7月的月利润分别为10,28,30,52(单位:万元),
所以该企业2020年4月至7月的月利润持续增长,故C正确;
在D中,该企业2020年7月和8月的月利润比11月份的月利润大,故D错误.故选AC.§4 用样本估计总体的数字特征
4.1 样本的数字特征
4.2 分层随机抽样的均值与方差
4.3 百分位数
核心知识目标 核心素养目标
1.会求样本的平均数、中位数、众数、极差、方差、标准差,理解它们的意义和作用. 2.会用分层随机抽样的均值与方差公式简化运算. 3.选取恰当的样本数字特征来估计总体,从而正确地对实际问题做出决策. 1.通过合理选取、认真计算样本的数字特征,培养学生耐心细致、严谨认真的科学态度. 2.经历用统计的方法解决实际问题的过程,培养数学抽象、数学运算、数据分析的学科素养.
 样本的数字特征
[问题1] 我们在初中已经学过样本的平均数、中位数、众数、极差、方差,平均数、中位数和众数从不同角度反映了数据的集中趋势,极差和方差都刻画数据的离散程度.
在以上5个特征数中,哪些特征数与样本的每一个数字都有关系 哪些特征数只与样本的个别数字有关 哪个特征数的单位与样本数据的单位不一致
提示:平均数、方差与样本的每一个数字都有关系;
中位数、众数、极差只与样本的个别数字有关;
方差单位与样本数据的单位不一致,单位是样本原始数据单位的平方.
知识点1:给定一组数据x1,x2,…,xn,
平均数:=,是指一组数据的平均值;
方差:s2=;
由于方差的单位是原始数据单位的平方,而刻画离散程度的一种理想度量应当具有与原始数据相同的单位,为此,计算方差的算术平方根,得s==,称之为标准差;
方差和标准差刻画一组数据偏离平均数的离散程度;
极差:数据中最大值与最小值的差,从最值方面刻画数据的离散程度;
中位数:将数据按从小到大的顺序排列后,“中间”的那个数据(当n为奇数时,中位数是第项,当n为偶数时,中位数是第项和第+1项的平均数),它使数据被分成的两部分的数据量是一样的;
众数:数据中出现次数最多的数据,反映一组数据的多数水平.
[思考1] 给定一组数据x1,x2,…,xn,其平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数和方差分别是多少
提示:平均数为a+b,方差为a2s2.
[例1]甲、乙两台机床同时生产一种零件,在10天中,两台机床每天生产的次品数分别为
甲:0,0,1,2,0,0,3,0,4,0;
乙:2,0,2,0,2,0,2,0,2,0.
(1)分别求两组数据的众数、中位数,根据计算结果比较两台机床性能;
(2)分别求两组数据的平均数和标准差,根据计算结果比较两台机床性能.
解:(1)由题知,甲组数据的众数为0;乙组数据的众数为0和2;
甲组数据的中位数为0;乙组数据的中位数为=1.
甲组数据的众数只有0,出现次数为6,乙组数据的众数为0和2,都出现5次,所以从众数看,甲性能较好;
虽然甲组数据的中位数0小于乙组数据的中位数1,但是提供信息量较少,只从中位数很难判断两台机床性能差异.
解:(2)甲组数据的平均数为
==1,
乙组数据的平均数为
==1,
甲组数据的方差为=
=2,
乙组数据的方差为=
=1,
所以甲组数据的标准差为s甲=,乙组数据的标准差为s乙=1.
因为=,s乙变式训练1-1:已知一组数据按从小到大的顺序排列为-1,0,4,x,6,15,且这组数据的中位数是5,那么这组数据的众数是     ,平均数是     .
解析:因为中位数为5,所以=5,即x=6.
所以该组数据的众数为6,
平均数为=5.
答案:6 5
(1)平均数与每一个数据都有关,可以反映更多的总体信息,是使用最多的一个特征数,但是受极端值的影响较大;中位数是数据的数据量的等分线,不受极端值的影响;众数只能体现数据的最大集中点,一般无法客观反映总体特征.当平均数大于中位数时,说明数据中存在较大的极端值(例如例1中的甲样本数据),反之说明数据中存在较小的极端值.
(2)比较两组数据的差异,有时要剔除极端值,然后比较它们的平均数和方差,如果平均数相差不大,就进一步比较它们的方差(或标准差),然后根据具体情况确定它们的优劣并做出适当地预测或选择.
(3)样本容量越大,样本所包含的总体信息就越多,估计的合理性就越充分.
 分层随机抽样的平均数
[问题2] 在一组数据中,x1出现了f1次,x2出现了f2次,…,xn出现了fn次,写出这组数据的加权平均数.
提示:=.
知识点2:一般地,将样本a1,a2,…,am和样本b1,b2,…,bn合并成一个新样本,则这个新样本的平均数为=,+,.于是,当已知上述两层构成的新样本中每层的平均数分别为和时,可得这个新样本的平均数为
+.记w1=,w2=,则这个新样本的平均数为w1+w2,其中w1,w2称为权重.
更一般地,设样本中不同层的平均数和相应权重分别为,,…,和w1,w2,…,wn,则这个样本的平均数为w1+w2+…+wn,记作w1+w2+…+wn=wi.
[思考2] 分层随机抽样的平均数公式与加权平均数公式有什么关系
提示:二者是一般与特殊的关系.当w1=w2=…=wn=,f1=f2=…=fn=1时,二者是一致的,都是平均数公式=.
[例2] “新冠肺炎”席卷全球,我国医务工作者为了打好这次疫情阻击战,充分发挥优势,很快抑制了病毒,据统计老年患者治愈率为71%,中年患者治愈率为85%,青年患者治愈率为91%.如果某医院有30名老年患者,40名中年患者,50名青年患者,则估计该医院的平均治愈率是(  )
(A)86% (B)83% (C)90% (D)84%
解析:法一 ×71%+×85%+×91%=84%.
法二 =0.84=84%.故选D.
计算分层随机抽样的平均数的两种方法
(1)利用加权平均数公式
=.
(2)利用分层随机抽样的平均数公式=w1+w2+…+wn.
 分层随机抽样的方差
[问题3] 我们知道,样本中不同层的平均数和相应的权重分别为,,…,和w1,w2,…,wn,则这个样本的平均数为=w1+w2+…+wn.那么,样本中不同层次的方差和相应的权重分别为,,…,和w1,w2,…,wn,则样本的方差为s2=w1+w2+…+wn,这个命题是真命题吗 如果是真命题,给出证明;如果是假命题,举一反例.
提示:假命题.反例:数据组1,1的方差为0,数据组2,2,2的方差也是0,它们组成的新数据组为1,1,2,2,2,这组数据的方差显然不是0.
知识点3:设样本中不同层的平均数分别为,,…,,方差分别为,,…,,相应的权重分别为w1,w2,…,wn,则这个样本的方差为s2=wi[+],其中为这个样本的平均数.
[例3] 数学考试中,有一道选做题,学生可以从题目甲和乙中任选一题作答,满分10分.某高三年级共有1 000名学生参加了某次数学考试,为了了解学生的作答情况,计划从该年级1 000名考生的数学成绩中随机抽取一个容量为10的样本,若采用分层随机抽样,按照学生选择甲或乙的情况将成绩分为两层.已知该校共有600名考生选择了甲,400名考生选择了乙,在选取的样本中,选择甲的平均得分为6分,方差为2,选择乙的平均得分为5分,方差为0.75.用样本估计该校1 000名考生选做题得分的平均数和得分的方差.
解:法一 在选取的样本中,选择甲的考生有6人,选择乙的考生有4人,
所以样本的平均数为×(6×6+4×5)=5.6.
从选择甲的考生中抽取6人,得分分别记为a1,a2,…,a6,
从选择乙的考生中抽取4人,得分分别记为b1,b2,b3,b4,
则×[(a1-6)2+(a2-6)2+…+(a6-6)2]=2,
所以++…+=228,
同理得+++=103,
所以样本的方差为
[(a1-5.6)2+…+(a6-5.6)2+(b1-5.6)2+…+(b4-5.6)2]
=×[+…+++…+-11.2×(a1+…+a6+b1+…+b4)+10×5.62]
=×[228+103-11.2×56+10×31.36]
=1.74.
所以估计该校1 000名考生选做题得分的平均数为5.6,方差为1.74.
法二 样本中选择甲的考生有6人,选择乙的考生有4人,
所以样本的平均数为×(6×6+4×5)=5.6.
直接利用分层随机抽样的方差计算公式可得样本得分的方差为
×[2+(6-5.6)2]+×[0.75+(5-5.6)2]=1.74,
所以估计该校1 000名考生选做题得分的平均数为5.6,方差为1.74.
变式训练3-1:已知一组数据x1,x2,x3的平均数是5,方差是4,则由2x1+1,2x2+1,2x3+1,11这4个数据组成的新的一组数据的方差是(  )
(A)16 (B)14 (C)12 (D)8
解析:法一 2x1+1,2x2+1,2x3+1的平均数为=2×5+1=11,方差为=4×4=16,权重w1=,11的平均数为=11,方差为=0,权重w2=.
又2x1+1,2x2+1,2x3+1,11的平均数为=11,
所以2x1+1,2x2+1,2x3+1,11这4个数据组成的新的一组数据的方差是
s2=×[16+(11-11)2]+×[0+(11-11)2]=12.故选C.
法二 由已知x1+x2+x3=15,(x1-5)2+(x2-5)2+(x3-5)2=12,
则新数据的平均数为(2x1+1+2x2+1+2x3+1+11)==11,
所以新数据的方差为[(2x1+1-11)2+(2x2+1-11)2+(2x3+1-11)2+(11-11)2]
=[4(x1-5)2+4(x2-5)2+4(x3-5)2]
=(x1-5)2+(x2-5)2+(x3-5)2=12.
故选C.
计算分层随机抽样的方差的两种方法
(1)设出各层中的样本数,依次利用方差的定义式计算,这个方法比较复杂.
(2)直接利用分层随机抽样的方差的计算公式s2=wi[+],这个方法比较简单.
 百分位数
[问题4] 当总体是连续变量时,总体中的中位数有什么特点
提示:总体数据中的任意一个数小于或等于它的中位数的可能性是50%.
知识点4:p分位数
一般地,当总体是连续变量时,给定一个百分数p∈(0,1),总体的p分位数有这样的特点:总体数据中的任意一个数小于或等于它的可能性是p.
25%,50%,75%分位数是三个常用的百分位数,也称为总体的四分位数,其他常用的百分位数有1%,5%,10%,90%,95%,99%.
[思考3] 总体的p分位数通常是未知的,用p分位数去估计它时,估计的准确率与样本容量有什么关系
提示:样本的容量越大,估计越准确.
[例4] 一组数据按由小到大的顺序排列为0,0,0,0,1,2,2,2,3,3,5,6,7,8,9,10,求该组数据的四分位数和90%分位数.
解:这组数据共16个数,由小到大记为x1,x2,…,x16,50%分位数即中位数是==2.5,
16×25%=4,所以25%分位数是==0.5,
16×75%=12,所以75%分位数是==6.5,
16×90%=14.4,所以90%分位数是x15=9,
因此所求四分位数分别是0.5,2.5,6.5,90%分位数是9.
变式训练4-1:高二(1)班7人宿舍中每个同学的身高(单位:cm)分别为170,168,172,172,175,176,180,则这7人身高的40%分位数为(  )
(A)168 (B)170 (C)172 (D)171
解析:这7人的身高从小到大排列为168,170,172,172,175,176,180,7×40%=2.8,
所以第3个数据172为这7人身高的40%分位数.
故选C.
计算一组n个数据的p分位数的一般步骤
第一步,按照从小到大排列原始数据.
第二步,计算i=np.
第三步,若i不是整数,大于i的最小的整数为j,则p分位数为第j项数据;若i是整数,则p分位数为第i项与第(i+1)项数据的平均数.
样本特征数之间的综合关系
[典例] 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10日,每天新增疑似病例不超过7人”.过去10日,a,b,c,d四地新增疑似病例数据信息如下:
甲地:总体平均数为3,中位数为4;
乙地:总体平均数为1,总体方差大于0;
丙地:中位数为2,众数为3;
丁地:总体平均数为2,总体方差为3.
则甲,乙,丙,丁四地中,一定没有发生大规模群体感染的地方是(  )
(A)甲 (B)乙 (C)丙 (D)丁
试题情境:多个样本特征数.
必备知识:平均数、方差、众数、中位数的计算.
关键能力:数据运算能力,逻辑推理能力.
学科素养:数学运算,数据分析.
解析:对于甲地,总体平均数为3,中位数为4,平均数与中位数不能限制极端值的出现,因而有可能出现新增疑似病例超过7人的情况,例如0,0,0,0,4,4,4,4,4,10,显然这组数据的平均数为3,中位数为4,所以甲地不符合要求.
对于乙地,总体平均数为1,总体方差大于0,没有给出方差具体的大小,如果方差很大有可能出现新增疑似病例超过7人的情况,例如0,0,0,0,0,0,0,0,0,10,显然这组数据的平均数为1,总体方差大于0,所以乙地不符合要求.
对于丙地,中位数为2,众数为3,众数与中位数不能限制极端值的大小,因而有可能出现新增疑似病例超过7人的情况,例如0,0,0,0,2,2,3,3,3,10,显然中位数为2,众数为3,所以丙地不符合要求.
对于丁地,若出现大于7的数值m,比如取m=8,则总体方差s2=[(m-2)2+(x2-2)2+…+(x10-2)2]≥3.6,与总体方差为3矛盾,因而不会出现新增疑似病例超过7人的情况.
综上可知,d地符合要求.故选D.
[素养演练] 四名同学各掷一枚均匀骰子5次,分别记录每次骰子出现的点数.根据下面四名同学的统计结果,可以判断出一定没有出现点数6的是(  )
(A)平均数为2,方差为2.4
(B)中位数为3,众数为2
(C)平均数为3,中位数为2
(D)中位数为3,方差为2.8
解析:若平均数为2,且出现点数6,则方差s2≥(6-2)2=3.2,因为2.4<3.2,所以选项A中一定没有出现点数6;选项B,C,D中涉及中位数、众数,不能确定是否出现点数6.故选A.
[例1] 若数据x1,x2,…,xn的平均数为=3,方差为s2=1,则数据2x1+3,2x2+3,…,2xn+3的平均数和方差分别为(  )
(A)6,6 (B)9,2 (C)9,6 (D)9,4
解析:法一 由题意,若数据x1,x2,…,xn的平均数为=3,方差为s2=1,
可得x1+x2+…+xn=3n,
则2x1+3+2x2+3+…+2xn+3=2(x1+x2+…+xn)+3n=9n,
所以数据2x1+3,2x2+3,…,2xn+3的平均数为9.
又s2=[(x1-3)2+(x2-3)2+…+(xn-3)2]=1,
所以(x1-3)2+(x2-3)2+…+(xn-3)2=n,
所以[(2x1+3-9)2+(2x2+3-9)2+…+(2xn+3-9)2]=[(x1-3)2+(x2-3)2+…+(xn-3)2]=4,
则数据2x1+3,2x2+3,…,2xn+3的平均数和方差分别为9,4.故选D.
法二 由给定一组数据x1,x2,…,xn,其平均数为,方差为s2,则数据ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2,直接得所求平均数为2×3+3=9,方差为22×1=4.故选D.
[例2] 为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )
(A)x1,x2,…,xn的平均数
(B)x1,x2,…,xn的标准差
(C)x1,x2,…,xn的最大值
(D)x1,x2,…,xn的中位数
解析:一组数据的方差与标准差反映了这组数据的稳定程度.故选B.
基础巩固
知识点一:样本数字特征的意义
1.数据的信息除了通过各种统计图表来加以整理和表达之外,还可以通过一些统计量来表述.平均数、中位数、众数、极差、方差、标准差这些统计量反映了数据的集中趋势或离散程度,下列表述不正确的是( B )
(A)平均数、中位数、众数刻画了一组数据的集中趋势
(B)平均数、中位数、众数一定出现在原始数据中
(C)极差、方差、标准差刻画了一组数据的离散程度
(D)平均数、中位数、众数、极差、标准差的单位与原始数据单位保持一致
解析:平均数、中位数、众数、极差、标准差的单位与原数据单位保持一致,
众数一定出现在原始数据中,但平均数、中位数不一定出现在原始数据中,A,C,D正确,B不正确.故选B.
2.(多选题)某次考试规定得分为百分制,小明在参加考试的800名考生中,考生成绩的百分位数是90%,则下列说法中正确的有( BCD )
(A)小明排名第90名
(B)小明的成绩大约比90%的考生要高
(C)小明的成绩大约比10%的考生要低
(D)小明的成绩可能是90分
解析:成绩的百分位数是90%,其意义是小明的成绩高于约90%的考生,低于约10%的考生,成绩分数为百分制,故可能为90分,但不一定就是第90名.故选BCD.
知识点二:样本数字特征的计算
3.贵州省的五个旅游景区门票票价如表所示:
景区名称 黄果树瀑布 龙宫 百里杜鹃 青岩古镇 梵净山
票价/元 150 150 90 80 290
关于这五个旅游景区门票票价,下列说法错误的是( C )
(A)众数为150 (B)平均数为152
(C)中位数为90 (D)极差为210
解析:数据从小到大排列为80,90,150,150,290,
所以这组数据的众数是150,中位数是150,A正确,C错误;
极差是290-80=210,D正确;
平均数是=×(80+90+150+150+290)=152,B正确.故选C.
4.某校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则这两个数学建模兴趣班所有同学的平均成绩是( A )
(A)85分 (B)85.5分 (C)86分 (D)86.5分
解析:由题意可知,这两个数学建模兴趣班所有同学的平均成绩为=85分.故选A.
5.样本容量为10的一组数据依次为3,9,0,4,1,6,6,8,2,7,该组数据的50%分位数是    ,75%分位数是    .
解析:样本容量为10的一组数据从小到大排列为0,1,2,3,4,6,6,7,
8,9,
因为10×50%=5,
所以该组数据的50%分位数是=5.
因为10×75%=7.5,
所以该组数据的75%分位数是7.
答案:5 7
6.用一组数据8,x,10,11,9来估计总体的标准差,若该组数据的平均数为10,则总体标准差s=    .
解析:因为该组样本数据的平均数为10,
所以(8+x+10+11+9)÷5=10,所以x=12,
所以s2=×(4+4+0+1+1)=2,所以总体标准差s=.
答案:
能力提升
7.(多选题)给定一组数据5,5,4,3,3,3,2,2,2,1,则( AC )
(A)平均数为3 (B)标准差为
(C)众数为2和3 (D)85%分位数为4.5
解析:平均数为=3,
众数为2和3,
标准差为=,
将数据按从小到大顺序排列为1,2,2,2,3,3,3,4,5,5,一共10个数,10×85%=8.5,则第9个数据5是85%分位数.故选AC.
8.已知样本x1,x2,…,xn(n∈N+)的平均数与方差分别是a和b,若yi=-2xi+3(i=1,2,…n),且样本y1,y2,…,yn的平均数与方差分别是b和a,则a-b等于( A )
(A)1 (B)2 (C)3 (D)4
解析:由题意得解得故a-b=1.故选A.
9.某创业公司共有36名职工,为了了解该公司职工的年龄构成情况,随机采访了9名代表,得到的数据分别为36,36,37,37,40,43,43,
44,44,若用样本估计总体,年龄在(-s,+s)内的人数占公司总人数的百分比是(其中是平均数,s为标准差,结果精确到1%)( C )
(A)14% (B)25% (C)56% (D)67%
解析:依题意,=×(36+36+37+37+40+43+43+44+44)=40,
s==,
所以年龄在(-s,+s)内,即在(,)内的人数为5,故年龄在
(-s,+s)内的人数占公司总人数的百分比为×100%≈56%.故选C.
10.某校从高一新生中随机抽取了一个容量为20的身高样本,数据从小到大排序如下(单位:cm):
152,155,158,164,164,165,165,165,166,167,168,168,169,170,
170,170,171,x,174,175.若样本的90%分位数是173,则x的值为
    .
解析:因为20×90%=18,所以90%分位数是第18项和第19项数据的平均数,即(x+174)=173,所以x=172.
答案:172
11.某医院急救中心随机抽取20位病人等待急诊的时间记录如下表:
等待时间 /分 [0,5) [5,10) [10,15) [15,20) [20,25]
频数 4 8 5 2 1
用上述分组资料计算出病人平均等待时间的估计值 =     分钟.
解析:=×(2.5×4+7.5×8+12.5×5+17.5×2+22.5×1)=9.5(分).
答案:9.5
12.某小区广场上有甲、乙两群市民,两群市民的年龄如下(单位:岁):
甲群:13,13,14,15,15,15,15,16,17,17;
乙群:54,3,4,4,5,6,6,6,6,56.
(1)甲群市民年龄的平均数、中位数和众数各是多少岁 其中哪个统计量能较好地反映甲群市民的年龄特征
(2)乙群市民年龄的平均数、中位数和众数各是多少岁 其中哪个统计量能较好地反映乙群市民的年龄特征
解:(1)甲群市民年龄的平均数为=15(岁),
中位数为15岁,众数为15岁.
平均数、中位数和众数相等,因此它们都能较好地反映甲群市民的年龄特征.
(2)乙群市民年龄的平均数为=15(岁),
中位数为6岁,众数为6岁.
由于乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征.
应用创新
13.如图所示是一样本的频率分布直方图,数据共分3组,分别为[5,10),[10,15),[15,20].估计数据的60%分位数是( A )
(A)14 (B)15 (C)16 (D)17
解析:第1组数据的频率为0.04×5=0.2,
第2组数据的频率为0.10×5=0.5,
设数据的60%分位数是x,则0.2+0.10(x-10)=0.6,
解得x=14,所以估计数据的60%分位数是14.
故选A.章末总结
题型一 抽样
[例1] 某单位共有500名职工,其中不到35岁的有125人,35~49岁的有a人,50岁及以上的有b人,现用分层随机抽样的方法,从中抽出100名职工了解他们的健康情况.如果已知35~49岁的职工抽取了56人,则50岁及以上的职工抽取的人数为(  )
(A)19 (B)95 (C)220 (D)280
解析:抽样比例为=,所以不到35岁的职工应抽取125×=25(人),所以50岁及以上的职工应抽取100-25-56=19(人).故选A.
跟踪训练1-1:总体由编号为01,02,03,…,49,50的50个个体组成,利用随机数法(以下摘取了随机数表中第31行和第32行)选取5个个体,选取方法是从随机数表第31行的第9列和第10列开始由左向右读取,则选出的第4个个体的编号为    .
6667 4067 1464 0571 9586 1105 6509
6876 8320 3790 5716 0011 66(第31行)
1490 8445 1175 7388 0590 5227 4114
8622 9812 2208 0752 7495 80(第32行)
解析:从随机数表第31行的第9列和第10列数字开始由左向右读取,选出的个体编号依次是14,05,11,09,20,则选出的第4个个体的编号为09.
答案:09
当样本个体有明显差异时,可以用分层随机抽样,同一层内可用简单随机抽样,抽签法和随机数法是两种常见的简单随机抽样.
题型二 频率分布
[例2] 某高中学校进行了一次教学质量检测考试,数学教研室统计了高二年级全体学生在本次质检考试的数学成绩(满分150分),发现成绩全部在70分以上.教研室从中随机抽取了n名学生的成绩,并按照[70,80),[80,90),[90,100),[100,110),[110,120),[120,130),
[130,140),[140,150]分成八组,整理得到如表.
组别 1 2 3 4 5 6 7 8
分组 [70, 80) [80, 90) [90, 100) [100, 110) [110, 120) [120, 130) [130, 140) [140, 150]
人数 110 130 180 a 160 130 c 50
频率 0.11 b 0.18 0.22 0.16 b 0.02 0.05
(1)求n,a,b的值;
(2)根据上述成绩估计高二年级全体学生本次数学成绩的中位数(结果按四舍五入取整数).
解:(1)根据第一组的人数与频率,
得样本容量为n==1 000,
从而a=0.22×1 000=220,b==0.13.
解:(2)用pi表示第i组的频率,
所以p1=0.11,p2=0.13,p3=0.18,p4=0.22,
p1+p2+p3=0.42<0.5,
p1+p2+p3+p4=0.64>0.5,
按照中位数的意义知中位数落在了第四组.
设中位数为x+100,0则p1+p2+p3+x×=0.5,解得x=≈4,
则中位数约为x+100=104,
所以估计高二年级全体学生本次数学成绩的中位数约为104分.
跟踪训练2-1:气象意义上从春季进入夏季的标志为连续5天的日平均温度均不低于22℃.现有甲、乙、丙三地连续5天的日平均温度(都是正整数,单位:℃)的记录数据如下:
①甲地5个数据的中位数为26,众数为22;
②乙地5个数据的平均数为26,方差为5.2;
③丙地5个数据的中位数为26,平均数为26.4,极差为8.
则从气象意义上肯定进入夏季的地区是(  )
(A)①② (B)①③
(C)②③ (D)①②③
解析:①因为甲地5个数据的众数为22,所以22至少出现2次,若有一天日平均温度(℃)低于22,则中位数不可能是26,所以甲地肯定进入夏季;
②设乙地连续5天的日平均温度由低到高为x1,x2,x3,x4,x5,
根据方差的定义,得[(x1-26)2+(x2-26)2+(x3-26)2+(x4-26)2+(x5-26)2]=5.2,
所以(x1-26)2+(x2-26)2+(x3-26)2+(x4-26)2+(x5-26)2=26,
若有一天日平均温度低于22,不妨设x1=21,则不满足方差为5.2,所以乙地肯定进入夏季;
③设丙地连续5天的日平均温度由低到高为y1,y2,y3,y4,y5,
由题意可得y3=26,y5=y1+8,
取y1=21,则y5=29,故y2≤26,y4≤29,y2+y4≤55,
由平均数的定义可得(y1+y2+y3+y4+y5)=26.4,y1+y2+y3+y4+y5=132,可得y2+y4=56,
与y2+y4≤55矛盾,所以丙地肯定进入夏季.故选D.
频率分布和频数分布一般是选用恰当的统计图或统计表进行可视化的直观描述,解题的关键是明确图表的意义,最终都是转化为频数、频率和样本容量的关系.频率分布一般都要与样本特征数综合在一起考查.
题型三 样本数字特征
[例3-1] 某单位组织“不忘初心、牢记使命”主题教育知识比赛,满分100分,统计20人的得分情况如图所示.若该20人成绩的中位数为a,平均数为b,众数为c,则下列判断错误的是(  )
(A)a=92 (B)b=92
(C)c=90 (D)b+c<2a
解析:由图得,20人中,得分为88分的有0.02×20=4人,
得分为90分的有0.25×20=5人,
得分为92分的有0.15×20=3人,
得分为94分的有0.2×20=4人,
得分为96分的有0.1×20=2人,
得分为98分的有0.05×20=1人,
得分为100分的学生有0.05×20=1人,
所以中位数为a=92分,故A正确;
平均数为b=×(88×4+90×5+92×3+94×4+96×2+98×1+100×1)=92.2分,故B错误;
众数为c=90分,故C正确;
b+c=92.2+90=182.2,2a=2×92=184,所以b+c<2a.故D正确.故选B.
[例3-2]已知数据x1,x2,…,xn,t的平均数为t,方差为,数据x1,x2,…,xn的方差为,则(  )
(A)>
(B)=
(C)<
(D)与的大小关系无法判断
解析:由=t,
得x1+x2+…+xn+t=t(n+1),
所以x1+x2+…+xn=tn,所以=t,
故两组数据的平均数都是t,
则=[(x1-t)2+(x2-t)2+…+(xn-t)2+(t-t)2],
=[(x1-t)2+(x2-t)2+…+(xn-t)2].
因为<,所以<.故选C.
跟踪训练3-1:某同学随机抽查某市10个小区所得到的绿化率情况如表所示:
小区绿化率/% 20 25 30 32
小区个数 2 4 3 1
则关于这10个小区绿化率情况,下列说法错误的是(  )
(A)方差是13% (B)众数是25%
(C)中位数是25% (D)平均数是26.2%
解析:根据题意,由表中的数据可知,小区绿化率为25%的最多,则数据的众数为25%,B正确;
小区绿化率从小到大的第5个数和第6个数都是25%,则数据的中位数为25%,C正确;
数据的平均数=(20%×2+25%×4+30%×3+32%×1)=26.2%,D正确;
数据的方差s2=[2×(20%-26.2%)2+4×(25%-26.2%)2+3×(30%-26.2%)2+1×(32%-26.2%)2]=15.96%,A错误.故选A.
用样本估计总体的集中趋势参数常用平均数,合理选用中位数、众数,用样本估计总体的离散程度参数常用方差(或标准差),合理选用极差.
题型一 抽样
1.(2017·江苏卷T3)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取    件.
解析:因为=,
所以应从丙种型号的产品中抽取×300=18(件).
答案:18
题型二 频率分布
2.(2020·天津卷T4)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( B )
(A)10 (B)18 (C)20 (D)36
解析:由题知[5.43,5.45)与[5.45,5.47)所对应的小矩形的高分别为6.25,5.00,所以直径落在区间[5.43,5.47)内的频率为(6.25+5.00)×0.02=0.225,所以直径落在区间[5.43,5.47)内的个数为80×0.225=18,故选B.
3.(2018·全国Ⅰ卷T3)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( A )
(A)新农村建设后,种植收入减少
(B)新农村建设后,其他收入增加了一倍以上
(C)新农村建设后,养殖收入增加了一倍
(D)新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
解析:因为0.6<0.37×2,
所以新农村建设后,种植收入增加,而不是减少,所以A是错误的,故选A.
4.(2016·全国Ⅲ卷T4)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图,图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃,下面叙述不正确的是( D )
(A)各月的平均最低气温都在0 ℃以上
(B)七月的平均温差比一月的平均温差大
(C)三月和十一月的平均最高气温基本相同
(D)平均最高气温高于20 ℃的月份有5个
解析:分析雷达图易知A,B,C都正确,故选D.
题型三 样本的数字特征
5.(2020·全国Ⅲ卷T3)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( C )
(A)0.01 (B)0.1 (C)1 (D)10
解析:因为样本数据x1,x2,…,xn的方差为0.01,
所以样本数据10x1,10x2,…,10xn的方差为102×0.01=1,故选C.
6.(2020·江苏卷T3)已知一组数据4,2a,3-a,5,6的平均数为4,则a的值是    .
解析:由平均数公式可得=4,解得a=2.
答案:2
第六章 检测试题
(时间:120分钟 满分:150分)
一、单项选择题:本大题共8小题,每小题5分,共40分.在每小题给出的四个选项中,只有一项是符合题目要求的.
1.某校期末考试后,为了分析该校高一年级1 000名学生的学习成绩,从中随机抽取了100名学生的成绩,就这个问题来说,下面说法中正确的是( D )
(A)1 000名学生是总体
(B)每名学生是个体
(C)每名学生的成绩是所抽取的一个样本
(D)样本容量是100
解析:根据有关的概念并且结合题意可得此题的总体、个体、样本这三个概念考查的对象都是学生成绩,而不是学生,选项A,B表达的对象都是学生,而不是成绩,所以A,B都错误.C中每名学生的成绩是所抽取的一个样本也是错的,应是每名学生的成绩是一个个体.D中样本容量是100,正确.故选D.
2.下列抽取样本的方式属于简单随机抽样的个数有( D )
①盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;
②从20件玩具中一次性抽取3件进行质量检验;
③某班有56名同学,指定个子最高的5名同学参加学校组织的篮
球赛.
(A)3 (B)2 (C)1 (D)0
解析:①②③中都不是简单随机抽样,这是因为①是放回抽样,②中是“一次性”抽取,而不是“逐个”抽取,③中“指定个子最高的5名同学”,不存在随机性,不是等可能抽样.
故选D.
3.某工厂利用随机数表对生产的600个零件进行抽样测试,先将600个零件进行编号,编号分别为001,002,…,599,600,从中抽取60个样本,如下提供随机数表的第6行:
32 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45
若从表中第6行第6列开始向右依次读取3个数据,则得到的第6个样本编号为( D )
(A)522 (B)324 (C)535 (D)578
解析:满足条件的6个样本编号为436,535,577,348,522,578,则第6个样本编号为578.故选D.
4.某公司生产三种型号的轿车,产量分别为1 600辆、6 000辆和2 000辆,为检验公司的产品质量,现从这三种型号的轿车中抽取48辆进行检验,这三种型号的轿车依次应抽取( C )
(A)16辆,16辆,16辆 (B)12辆,27辆,9辆
(C)8辆,30辆,10辆 (D)4辆,33辆,11辆
解析:这三种型号的轿车依次应抽取
48×=8(辆),
48×=30(辆),
48×=10(辆).故选C.
5.从某中学抽取10名同学,得到他们的数学成绩如下:82,85,88,90,92,92,92,96,96,98(单位:分),则可得这10名同学数学成绩的众数、中位数分别为( A )
(A)92,92 (B)92,96
(C)96,92 (D)92,90
解析:这10名同学数学成绩的众数是92分;
将该组数据按照由小到大的顺序排列,得82,85,88,90,92,92,92,
96,96,98,所以这10名同学数学成绩的中位数是×(92+92)=92分.
故选A.
6.样本中的数据为a,0,1,2,3.若该样本的平均数为1,则样本的标准差为( D )
(A) (B)
(C)2 (D)
解析:由题可得=1,解得a=-1.
所以样本的标准差为s=
=.
故选D.
7.数据6,5,4,3,2,1的60%分位数为( D )
(A)3 (B)3.5 (C)3.6 (D)4
解析:数据由小到大排序为1,2,3,4,5,6,因为6×60%=3.6,所以数据1,2,3,4,5,6的60%分位数是第4个数据4.故选D.
8.一个班数学成绩频率分布表(样本容量为60)不小心损坏了一部分,只记得样本中数据在[110,150]上的频率为0.8,则估计样本在[130,
140),[140,150]内的数据共有( B )
分组 [100,110) [110,120) [120,130) [130,140) [140,150]
频数 8 10
(A)28个 (B)30个
(C)32个 (D)34个
解析:由样本中数据在[110,150]上的频率为0.8,
所以样本中数据在[110,150]上的频数为60×0.8=48,
所以估计样本在[130,140),[140,150]内的数据共有48-8-10=30(个).故选B.
二、多项选择题:本大题共4小题,每小题5分,共20分.在每小题给出的四个选项中,有多项符合题目要求.全部选对的得5分,有选错的得0分,部分选对的得3分.
9.某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图,C年龄段从事互联网行业岗位分布条形图,则下列结论正确的是( ABC )
(A)互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上
(B)互联网行业中从事技术岗位的人数超过总人数的20%
(C)互联网行业中从事运营岗位的人数C年龄段一定比A年龄段多
(D)互联网行业中从事技术岗位的人数C年龄段一定比B年龄段多
解析:由整个互联网行业从业者年龄分布饼状图、C年龄段从事互联网行业岗位分布条形图得56%×(39.6%+17%)=31.696%>30%,
所以互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上,故A正确;
由整个互联网行业从业者年龄分布饼状图、C年龄段从事互联网行业岗位分布条形图得56%×39.6%=22.176%>20%,
所以互联网行业中从事技术岗位的人数超过总人数的20%,故B正确;
由整个互联网行业从业者年龄分布饼状图、C年龄段从事互联网行业岗位分布条形图得17%×56%=9.52%>3%,
所以互联网行业中从事运营岗位的人数C年龄段比A年龄段多,故C正确;
由整个互联网行业从业者年龄分布饼状图、C年龄段从事互联网行业岗位分布条形图得56%×39.6%=22.176%<41%,
所以互联网行业中从事技术岗位的人数C年龄段不一定比B年龄段多,故D错误.故选ABC.
10.在某次高中学科竞赛中,5 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中的数据用该组区间的中点值为代表,则下列说法中正确的是( AD )
(A)考生成绩在[70,80)内的人数最多
(B)考生成绩在[80,90)内对应的频率为0.015
(C)不及格的考生人数为1 000
(D)考生成绩的平均分约为70.5
解析:由成绩统计图知,考生成绩在[70,80)内的小矩形最高,所以频率最大,对应人数最多,所以A正确;
考生成绩在[80,90)内对应的频率为0.015×10=0.15,所以B错误;
60分以下的人数为(0.010+0.015)×10×5 000=1 250,所以C错误;
考生成绩的平均分约为45×0.10+55×0.15+65×0.20+75×0.30+
85×0.15+95×0.10=70.5,所以D正确.故选AD.
11.为普及疫情知识,某校不定期地共组织了10次全员性的防疫知识问答竞赛,下面是甲、乙两个班级10次成绩Y(单位:分)的折线图:
根据折线图,下列说法正确的是( ABCD )
(A)甲班的成绩呈上升趋势
(B)甲班、乙班的成绩平均数均为7分
(C)甲班成绩的方差大于乙班成绩的方差
(D)从第7次到第10次甲班成绩增量大于乙班成绩增量
解析:对于A,由折线图知,甲班的成绩呈上升趋势,A正确;对于B,甲班成绩平均数为=×(2+4+6+8+7+7+8+9+9+10)=7分,乙班成绩平均数为=×(9+5+7+8+7+6+8+6+7+7)=7分,=,B正确;对于C,由折线图知,甲班成绩数据比乙班成绩数据波动性更大些,所以甲班成绩的方差比乙班成绩的方差大,C正确;对于D,由折线图知,从第7次到第10次甲班成绩增量大于乙班成绩增量,D正确.故选ABCD.
12.甲、乙两人进行射击比赛,各射击4局,每局射击10次,射击命中目标得1分,未命中目标得0分.两人4局的得分情况如下:在4局比赛中,若甲、乙两人的平均得分相同,且乙的发挥更稳定,则x的取值可能是( ABC )
甲 6 6 9 9
乙 7 9 x y
(A)6 (B)7 (C)8 (D)9
解析:由题意,在4局比赛中,若甲、乙两人的平均得分相同,且乙的发挥更稳定,
则甲、乙的平均数相同,即==7.5,解得x+y=14,即y=14-x.
由乙的发挥更稳定,则甲的方差大于乙的方差,
即[(6-7.5)2+(6-7.5)2+(9-7.5)2+(9-7.5)2]>[(7-7.5)2+(9-7.5)2+
(x-7.5)2+(y-7.5)2],
即6.5>(x-7.5)2+(y-7.5)2=(x-7.5)2+(6.5-x)2,
代入验证,可得x=6,7,8时,符合上述不等式.
故选ABC.
三、填空题:本大题共4小题,每小题5分,共20分.把正确答案填在题中横线上.
13.给出以下调查:
①了解一批汽车驾校训练班学员的训练成绩是否达标;
②了解一批炮弹的杀伤力;
③某饮料厂对一批产品质量进行检查;
④调查对第十一届全国少数民族传统体育运动会的满意度;
⑤检验飞天设备中各零件产品的质量.
其中适宜用抽样调查的是    (将正确答案的序号全填上).
解析:驾校训练班学员的训练成绩直接影响驾驶安全,必须普查;炮弹的杀伤力调查具有破坏性,只能采用抽样调查;饮料质量的调查也具有破坏性,应该采用抽样调查;运动会满意度调查比较复杂,普查成本高,适宜用抽样调查;飞天设备不能有一点疏忽,每一个零件的质量都需要检查.
答案:②③④
14.甲、乙两班参加了同一学科的考试,其中甲班50人,乙班40人.甲班的平均成绩为80.5分,方差为500,乙班的平均成绩为85分,方差为360,那么甲、乙两个班全部90名学生的成绩的方差约是
     .(精确到0.1)
解析:因为甲、乙两个班全部90名学生成绩的平均数为=×80.5+×85=82.5分,
所以甲、乙两个班全部90名学生的成绩的方差为
s2=×[500+(80.5-82.5)2]+×[360+(85-82.5)2]
=
≈442.8.
答案:442.8
15.我国古代数学名著《九章算术》有一抽样问题:“今有北乡若干人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,而北乡需遣一百零八人,问北乡人数几何 ”其意思为:今有某地北面若干人,西面有7 488人,南面有6 912人,这三面要征调300人,而北面征调108人(用分层随机抽样的方法),则北面共有    人.
解析:因为共征调300人,北面征调108人,所以西面和南面共14 400人中征调192人,所以抽样比为,所以北面共有108×=8 100(人).
答案:8 100
16.已知样本x1,x2,x3,…,xn的平均数为,样本y1,y2,…,ym的平均数为(≠),若样本x1,x2,x3,…,xn,y1,y2,…,ym的平均数为,且=α+(1-α),其中0<α<,则m,n的大小关系为    .
解析:由题意得=,
=,
===+,
又=α+(1-α),
所以=α,1-α=.
又0<α<时,1-α>α,所以0<<,>,
所以m>n.
答案:m>n
四、解答题:本大题共6小题,共70分.解答应写出文字说明、证明过程或演算步骤.
17.(10分)一家小商店购进20袋白糖,每袋白糖的标准质量为500 g,为了了解这些白糖的质量情况,称出各袋白糖的质量如下(单位:g):
486,495,496,499,493,494,498,484,497,504,489,495,503,499,
500,505,498,488,496,502.
求这批白糖的15%,75%分位数.
解:把20袋白糖的质量从小到大排列为484,486,488,489,493,494,
495,495,496,496,497,498,498,499,499,500,502,503,504,505,
因为15%×20=3,75%×20=15,
所以这批白糖的15%分位数为=488.5 g.
这批白糖的75%位数为=499.5 g.
18.(12分)某高级中学100名学生在市统考中的选择理化生组合的总分数,以[160,180),[180,200),[200,220),[220,240),[240,260),
[260,280),[280,300]分组的频率分布直方图如图所示.
(1)求直方图中x的值;
(2)估计总分数在240分以上的频率;
(3)估计总分数的众数和中位数.
解:(1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,
得x=0.007 5,
故直方图中x的值为0.007 5.
(2)总分数在[240,260)内的学生有0.007 5×20×100=15(人),同理可得总分数在[260,280),[280,300]内的学生分别有10人、5人,故估计总分数在240分以上的频率为=0.3.
(3)估计总分数的众数是=230分,
因为(0.002+0.009 5+0.011)×20=0.45<0.5,
所以总分数的中位数在[220,240)内,设中位数为a,
则(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5,解得a=224,故估计总分数的中位数为224分.
19.(12分)在育民中学举行的电脑知识竞赛中,将九年级两个班参赛的学生成绩(得分均为整数)进行整理后分成五组,绘制如图所示的频率分布直方图.已知图中从左到右的第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05,第二小组的频数是40.
(1)求第二小组的频率,并补全这个频率分布直方图;
(2)求这两个班参赛的学生人数是多少
(3)求这两个班参赛学生的成绩的中位数.
解:(1)各小组的频率之和为1.00,第一、第三、第四、第五小组的频率分别是0.30,0.15,0.10,0.05.
所以第二小组的频率为1.00-(0.30+0.15+0.10+0.05)=0.40.所以落在59.5~69.5的第二小组的小长方形的高为0.04.
则补全的直方图如图所示.
(2)设九年级两个班参赛的学生人数为x人.
因为第二小组的频数为40人,频率为0.40,
所以=0.40,解得x=100.
所以九年级两个班参赛的学生人数为100人.
(3)因为(0.03+0.04)×10>0.5,
所以九年级两个班参赛学生的成绩的中位数应落在第二小组内.
设中位数为x,则0.03×10+(x-59.5)×0.04=0.5,解得x=64.5.所以中位数为64.5.
20.(12分)唐三彩是中国古代陶瓷烧制工艺的珍品,它吸取了中国国画雕塑等工艺美术的特点,在中国文化中占有重要的历史地位,在中国的陶瓷史上留下了浓墨重彩的一笔.唐三彩的生产至今已有一千多年的历史,对唐三彩的复制和仿制工艺,至今也有百余年的历史.某陶瓷厂在生产过程中,对仿制的100件工艺品测得其质量(单位:kg)数据,将数据分组如表:
分组 频数 频率
[2.20,2.30) 4
[2.30,2.40) 26
[2.40,2.50)
[2.50,2.60) 28
[2.60,2.70) 10
[2.70,2.80] 2
总计 100
(1)完成频率分布表;
(2)质量落在[2.30,2.70)中的频率及质量小于2.45的频率各是
多少
(3)统计方法中,同一组数据常用该组区间的中点值(例如区间[2.20,2.30)的中点值是2.25)作为代表,据此,估计这100个数据的平均数.
解:(1)由题意完成频率分布表,如下:
分组 频数 频率
[2.20,2,30) 4 0.04
[2.30,2,40) 26 0.26
[2.40,2,50) 30 0.30
[2.50,2,60) 28 0.28
[2.60,2,70) 10 0.10
[2.70,2,80] 2 0.02
总计 100 1.00
(2)质量落在[2.30,2.70)中的频率为0.26+0.30+0.28+0.10=0.94(或1-(0.04+0.02)=0.94),
质量小于2.45的频率为0.04+0.26+×0.30=0.45.
(3)估计这100个数据的平均数为2.25×0.04+2.35×0.26+2.45×
0.30+2.55×0.28+2.65×0.10+2.75×0.02=2.47 kg.
21.(12分)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的 分组 [-0.20, 0) [0, 0.20) [0.20, 0.40) [0.40, 0.60) [0.60, 0.80)
企业数 2 24 53 14 7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
解:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的频率为=0.21,
产值负增长的频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=ni(yi-)2
=[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6,
s==0.02×≈0.17.
所以这类企业产值增长率的平均数与标准差的估计值分别为30%,0.17.
22.(12分)为了了解居民用电情况,某地供电局抽查了该市若干户居民月平均用电量(单位:kW·h),并将数据分组为[160,180),[180,
200),[200,220),[220,240),[240,260),[260,280),[280,300],其频率分布直方图如图所示.
(1)若样本中月平均用电量在[240,260)的居民有30户,求样本容量;
(2)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组居民中,用分层随机抽样法抽取22户居民,则月平均用电量在[260,280)的居民中应抽取多少户
解:(1)由(0.002 0+0.009 5+0.011 0+0.012 5+x+0.005 0+0.002 5)×
20=1,解得x=0.007 5,
所以月平均用电量在[240,260)的频率为0.0075×20=0.15,所以样本容量为=200.
(2)月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组频率分别为0.25,0.15,0.1,0.05,
所以月平均用电量在[260,280)的用户中应抽取22×=4(户).