14.1 获取数据的基本途径及相关概念
学
习
任
务
核
心
素
养
1.知道获取数据的基本途径包括:统计报表和年鉴、社会调查、试验设计、普查和抽样、互联网等.(重点)2.了解总体、样本、样本容量的概念,了解数据的随机性.(重点)
1.通过对获取数据的途径的学习,培养数据分析的素养.2.在获取数据的过程中,培养数学建模的核心素养.
“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性.这些数据可能得自社交网络、电子商务网站、顾客来访记录和许多其他来源.
凭你的经验,日常有哪些获取数据的方法和途径呢?
知识点1 获取数据的基本途径
获取数据的基本途径
适用类型
注意问题
通过调查获取数据
对于有限总体问题,我们一般通过抽样调查或普查的方法获取数据
要充分有效地利用背景信息选择或创建更好的抽样方法,并有效地避免抽样过程中的人为错误
通过试验获取数据
没有现存的数据可以查询
严格控制试验环境,通过精心的设计安排试验,以提高数据质量
通过观察获取数据
自然现象
要通过长久的持续观察获取数据
通过查询获取数据
众多专家研究过,其收集的数据有所存储
必须根据问题背景知识“清洗”数据,去伪存真
(1)利用统计报表和年鉴属于哪种获取数据的途径?
(2)要了解一种新型灯管的寿命,能通过观察获取数据吗?
[提示] (1)属于通过查询获取数据的途径.
(2)不能,应该通过试验获取数据.
1.下面问题可以用普查的方式进行调查的是( )
A.检验一批钢材的抗拉强度
B.检验海水中微生物的含量
C.调查某小组10名成员的业余爱好
D.检验一批汽车的使用寿命
C [A不能用普查的方式调查,因为这种试验具有破坏性;B用普查的方式无法完成;C可以用普查的方式进行调查;D该试验具有破坏性,且需要耗费大量的时间,在实际生产中无法实现.]
知识点2 总体、个体、样本、样本容量的概念
一般地,在获取数据时,我们把所考察对象(某一项指标的数据)的全体叫作总体,把组成总体的每一个考察对象叫作个体,从总体中所抽取的一部分个体叫作总体的一个样本,样本中个体的数目叫作样本容量.
2.某校期末考试后,为了分析该校高一年级1
000名学生的学习成绩,从中随机抽取了100名学生的成绩单.就这个问题来说,下面说法中正确的是( )
A.1
000名学生是总体
B.每名学生是个体
C.每名学生的成绩是抽取的一个样本
D.样本容量是100
D [1
000名学生的成绩是总体,故A错误;每名学生的成绩是个体,故B错误;100名学生的成绩是抽取的一个样本,故C错误;样本容量为100,故选D.]
知识点3 统计分析的基本步骤和基本思想
(1)统计分析的基本步骤
↓
↓
(2)统计分析的基本思想:抽取具有较好代表性的样本,由样本数据的特征、规律估计总体的状况.
3.小明从网上查询得到某贫困地区10户居民家庭年收入(单位:万元)如表所示:
编号
1
2
3
4
5
6
7
8
9
10
年收入
1.2
1.3
1.8
2.0
4.6
1.7
0.9
2.1
1.0
1.6
根据以上数据,我们认为有一个数据是不准确的,需要剔除,这个数据是________.
4.6 [由于编号为5的数据为4.6,明显高于其他数据,所以这个数据是不准确的.]
类型1 获取数据途径的选择
【例1】 (1)下列数据一般是通过试验获取的是( )
A.2019年南京市的降雨量
B.2019年新生儿人口数量
C.某学校高一年级同学的数学测试成绩
D.某种特效中成药的配方
(2)“中国天眼”为500米口径球面射电望远镜(Five
hundred
meters
Aperture
Spherical
Telescope,简称FAST),是具有我国自主知识产权、世界最大单口径、最灵敏的射电望远镜.建造“中国天眼”的目的是( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
(1)D (2)C [(1)某种特效中成药的配方的数据只能通过试验获得.
(2)“中国天眼”主要是通过观察获取数据.]
选择获取数据途径的依据
选择获取数据的途径主要是根据所要研究问题的类型,以及获取数据的难易程度.有的数据可以有多种途径获取,有的数据只能通过一种途径获取,选择合适的方法和途径能够更好地提高数据的可靠性.
[跟进训练]
1.要得到某乡镇的贫困人口数据,应采取的方法是( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
A [某乡镇的贫困人口数据属于有限总体问题,所以可以通过调查获取数据.]
类型2 获取数据途径的方法的设计
【例2】 为了缓解城市的交通拥堵情况,某市准备出台限制私家车的政策,为此要进行民意调查.某个调查小组调查了一些拥有私家车的市民,你认为这样的调查结果能很好地反映该市市民的意愿吗?
[解] (1)一个城市的交通状况的好坏将直接影响着生活在这个城市中的每个人,关系到每个人的利益.为了调查这个问题,在抽样时应当关注到各种人群,既要抽到拥有私家车的市民,也要抽到没有私家车的市民.
(2)调查时,如果只对拥有私家车的市民进行调查,结果一定是片面的,不能代表所有市民的意愿.因此,在调查时,要对生活在该城市的所有市民进行随机地抽样调查,不要只关注到拥有私家车的市民.
在统计活动中,尤其是大型的统计活动,为避免一些外界因素的干扰,通常需要确定调查的对象、调查的方法与策略,需要精心设计前期的准备工作和收集数据的方法,然后对数据进行分析,得出统计推断.
[跟进训练]
2.一些期刊杂志社经常会请一些曾经高考落榜而在某方面的事业上取得成就的著名专家、学者,谈他们对高考落榜的看法,这些名人所讲的都是大同小异,不外乎“我也有过落榜的沮丧,但从长远看,它有益于我的人生”,“我是因祸得福,落榜使我走了另一条成功之路”等等.小明据此得出一条结论,上大学不如高考落榜,他的结论正确吗?
[解] 小明的结论是错误的,在众多的高考落榜生中,走出另外一条成功之路的是少数,小明通过研究一些期刊杂志社报道过的一些成功人士就得出结论是片面的,因为他的抽样不具有代表性.
1.下列要研究的数据一般通过试验获取的是( )
A.某品牌电视机的市场占有率
B.某电视连续剧在全国的收视率
C.某校七年级一班的男女同学的比例
D.某型号炮弹的射程
D [选项D中某型号炮弹的射程一般通过试验获取.]
2.下列调查方式中,可用“普查”方式的是( )
A.调查某品牌电脑的市场占有率
B.调查某综艺节目在全国的收视率
C.调查某幼儿园男孩、女孩的比例
D.全国中学生的视力情况
[答案] C
3.粮食安全是每一个国家必须高度关注的问题,在现有条件下,降雨量对粮食生产的影响是非常巨大的,某次降雨之后该地气象台播报说本次降雨量是该地有气象记录以来最大的一次,气象台获取这些数据的途径是( )
A.通过调查获取数据
B.通过试验获取数据
C.通过观察获取数据
D.通过查询获得数据
C [该地的气象记录和本次的降雨量数据都是通过观察获取的.]
4.为了准确调查我国某一时期的人口总量、人口分布、民族人口、城乡人口、受教育的程度、迁徙流动、就业状况等多方面的情况,需要用________的方法进行调查.
普查 [要获得系统、全面、准确的信息,在对总体没有破坏的前提下,普查无疑是一个非常好的方法.要求全面、准确调查人口的状况等,应当用普查的方法进行调查.]
5.为了了解某班学生的会考合格率,要从该班70人中选30人进行考察分析,则70人的会考成绩的全体是________,样本是________,样本容量是________.
总体 30人的会考成绩 30 [为了强调调查目的,由总体、样本、样本容量的定义知,70人的会考成绩的全体是总体,样本是30人的会考成绩,样本容量是30.]
回顾本节知识,自我完成以下问题:
1.获取数据的途径一般有哪些?
[提示] 获取数据的途径一般有很多种,如统计报表和年鉴、社会调查、试验设计、普查和抽样调查、互联网等.
2.统计的基本概念有哪几个?
[提示] 总体、个体、样本、样本容量.
3.在实际统计中如何选择统计方式?
[提示] 要依据统计的对象,是否具有破坏性,是否需要了解每一个个体等等情况来选择抽查还是普查.
PAGE
-
2
-14.2 抽样
14.2.1 简单随机抽样
学
习
任
务
核
心
素
养
1.通过实例,了解简单随机抽样的含义及其解决问题的过程.(重点)2.掌握两种简单随机抽样方法:抽签法和随机数表法.(重点、难点)
通过对简单随机抽样的概念和应用的学习,培养数学数据分析素养.
抽样调查是获取数据的主要途径,因为样本具有随机性,其好坏直接影响着统计问题分析结论的可靠性,那么如何合理地抽取样本呢?
知识点1 简单随机抽样
(1)简单随机抽样的概念
一般地,从个体数为N的总体中逐步不放回地取出n个个体作为样本(n<N),如果每个个体都有相同的机会被取到,那么这样的抽样方法称为简单随机抽样.
(2)常用的简单随机抽样方法有抽签法和随机数表法.
1.某班50名学生中有30名男生,20名女生,用简单随机抽样抽取1名学生参加某项活动,则抽到女生的可能性为( )
A.0.4 B.0.5 C.0.6 D.
A [在简单随机抽样中,每个个体被抽到机会相等,即=0.4.]
知识点2 抽签法抽取样本的步骤
(1)将总体中的N个个体编号;
(2)将这N个号码写在形状、大小相同的号签上;
(3)将号签放在同一箱中,并搅拌均匀;
(4)从箱中每次抽出1个号签,连续抽取k次;
(5)将总体中与抽到的号签的编号一致的k个个体取出.
采用抽签法抽取样本时,为什么将编号写在外观、质地等无差别的小纸片(也可以使用卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌?
[提示] 为了使每个号签被抽取的可能性相等,保证抽样的公平性.
2.下列抽样试验中,适合采用抽签法的是( )
A.从某厂生产的2
000件产品中抽取500件进行质量检验
B.从某厂生产的2
000件产品中抽取10件进行质量检验
C.从某厂生产的五箱(每箱10件)产品中抽取10件进行质量检验
D.从甲、乙两厂生产的两箱(每箱10件)产品中抽取6件进行质量检验
C [A、B两个选项中总体容量较大,不适宜采用抽签法,D选项中甲、乙两厂生产的产品具有差异性,不能放在一起抽签.故选C.]
知识点3 随机数表法抽取样本的步骤
(1)对总体中的个体编号(每个号码位数一致);
(2)在随机数表中任选一个数;
(3)从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过,如此继续下去,直到取满为止;
(4)根据选定的号码抽取样本.
3.中国福利彩票“双色球”中的红色球号码区的33个号码分别为01,02,…,33.一位彩民用随机数表法从红色球号码区的33个号码中选取6个号码,选取方法是从下面的随机数表中第1行第6列开始,从左向右读数,则依次选出来的第3个号码为( )
49
54
43
54
82
17
37
93
23
78
87
35
20
96
43
84
26
34
91
64
84
42
17
53
31
57
24
55
06
88
77
04
74
47
67
21
76
33
50
25
A.21
B.32
C.09
D.20
C [根据随机数表法,从第1行第6列的3开始往后数,每次数两个数字代表生成一个随机数,如果随机数大于33则不满足条件,不计入选择的数字中,由此选出的号码依次为21,32,09,….故选C.]
类型1 简单随机抽样的判断
【例1】 下列5个抽样中,简单随机抽样的个数是( )
①一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件;
②仓库中有1万支奥运火炬,从中一次性抽取100支火炬进行质量检查;
③某班从50名同学中,选出5名数学成绩最优秀的同学代表本班参加数学竞赛;
④一彩民选号,从装有33个大小、形状都相同的号签的盒子中无放回地抽出6个号签.
A.0
B.1
C.2
D.3
B [根据简单随机抽样的特点逐个判断.①不是简单随机抽样.因为一儿童从玩具箱的20件玩具中任意拿一件玩,玩后放回再拿一件,连续玩了5件它不是“逐个”抽取.②不是简单随机抽样.虽然“一次性抽取”和“逐个抽取”不影响个体被抽到的可能性,但简单随机抽样要求的是“逐个抽取”.③不是简单随机抽样.因为5名同学是从中挑出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“等可能抽样”的要求.④是简单随机抽样.因为总体中的个体数是有限的,并且是从总体中逐个进行抽取的,等可能的抽样.综上,只有④是简单随机抽样.]
简单随机抽样必须具备的特点
(1)被抽取样本的总体中的个体数N是有限的;
(2)抽取的样本是从总体中逐个抽取的;
(3)简单随机抽样是一种等可能的抽样.
如果三个特征有一个不满足,就不是简单随机抽样.
[跟进训练]
1.为了进一步严厉打击交通违法,交警队在某一路口随机抽查司机是否酒驾,这种抽查是( )
A.简单随机抽样
B.抽签法
C.随机数表法
D.以上都不对
D [由于不知道总体的情况(包括总体个数),因此不属于简单随机抽样.]
类型2 抽签法的应用
【例2】 从20架钢琴中抽取5架进行质量检查,请用抽签法确定这5架钢琴.
[解] 第一步,将20架钢琴编号,号码是01,02,…,20.
第二步,将号码分别写在外观、质地等无差别的小纸片上作为号签.
第三步,将小纸片放入一个不透明的盒里,充分搅匀.
第四步,从盒中不放回地逐个抽取5个号签,使与号签上编号相同的钢琴进入样本.
1.一个抽样试验能否用抽签法,关键看两点:一是制签是否方便;二是个体之间差异不明显.
2.应用抽签法时应注意的问题:
(1)编号时,如果已有编号可不必重新编号;
(2)号签要求大小、形状完全相同;
(3)号签要均匀搅拌;
(4)根据实际需要采用有放回或无放回抽取.
[跟进训练]
2.为迎接2022年北京冬奥会,奥委会现从报名的某高校30名志愿者中选取6人组成奥运志愿小组,请用抽签法设计抽样方案.
[解] (1)将30名志愿者编号,号码分别是01,02,…,30.
(2)将号码分别写在外观、质地等无差别的小纸片上作为号签.
(3)将小纸片放入一个不透明的盒里,充分搅匀.
(4)从盒中不放回地逐个抽取6个号签,使与号签上编号相同的志愿者进入样本.
类型3 随机数表法及其综合应用
【例3】 某市质监局要检查某公司某个时间段生产的500克袋装牛奶的质量是否达标,现从500袋牛奶中抽取10袋进行检验.
(1)利用随机数表法抽取样本时,应如何操作?
(2)如果用随机试验生成部分随机数如下所示,据此写出应抽取的袋装牛奶的编号.
162,277,943,949,545,354,821,737,932,354,873,520,964,384,263,491,648,642,175,331,572,455,068,877,047,447,672,172,065,025,834,216,337,663,013,785,916,955,567,199,810,507,175,128,673,580,667.
(3)质监局对该公司生产的袋装牛奶检验的质量指标有两个:一是每袋牛奶的质量满足500±5g,二是10袋质量的平均数≥500g,同时满足这两个指标,才认为公司生产的牛奶为合格,否则为不合格.经过检测得到10袋袋装牛奶的质量(单位:g)为:
502,500,499,497,503,499,501,500,498,499.
计算这个样本的平均数,并按照以上标准判断牛奶质量是否合格.
[解] (1)第一步,将500袋牛奶编号为001,002,…,500.
第二步,用随机数工具产生001~500范围内的随机数.
第三步,把产生的随机数作为抽中的编号,使编号对应的袋装牛奶进入样本.
第四步,重复上述过程,直到产生不同的编号等于样本所需要的数量.
(2)应抽取的袋装牛奶的编号为:162,277,354,384,263,
491,175,331,455,068.
(3)=
=499.8<500,
所以该公司的牛奶质量不合格.
1.该公司对质监局的这种检验方法并不认可,公司自己质检部门抽取了100袋牛奶按照本例(3)检验标准,统计得到这100袋袋装牛奶的质量都满足500±5g,平均数为500.4g,你认为质监局和公司的检验结果哪一个更可靠?为什么?
[解] 该公司的质检部门的检验结果更可靠.因为质监局抽取的样本较少,不能很好地反映总体,该公司的质检部门抽取的样本量较大,一般来说,样本量大的会好于样本量小的.尤其是样本量不大时,增加样本量可以较好地提高估计的效果.
2.为进一步加强公司生产牛奶的质量,规定袋装牛奶的质量变量值为Yi=,质监局又抽取了一个容量为50的样本,其质量变量值如下:
1
1
1
0
1
1
1
1
0
0
1
0
1
0
1
0
1
0
1
0
1
1
1
1
0
1
0
1
1
1
0
0
0
1
0
1
0
1
0
0
1
0
0
1
0
1
0
1
0
1
据此估计该公司生产的袋装牛奶质量不低于500
g的比例.
[解] 由样本观测数据,计算可得样本平均数为=0.56,据此估计该公司生产的袋装牛奶质量不低于500
g的比例约为0.56.
随机数表法的注意点
(1)当总体容量较大,样本容量不大时,可用随机数表法抽取样本.
(2)用随机数表法抽取样本,为了方便,在编号时需统一编号的位数.
(3)掌握利用信息技术产生随机数的方法和规则.
[跟进训练]
3.现有120台机器,请用随机数法抽取10台机器,写出抽样过程.
[解] 第一步,先将120台机器编号,可以编为000,001,002,…,119;
第二步,利用工具(转盘、科学计算器或计算机等)产生000,001,002,…,119中的随机数,产生的数是几,就选第几号个体;
第三步,重复第二步,若生成的随机数重复,则剔除重复的编号并重新产生随机数,凡不在000~119中的数跳过去不取,直至选到预先设定的样本容量.
1.使用简单随机抽样从1
000件产品中抽出50件进行某项检查,合适的抽样方法是( )
A.抽签法
B.随机数表法
C.随机抽样法
D.以上都不对
B [由于总体相对较大,样本容量较小,故采用随机数表法较为合适.]
2.抽签法确保样本代表性的关键是( )
A.制签
B.搅拌均匀
C.逐一抽取
D.抽取不放回
B [若样本具有很好的代表性,则每一个个体被抽取的机会相等,故需要对号签搅拌均匀.]
3.下面的抽样方法中,简单随机抽样的个数是( )
①某班50名同学,学校指定期末成绩最高的5名同学参加学科竞赛;②从20个生产线上连续生产的产品中一次性抽取3个进行质检;③从无数个个体中抽取30个个体作为样本.
A.3
B.2
C.1
D.0
D [①不满足简单随机抽样中等可能抽样的条件;②不满足简单随机抽样中逐个抽取的条件;③不满足简单随机抽样中总体容量有限的条件.故选D.]
4.在总体为N的一批零件中抽取一个容量为30的样本,若每个零件被抽取的可能性为25%,则N的值为________.
120 [据题意=0.25,故N=120.]
5.一个总体容量为60,其中的个体编号为00,01,02,…,59.现需从中抽取一个容量为7的样本,请从随机数表的倒数第5行(下表为随机数表的最后5行)第11~12列的18开始,依次向下,到最后一行后向右,直到取足样本,则抽取样本的号码是________________________.
95
33
95
22
00
18
74
72
00
18
46
40
62
98
80
54
97
20
56
95
38
79
58
69
32
81
76
80
26
92
15
74
80
08
32
16
46
70
50
80
82
80
84
25
39
90
84
60
79
80
67
72
16
42
79
71
59
73
05
50
24
36
59
87
38
82
07
53
89
35
08
22
23
71
77
91
01
93
20
49
96
35
23
79
18
05
98
90
07
35
82
96
59
26
94
66
39
67
98
60
[答案] 18,05,07,35,59,26,39
回顾本节知识,自我完成以下问题:
1.判断一个抽样方法是否是简单随机抽样的关键是什么?
[提示] 要判断所给的抽样方法是不是简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的四个特点:总体有限、逐个抽取、无放回抽取、等可能抽取.
2.常见的随机抽样方法有哪些?
[提示] 抽签法和随机数表法.
3.抽签法有什么优点和缺点?
[提示] (1)优点:简单易行,当总体的个体数不多时,使总体处于“搅拌”均匀的状态比较容易,这时,每个个体都有均等的机会被抽中,从而能够保证样本的代表性.
(2)缺点:仅适用于个体数较少的总体,当总体容量较大时,费时费力又不方便,况且,如果号签搅拌的不均匀,可能导致抽样不公平.
PAGE
-
7
-14.2.2 分层抽样
学
习
任
务
核
心
素
养
1.了解分层抽样的特点和适用范围.(重点)2.了解分层抽样的必要性,掌握各层样本量比例分配的方法.(重点、难点)3.
结合具体实例,掌握分层抽样的样本均值.(重点)
1.通过对分层抽样的学习,培养数学抽象素养.2.通过对分层抽样的应用,培养数据分析素养.
某高中高一新生共有900人,其中男生500人,女生400人.学校现在想了解高一新生对文史类课程的看法,以便开设有关选修课程,准备从高一新生中抽取45人进行访谈:
(1)如果直接采用简单随机抽样,会有什么缺点?
(2)采用怎样的抽样方法较好?
知识点 分层抽样
(1)分层抽样的概念
当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几个部分,然后按各部分在总体中所占的比实施抽样,这样的抽样方法叫作分层抽样,所分成的各个部分称为层.
分层抽样的总体具有什么特性?
[提示] 分层抽样的总体按一个或多个变量划分成若干个子总体,并且每一个个体属于且仅属于一个子总体.
(2)分层抽样的步骤
①将总体按一定标准分层;
②计算各层的个体数与总体的个体数的比;
③按各层的个体数占总体的个体数的比确定各层应抽取的样本容量;
④在每一层进行抽样(可用简单随机抽样).
1.某林场有树苗30
000棵,其中松树苗4
000棵.为调查树苗的生长情况,采用分层抽样的方法抽取一个容量为150的样本,则样本中松树苗的数量为( )
A.30 B.25 C.20 D.15
C [样本中松树苗为4
000×=4
000×=20(棵).]
2.某学院的A,B,C三个专业共有1
200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本.已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生.
40 [C专业的学生有1
200-380-420=400(名),由分层抽样原理,应抽取120×=40(名).]
类型1 对分层抽样概念的理解
【例1】 (1)某政府机关在编人员共100人,其中副处级以上干部10人,一般工作人员70人,后勤人员20人,上级部门为了了解该机关对政府机构改革的意见,要从中抽取20人,用下列方法最合适的是( )
A.抽签法
B.随机数法
C.简单随机抽样
D.分层抽样
(2)分层抽样又称类型抽样,即将相似的个体归入一类(层),然后每类抽取若干个个体构成样本,所以分层抽样为保证每个个体等可能抽样,必须进行( )
A.每层等可能抽样
B.每层可以不等可能抽样
C.所有层按同一抽样比等可能抽样
D.所有层抽取的个体数量相同
(1)D (2)C [(1)总体由差异明显的三部分构成,应选用分层抽样.
(2)保证每个个体等可能的被抽取是三种基本抽样方式的共同特征,为了保证这一点,分层抽样时必须在所有层都按同一抽样比等可能抽取.]
1.使用分层抽样的前提
分层抽样的总体按一个或多个变量划分成若干个子总体,并且每一个个体属于且仅属于一个子总体,而层内个体间差异较小.
2.使用分层抽样应遵循的原则
(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;
(2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
[跟进训练]
1.下列问题中,最适合用分层抽样抽取样本的是( )
A.从10名同学中抽取3人参加座谈会
B.某社区有500个家庭,其中高收入的家庭125户,中等收入的家庭280户,低收入的家庭95户,为了了解生活购买力的某项指标,要从中抽取一个容量为100户的样本
C.从1
000名工人中,抽取100人调查上班途中所用时间
D.从生产流水线上,抽取样本检查产品质量
B [A中总体所含个体无差异且个数较少,适合用简单随机抽样;C和D中总体所含个体无差异且个数较多,不适合用分层抽样;B中总体所含个体差异明显,适合用分层抽样.]
类型2 分层抽样的应用
【例2】 某学校有在职人员160人,其中行政人员有16人,教师有112人,后勤人员有32人.教育部门为了了解在职人员对学校机构改革的意见,要从中抽取一个容量为20的样本,请利用分层抽样的方法抽取,写出抽样过程.
分层抽样中各层的样本容量如何确定?
[解] 第一步,确定抽样比,样本容量与总体容量的比为=.
第二步,确定分别从三类人员中抽取的人数,从行政人员中抽取16×=2(人);从教师中抽取112×=14(人);从后勤人员中抽取32×=4(人).
第三步,采用简单随机抽样的方法,抽取行政人员2人,教师人员14人,后勤人员4人.
第四步,把抽取的个体组合在一起构成所需样本.
分层抽样的步骤
[跟进训练]
2.某一个地区共有5个乡镇,人口3万人,其人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.
[解] 因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法.
具体过程如下:
第一步,将3万人分为5层,其中一个乡镇为一层.
第二步,按照样本容量的比例求得各乡镇应抽取的人数分别为60人,40人,100人,40人,60人.
第三步,按照各层抽取的人数随机抽取各乡镇应抽取的样本.
第四步,将300人合到一起,即得到一个样本.
类型3 分层抽样中的计算问题
【例3】 (1)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查,假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( )
A.101
B.808
C.1
212
D.2
012
(2)将一个总体分为A,B,C三层,其个体数之比为5∶3∶2.若用分层抽样方法抽取容量为100的样本,则应从C中抽取________个个体.
(3)分层抽样中,总体共分为2层,第1层的样本量为20,样本平均数为3,第2层的样本量为30,样本平均数为8,则该样本的平均数为____________.
(1)B (2)20 (3)6 [(1)因为甲社区有驾驶员96人,并且在甲社区抽取的驾驶员的人数为12人,
所以四个社区抽取驾驶员的比例为=,
所以驾驶员的总人数为(12+21+25+43)÷=808(人).
(2)∵A,B,C三层个体数之比为5∶3∶2,又有总体中每个个体被抽到的概率相等,∴分层抽样应从C中抽取100×=20(个)个体.
(3)=×3+×8=6.]
在例3(2)中,A,B,C三层的样本的平均数分别为15,30,20,则样本的平均数为________.
20.5 [由题意可知样本的平均数为
=×15+×30+×20=20.5.]
进行分层抽样的相关计算时,常用到的2个关系
?1?=;
?2?总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.
[跟进训练]
3.某教育机构为了了解我省广大师生对新高考改革的看法,对某市部分学校500名师生进行调查,统计结果如表,在全体师生中随机抽取1名“赞成改革”的人是学生的可能性为0.3,且z=2y,现从全部500名师生中用分层抽样的方法抽取50名进行问卷调查,则应抽取“不赞成改革”的学生人数为________.
赞成改革
不赞成改革
无所谓
老师
120
y
40
学生
x
z
130
4 [依题意得=0.3,解得x=150,所以y+z=500-120-150-40-130=60.由解得
所以应抽取“不赞成改革”的学生人数为×40=4.]
1.某校初一有500名学生,为了培养学生良好的阅读习惯,学校要求他们从四大名著中选一本阅读,其中有200人选《三国演义》,125人选《水浒传》,125人选《西游记》,50人选《红楼梦》,若采用分层抽样的方法随机抽取40名学生分享他们的读后感,则选《西游记》的学生抽取的人数为( )
A.5
B.10
C.12
D.15
B [根据分层抽样的定义可得选《西游记》的学生抽取的人数为×125=10,故选B.]
2.某学校为了了解三年级、六年级、九年级这三个年级之间的学生的课业负担情况,拟从这三个年级中按人数比例抽取部分学生进行调查,则最合理的抽样方法是( )
A.抽签法
B.简单随机抽样
C.分层抽样
D.随机数法
C [根据年级不同产生差异及按人数比例抽取易知应为分层抽样.]
3.甲校有3
600名学生,乙校有5
400名学生,丙校有1
800名学生,为统计三校学生某方面的情况,计划采用分层抽样法抽取一个容量为90的样本,应在这三校分别抽取学生( )
A.30人,30人,30人
B.30人,45人,15人
C.20人,30人,40人
D.30人,50人,10人
B [先求抽样比==,再各层按抽样比分别抽取,甲校抽取3
600×=30(人),乙校抽取5
400×=45(人),丙校抽取1
800×=15(人),故选B.]
4.某单位青年、中年、老年职员的人数之比为10∶8∶7,从中抽取200名职员作为样本,若每人被抽取的概率是0.2,则该单位青年职员的人数为( )
A.280
B.320
C.400
D.1
000
C [依题意,分层抽样抽取的该单位青年职员人数为×200=80,因为分层抽样每个个体被抽到的可能性相等,所以该单位的青年职员共有=400人.故选C.]
5.某大学为了了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.
60 [根据题意,应从一年级本科生中抽取的人数为×300=60.]
回顾本节知识,自我完成以下问题:
1.简单随机抽样和分层抽样有什么区别和联系?
[提示] 区别:简单随机抽样是从总体中逐个抽取样本;分层抽样则首先将总体分成几层,在各层中按比例分配抽取样本.
联系:(1)抽样过程中每个个体被抽到的可能性相等;
(2)每次抽出个体后不再将它放回,即不放回抽样.
2.在分层抽样中,N为总体容量,n为样本容量,如何确定各层的个体数?
[提示] 每层抽取的个体的个数为ni=Ni×,其中Ni为第i(i=1,2,…,k)层的个体数,
为抽样比.
3.在分层抽样中,总体容量、样本容量、各层的个体数、各层抽取的样本数这四者之间有何关系?
[提示] 设总体容量为N,样本容量为n,第i(i=1,2,…,k)层的个体数为Ni,各层抽取的样本数为ni,则=,这四者中,已知其中三个可以求出另外一个.
PAGE
-
7
-14.3 统计图表
14.3.1 扇形统计图、折线统计图、频数直方图
学
习
任
务
核
心
素
养
1.理解并掌握统计图表的画法及应用.(重点、易混点)2.结合实例,能用样本估计总体的取值规律.(重点、难点)
1.通过对统计图表的学习,培养数学抽象的核心素养.2.数学运算与通过应用统计图表估计总体的取值规律,培养数据分析与数学运算的核心素养.
2015年7月6日的《中国青年报》报道:“根据调查,有担当(76.3%)和踏实(74.5%)的年轻人最被受访者欣赏,奋进(54.7%)、坚毅(54.1%)、有梦想(50.2%)、有闯劲儿(40.1%)、沉稳(36.7%)、直率(34.6%)、幽默(33.4%)、活泼(27.2%)、庄重(20.3%)、洒脱(20.0%)也是受访者欣赏的品质.”
你能将这一调查结果用图表进行形象化表示吗?
知识点 统计图表
统计图表
主要应用
扇形统计图
能够直观描述各类数据占总体的比例
频数直方图
既直观反映分布状况,又可以表现变化趋势
折线统计图
描述数据随时间的变化趋势
1.思考辨析(正确的画“√”,错误的画“×”)
(1)频数直方图中小长方形的高表示该组上的个体在样本中出现的频数.
( )
(2)扇形统计图表示的是比例,条形图不表示比例.
( )
[提示] (1)正确.
(2)错误.条形图也可以表示.
[答案] (1)√ (2)×
2.把过期的药品随意丢弃,会造成对土壤和水体的污染,危害人们的健康.如何处理过期药品,有关机构随机对若干家庭进行调查,调查结果如图,其中对过期药品处理不正确的家庭达到( )
A.79%
B.80%
C.18%
D.82%
D [79%+1%+2%=82%.]
类型1 频率分布表和频数直方图的画法
【例1】 一个农技站为了考察某种大麦穗生长的分布情况,在一块试验田里抽取了100株麦穗,量得长度如下(单位:cm):
6.5 6.4 6.7 5.8 5.9 5.9 5.2 4.0 5.4 4.6
5.8 5.5 6.0 6.5 5.1 6.5 5.3 5.9 5.5 5.8
6.2 5.4 5.0 5.0 6.8 6.0 5.0 5.7 6.0 5.5
6.8 6.0 6.3 5.5 5.0 6.3 5.2 6.0 7.0 6.4
6.4 5.8 5.9 5.7 6.8 6.6 6.0 6.4 5.7 7.4
6.0 5.4 6.5 6.0 6.8 5.8 6.3 6.0 6.3 5.6
5.3 6.4 5.7 6.7 6.2 5.6 6.0 6.7 6.7 6.0
5.6 6.2 6.1 5.3 6.2 6.8 6.6 4.7 5.7 5.7
5.8 5.3 7.0 6.0 6.0 5.9 5.4 6.0 5.2 6.0
6.3 5.7 6.8 6.1 4.5 5.6 6.3 6.0 5.8 6.3
根据上面的数据列出频率分布表,绘制出频数直方图,并估计在这块试验田里长度在5.75~6.35
cm之间的麦穗所占的百分比.
[解] (1)计算最大值与最小值的差:7.4-4.0=3.4.
(2)决定组距与组数:
若取组距为0.3,因为≈11.3,需分为12组,组数合适,所以取组距为0.3,组数为12.
(3)决定分点:
使分点比数据多一位小数,并且把第1小组的起点稍微减小一点,那么所分的12个小组可以是3.95~4.25,4.25~4.55,4.55~4.85,…,7.25~7.55.
(4)列频率分布表:
分组
频数
频率
[3.95,4.25)
1
0.01
[4.25,4.55)
1
0.01
[4.55,4.85)
2
0.02
[4.85,5.15)
5
0.05
[5.15,5.45)
11
0.11
[5.45,5.75)
15
0.15
[5.75,6.05)
28
0.28
[6.05,6.35)
13
0.13
[6.35,6.65)
11
0.11
[6.65,6.95)
10
0.10
[6.95,7.25)
2
0.02
[7.25,7.55]
1
0.01
合计
100
1.00
(5)绘制频数直方图如图.
从表中看到,样本数据落在5.75~6.35之间的频率是0.28+0.13=0.41,于是可以估计,在这块试验田里长度在5.75~6.35
cm之间的麦穗约占41%.
频率分布表绘制频数直方图应注意的问题
(1)在绘制出频率分布表后,绘制频数直方图的关键就是确定小矩形的高.一般地,频数直方图中两坐标轴上的单位长度是不一致的,合理的定高方法是“以一个恰当的单位长度”(没有统一规定),然后以各组的“频数”所占的比例来定高.如我们预先设定以“”为1个单位长度,代表“1”,则若一个组的频数为2,则该小矩形的高就是“”(占两个单位长度),如此类推.
(2)数据要合理分组,组距要选取恰当,一般尽量取整,数据为30~100个左右时,应分成5~12组,在频数直方图中,小长方形的高就是频数,各组频数之和等于样本容量.
[跟进训练]
1.如表所示给出了在某校500名12岁男孩中,用随机抽样得出的120人的身高(单位:cm).
区间界限
[122,126)
[126,130)
[130,134)
[134,138)
[138,142)
人数
5
8
10
22
33
区间界限
[142,146)
[146,150)
[150,154)
[154,158]
人数
20
11
6
5
(1)列出样本频率分布表;
(2)画出频数直方图;
(3)估计身高小于134
cm的人数占总人数的百分比.
[解] (1)样本频率分布表如下:
分组
频数
频率
[122,126)
5
0.04
[126,130)
8
0.07
[130,134)
10
0.08
[134,138)
22
0.18
[138,142)
33
0.28
[142,146)
20
0.17
[146,150)
11
0.09
[150,154)
6
0.05
[154,158]
5
0.04
合计
120
1.00
(2)频数直方图如下:
(3)由样本频率分布表可知,身高小于134
cm的男孩出现的频率为0.04+0.07+0.08=0.19,所以我们估计身高小于134
cm的人数占总人数的19%.
类型2 频数直方图的应用
【例2】 为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频数直方图(如图所示).
(1)第二小组的频率是多少?样本容量是多少?
(2)若次数在110以上(含110次)为达标,则该校全体高一年级学生的达标率是多少?
[解] (1)由频数直方图得,各组的频数分别为6,12,54,42,24,12,所以样本容量为150,因此第二小组的频率为=0.08.
(2)由频数直方图得达标的各组频数分别为54,42,24,12,可估计该校高一年级学生的达标率为×100%=88%.
频数直方图的性质:因为小矩形的高表示频数,各组频数的和为样本容量,各组的频率=频数/样本容量,即样本容量=频数/相应的频率.
[跟进训练]
2.某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频数直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频数直方图,这200名学生中每周的自习时间不少于22.5小时的频率是( )
A.0.28
B.0.3
C.0.6
D.0.7
D [由频数直方图可知每周自习时间不少于22.5小时的人数为80+40+20=140.
这200名学生中每周的自习时间不少于22.5小时的频率是=0.7,故选D.]
类型3 统计图表的综合应用
【例3】 如图是根据某市3月1日至3月10日的最低气温(单位:℃)的情况绘制的折线统计图,试根据折线统计图反映的信息,绘制该市3月1日到10日最低气温(单位:℃)的扇形统计图.
[解] 该城市3月1日至10日的最低气温(单位:℃)情况如下表:
日期
1
2
3
4
5
6
7
8
9
10
最低气温(℃)
-3
-2
0
-1
1
2
0
-1
2
2
其中最低气温为-3
℃的有1天,占10%,最低气温为-2
℃的有1天,占10%,最低气温为-1℃的有2天,占20%,最低气温为0℃的有2天,占20%,最低气温为1℃的有1天,占10%,最低气温为2℃的有3天,占30%,扇形统计图如图所示.
若本例中条件不变,绘制该市3月1日到3月10日最低气温(单位:℃)的频数直方图.[解] 该城市3月1日到3月10日的最低气温(单位:℃)情况如下表:日期12345678910最低气温(℃)-3-20-1120-122其中最低气温为-3
℃的有1天,最低气温为-2
℃的有1天,最低气温为-1
℃的有2天,最低气温为0
℃的有2天,最低气温为1
℃的有1天,最低气温为2
℃的有3天.频数直方图如图所示.
折线统计图的读图方法
(1)读折线统计图时,首先要看清楚直角坐标系中横、纵坐标表示的意义,其次要明确图中的数量及其单位.
(2)在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况,从陡峭程度上,可分析数据间相对增长、下降的幅度.
[跟进训练]
3.对某校2020年高中毕业生去向调查如下:
上本科
上专科
上技校
参军
直接就业
其他
25.4%
20.6%
15.7%
5.2%
20.4%
12.7%
用适当的方式(统计图表)表示出上面的数据.
[解] 用条形统计图、折线统计图和扇形统计图来分别表示如下:
由以上可得,用条形统计图与扇形统计图来表示更直观清楚.
1.如果想用统计图来反映各数据的变化趋势,比较合适的统计图是( )
A.条形图
B.折线图
C.扇形图
D.其他图形
[答案] B
2.如图是甲、乙、丙、丁四组人数的扇形统计图的部分结果,根据扇形统计图的情况可以知道丙、丁两组人数和为( )
A.250
B.150
C.400
D.300
A [甲组人数是120,占30%,则总人数是=400(人).则乙组人数是400×7.5%=30(人),则丙、丁两组人数和为400-120-30=250.]
3.甲、乙两个城市2020年4月中旬每天的最高气温统计图如图所示,则这9天里,气温比较稳定的是________城市.(填“甲”或“乙”)
甲 [这9天里,乙城市的最高气温约为35
℃,最低气温约为20
℃;甲城市的最高气温约为25
℃,最低气温约为21
℃.故甲城市气温较稳定.]
4.某班计划开展一些课外活动,全班有40名学生报名参加,他们就乒乓球、足球、跳绳、羽毛球4项活动的参加人数做了统计,绘制了频数直方图(如图所示),那么参加羽毛球活动的人数的频率是________.
0.1 [参加羽毛球活动的人数是4,则频率是=0.1.]
5.某频率分布表(样本容量为50)不小心被损坏了一部分,只记得样本中数据在[20,60)内的频率为0.6,则估计样本在[40,50),[50,60)的数据个数之和是________.
分组
[10,20)
[20,30)
[30,40)
频数
3
4
5
21 [由题意可设样本在[40,50),[50,60)内的数据个数之和为x,则=0.6,∴x=21.]
回顾本节知识,自我完成以下问题:
1.为什么要对样本数据进行分组?
[提示] 不分组很难看出样本中的数字所包含的信息,分组后,计算出频率,从而估计总体的分布特征.
2.频率分布表与频数直方图有什么不同?
[提示] 频率分布表能使我们清楚地知道数据分布在各个小组的个数,而频数直方图则是从各个小组数据在样本容量中大小的角度来表示数据分布的规律.
3.频数直方图、折线统计图及扇形统计图各有什么特点?
[提示] 频数直方图及折线统计图特别适用于数据量很大的情况,但却损失了数据的部分信息.扇形统计图适合表示总体的各个部分所占比例的问题,但不适用于总体分成部分较多的问题.
PAGE
-
9
-14.3.2 频率直方图
学
习
任
务
核
心
素
养
1.通过对实例的分析,体会总体分布的意义和作用.2.在表示样本数据的过程中,学会列频率分布表,画频率直方图、频率折线图,体会它们各自的特点,学会应用频率直方图分析个体在总体中的分布位置.(重点)3.会利用样本数据的四种图表估计总体分布.
1.通过对问题中数据样本进行分析,培养数据分析的数学核心素养.2.通过对样本数据的计算,培养数学运算的数学核心素养.
以下是某学校全体学生一次政治考试的成绩.
76
83
88
89
72
67
88
85
90
87
74
65
86
71
88
90
82
90
81
78
76
75
78
86
79
71
73
82
76
90
77
81
83
77
93
94
84
70
77
89
83
84
68
74
59
77
86
89
78
86
76
85
83
69
81
84
90
85
76
79
80
82
74
64
89
84
88
73
70
84
92
88
82
73
86
69
84
68
70
73
82
84
82
66
68
82
75
72
74
79
82
67
70
81
77
89
77
89
76
73
79
79
72
83
88
69
78
70
74
74
76
75
77
88
92
80
86
84
85
71
67
80
65
82
78
83
88
64
83
85
79
91
80
77
90
81
82
63
87
70
75
82
74
91
66
80
67
60
90
81
76
81
90
68
68
88
88
82
76
91
90
72
66
82
85
70
70
82
76
82
84
83
80
69
83
90
61
74
69
79
80
61
68
88
69
84
74
82
62
86
79
67
79
91
80
77
83
79
89
89
76
70
80
69
71
73
76
85
90
87
73
86
66
80
81
85
88
66
87
91
71
81
91
63
74
77
84
76
86
84
72
88
75
80
92
86
74
72
75
78
90
76
86
88
86
(1)能否直接用前面提到过的图来表示上述数据?为什么?
(2)怎样才能直观地表示出上述数据的大致分布情况(比如指出哪个分数段的分数比较多,哪个分数段的分数比较少)?
知识点1 频率直方图
把横轴均分成若干段,每一段对应的长度称为组距,然后以此线段为底作矩形,它的高等于该组的,这样得出一系列的矩形,每个矩形的面积恰好是该组的频率,这些矩形就构成了频率直方图.
(1)对数据分组时,组距、组数的确定有没有固定的标准?
(2)当样本容量不超过100时,分多少组合适?
[提示] (1)组距与组数的确定没有固定的标准,将数据分组时,组数应力求合适,以使数据的分布规律能较清楚地呈现出来.在确定分组区间的端点,即分点时,应对分点进行适当调整,使分点比数据多一位小数,并确保每个数据均能落在一个区间内,而不是处于区间的端点.
(2)组数与样本容量有关,一般地,样本容量越大,分的组数也越多.当样本容量不超过100时,按照数据的多少,常分成5至12组.
1.下列关于频率直方图的说法,正确的是( )
A.直方图的高表示取某数的频率
B.直方图的高表示该组上的个体在样本中出现的频数与组距的比值
C.直方图的高表示该组上的个体在样本中出现的频率
D.直方图的高表示该组上的个体在样本中出现的频率与组距的比值
D [频率直方图的高表示该组上的个体在样本中出现的频率与组距的比值.]
2.将一批数据分成四组,列出频率分布表,其中第一组的频率是0.27,第二组与第四组的频率之和为0.54,那么第三组的频率是________.
0.19 [根据题意知,四个组的频率之和为1,所以第三组的频率为1-0.27-0.54=0.19.]
知识点2 频率折线图
如果将频率直方图中各个矩形的上底边的中点顺次连接起来,并将两边端点向外延伸半个组距,就得到频率折线图,简称折线图.
3.下面给出的是某校高二(2)班50名学生某次测试数学成绩的频率折线图,根据图中所提供的信息,则下列结论正确的是( )
A.成绩是50分或100分的人数是0
B.成绩为75分的人数为20
C.成绩为60分的频率为0.18
D.成绩落在60—80分的人数为29
D [频率折线图表示的是某一个范围的频率,故A,B,C选项是错误的,对于D选项,60—80的人数为50×(0.018+0.04)×10=29,故D选项正确.]
类型1 频率分布表的制作及应用
【例1】 (1)容量为20的样本数据,分组的频数如下表:
分组
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
[60,70]
频数
2
3
4
5
4
2
数据落在区间[10,40)的频率为________.
(2)已知一个样本数据:
27 23 25 27 29 31 27 30 32 31
28 26 27 29 28 24 26 27 28 30
以2为组距,列出频率分布表.
(1)0.45 [数据落在区间[10,40)内的频数为9,样本容量为20,所求频率为=0.45.故填0.45.]
(2)[解] ①计算最大值与最小值的差:最大值为32,最小值为23,它们的差为32-23=9.
②已知组距为2,决定组数:因为=4.5,所以组数为5.
③决定分点:[22.5,24.5),[24.5,26.5),[26.5,28.5),[28.5,30.5),[30.5,32.5].
④列频率分布表如下:
分组
频数
频率
[22.5,24.5)
2
0.1
[24.5,26.5)
3
0.15
[26.5,28.5)
8
0.4
[28.5,30.5)
4
0.2
[30.5,32.5]
3
0.15
合计
20
1
1.频率、频数和样本容量的关系为频率=,利用此式可知二求一.
2.制作频率分布表的步骤
(1)求全距,决定组数与组距,组距=;
(2)分组,通常对组内数值所在区间取左闭右开区间(或左开右闭区间),最后一组取闭区间;
(3)登记频数,计算频率,列出频率分布表.
提醒:(1)在制作频率分布表时,分组过多或过少都不好.分组过多会给制作频率分布表带来困难,分组过少虽减少了操作,但不能很好地反映总体情况.一般样本容量越大,所分组数应越多.
(2)所分的组数应力求“取整”.组数k=,若k∈Z,则组数为k;否则,组数为大于k的最小整数,这时需适当增大全距,在两端同时增加适当的范围.
(3)在决定分点时,应避免将样本中的数据作为分点,常将分点的数值取比样本中的数据多一位小数.
[跟进训练]
1.一个容量为n的样本分成若干组,已知某组的频数和频率分别为30和0.25,则n等于________.
120 [某一组的频率等于该组的频数与样本容量的比.由于=0.25,所以n=120.]
2.对某电子元件进行寿命追踪调查,情况如下:
寿命(h)
100~200
200~300
300~400
400~500
500~600
个数
20
30
80
40
30
(1)列出频率分布表;
(2)估计寿命在100
h~400
h以内的电子元件所占的百分比.
[解] (1)
分组
频数
频率
100~200
20
0.10
200~300
30
0.15
300~400
80
0.40
400~500
40
0.20
500~600
30
0.15
合计
200
1
(2)由频率分布表可以看出,寿命在100
h~400
h的电子元件出现的频率为0.65,因此我们估计寿命在100
h~400
h的电子元件所占的百分比为65%.
类型2 频率直方图、折线图的制作与应用
【例2】 有同一型号的汽车100辆,为了解这种汽车每耗油1
L所行路程的情况,现从中随机抽出10辆在同一条件下进行耗油1
L所行路程试验,得到如下样本数据(单位:km):13.7,12.7,14.4,
13.8,13.3,12.5,13.5,13.6,13.1,13.4,其分组如下:
分组
频数
频率
[12.45,12.95)
[12.95,13.45)
[13.45,13.95)
[13.95,14.45]
合计
10
1.0
(1)完成上面的频率分布表;
(2)根据上表,在给定坐标系中画出频率直方图及频率折线图;
(3)根据上述图表,估计总体数据落在[12.95,13.95)中的可能性.
[解] (1)频率分布表如下.
分组
频数
频率
[12.45,12.95)
2
0.2
[12.95,13.45)
3
0.3
[13.45,13.95)
4
0.4
[13.95,14.45]
1
0.1
合计
10
1.0
(2)频率直方图及频率折线图如图.
(3)根据上述图表,可知数据落在[12.95,13.95)中的频率为0.3+0.4=0.7,故总体数据落在[12.95,13.95)中的可能性为0.7.
1.制作频率直方图的方法步骤
(1)制作频率分布表.
(2)建立直角坐标系:把横轴分成若干段,每一段对应一个组的组距,纵轴表示.
(3)画矩形:在横轴上标明各组端点值,以相邻两点间的线段为底,作高等于该组的的矩形,这样得到一系列矩形,就构成了频率直方图.
2.频率折线图的制作步骤
(1)取每个矩形上底边中点.
(2)顺次连接各个中点.
(3)取值区间两端点需分别向外延伸半个组距,并取此组距上在x轴上的点与折线的首、尾分别相连.
3.解决频率直方图的相关计算
(1)×组距=频率,即小长方形的高乘以宽即为落在相应区间数据的频率.
(2)=频率,此关系式的变形为=样本容量.
提醒:频率直方图中,每个矩形的高为,面积为对应组的频率.
[跟进训练]
3.如图是容量为100的样本的频率直方图,试根据图中的数据填空:
样本数据落在[6,10)内的频率为________,样本数据落在[10,14)内的频率为________.
0.2 0.36 [样本数据落在[6,10)内的频率为0.08×4=0.32,样本数据落在[10,14)内的频率为0.09×4=0.36.]
4.通过全国人口普查工作,得到我国人口的年龄频率直方图如图,那么在一个总人口数为200万的城市中,年龄在[20,60)之间的人大约有________万.
116 [在频率直方图中,小矩形的面积表示频率,年龄在[20,60)之间的频率约为(0.018+0.011)×20=0.58,200×0.58=116,故年龄在[20,60)之间的人大约有116万.]
1.在抽查某批产品尺寸的过程中,样本尺寸数据的频率分布表如下,则m等于( )
分组
[100,200)
[200,300)
[300,400)
[400,500)
[500,600)
[600,700]
频数
10
30
40
80
20
m
频率
0.05
0.15
0.2
0.4
a
b
A.40
B.30
C.20
D.10
C [∵频率、频数的关系为:频率=,
∴=,∴a=0.1.
∵表中各组的频率之和等于1,
∴b=1-0.9=0.1,∴m=20.]
2.某个容量为100的样本的频率直方图如下,则在区间[4,5)上的数据的频数为( )
A.10
B.15
C.20
D.30
D [由频率直方图可知,各组的频率分别为0.05,0.1,0.15,x,0.4,故x=1-0.05-0.1-0.15-0.4=0.3,在区间[4,5)上的数据的频数为100×0.3=30.故选D.]
3.在某次赛车中,50名参赛选手的成绩(单位:min)全部介于13到18之间(包括13和18),将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18].其频率直方图如图所示,若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )
A.39
B.35
C.15
D.11
D [由频率直方图知成绩在[15,18]内的频率为(0.38+0.32+0.08)×1=0.78.所以成绩在[13,15)内的频率为1-0.78=0.22.则成绩在[13,15)内的选手有50×0.22=11(人),即这50名选手中获奖的人数为11,故选D.]
4.容量为100的某个样本,数据拆分为10组,并填写频率分布表,若前七组频率之和为0.79,而剩下三组的频率依次相差0.05,则剩下的三组中频率最大的一组的频率为________.
0.2 [设剩下的三组中频率最大的一组的频率为x,则另两组的频率分别为x-0.05,x-0.1,而由频率总和为1,得0.79+(x-0.05)+(x-0.1)+x=1,解得x=0.12.]
5.有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5),2;[15.5,19.5),4;
[19.5,23.5),9;[23.5,27.5),18;
[27.5,31.5),11;[31.5,35.5),12;
[35.5,39.5),7;[39.5,43.5],3.
根据样本的频率,估计大于或等于31.5的数据约占________.
[根据各组数据可知,符合条件的数据占=.]
回顾本节知识,自我完成以下问题:
1.画频率直方图大体分几步?
[提示] 求全距、决定组数和组距―→分组―→制作频率分布表―→画频率直方图.
2.由频率直方图我们可以获取哪些信息?
[提示] (1)组距、频率,倘若已知样本容量,我们可以计算每个区间上的样本数.
(2)可以粗略感知数据的分布情况.
3.频率直方图中,小矩形的面积和为多少?
[提示] 1.
PAGE
-
9
-统计
类型1 抽样方法
本章主要学习了两种抽样方法:简单随机抽样和分层抽样.其中简单随机抽样包括抽签法和随机数表法;分层抽样又叫按比例抽样,抽样比p=.无论哪种抽样,抽到每个个体是等可能的.
【例1】 某商场有四类食品,食品类别和种数见下表:
类别
粮食类
植物油类
动物性食品类
果蔬类
种数
40
10
30
20
现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样方法抽取样本,则抽取的植物油类与果蔬类食品种数之和为________.
6 [因为总体的个数为40+10+30+20=100,所以根据分层抽样的定义可知,抽取的植物油类食品种数为×20=2,抽取的果蔬类食品种数为×20=4,所以抽取的植物油类与果蔬类食品种数之和为2+4=6.]
[跟进训练]
1.从30个个体(编号为00~29)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为________.
9264 4607 2021 3920 7766 3817 3256 1640
5858 7766 3170 0500 2593 0545 5370 7814
2889 6628 6757 8231 1589 0062 0047 3815
5131 8186 3709 4521 6665 5325 5383 2702
9055 7196 2172 3207 1114 1384 4359 4488
17,00,02,07 [在随机数表中,将处于00~29的号码选出,满足要求的前4个号码为17,00,02,07.]
2.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为________.
[根据题意,=,解得n=28.
故在整个抽样过程中每个个体被抽到的概率为=.]
类型2 用样本的频率估计总体分布
(1)频率=,已知其中任意两个量就可以求出第三个量.
(2)各小组的频数和等于样本容量,频率和等于1.
(3)由样本的频率可估计总体的频率,从而估计出总体的频数.
【例2】 有1个容量为100的样本,数据(均为整数)的分组及各组的频数如下:
[12.5,15.5),6;[15.5,18.5),16;[18.5,21.5),18;[21.5,24.5),22;[24.5,27.5),20;[27.5,30.5),10;[30.5,33.5],8.
(1)列出样本的频率分布表;
(2)画出频率直方图;
(3)估计数据小于30的数据约占的百分比.
[解] (1)样本的频率分布表如下:
分组
频数
频率
[12.5,15.5)
6
0.06
[15.5,18.5)
16
0.16
[18.5,21.5)
18
0.18
[21.5,24.5)
22
0.22
[24.5,27.5)
20
0.20
[27.5,30.5)
10
0.10
[30.5,33.5]
8
0.08
合计
100
1.00
(2)频率直方图如图.
(3)法一:小于30的数据占(0.06+0.16+0.18+0.22+0.20+0.10)×100%=92%.
法二:因为所有组的频率之和为1,大于30的数据占0.08,故小于30的数据占(1-0.08)×100%=92%.
[跟进训练]
3.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为________.
54 [[4.7,4.8)之间频率为0.32,[4.6,4.7)之间频率为1-0.62-0.05-0.11=1-0.78=0.22.
所以a=(0.22+0.32)×100=54.]
4.为了解高中一年级学生身高情况,某校按10%的比例对全校700名高中一年级学生按性别进行抽样检查,测得身高频数分布表如表1,表2.
表1:男生身高频数分布表
身高(cm)
[160,165)
[165,170)
[170,175)
[175,180)
[180,185)
[185,190]
频数
2
5
14
13
4
2
表2:女生身高频数分布表
身高(cm)
[150,155)
[155,160)
[160,165)
[165,170)
[170,175)
[175,180]
频数
1
7
12
6
3
1
(1)求该校男生的人数并画出频率直方图;
(2)估计该校学生身高在165
cm~180
cm的人数占总人数的百分比.
[解] (1)样本中男生人数为40,分层抽样比例为10%,可得全校男生人数为400.频率直方图如图.
(2)由表1、表2知,样本中身高在165
cm~180
cm的学生人数为5+14+13+6+3+1=42,样本容量为70,所以样本中学生身高在165
cm~180
cm的频率为=,故估计该校学生身高在165
cm~180
cm的人数占总人数的60%.
类型3 用样本的特征数估计总体的特征数
样本的特征数可分为两大类:一类是反映样本数据集中趋势的,包括众数、中位数和平均数;另一类是反映样本波动大小的,包括方差及标准差.我们常通过样本的特征数估计总体的特征数.
【例3】 甲、乙两机床同时加工直径为100
cm的零件,为检验质量,各从中抽取6件测量,数据为
甲:99,100,98,100,100,103;
乙:99,100,102,99,100,100.
(1)分别计算两组数据的平均数及方差;
(2)根据计算结果判断哪台机床加工零件的质量更稳定.
[解] (1)甲=(99+100+98+100+100+103)=100,
乙=(99+100+102+99+100+100)=100.
s=[(99-100)2+(100-100)2+(98-100)2+(100-100)2+(100-100)2+(103-100)2]=,
s=[(99-100)2+(100-100)2+(102-100)2+(99-100)2+(100-100)2+(100-100)2]=1.
(2)两台机床所加工零件的直径的平均数相同,又s>s,
所以乙机床加工零件的质量更稳定.
[跟进训练]
5.有容量为100的样本,数据分组及各组的频数、频率如下:
[12.5,14.5),6,0.06;[14.5,16.5),16,0.16;[16.5,18.5),18,0.18;[18.5,20.5),22,0.22;[20.5,22.5),20,0.20;[22.5,24.5),10,0.10;[24.5,26.5],8,0.08.
试估计总体的平均数.
[解] 法一:总体的平均数约为
×(13.5×6+15.5×16+17.5×18+19.5×22+21.5×20+23.5×10+25.5×8)=19.42.
故总体的平均数约为19.42.
法二:求组中值与对应频率积的和
13.5×0.06+15.5×0.16+17.5×0.18+19.5×0.22+21.5×0.20+23.5×0.10+25.5×0.08=19.42.
故总体的平均数约为19.42.
6.对甲、乙的学习成绩进行抽样分析,各抽5门功课,得到的观测值如下:
甲
60
80
70
90
70
乙
80
60
70
80
75
问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?
[解] 甲的平均成绩为甲=74,乙的平均成绩为乙=73.所以甲的平均成绩好.
甲的方差是s=×[(-14)2+62+(-4)2+162+(-4)2]=104,乙的方差是s=×[72+(-13)2+(-3)2+72+22]=56.
因为s>s,所以乙的各门功课发展较平衡.
1.(多选题)(2020·新高考全国卷Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数增量大于复工指数的增量
C.第3天至第11天复工复产指数均超过80%
D.第9天至第11天复产指数增量大于复工指数的增量
CD [由折线图知,第1天至第2天复工指数减少,第7天至第8天复工指数减少,第10天至第11天复工指数减少,第8天至第9天复产指数减少,故A错误;由折线图知,第1天的复产指数与复工指数的差大于第11天的复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故B错误;由折线图知,第3天至第11天复工复产指数均超过80%,故C正确;由折线图知,第9天至第11天复产指数增量大于复工指数的增量,故D正确.综上,选CD.]
2.(2020·天津高考)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )
A.10
B.18
C.20
D.36
B [由题知[5.43,5.45)与[5.45,5.47)所对应的小矩形的高分别为6.25,5.00,所以[5.43,5.47)的频率为(6.25+5.00)×0.02=0.225,所以直径落在区间[5.43,5.47)内的个数为80×0.225=18,故选B.]
3.(2020·全国卷Ⅲ)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01
B.0.1
C.1
D.10
C [由方差计算公式:x1,x2,…,xn的方差为s2,所以s2=0.01,则ax1,ax2,…,axn的方差为a2s2,则所求为100s2=1.]
4.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数
B.平均数
C.方差
D.极差
A [记9个原始评分分别为a,b,c,d,e,f,g,h,i(按从小到大的顺序排列),易知e为7个有效评分与9个原始评分的中位数,故不变的数字特征是中位数,故选A.]
5.(2020·江苏高考)已知一组数据4,2a,3-a,5,6的平均数为4,则a的值是________.
2 [一组数据4,2a,3-a,5,6的平均数为4,则4+2a+(3-a)+5+6=4×5,解得a=2.]
PAGE
-
1
-14.4.4 百分位数
学
习
任
务
核
心
素
养
1.结合实例,能用样本估计百分位数.(重点)2.理解百分位数的统计含义.(重点、难点)
1.通过对百分位数概念的学习,培养数学抽象素养.2.通过计算样本的百分位数,培养数学运算素养.
班级人数为50的班主任老师说“90%的同学能够考取本科院校”,这里的“90%”是百分位数吗?数学老师说
“这次数学测试成绩的第70百分位数是85分”这句话是什么意思?
知识点1 一组数据的k百分位数的含义
一般地,一组数据的k百分位数是这样一个值pk,它使得这组数据中至少有k%的数据小于或等于pk,且至少有(100-k)%的数据大于或等于pk.
1.下列关于一组数据的50百分位数的说法正确的是( )
A.50百分位数就是中位数
B.总体数据中的任意一个数小于它的可能性一定是50%
C.它一定是这组数据中的一个数据
D.它适用于总体是离散型的数据
A [由百分位数的意义可知选项B,C,D错误.]
知识点2 计算有n个数据的大样本的k百分位数的步骤
第1步,将所有数值按从小到大的顺序排列;
第2步,计算k·;
第3步,如果结果为整数,那么k百分位数位于第k·位和下一位数之间,通常取两个位置上数值的平均数为k百分位数;
第4步,如果k·不是整数,那么将其向上取整(即其整数部分加上1),在该位置上的数值为k百分位数.
一组数据的k百分位数一定在这组数据中吗?
[提示] 不一定.
2.数据7.0,8.4,8.4,8.4,8.6,8.7,9.0,9.1的30百分位数是________.
8.4 [因为8×30%=2.4,故30百分位数是第三项数据8.4.]
知识点3 四分位数
我们把中位数、25百分位数和75百分位数称为四分位数.
3.已知一组数据为4.7,6.4,4.3,5.0,5.3,5.5,则该组数据的第25百分位数是________.
4.7 [由题意,将这组数按从小到大的顺序排列,可得4.3,4.7,5.0,5.3,5.5,6.4,共6个数据,因为6×25%=1.5,所以第25百分位数为4.7.]
类型1 百分位数的计算
【例1】 从某珍珠公司生产的产品中,任意抽取12颗珍珠,得到它们的质量(单位:g)如下:
7.9,9.0,8.9,8.6,8.4,8.5,8.5,8.5,9.9,7.8,8.3,8.0.
(1)分别求出这组数据的25,75,95百分位数.
(2)请你找出珍珠质量较小的前15%的珍珠质量.
(3)若用25,50,95百分位数把公司生产的珍珠划分为次品、合格品、优等品和特优品,依照这个样本的数据,给出该公司珍珠等级的划分标准.
[解] (1)将所有数据从小到大排列,得
7.8,7.9,8.0,8.3,8.4,8.5,8.5,8.5,8.6,8.9,9.0,9.9,
因为共有12个数据,所以12×25%=3,12×75%=9,12×95%=11.4,
则25百分位数是=8.15,
75百分位数是=8.75,
95百分位数是第12个数据为9.9.
(2)因为共有12个数据,所以12×15%=1.8,则15百分位数是第2个数据为7.9.
即产品质量较小的前15%的产品有2个,它们的质量分别为7.8
g,7.9
g.
(3)由(1)可知样本数据的25百分位数是8.15
g,
50百分位数为8.5
g,
95百分位数是9.9
g,所以质量小于或等于8.15
g的珍珠为次品,质量大于8.15
g且小于或等于8.5
g的珍珠为合格品,质量大于8.5
g且小于等于9.9
g的珍珠为优等品,质量大于9.9
g的珍珠为特优品.
计算一组n个数据的k百分位数的一般步骤
(1)排列:按照从小到大排列原始数据;
(2)计算i:计算i=n×k%;
(3)定数:若i不是整数,大于i的最小整数为j,则第k百分位数为第j项数据;若i是整数,则k百分位数为第i项与第(i+1)项数据的平均数.
[跟进训练]
1.以下数据为参加数学竞赛决赛的15人的成绩:
78,70,72,86,88,79,80,81,94,84,56,98,83,90,91,
则这15人成绩的80百分位数是( )
A.90
B.90.5
C.91
D.91.5
B [把成绩按从小到大的顺序排列为:
56,70,72,78,79,80,81,83,84,86,88,90,91,94,98,
因为15×80%=12,所以这15人成绩的80百分位数是=90.5.]
类型2 百分位数的综合应用
【例2】 某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率直方图.若这100户居民中,今年1月份用电费用不超过260元的占80%,求a,b的值.
(3)根据(2)中求得的数据计算用电量的75百分位数.
[解] (1)当0≤x≤200时,y=0.5x;
当200当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y与x之间的函数解析式为
y=
(2)由(1)可知,当y=260时,x=400,即用电量不超过400千瓦时的占80%,
结合频率直方图可知
解得a=0.001
5,b=0.002
0.
(3)设75百分位数为m,
因为用电量低于300千瓦时的所占比例为(0.001+0.002+0.003)×100=60%,
用电量不超过400千瓦时的占80%,
所以75百分位数为m在[300,400)内,所以0.6+(m-300)×0.002=0.75,
解得m=375千瓦时,即用电量的75百分位数为375千瓦时.
根据频率直方图计算样本数据的百分位数,首先要理解频率直方图中各组数据频率的计算,其次估计百分位数在哪一组,再应用方程的思想方法,设出百分位数,解方程可得.
[跟进训练]
2.某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩的70百分位数约为________秒.
16.5 [设成绩的70百分位数为x,因为=0.55,=0.85,
所以x∈
[16,17),所以0.55+(x-16)×=0.70,解得x=16.5秒.]
1.下列一组数据的25百分位数是( )
2.1,3.0,3.2,3.8,3.4,4.0,4.2,4.4,5.3,5.6
A.3.2
B.3.0
C.4.4
D.2.5
A [把这组数据按照由小到大排列,可得:
2.1,3.0,3.2,3.4,3.8,
4.0,4.2,4.4,5.3,5.6,
由i=10×25%=2.5,不是整数,则第3个数据3.2,是25百分位数.]
2.已知100个数据的75百分位数是9.3,则下列说法正确的是( )
A.这100个数据中一定有75个数小于或等于9.3
B.把这100个数据从小到大排列后,9.3是第75个数据
C.把这100个数据从小到大排列后,9.3是第75个数据和第76个数据的平均数
D.把这100个数据从小到大排列后,9.3是第75个数据和第74个数据的平均数
C [因为100×75%=75为整数,所以第75个数据和第76个数据的平均数为75百分位数,是9.3,故选C.]
3.已知一组数据为20,30,40,50,50,60,70,80,记其平均数、第60百分位数和众数分别为x,y,z,则( )
A.x>y>z
B.xC.x>z>y
D.x=y=z
D [易知平均数x=50,众数z=50,因为8×60%=4.8,所以第60百分位数为50,故x=y=z.]
4.已知一组数据按从小到大排列如下:11,12,15,x,17,y,22,26.经计算,该组数据的中位数是16,75百分位数是20,则x=________,y=________.
15 18 [因为50%×8=4,故中位数是
(x+17)÷2=16,解得x=15;
因为75%×8=6,故75百分位数是(y+22)÷2=20,则y=18.]
5.一组样本数据的频率直方图如图所示,试估计此样本数据的50百分位数为________.
[样本数据低于10的比例为(0.08+0.02)×4=0.40,样本数据低于14的比例为0.40+0.09×4=0.76,所以此样本数据的50百分位数在[10,14)内,估计此样本数据的50百分位数为10+×4=.]
回顾本节知识,自我完成以下问题:
1.k百分位数有什么特点?
[提示] 总体数据中的任意一个数小于或等于它的可能性是k%.
2.如何求一组数据的k百分位数?
[提示] 求一组数据的百分位数时其步骤:①按照从小到大排列原始数据;②计算i=k×p%;③若i不是整数,大于i的最小整数为j,则k百分位数为第j项数据;若i是整数,则k百分位数为i项与第(i+1)项数据的平均数.
PAGE
-
6
-14.4.2 用样本估计总体的离散程度参数
14.4.3 用频率直方图估计总体分布
学
习
任
务
核
心
素
养
1.结合实例,能用样本估计总体的离散程度参数(标准差、方差).(重点)2.理解离散程度参数的统计含义.(重点、难点)3.结合实例,能利用样本数据的频率直方图对总体的分布进行估计.(重点、难点)
1.通过对标准差、方差概念的学习,培养数学抽象素养.2.通过利用标准差、方差、极差估计总体的离散程度,培养数据分析素养.3.通过学习频率直方图的应用,培养数学抽象素养.
有A、B两种钢材,从中各抽取一个样本,检测其抗拉强度,通过计算两组数据的平均数都是125,如下表:A120125110125125135125135130120B145145125130115125115125125100请问哪种钢材的质量较好?
知识点1 极差
一组数据的最大值与最小值的差称为极差.
极差刻画了一组数据的的离散程度,即这组数据落在最小值与最大值之间.一组数据的极差越小,说明这组数据相对集中.
1.已知样本数据3,2,1,a的平均数为2,则样本的极差是________.
2 [由题意可知=2,∴a=2,∴极差为3-1=2.]
知识点2 样本数据的方差和标准差
设一组样本数据x1,x2,…,xn,其平均数为,则称s2=(xi-)2为这个样本的方差,其算术平方根s=为样本的标准差,分别简称为样本方差、样本标准差.
样本方差(标准差)越大,数据的离散程度越大;方差、标准差越小,数据的离散程度越小.
1.数据x1,x2,…,xn的平均数是,方差为s2,数据x1,x2,…,xn,的方差为s,那么s2与s的大小关系如何?
[提示] 因为数据x1,x2,…,xn,比数据x1,x2,…,xn更加相对集中,所以方差变小了,即s<s2.
2.已知一个样本中的数据为1,2,3,4,5,则该样本的标准差为( )
A.1
B.
C.
D.2
B [∵样本容量n=5,
∴=(1+2+3+4+5)=3,
∴s=
=.]
知识点3 样本方差的其它计算公式
(1)s2=(-n2);
(2)若取值为x1,x2,…,xn的频率分别为p1,p2,…,pn.则其方差为
s2=i(xi-)2=p1(x1-)2+p2(x2-)2+…+pn(xn-)2.
2.(1)公式(1)你能给出证明么?
(2)这两组公式有什么应用特点?
[提示] (1)∵=(x1+x2+…+xn),
∴s2=(xi-)2
=[(x1-)2+(x2-)2+…+(xn-)2]
=[(x-2x1+2)+(x-2x2+2)+…+(x-2xn+2)]
=[(x+x+…+x)-2(x1+x1+…+xn)+n2]
=[(x+x+…+x)-2n2+n2]
=[(x+x+…+x)-n2]
=(-n2).
(2)公式(1)适用于样本数据为绝对值比较小的整数,而平均数为小数的方差计算比较方便.
公式(2)
适用于样本数据中重复数据比较多的方差计算.
3.设样本数据x1,x2,…,x10的平均数为10,方差s2=3,则=________.
190 [∵s2=-,∴=190.]
知识点4 分层抽样的方差
如果总体分为k层,第j层抽取的样本为xj1,xj2,…,xjnj,第j层的样本量为nj,样本平均数为j,样本方差为s,j=1,2,3…,k,记j=n,那么所有数据的样本方差为.
4.甲班和乙班各有学生20人、40人,甲班的数学成绩的平均数为80分,方差为2,乙班的数学成绩的平均数为82分,方差为4,那么甲班和乙班这60人的数学成绩的平均分是________分,方差是________.
[因为甲班和乙班在这60人中的权重是不同的.
=×80+×82=.
s=
=.]
类型1 方差和标准差的计算
【例1】 某校拟派一名跳高运动员参加一项校际比赛,对甲、乙两名跳高运动员进行了8次选拔比赛,他们的成绩(单位:m)如下:
甲:1.70,1.65,1.68,1.69,1.72,1.73,1.68,1.67;
乙:1.60,1.73,1.72,1.61,1.62,1.71,1.70,1.75.
经预测,成绩超过1.65
m就很有可能获得冠军,该校为了获取冠军,可能选哪位选手参赛?若预测成绩超过了1.70
m方可获得冠军呢?
[解] 甲的平均成绩和方差:
甲=×(1.70+1.65+…+1.67)=1.69,s=×[(1.70-1.69)2+(1.65-1.69)2+…+(1.67-1.69)2]=0.000
6.
乙的平均成绩和方差:
乙=×(1.60+1.73+…
+1.75)=1.68,s=×[(1.60-1.68)2+(1.73-1.68)2+…+(1.75-1.68)2]=0.003
15.
显然,甲的平均成绩高于乙的平均成绩,而且甲的方差小于乙的方差,说明甲的成绩比乙稳定,由于甲的平均成绩高于乙,且成绩稳定,所以若成绩超过1.65
m就很可能获得冠军,应派甲参赛.在这8次选拔比赛中乙有5次成绩在1.70
m以上,虽然乙的平均成绩不如甲,成绩的稳定性也不如甲,但当成绩超过1.70
m方可获得冠军时,应派乙参加比赛.
标准差、方差的意义
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小,标准差的大小不会超过极差.
(2)标准差、方差的取值范围:[0,+∞).
标准差、方差为0时,样本各数据相等,说明数据没有波动幅度,数据没有离散性.
[跟进训练]
1.如图,样本A和B分别取自两个不同的总体,它们的样本平均数分别为A和B,样本标准差分别为sA和sB,则( )
A.A>B,sA>sB
B.AsB
C.A>B,sAD.AB [A=(2.5+10+5+7.5+2.5+10)=6.25,
B=(15+10+12.5+10+12.5+10)≈11.67.
s=[(2.5-6.25)2+(10-6.25)2+(5-6.25)2+(7.5-6.25)2+(2.5-6.25)2+(10-6.25)2]≈9.90,
s=[?15-11.67?2+?10-11.67?2+?12.5-11.67?2
+?10-11.67?2+?12.5-11.67?2+?10-11.67?2]≈3.47.
故A<B,sA>sB.]
类型2 分层抽样的方差
【例2】 (对接教材P238例8)甲、乙两支田径队体检结果为:甲队的体重的平均数为60
kg,方差为200,乙队体重的平均数为70
kg,方差为300,又已知甲、乙两队的队员人数之比为1∶4,那么甲、乙两队全部队员的平均体重和方差分别是什么?
[解] 由题意可知甲=60,乙=70,设甲队人数为a,则乙队人数为4a,总人数为5a,则甲、乙两队全部队员的平均体重为=(60a+4a×70)=68
kg,
甲、乙两队全部队员的体重的方差为
s2={a[200+(60-68)2]+4a[300+(70-68)2]}=296.
计算分层抽样的方差s2的步骤
(1)确定n1,n2,1,2,s,s;
(2)确定=(n11+n22);
(3)应用公式s2=.计算s2.
[跟进训练]
2.已知某省二、三、四线城市数量之比为1∶3∶6,2021年3月份调查得知该省所有城市房产均价为1.2万元/平方米,方差为20,二、三、四线城市的房产均价分别为2.4万元/平方米,1.8万元/平方米,0.8万元/平方米,三、四线城市房价的方差分别为10,
8,则二线城市的房价的方差为________.
118.52 [设二线城市的房价的方差为s2,由题意可知
20=[s2+(1.2-2.4)2]+[10+(1.2-1.8)2]+[8+(1.2-0.8)2],
解答s2=118.52,
即二线城市的房价的方差为118.52.]
类型3 数据的特征数的综合应用
【例3】 在一次科技知识竞赛中,某学校的两组学生的成绩如下表:
分数
50
60
70
80
90
100
人数
甲组
2
5
10
13
14
6
乙组
4
4
16
2
12
12
请根据你所学过的统计知识,判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.
分别求出这两组数据的众数、中位数、平均数和方差,从这几个方面进行统计分析.
[解] (1)甲组成绩的众数为90,乙组成绩的众数为70,从成绩的众数比较看,甲组成绩好些.
(2)甲=(50×2+60×5+70×10+80×13+90×14+100×6)=×4
000=80,
乙=(50×4+60×4+70×16+80×2+90×12+100×12)=×4
000=80.
s=[2×(50-80)2+5×(60-80)2+10×(70-80)2+13×(80-80)2+14×(90-80)2+6×(100-80)2]=172,
s=[4×(50-80)2+4×(60-80)2+16×(70-80)2+2×(80-80)2+12×(90-80)2+12×(100-80)2]=256.
∵甲=乙,s(3)甲、乙两组成绩的中位数、平均数都是80分.其中,甲组成绩在80分以上(包括80分)的有33人,乙组成绩在80分以上(包括80分)的有26人.从这一角度看,甲组的成绩较好.
(4)从成绩统计表看,甲组成绩大于等于90分的有20人,乙组成绩大于等于90分的有24人,所以乙组成绩集中在高分段的人数多.同时,乙组得满分的人数比甲组得满分的人数多6人.从这一角度看,乙组的成绩较好.
数据分析的要点
(1)要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.
(2)在进行数据分析时,不同的标准没有对和错的问题,也不存在唯一解的问题,而是根据需要来选择“
好”的决策,至于决策的好坏,是根据提出的标准而定的.
[跟进训练]
3.某校高二年级在一次数学选拔赛中,由于甲、乙两人的竞赛成绩相同,从而决定根据平时在相同条件下进行的六次测试确定出最佳人选,这六次测试的成绩数据如下:
甲
127
138
130
137
135
131
乙
133
129
138
134
128
136
求两人比赛成绩的平均数以及方差,并且分析成绩的稳定性,从中选出一位参加数学竞赛.
[解] 设甲、乙二人成绩的平均数分别为甲、乙,方差分别为s、s.
则甲=130+(-3+8+0+7+5+1)=133,
乙=130+(3-1+8+4-2+6)=133,
s=[(-6)2+52+(-3)2+42+22+(-2)2]=,
s=[02+(-4)2+52+12+(-5)2+32]=.
因此,甲、乙的平均数相同,由于乙的方差较小,所以乙的成绩比甲的成绩稳定,应选乙参加竞赛较合适.
类型4 用频率直方图估计总体分布
【例4】 某制造商3月生产了一批乒乓球,随机抽取100个进行检查,并测得每个球的直径(单位:mm),将数据进行分组,得到如下频率分布表:
分组
频数
频率
[39.95,39.97)
10
[39.97,39.99)
20
[39.99,40.01)
50
[40.01,40.03]
20
合计
100
(1)补充频率分布表(结果保留两位小数),并在上图中画出频率直方图;
(2)若以上述频率作为概率,已知标准乒乓球的直径为40.00
mm,试求这批乒乓球的直径误差不超过0.03
mm的概率;
(3)统计方法中,同一组数据常用该组区间的中点值(例如区间[39.99,40.01)的中点值是40.00)作为代表.据此估计这批乒乓球直径的平均值(结果保留两位小数).
[解] (1)频率分布表如下:
分组
频数
频率
[39.95,39.97)
10
0.10
[39.97,39.99)
20
0.20
[39.99,40.01)
50
0.50
[40.01,40.03]
20
0.20
合计
100
1
频率直方图如图:
(2)误差不超过0.03
mm,即直径落在[39.97,40.03]内,其概率为0.2+0.5+0.2=0.9.
(3)整体数据的平均值为39.96×0.10+39.98×0.20+40.00×0.50+40.02×0.20≈40.00(mm).
绘制频率直方图应注意的问题
(1)在绘制出频率分布表后,画频率直方图的关键就是确定小矩形的高;
(2)数据要合理分组,组距要选取恰当.
[跟进训练]
4.随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165),[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率直方图如图所示.
(1)求频率直方图中x的值及身高在170
cm以上的学生人数;
(2)将身高在[170,175),[175,180),[180,185]区间内的学生依次记为A,B,C三个组,用分层抽样的方法从这三个组中抽取6人,求这三个组分别抽取的学生人数.
[解] (1)由频率直方图可知5×(0.01+0.02+0.04+x+0.07)=1,
解得x=0.06.身高在170
cm以上的学生人数为100×(0.06×5+0.04×5+0.02×5)=60(人).
(2)A组人数为100×0.06×5=30(人),
B组人数为100×0.04×5=20(人),
C组人数为100×0.02×5=10(人),
由题意可知抽样比k==,
故应从A,B,C三组中分别抽取30×=3(人),20×=2(人),10×=1(人).
1.若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( )
A.8
B.15
C.16
D.32
C [已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16,故选C.]
2.在高一期中考试中,甲、乙两个班的数学成绩统计如下表:
班级
人数
平均分数
方差
甲
20
甲
2
乙
30
乙
3
其中甲=乙,则两个班数学成绩的方差为( )
A.3
B.2
C.2.6
D.2.5
C [由题意可知两个班的数学成绩平均数为=甲=乙,则两个班数学成绩的方差为
s2={20[2+(甲-)2]+30[3+(乙-)2]}=2.6.]
3.甲、乙、丙三位同学在一项集训中的40次测试分数都在[50,100]内,将他们的测试分数分别绘制成频率直方图,如图所示,记甲、乙、丙的分数标准差分别为s1,s2,s3,则它们的大小关系为( )
甲 乙
丙
A.s甲>s乙>s丙
B.s甲>s丙>s乙
C.s丙>s甲>s乙
D.s丙>s乙>s甲
B [甲数据绝大部分数字都处在两端,数据偏离平均数远,最分散,其标准差最大;乙数据绝大部分数字都在平均数左右,数据最集中,其标准差最小;丙数据的每个小矩形的差别较小,数字分布均匀,标准差比甲数据中的标准差小,比乙数据中的标准差大,故s甲>s丙>s乙,选B.]
4.在某次考试中,要对甲、乙两名同学的学习成绩进行比较,甲同学的平均分甲=76,方差s=4,乙同学的平均分乙=77,方差s=10,则________同学的平均成绩好,________同学的各科发展均衡.
乙 甲 [代表平均水平,因为甲<乙,所以乙同学的平均成绩好.s2表示相对于平均成绩的集中与分散、稳定与波动的大小,因为s5.已知样本9,10,11,x,y的平均数是10,方差是4,则xy=________.
91 [由题意得
即
解得或
所以xy=91.
]
回顾本节知识,自我完成以下问题:
1.对一组数据进行统计分析,应该从哪几个方面进行?
[提示] 平均数反映数据的平均水平,用众数反映数据的最大集中点,用中位数反映数据的集中趋势和一般水平,用标准差或方差反映数据的离散程度.
2.在实际应用中标准差和方差有何不同吗?
[提示] 标准差的平方s2称为方差,有时用方差代替标准差测量样本数据的离散程度.方差与标准差的测量效果是一致的,在实际应用中一般多采用标准差.
PAGE
-
12
-14.4 用样本估计总体
14.4.1 用样本估计总体的集中趋势参数
学
习
任
务
核
心
素
养
1.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数).(重点、难点)2.
理解集中趋势参数的统计含义.(重点、难点)
1.通过对实数平均数、中位数、众数概念的学习,培养数学抽象素养.2.通过利用平均数、中位数、众数估计总体的集中趋势,培养直观想象素养.
如下是某学校高一(1)班和高一(2)班某一次期中考试的语文成绩,试从平均数、中位数、最值等不同的角度对两班成绩进行对比.
高一(1)班期中考试语文成绩
69
84
69
80
75
70
75
71
87
70
80
84
73
81
81
73
66
78
68
79
73
75
76
76
70
74
71
86
63
88
高一(2)班期中考试语文成绩
76
86
74
82
77
68
62
82
72
82
76
81
84
79
67
78
70
72
81
89
81
77
72
77
67
67
72
79
81
75
75
84
知识点 平均数、众数与中位数的定义
(1)平均数:一组数据的和除以数据个数所得到的数.把总体中所有数据的算术平均数称为总体的均值.
(2)众数:一组数据中出现次数最多的数.
(3)中位数:一组数据按照从小到大的顺序排列后,如果数据的个数为奇数,处于正中间位置的数.如果数据的个数是偶数,则取正中间两个数据的平均数.
(1)中位数一定是样本数据中的一个数吗?
(2)一组数据可以有几个众数?中位数是否也具有相同的结论?
[提示] (1)不一定.一组数据按大小顺序排列后,如果有奇数个数据,处于中间位置的数是中位数;如果有偶数个数据,则取中间两个数据的平均数是中位数.
(2)一组数据中可能有一个众数,也可能有多个众数,中位数只有唯一一个.
1.一组样本数据为:19,23,12,14,14,17,10,12,18,14,27,则这组数据的众数和中位数分别为( )
A.14,14
B.12,14
C.14,15.5
D.12,15.5
A [把这组数据按从小到大排列为:10,12,12,14,14,14,17,18,19,23,27,则可知其众数为14,中位数为14.]
2.已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.
6 [=6.]
类型1 平均数、中位数和众数的计算
【例1】 已知10名工人生产同一零件,生产的件数分别是16,18,15,11,16,18,18,17,15,13,设其平均数为a,中位数为b,众数为c,则有( )
A.a>b>c
B.a>c>b
C.c>a>b
D.c>b>a
D [由题意得a=(16+18+15+11+16+18+18+17+15+13)==15.7,中位数为16,众数为18,则b=16,c=18,∴c>b>a.]
?1?求样本数据的中位数和众数时,把数据按照从小到大的顺序排列后,按照其求法进行.
?2?求样本数据的平均数的难点在于计算的准确性.
[跟进训练]
1.某学习小组在一次数学测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各1人,则该小组成绩的平均数、众数、中位数分别是( )
A.85分、85分、85分
B.87分、85分、86分
C.87分、85分、85分
D.87分、85分、90分
C [由题意知,该学习小组共有10人,因此众数和中位数都是85,平均数为=87.]
类型2 平均数、中位数和众数的实际应用
【例2】 下面是某快餐店所有工作人员一月的收入表(单位:元):
老板
大厨
二厨
采购员
杂工
服务生
会计
30
000
4
500
3
500
4
000
3
200
3
200
4
100
(1)计算所有人员的月平均收入;
(2)这个平均收入能反映打工人员的月收入的一般水平吗?为什么?
(3)去掉老板收入后,再计算平均收入,这能代表打工人员的月收入的水平吗?
[解] (1)周平均收入1=(30
000+4
500+3
500+4
000+3
200+3
200+4
100)=7
500(元).
(2)这个平均收入不能反映打工人员的月收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员.
(3)去掉老板的收入后的月平均收入2=(4
500+3
500+4
000+3
200+3
200+4
100)=3
750(元).
这能代表打工人员的月收入水平.
利用样本数字特征进行决策时的两个关注点
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响大;中位数是样本数据所占频率的等分线,不受几个极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值.
[跟进训练]
2.某工厂人员及月工资构成如下:
人员
经理
管理人员
高级技工
工人
学徒
合计
月工资(元)
22
000
2
500
2
200
2
000
1
000
29
700
人数
1
6
5
10
1
23
合计
22
000
15
000
11
000
20
000
1
000
69
000
(1)指出这个表格中月工资的众数、中位数、平均数;
(2)这个表格中,平均数能客观地反映该工厂的月工资水平吗?为什么?
[解] (1)由表格可知,众数为2
000元.
把23个数据按从小到大(或从大到小)的顺序排列,排在中间的数应是第12个数,其值为2
200,故中位数为2
200元.
平均数为69
000÷23=3
000(元).
(2)虽然平均数为3
000元,但由表格中所列出的数据可见,只有经理的工资在平均数以上,其余人的工资都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
类型3 由频率直方图求平均数、中位数和众数
【例3】 某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率直方图如图所示.
(1)求这次测试数学成绩的众数;
(2)求这次测试数学成绩的中位数.
?1?最高的小长方形的底边中点的横坐标即为样本数据的众数;
?2?判断中位数所在的区间,设出中位数,根据中位数的左右两边的频率相等列出方程求解.
[解] (1)由题干图知众数为=75.
(2)由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x-70),所以x≈73.3.
1.若例3的条件不变,求数学成绩的平均数.
[解] 由题干图知这次数学成绩的平均数为:×0.005×10+×0.015×10+×0.02×10+×0.03×10+×0.025×10+×0.005×10=72.
2.若例3条件不变,求80分以下的学生人数.
[解] [40,80)分的频率为:(0.005+0.015+0.020+0.030)×10=0.7,
所以80分以下的学生人数为80×0.7=56.
众数、中位数、平均数与频率直方图的联系
(1)众数:众数在样本数据的频率直方图中,就是最高矩形的底边中点的横坐标.
(2)中位数:在样本中,有50%的个体大于或等于中位数,因此,在频率直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)平均数:用频率直方图估计平均数时,平均数等于频率直方图中每个小矩形的面积乘以每个小矩形底边中点的横坐标之和.
[跟进训练]
3.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组绘制成如图所示的频率直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30,0.40,0.15,0.10,0.05.
求:(1)高一参赛学生成绩的众数、中位数;
(2)高一参赛学生的平均成绩.
[解] (1)用频率直方图中最高矩形所在的区间的中点值作为众数的近似值,得众数为65,又∵第一个小矩形的面积为0.3,前两个小矩形的面积和为0.3+0.4=0.7>0.5,设第二个小矩形底边的一部分长为x,则x×0.04=0.2,得x=5,∴中位数为60+5=65.
(2)依题意,平均成绩为55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,所以平均成绩约为67分.
1.一组观察值4,3,5,6出现的次数分别为3,2,4,2,则样本平均值为( )
A.4.55
B.4.5
C.12.5
D.1.64
A [由条件得=(4×3+3×2+5×4+6×2)≈4.55.]
2.下列数字特征一定会在原始数据中出现的是( )
A.众数
B.中位数
C.平均数
D.都不会
A [众数是在一组数据中出现次数最多的数,所以一定会在原始数据中出现.]
3.某校从高一年级参加期末考试的学生中抽出60名,其成绩(均为整数)的频率直方图如图所示,由此估计此次考试成绩的中位数、众数分别是( )
A.73.3,75
B.73.3,80
C.70,70
D.70,75
A [由题图可知小于70分的有24人,大于80分的有18人,则在[70,80)之间的有18人,所以中位数落在[70,80)这组内,且为70+≈73.3;众数就是频率直方图中最高的矩形底边中点的横坐标,即=75.]
4.某高校有甲、乙两个数学建模兴趣班.其中甲班有40人,乙班有50人.现分析两个班的一次考试成绩,算得甲班的平均成绩是90分,乙班的平均成绩是81分,则该校数学建模兴趣班的平均成绩是________分.
85 [==85.]
5.某校女子篮球队7名运动员身高(单位:cm)的数据分别为:171,172,17x,174,175,180,181,已知记录的平均身高为175
cm,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x,那么x的值为________.
2 [170+×(1+2+x+4+5+10+11)=175,
×(33+x)=5,即33+x=35,解得x=2.]
回顾本节知识,自我完成以下问题:
1.众数、中位数和平均数在分析样本数据时各有何优缺点?
[提示]
名称
优点
缺点
平均数
与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感
任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大
中位数
不受少数几个极端数据(即排序靠前或靠后的数据)的影响
对极端值不敏感
众数
体现了样本数据的最大集中点
众数只能传递数据中的信息的很少一部分,对极端值不敏感
2.众数、中位数、平均数与频率直方图存在怎样的关系?
[提示] (1)平均数:在频率直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
(2)中位数:在频率直方图中,中位数左边和右边的直方图的面积应该相等.
(3)众数:众数是最高小矩形底边的中点所对应的数据.
PAGE
-
7
-