(共33张PPT)
画频率分布直方图的步骤:
第一步: 求极差: (数据组中最大值与最小值的差距)
第二步: 决定组距与组数: (强调取整)
第三步: 将数据分组 ( 给出组的界限)
第四步: 列频率分布表. (包括分组、频数、频率、频率/组距)
第五步: 画频率分布直方图(在频率分布表的基础上绘制,横坐标为样本数据尺寸,纵坐标为频率/组距.)
组距:指每个小组的两个端点的距离,组距
组数:将数据分组,当数据在100个以内时,
按数据多少常分5-12组.
回忆:
绘制频率分布直方图有哪几个步骤呢
复习引入
复习引入
前面我们用频率分布表、频率分布直方图描述了居民用户月均用水量的样本数据,通过对图表的观察与分析,得出了一些样本数据的频率分布规律,并由此推测了该市全体居民用户月均用水量的分布情况,得出了“大部分居民用户的月均用水量集中在一个较低值区域”等推断,接下来的问题是,如何利用这些信息,为政府决策服务呢
总体百分位数、总体集中趋势的估计
人教A版同步教材名师课件
学习目标
学 习 目 标 核心素养
理解百分位数的统计含义. 数学抽象
理解集中趋势的统计含义. 数学抽象
能用样本估计总体的百分位数及集中趋势. 数据分析
课程目标
1.理解百分位数的统计含义.
2.会求样本数据的第p百分位数.
3.结合实例,能用样本估计总体的集中趋势参数(众数、中位数、平均数).
4.会求样本数据的众数、中位数、平均数.
5.理解集中趋势参数的统计含义.
数学学科素养
1.数学抽象:百分位数的统计含义;
2.数学运算:求样本数据的第p百分位数;
3.数学运算:求样本数据的众数、中位数、平均数;
4.数据分析:频率分布直方图中的众数、中位数、平均数.
学习目标
探究新知
问题: 如果该市政府希望使80%的居民用户生活用水费支出不受影响,根据9.2.1节中100户居民用户的月均用水量数据,你能给市政府提出确定居民用户月均用水量标准的建议吗
根据市政府的要求确定居民用户月均用水量标准,就是要寻找一个数a,使全市居民用户月均用水量中不超过a的占80%,大于a的占20%.
把得到的100个样本数据按从小到大排序,得到第80个和81个数据分别为13.6和13.8.可以发现,区间(13.6,13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数(13.6+13.8)/2=13.7,并称此数为这组数据的第80百分位数(percentile), 或80%分位数.
根据样本数据的第80百分位数,我们可以估计总体数据的第80百分位数为13.7左右.由于样本的取值规律与总体的取值规律之间会存在偏差,而在决策问题中,只要临界值近似为第80百分位数即可,因此为了实际中操作的方便,可以建议市政府把月均用水量标准定为14t,或者把年用水量标准定为168t.
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
探究新知
第p百分位数的定义
可以通过下面的步骤计算一组n个数据的第p百分位数:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;
若i是整数,则第p百分位数为第项与第(i+1)项数据的平均数.
探究新知
中位数,相当于是第50百分位数.常用的分位数还有第25百分位数,第75百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
第1百分位数,第5百分位数,第95百分位数和第99百分位数在统计中也经常被使用.
中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.
平均数: 一组数据的算术平均数,即
探究新知
在城市居民月均用水量样本数据的频率分布直方图中,你认为众数应在哪个小矩形内 由此估计总体的众数是什么
探究新知
频率/组距
众数
众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标.
取最高矩形下端中点的横坐标5.7作为众数.
探究新知
根据统计学中数学期望原理,将频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积相加,就是样本数据的估值平均数.由此估计总体的平均数是什么
平均数
0.12
月均用水量/t
0.02
0.04
0.06
0.08
0.10
O
频率/组距
4.2
7.2
10.2
22.2
28.2
13.2
25.2
1.2
16.2
19.2
0.23
0.32
0.13
0.09
0.09
0.05
0.03
0.04
0.02
与原始数据计算的样本平均数8.79相差不大.
探究新知
中位数
在频率分布直方图中,每个小矩形的面积表示什么 中位数左右两侧的直方图的面积应有什么关系
在城市居民月均用水量样本数据的频率分布直方图中,从左至右各个小矩形的面积分别是0.23,0.32,0.13,0.09,0.09,0.05,0.03,
0.04,0.02.由此估计总体的中位数是什么
探究新知
中位数
在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.
0.12
月均用水量/t
0.02
0.04
0.06
0.08
0.10
O
频率/组距
4.2
7.2
10.2
22.2
28.2
13.2
25.2
1.2
16.2
19.2
0.23
0.32
0.13
0.09
0.09
0.05
0.03
0.04
0.02
6.71
探究新知
这个结果与根据原始数据求得的中位数6.6相差不大.
众数、中位数、平均数与频率分布直方图的关系
众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标.
在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.
平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
探究新知
典例讲解
例1、根据9.1.2节问题3中女生的样本数据,估计树人中学高一年级女生的第25,50,75百分位数.
把27名女生的样本数据按从小到大排序,可得
148.0 149.0 154.0 154.0 155.0 155.0 155.5 157.0 157.0
158.0 158.0 159.0 161.0 161.0 162.0 162.5 162.5 163.0
163.0 164.0 164.0 164.0 165.0 170.0 171.0 172.0 172.0
由25%×27=6.75,50%×27=13.5,75%×27=20.25,可知样本数据的第25,50,75百分位数为第7,14,21项数据,分别为155.5,161,164.据此可以估计树人中学高一年级女生的第25,50,75百分位数分别约为155.5,161和164.
解析
分组 频数累计 频数 频率
[1.2,4.2)
[4.2,7.2)
[7.2,10.2)
[10.2,13.2)
[13.2,16.2)
[16.2,19.2)
[19.2,22.2)
[22.2,25.2)
[25.2,28.2]
合计
23
32
13
9
9
5
3
4
2
0.23
0.32
0.13
0.09
0.09
0.05
0.03
0.04
100
1.00
0.02
频率/组距
0.077
0.107
0.043
0.030
0.030
0.017
0.010
0.013
0.007
例2、根据下表,估计月均用水量的样本数据的80%和95%分位数.
由表可知,月均用水量在13.2 t以下的居民用户所占比例为23%+32%+13%+9%=77%.
在16.2 t以下的居民用户所占的比例为77%+9%=86%.
因此,80%分位数一定位于[13.2,16.2)内.由13.2+3×=14.2,可以估计月均用水量的样本数据的80%分位数约为14.2.
类似地,由22.2+3×=22.95,可以估计月均用水量的样本数据的95%分位数约为22.95.
典例讲解
解析
典例讲解
例3、已知某公司的33名职工的月工资(单位:元)如下:
(1)求该公司职工月工资的平均数、中位数、众数(结果保留整数);
(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是多少(精确到1元)
(3)你认为用哪个统计量反映这个公司员工的月工资水平较合适 结合此问题谈一谈你的看法.
解析
(1)平均数为.
(2)平均数为.
中位数是1500,众数是1500.
典例讲解
例3、已知某公司的33名职工的月工资(单位:元)如下:
(1)求该公司职工月工资的平均数、中位数、众数(结果保留整数);
(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是多少(精确到1元)
(3)你认为用哪个统计量反映这个公司员工的月工资水平较合适 结合此问题谈一谈你的看法.
解析
(3)在这个问题中,中位数或众数均能反映该公司员工的月工资水平.因为公司中少数人的工资与大多数人的工资差别较大,这样导致平均数与中位数、众数偏差较大,所以平均数不能反映这个公司员工的月工资水平.
方法归纳
(1)理解和把握平均数、中位数、众数在反映样本数据上的特点,并结合实际情况,灵活应用.
(2)如果样本平均数大于样本中位数,说明数据中存在许多较小的极端值,在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作岀决策.
(3)平均数对极端值敏感,而中位数对极端值不敏感,因此两者结合,可较好地分析总体的情况.
变式训练
1.如表是五年级两个班的22名同学1分钟仰卧起坐的成绩(单位:次)
(1)这两组数据的平均数,中位数和众数各是多少
(2)你认为哪个数表示两个班的成绩更合适
解析
(1)一班平均数:
所以一班中位数为33次,33出现的次数最多,众数是33次;
二班平均数:
二班数据从小到大排列为:25,27,28,29,29,29,29,29,30,30,35
所以二班的中位数是29次,29出现的次数最多,所以二班的众数是29次.
(2)运用平均数表示两个班的成绩更合适.
典例讲解
例4、某校为了解全校高中学生五一小长假参加实践活动的情况,抽查了100名学生,统计他们假期参加实践活动的时间(单位:小时),绘成的频率分布直方图如图所示.
(1)求这100名学生中参加实践活动时间在6~10小时内的人数;
(2)估计这100名学生参加实践活动时间的众数、中位数和平均数.
解析
(1)100×[1-(0.04+0.12+0.05)×2]=58(名),即这100名学生中参加实践活动时间在6~10小时内的人数为58.
(2)由频率分布直方图可以看出最高矩形底边中点的横坐标为7,故这100名学生参加实践活动时间的众数的估计值为7小时.
例4、某校为了解全校高中学生五一小长假参加实践活动的情况,抽查了100名学生,统计他们假期参加实践活动的时间(单位:小时),绘成的频率分布直方图如图所示.
(1)求这100名学生中参加实践活动时间在6~10小时内的人数;
(2)估计这100名学生参加实践活动时间的众数、中位数和平均数.
解析
∵(0.04+0.12)×2=0.32,(0.04+0.12+0.15)×2=0.62,0.32<0.5<0.62,
∴中位数满足6< <8,由0.32+(-6)×0.15=0.5,得=7.2,即这100名学生参加实践活动时间的中位数的估计值为7.2时.
由(0.04+0.12+0.15++0.05)×2=1,解得=0.14,
这100名学生参加实践活动时间的平均数的估计值为0.04×2×3+0.12×2×5+0.15×2×7+0.14×2×9+0.05×2×11=7.16(小时)
典例讲解
变式训练
解析
2.如图是一容量为100的样本的质量的频率分布直方图,则由图可估计样本质量的中位数为( )
A.11 B.11.5 C.12 D.12.5
中位数是把频率分布直方图分成两个面积相等部分且平行于纵轴的直线的横坐标.设中位数为,则将频率分布直方图分成两个面积相等部分,则有0.06×5+(-10)×0.1=0.5,所以=12.
C
1.样本众数通常用来表示分类变量的中心值,容易计算,但是它只能表达样本数据中的很少一部分信息,通常用于描述分类变量的中心位置.
2.中位数不受少数几个极端数据(即排序靠前或排序靠后的数据)的影响,容易计算,它仅利用了数据中排在中间数据的信息.当样本数据质量比较差,即存在一些错误数据(如数据的录入错误、测量错误等)时,应该用抗极端数据强的中位数表示数据的中心值,可以利用计算机模拟样本,向学生展示错误数据对样本中位数的影响程度.
素养提炼
3.平均数受样本中的每一个数据的影响,“越离群”的数据,对平均数的影响也越大.与众数和中位数相比,平均数代表了数据更多的信息.当样本数据质量比较差时,使用平均数描述数据的中心位置可能与实际情况产生较大的误差.可以利用计算机模拟样本,向学生展示错误数据对样本平均数的影响程度.在体育、文艺等各种比赛的评分中,使用的是平均数.计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素而给出过高或过低的分数对选手的得分造成较大的影响,从而降低误差,尽量保证公平性.
4.如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策.
素养提炼
1.在1至10排列的10个整数中,第60百分位数是( )
A.5 B.5.5 C.6 D.6.5
2.一组数据8,8,7,6,5,4,其40%分位数是( )
A.8 B.7 C.6 D.5
3.在1至19排列的10个奇数中,第三四分位数是( )
A.15 B.16 C.17 D.18
4.位于25%分位数与50%分位数之间的数据约占总体数据的( )
A. B. C. D.
5.一组数据的分位数是,则可能是( )
A.50 B.75 C.25% D.100%
C
C
B
C
当堂练习
6.空气污染,又称为大气污染,是指由于人类活动或自然过程引起某些物质进入大气中,呈现出足够的浓度,达到足够的时间,并因此危害了人体的舒适、健康和福利或环境的现象.全世界人们也越来越关注环境保护问题.2019年1月某日某省对个监测点数据统计如下:
根据所给统计表估计该组数据的65%分位数为( )
A.100 B.125 C.130 D.150
B
当堂练习
7.10名工人某天生产同一零件,生产的件数是15,17,14,10,15,17,17,16,14,12,设其平均数为,中位数为,众数为,则有( )
A. B. C. D.
8.马拉松是一项历史悠久的长跑运动,全程约42千米跑马拉松对运动员的身体素质和耐力是极大的考验,专业的马拉松运动员经过长期的训练,跑步时的步幅(一步的距离)一般略低于自身的身高,若某运动员跑完一次全程马拉松用了2.5小时,则他平均每分钟的步数可能为( )
A.60 B.120 C.180 D.240
9.已知样本数据为3,1,3,2,3,2,则这个样本的中位数与众数分别为( )
A.2,3 B.3,3 C.2.5,3 D.2.5,2
D
C
当堂练习
当堂练习
10.我校为了了解高三学生在全市第一次模拟考试中对数学的掌握情况,从高三年级中随机抽查了100名学生的数学成绩,并制成了频率分布直方图(如图),从图中可以知道这100名学生的平均分数和中位数分别为( )
A.103.2,113.2 B.108.2,108
C.103.2,108 D.108.2,113.2
11.有22名同学参加智力竞赛,且他们的分数互不相同,按分数高低选11名同学进入下一轮比赛,陈一鸣同学知道了自己的分数后,还需知道哪个统计量,就能判断自己能否进入一下轮比赛( )
A.中位数 B.众数 C.方差 D.平均数
B
A
归纳小结
总体百分位数的估计
第百分位数
一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值
四分位数
中位数相当于是第50百分位数,除了中位数外,常用的分位数还有第25百分位数,第75百分位数
第25,50,75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数
第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等
计算第百分位数的步骤
第一步:按从小到大排列原始数据
第二步:计算
若不是整数,而大于的比邻整数,则第百分位数为第项数据
若是整数,则第百分位数为第项与第项数据的平均数
第三步:
归纳小结
总体集中趋势的估计
统计量
平均数
平均数、中位数、众数在频率分布直方图中的计算
平均数、中位数、众数的区别与联系
中位数
众数
作 业
P203 练习:2
P208 练习:1