第九章统计
9.2用样本估计总体
能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性
01
结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散型程度参数的统计含义
02
结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义
03
学习目标
频率分布直方图的制作步骤
01
02
03
01
1.求极差
极差式一组数据中最大值与最小值的差
2.决定组距与组数
合适的组距与组数对发现数据分布规律有重要意义.组数太多或太少,都会影响我们了解数据的分布情况组距与组数的确定没有固定的标准,常常需要-一个尝试和选择的过?程。数据分组的组数与数据的个数有关,:一般数据的个数越多,所分组数也越多.
3.将数据分组
4.列频率分布表
5.画频率分布直方图
名师点拨
01
02
03
01
小长方形的面积=组距×
所以各小长方形的面积的总和等于1
用样本的频率分布估计总体的分布
02
02
03
02
从一个总体得到一个包含大量数据的样本时,我们很难从一个个数字中直接看出样本所含的信息,如果把这些数据形成频数分布或频率分布,就可以比较清楚地看出样本数据的特征,从而估计总体的分布情况,用样本估计总体,是研究统计问题的一个基本思想方法,而对于总体分布,我们习惯用样本的频率分布对它进行估计
总体百分位数的估计
02
02
03
03
把100个样本数据按从小到大排序,得到第80个和第81个数据分别为13.6和13.8.可以发现,区间(13.6,?13.8)内的任意一个数,都能把样本数据分成符合要求的两部分.一般地,我们取这两个数的平均数=13.7,并称此数为这组数据的第80百分位数,或80%分位数.
一般地,一组数据的第p百分位数是这样-一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且少有(100-p)%的数据大于或等于这个值.
名师点拨
01
02
03
01
直观来说,一组数的第p位百分位数指的是讲这组数按照从小到大的顺序排列后,处于p%位置的数
计算一组n个数据的第力百分位数的步骤
02
02
03
04
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第力百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
四分位数
02
02
03
05
中位数相当于是第50百分数,常用的分位数还有第25百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数,其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等
总体集中趋势的估计
02
02
03
06
平均数、中位数、众数
(1)平均数:如果给定的一组数是 , ,… ,则这组数的平均数为 ,即
(2)中位数:如果一组数有奇数个数,且按照从小到大排列后为
,则称 为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为 ,则称 为这组数的中位数
(3)众数:一组数据中,某个数据出现的次数称为这个数据的频数,出现次数最多的数据称为这组数据的众数,若一组数据中,每个数据出现的次数一样多,则认为这组数据没有众数
总体集中趋势的估计
02
02
03
06
频率分布直方图中的中位数和平均数的大小规律
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图(1)),那么平均数和中位数应该大体上差不多;如果直方图在右边“拖尾”(图(2)),那么平均数大于中位数;如果直方图在左边“拖尾”(图(3)),?那么平均数小于中位数,也就是说,和中位数相比平均数总是在‘长尾巴’那边.
在频率分布直方图中,我们无法知道每个组内的数据是如何分布的.此时,通常假设它们在组内均匀分布.这样就可以获得样本的平均数、中位数和众数的近似估计,进而估计总体的平均数、中位数和众数.
总体集中趋势的估计
02
02
03
06
频率分布直方图中集中趋势参数的计算
(1)在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替
(2)在频率分布直方图中,样本中位数可依据“中位数左边和右边的直方图的面积相等”来求出
(3)在频率分布直方图中,样本众数可以用最高的矩形底边的中点近似代替
总体离散趋势的估计
02
02
03
07
假设一组数据是 , ,?.. ?,用表示这组数据的平均数,则 为这组数据的方差.
有时为了计算方差的方差,我们还把方差写成以下形式
我们对方差开平方,取它的算术平方根,即
我们称为这组数据的标准差.
总体离散趋势的估计
02
02
03
07
如果总体中所有个体的变量值分别为 总体平均数为 ,则称
为总体方差,S= 为总体标准差.
如果一个样本中个体的变量值分别为 样本平均数为则称
为样本方差,s=? 为样本标准差.
例1
经典例题
某高中为了解学生课外知识的积累情况,随机抽取200名同学参加课外知识测试,测试共5道题,每答对一题得20分,答错得0分.已知每名同学至少能答对2道题,得分不少于60分记为及格,不少于80分记为优秀,测试成绩百分比分布图如图所示,则下列说法正确的是( )
A.该次课外知识测试及格率为90%
B.该次课外知识测试得满分的同学有30名
C.该次测试成绩的中位数大于测试成绩的平均数
D.若该校共有3000名学生,则课外知识测试成绩能得优秀的同学大约有1440名
解析
经典例题
【详解】
由图知,及格率为 ,故A错误.
该测试满分同学的百分比为 ,即有 名,B错误.
由图知,中位数为80分,平均数为 分,故C正确.
由题意, 名学生成绩能得优秀的同学有 ,故D错误.
故选:C
例2
经典例题
“共享单车,绿色出行”是近年来火爆的广告词,现对某市10名共享单车用户一个月内使用共享单车的次数进行统计,得到数据如下所示,下列关于该组数据的说法错误的是( )
A.极差为36 B.众数为24
C.中位数为27 D.平均数为32
解析
经典例题
【详解】
该组数据的极差为23-17=36,众数为34,中位数为 ,平均数为
,观察选项可知,
故选:C.
随堂练习
1.为了解学生课外阅读的情况,随机统计n了名学生的课外阅读时间,所得数据都在 中,其频率分布直方图如图所示.已知在 中的频数为100,则n的值是( B )
A.500 B.1000 C.10000 D.25000
随堂练习
如图是某公司2020年1月到10月的销售额(单位:万元)的折线图,销售额在35万元以下为亏损,超过35万元为盈利,则下列说法错误的是( B )
A.这10个月中销售额最低的是1月份
B.从1月到6月销售额逐渐增加
C.这10个月中有3个月是亏损的
D.这10个月销售额的中位数是43万元
感谢聆听