(共20张PPT)
2.2.2 用样本的数字特征估计总体的数字特征(一)
一、众数、中位数、平均数
(1)众数:在样本数据中,频率分布最大值所对应的样本数据或出现次数最多的那个数据。
(2)中位数:样本数据中,累计频率为0.5时所对应的样本数据或将数据按大小排列,位于最中间的数据(如果数据的个数为偶数,就取当中两个数据的平均数作为中位数)。
(3)平均数:样本数据的算术平均数,即
例1. 从某大型企业全体员工某月的月工资表中随机抽取50名员工工资资料如下:
800 800 800 800 800 1000 1000 1000
1000 1000 1000 1000 1000 1000 1000 1200
1200 1200 1200 1200 1200 1200 1200 1200
1200 1200 1200 1200 1200 1200 1200 1200
1200 1200 1200 1500 1500 1500 1500 1500
1500 1500 2000 2000 2000 2000 2000 2500
2500 2500
计算这50个数据的众数,中位数和平均数,并估计这个企业员工的平均工资。
解:众数是1200,中位数是1200,
平均数是这50个数值的和除以50得1320.
估计这个企业员工的平均工资是1320元.
所以用样本的平均数估计总体的平均数是1320元。
同样,再随机抽取50名员工的工资,计算所得的样本平均数一般会与例1中的样本平均数不同。
所以用样本的平均数估计总体的平均数时,样本的平均数只是总体的平均数的近似值。
下面我们用来看样本平均数与样本频率直方图的联系。
我们知道,n个样本数据的平均数
则有nx=x1+x2+……+xn.
也就是把每个xi(i=1,2,3,…,n)都用x代替后,数据总和保持不变。
所以平均数x对数据有“取齐”的作用,代表一组数据的数值平均水平。
在频率分布直方图中,平均数是直方图的平衡点,假设横轴是一块放置直方图的跷跷板,则支点取在平均数处时跷跷板达到平衡。
例2.某工厂人员及工资构成如下:
人员 经理 管理人员 高级技工 工人 学徒 合计
周工资 2200 250 220 200 100
人数 1 6 5 10 1 23
合计 2200 1500 1100 2000 100 6900
(1)指出这个问题中的众数、中位数、平均数;
(2)这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?
解:(1)由表格可知:众数为200,中位数为220。平均数为300(元/周)。
(2)虽然平均数为300元/周,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.
三种数字特征的比较 :
(1)样本众数通常用来表示分离变量的中心值,容易计算,但是它只能表达样本数据中的很少一部分信息,通常用于描述分离变量的中心位置;
(2)中位数不受少数几个极端数据的影响,容易计算,它仅利用了数据中排在中间的数据的信息。当样本数据质量比较差,即存在一些错误数据时,应该用抗极端数据强的中位数表示数据的中心值。
(3)平均数受样本中的每一个数据的影响,“越离群”的数据,对平均数的影响也越大,与众数和中位数相比,平均数代表了数据更多的信息,当样本数据质量比较差时,使用平均数描述数据的中心位置可能与实际情况产生较大的误差。
在体育、文艺等各种比赛的评分中,使用的是平均数。计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素给出过高或过低的分数对选手的得分造成较大的影响,从而降低误差,尽量保证公平性。
(4)如果样本平均数大于样本中位数,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值。在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们作出决策。
例3. 右面是某校学生日睡眠时间的抽样频率分布表(单位:h),试估计该校学生的日平均睡眠时间。
睡眠时间 人 数 频 率
[6, 6.5) 5 0.05
[6.5, 7) 17 0.17
[7, 7.5) 33 0.33
[7.5, 8) 37 0.37
[8, 8.5) 6 0.06
[8.5, 9] 2 0.02
100 1
解1:总睡眠时间约为 6.25×5+6.75×17 +7.25×33+7.75×37+8.25×6+8.75×2 =739(h)
故平均睡眠时间约为7.39h
解2:求各组中值与对应频率之积的和,
6.25×0.05+6.75×0.17+7.25×0.33+7.75×37+8.25×0.06+8.75×0.02 =7.39(h)
估计该校学生的日平均睡眠时间约为7.39h
例4. 某单位年收入在10000到15000、15000到20000、20000到25000、25000到30000、30000到35000、35000到40000及40000到50000元之间的职工所占的比分别为10%,15%,20%,25%,15%,10%和5%,试估计该单位职工的平均年收入。
解:估计该单位职工的平均年收入为 12500×10%+17500×15%+22500×20%+27500×25%+32500×15%+37500×10%+45000×5%=26125(元)
答:估计该单位人均年收入约为26125元.
练习题:
1.若M个数的平均数是x,N个数的平均数是y,则这M+N个数的平均数是 .
,
和
的样本平均数分别是 x 和 y,
那么一组数
的平均数是
2. 如果两组数
.