14.4.1 用样本估计总体的集中趋势参数
1. 理解用样本数据的平均值估计总体的水平.
2. 能根据实际情况合理选择数据代表值,理解平均数、中位数、众数的概念及适用范围.
3. 掌握从实际问题中获取数据,以及利用样本数据计算平均数、众数和中位数从而对总体估计的方法.
活动一 理解平均数的概念
某校高一(1)班同学在老师的布置下,用单摆进行测试,以检验重力加速度.全班同学每两人一组,在相同条件下进行测试,得到下列实验数据(单位:m/s2):
9.62 9.54 9.78 9.94 10.01 9.66
9.88 9.68 10.32 9.76 9.45 9.99
9.81 9.56 9.78 9.72 9.93 9.94
9.65 9.79 9.42 9.68 9.70 9.84
怎样利用这些数据对重力加速度进行估计?
我们常用算术平均数作为重力加速度的“最理想”的近似值,其中ai(i=1,2,…,n)为n个实验数据,它的依据是什么呢?
处理实验数据的原则是使近似值与实验数据越接近越好.设这个近似值为x,它与n个实验数据ai(i=1,2,…,n)的离差分别为x-a1,x-a2,x-a3,…,x-an.由于上述离差有正有负,故不宜直接相加.可以考虑离差的平方和,即(x-a1)2+(x-a2)2+…+(x-an)2.因为(x-a1)2+(x-a2)2+…+(x-an)2=nx2-2(a1+a2+…+an)x+a+a+…+a,所以当x=时,离差的平方和最小,故可用作为表示这个量的理想近似值,称为这n个数据 a1,a2,…,an的平均数,一般记为
=.
这样,我们可以用计算器求得,由高一(1)班学生的实验数据估计的重力加速度的最佳近似值约为9.769m/s2.
1. 若a1,a2,…,an的平均数为 ,则ba1+a,ba2+a,…,ban+a的平均数为b+a;
2. 在n个数据中有k1个a1,k2个a2,…,km个am,则这n个数的平均数为(k1a1+k2a2+…+kmam)(其中k1+…+km=n);
练习1 求52,49,48,54,47,48,55,52 的平均数.
方法一:
方法二:
练习2 某公司有3名经理,14名科技人员,23名工人,经理工资为6 800元,科技人员工资为5 400 元,工人工资为 3 600 元,求该公司的平均工资.
活动二 掌握平均数的应用
例1 下面是某校学生日睡眠时间(单位:h)的抽样频率分布表.
睡眠时间 人数 频率
[6.0,6.5) 5 0.05
[6.5,7.0) 17
[7.0,7.5)
[7.5,8.0) 0.37
[8.0,8.5) 6
[8.5,9.0] 2
合计 1
(1) 完成表格;
(2) 用两种方法估计该校学生的平均日睡眠时间.
1. 若取值为x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均数为x1p1+x2p2+…+xnpn.
2. 若每组数据在一个范围内,则x1,x2,…,xn的值近似地取各组区间中点的数值(称为“组中值”).
某单位年收入(单位:元)在10 000~15 000,15 000~20 000,20 000~25 000,25 000~30 000,30 000~35 000,35 000~40 000及40 000~50 000之间的职工所占的百分比分别为10%,15%,20%,25%,15%,10%和5%,试估计该单位职工的平均年收入.
例2 某地统计部门为了解企业员工的收入状况.决定进行抽样调查.估计该地共有产业工人大约50 000人,企业管理人员约1 000人,工人与管理人员的月工资收入差异比较大.该地统计部门用分层抽样的方法抽取产业工人500人,企业管理人员10人.被抽取的500名产业工人的人均月工资为5 328元,10名企业管理人员的人均月工资为8 426元,试估计这个地区企业员工的人均月工资.
如果将总体分为k层,第j层抽取的样本为xj1,xj2,…,xjnj,第j层的样本量为nj,样本平均数为j,j=1,2,…,k.记nj=n,则所有数据的样本平均数为=xjt= (njj).
活动三 理解众数与中位数的概念
一般地,我们将一组数据中出现次数最多的那个数据叫作该组数据的众数.将一组数据按照从小到大的顺序排成一列,如果数据的个数为奇数,那么排在正中间的数据就是这组数据的中位数;如果数据的个数为偶数,那么排在正中间的两个数据的平均数即为这组数据的中位数.
思考
平均数、众数、中位数这三个量都是反映一组数据的什么趋势?
活动四 众数与中位数的应用
例3 某校高一(2)班的6名学生的体重(单位:kg)分别为47,49,52,57,60,71.
(1) 用哪种统计量代表这6名学生的体重比较合适?
(2) 这6个数据的中位数是多少?
平均数、众数、中位数这三个量都是刻画数据“中心位置”的量,但它们从不同角度刻画了一组数据的集中趋势.一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数.
某小区广场上有甲、乙两群市民正在进行晨练,两群市民的年龄(单位:岁)如下:
甲群:13,13,14,15,15,15,15,16,17,17;
乙群:54,3,4,4,5,5,6,6,6,57.
(1) 甲群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映甲群市民的年龄特征?
(2) 乙群市民年龄的平均数、中位数和众数各是多少岁?其中哪个统计量能较好地反映乙群市民的年龄特征?
1. (教材改编)已知一组数据为20,30,40,50,50,60,70,80,其中平均数、中位数和众数的大小关系是( )
A. 平均数>中位数>众数 B. 平均数<中位数<众数
C. 中位数<众数<平均数 D. 众数=中位数=平均数
2. (教材改编)一支田径队有男运动员40人,女运动员30人,用分层抽样的方法从全体运动员中抽取一个容量为7的样本,抽出的男运动员平均身高为176.4 cm,抽出的女运动员平均身高为168.7 cm,估计该田径队运动员的平均身高是( )
A. 172.9 cm B. 173.1 cm C. 172.8 cm D. 173.6 cm
3. (多选)(2024山东期末)如图,下列频率直方图显示了三种不同的分布形态.图1形成对称形态,图2形成“右拖尾”形态,图3形成“左拖尾”形态,则下列结论中正确的是( )
图1 图2 图3
A. 图1的平均数=中位数=众数 B. 图2的平均数<众数<中位数
C. 图2的众数<中位数<平均数 D. 图3的平均数<中位数<众数
4. 设一组样本数据x1,x2,…,xn的平均数是3,则数据2x1+1,2x2+1,…,2xn+1的平均数为________.
5. (2024江苏月考)某公司销售部有销售人员15人,销售部为了制定某种商品的月销售定额,统计了这15人某月的销售量如下:
销售量/件 1 800 510 250 210 150 120
人数 1 1 3 5 3 2
(1) 求这15位销售人员该月销售量的平均数、中位数及众数;
(2) 假设销售部负责人把每位销售人员的月销售额定为320件,你认为是否合理,为什么?如果不合理,请你制定一个较为合理的销售定额.
14.4.1 用样本估计总体的集中趋势参数
【活动方案】
练习1:方法一:
==50.625.
方法二:=×(2×52+49+2×48+54+47+55)=50.625.
练习2:该公司的平均工资为
==4 470(元).
例1 (1)
睡眠时间 人数 频率
[6.0,6.5) 5 0.05
[6.5,7.0) 17 0.17
[7.0,7.5) 33 0.33
[7.5,8.0) 37 0.37
[8.0,8.5) 6 0.06
[8.5,9.0] 2 0.02
合计 100 1
(2) 方法一:总睡眠时间约为6.25×5+6.75×17+7.25×33+7.75×37+8.25×6+8.75×2=739(h),
因为该校共有100人,所以该校学生的平均日睡眠时间约为7.39 h.
方法二:6.25×0.05+6.75×0.17+7.25×0.33+7.75×0.37+8.25×0.06+8.75×0.02=7.39(h).
综上,估计该校学生的平均日睡眠时间约为7.39 h.
跟踪训练 估计该单位职工的平均年收入为 12 500×10%+17 500×15%+22 500×20%+27 500×25%+32 500×15%+37 500×10%+45 000×5%=26 125(元),
所以估计该单位职工的平均年收入约为 26 125元.
例2 被抽取的500名产业工人的人均月工资为5 328元,故这500名产业工人的月工资总额为(5 328×500)元.同理,被抽取的10名企业管理人员的月工资总额为(8 426×10)元,所以被抽取的这510名企业员工的月工资总额为(5 328×500+8 426×10)元.
因此,被抽取的这510名企业员工的人均月工资(即样本的平均数)为≈5 389(元).
故估计该地区企业员工的人均月工资约为 5 389 元.
思考:都是反映一组数据的集中趋势.
例3 (1) 因为有“71”这一个“极端值”,所以不宜使用平均数.又因为各个数据均不相同,所以这组数据没有众数.由于极端值的大小对中位数的位置没有影响,故用中位数作为这组数据的代表值较为合适.
(2) 这6个数据的中位数是=54.5.
跟踪训练 (1) 甲群市民年龄的平均数为×(13+13+14+15+15+15+15+16+17+17)=15(岁),中位数为15岁,众数为15岁.
因为平均数、中位数和众数相等,所以它们都能较好地反映甲群市民的年龄特征.
(2) 乙群市民年龄的平均数为×(54+3+4+4+5+5+6+6+6+57)=15(岁),中位数为5.5岁,众数为6岁.
因为乙群市民大多数是儿童,所以中位数和众数能较好地反映乙群市民的年龄特征,而平均数的可靠性较差.
【检测反馈】
1. D 平均数、中位数和众数均为50.
2. B 由题意知抽取的样本中男队员有7×=4(人),女队员有7×=3(人),所以估计该田径队运动员的平均身高为176.4×+168.7×=173.1(cm).
3. ACD 图1的频率直方图是对称的,所以平均数=中位数=众数,故A正确;图2的众数最小,右拖尾则平均数大于中位数,故B错误,C正确;图3的众数最大,左拖尾则平均数小于中位数,故D正确.故选ACD.
4. 7 因为样本数据x1,x2,…,xn的平均数是3,所以=3n,所以数据2x1+1,2x2+1,…,2xn+1的平均数=2xi+1)==7.
5. (1) 销售人员该月销售量的平均数是×(1 800+510+250×3+210×5+150×3+120×2)=320.表中的数据是按从大到小的顺序排列的,处于中间位置的是210,所以中位数是210.210出现了5次,次数最多,所以众数是210.
(2) 不合理.因为15人中有13人的销售额不到320件,所以320件不能很好地反映销售人员的一般水平.
销售额定为210件更合适,因为210件既是中位数,又是众数,而且是大部分人能达到的定额.