第二十章 数据的分析
20.1 数据的集中趋势
20.1.1 平均数
第1课时 平均数
目标展示
教学目标
1.在实际情境中理解平均数的概念和意义.
2.会计算一组数据的算术平均数和加权平均数.
重点难点
重点:知道算术平均数和加权平均数的意义,会求一组数据的算术平均数和加权平均数.
难点:理解“权”的差异对平均数的影响,算术平均数与加权平均数的联系与区别,并能利用它们解决实际问题.
教学过程
一、新知链接
下表给出了某户居民2010年全年的水费缴纳情况(每两个月计费一次),请你帮这户居民算一算:平均每月缴纳多少水费?
某户居民2010年缴纳水费统计表
月份 2 4 6 8 10 12
水费(元) 50.60 34.60 41.40 46.00 39.20 27.60
师生活动:师出示问题后,由学生利用小学已经学过的平均数的知识独立完成解答.
结论:19.95元.
二、新知探究
探究点一:算术平均数
1.设n个数x1,x2,…,xn,你能根据小学阶段学过的平均数的定义,求出这组数据的平均数吗?该怎样表示,与同学交流.
师生活动:师引导学生回忆下小学阶段学过的平均数的定义,根据定义,由学生独立写出这组数据的平均数.
结论:这组数据的平均数是(x1+x2+…+xn).
2.下面的两个表是北京和广东两支篮球队队员的身高、年龄统计表:
(1)通过表格,你能说出哪支球队队员的身材更为高大吗?
(2)通过表格,你能说出哪支球队队员更为年轻吗?
师生活动:师引导学生读懂图表中各数据的意义,引导学生利用平均数来解决问题,让学生在组内讨论求解,选代表回答.
结论:(1)北京金隅队队员的平均身高为:=198(cm)
广东东莞银行队队员的平均身高为:=200(cm)
通过平均身高的比较可知,广东东莞银行队队员的身材更为高大.
(2)北京金隅队队员的平均年龄为
=25.4(岁),
广东东莞银行队队员的平均年龄为
=24.1(岁),
通过平均年龄的比较可知,广东东莞银行队队员更为年轻.
3.通过问题2的解决,你能解释“平均身高”“平均年龄”在实际问题中的作用吗?与同学交流.
师生活动:在解决问题2的基础上,由学生通过组内讨论的方式,尝试解答.通过学生的回答,师引导学生体会平均数与该组数据之间的关系.
结论:平均数反映了一组数据的平均水平,也反映了一组数据的集中情况.
平均身高大,则说明身高普遍较高;反之,平均身高小,则说明身高普遍较矮.
平均年龄越小,说明年龄普遍较小,整体比较年轻;反之,平均年龄越大,说明年龄普遍较大,整体比较年长.
因而通过比较“平均身高”“平均年龄”即可对两队的基本情况作出判断.
探究点二:加权平均数
1.商店里有两种苹果,一种单价为3.50元/千克,另一种单价为6元/千克.小明妈妈买了单价为3.50元/千克的苹果1千克,单价为6元/千克的苹果3千克,那么妈妈所买苹果的平均价格是多少元?
小亮认为,混合后每千克苹果的价格是两种苹果单价的平均数,即
=4.75(元).
小明认为,在总体中两种苹果的质量不相等,计算每千克苹果的售价时,应求出混合后两种苹果的总价格,再除以它们的总质量数,即
=5.375≈5.38(元).
你同意上面谁的算法?与同学交流.
师生活动:引导学生说出自己的想法,通过交流,让学生认识小亮算法的错误所在.
结论:小亮的算法是错误的,因为小亮没有考虑两种苹果在苹果总质量4千克中所占份额的不同,而小明的算法是按照公式单价=计算的,故而小明的算法是正确的.
2.问题1中小明列出的算式还可以作以下变形:
=3.5×+6×=5.375≈5.38(元)
由这个算式可以看出,数据3.5、6对购买的苹果单价影响的“重要程度”是不一样的.你发现这两个数据影响平均数大小的重要程度是通过哪两个比值反映出来的吗?
师生活动:师引导学生探索购买苹果的平均价格受什么因素的影响,学生相互交流各自的发现.
结论:通过混合后两种苹果的质量在购买的苹果总质量中所占的比值反映出来.
3.老师在计算学生每学期的总评成绩时,并不是简单地将一个学生的平时成绩与考试成绩相加除以2,而是按照“平时成绩占40%,考试成绩占60%”的比例计算,如图所示,
其中考试成绩更为重要.
如果一个学生的平时成绩为70分,考试成绩为90分,那么你能仿照问题2中计算平均数的方法,计算出这名学生的学期总评成绩吗?你能归纳一下这种计算平均数的方法吗?与同学交流.
师生活动:这是与学生生活实际紧密相关的而例子,可以让学生更好的地体会加权平均数的意义.师可让学生在小组内讨论尝试求解,选代表回答,师给予点评指正.
结论:这名同学的学期总评成绩应该为
70×40%+90×60%=82(分).
归纳概念:一般地,在k个数据x1,x2,……,xk中,如果各个数据出现的次数分别为w1,w2,……wk,记w1+w2+…+wk=n,那么比值,,…,分别是这k个数据的权重,把++…+叫做这k个数据的加权平均数.
4.在加权平均数的计算公式中,所有数据的权重的和是多少?对比加权平均数与以前学过的平均数的意义,你能说出二者有什么联系吗?
师生活动:师引导学生通过加权平均数的概念,独立发现所有数据的权的和为1的结论,并引导学生通过对比加权平均数与以前学过的平均数的意义,发现二者的联系,并相互交流.
结论:
①因为++…+===1.
所以所有数据的权重的和是1.
②在一组数据中,把每个数据出现的次数都看作1时,这组数据的加权平均数就是过去学过的平均数.
三、典例精讲
类型1 已知一组数据的平均数,求某一个数据
例1如果一组数据3,7,2,a,4,6的平均数是5,则a的值是( )
A.8 B.5 C.4 D.3
【解析】∵数据3,7,2,a,4,6的平均数是5,∴(3+7+2+a+4+6)÷6=5,解得a=8.故选A.
【答案】A
方法归纳
解决此类问题的关键是根据算术平均数的计算公式和已知条件列出方程求解.
类型2 已知一组数据的平均数,求新数据的平均数
例2 已知一组数据x1、x2、x3、x4、x5的平均数是5,则另一组新数据x1+1、x2+2、x3+3、x4+4、x5+5的平均数是( )
A.6 B.8 C.10 D.无法计算
【解析】∵x1、x2、x3、x4、x5的平均数为5,∴x1+x2+x3+x4+x5=5×5,∴x1+1、x2+2、x3+3、x4+4、x5+5的平均数为(x1+1+x2+2+x3+3+x4+4+x5+5)÷5=(5×5+15)÷5=8.故选B.
【答案】B
跟踪训练
已知5个正数m1,m2,m3,m4,m5的平均数为m,且m1<m2<m3<m4<m5,则数据m1,m2,0,m3,m4,m5的平均数是( C )
A.m B.m3
C.m D.m3
类型3 平均数的实际应用
例3 某同学在本学期的前四次数学测验中得分依次是95,82,76,88,马上要进行第五次测验了,他希望五次成绩的平均分能达到85,那么这次测验他应得多少分呢?
解:设第五次测验得x分,则
=85.
解得x=84.
所以这次测验他应得84分.
跟踪训练
1.某校举行运动会,按年级设奖,第一名得5分,第二名得3分,第三名得2分,第四名得1分,某班8名同学参加比赛,共得2个第一,1个第三,4个第四,则该班8名同学的平均得分为2分.
2.评定学生的学科期末成绩由期末考试分数、作业分数、课堂参与分数三部分组成,并按3∶3∶4的比例确定.已知小军的数学期末考试80分,作业90分,课堂参与85分,则他的数学期末成绩为85分.
四、课堂小结
1.算术平均数
平均数是一组数据的代表,主要描述一组数据的平均水平,平均数是应用较多的一种量,在利用平均数解决问题时要注意以下两点:
(1)平均数计算要用到所有的数据,它能够充分利用所有的数据信息,但它受极端值的影响较大.
(2)平均数的大小与一组数据中的每个数据均有关系,任何一个数据的变动都会相应引起平均数的变动.
2.加权平均数
一般地,在k个数据x1,x2,……,xk中,如果各个数据出现的次数分别为w1,w2,……wk,记w1+w2+…+wk=n,那么比值,,…,分别叫做这k个数据的权重,把
++…+
叫做这k个数据的加权平均数.
3.加权平均数与算术平均数的联系
在一组数据中,把每个数据出现的次数都看作1时,这组数据的加权平均数就是过去学过的算术平均数.
第二十章 数据的分析
20.1 数据的集中趋势
20.1.1 平均数
第2课时 用样本平均数估计总体平均数
目标展示
教学目标
1. 掌握用样本平均数去估计总体平均数的统计方法.
2.在实际情景中会用样本平均数去估计总体平均数、体会样本代表性的重要意义.
重点难点
重点:掌握用样本平均数去估计总体平均数的统计方法.
难点:在实际情景中会用样本平均数去估计总体平均数、体会样本代表性的重要意义.
教学过程
一、新课导入
生活中的“小笑话”:
一天,爸爸叫儿子去买一盒火柴.临出门前,爸爸嘱咐儿子要买能划燃的火柴.儿子拿着钱出门了,过了好一会儿,儿子才回到家.爸爸:“火柴能划燃吗?”儿子:“都能划燃.”爸爸:“你这么肯定?”儿子递过一盒划过的火柴,兴奋地说:“我每根都试过啦.”爸爸:“啊!……”
今天我就学习用样本平均数估计总体平均数.
二、新知探究
探究点:用样本平均数估计总体平均数
为了估计某矿区铁矿石的含铁量,抽取了15块矿石,测得它们的含铁量如下:(单位:%)
26 24 21 28 27 23 23 25
26 22 21 30 26 20 30
则样本的平均数是多少 估计这个矿区铁矿石的平均含铁量约为多少
议一议
为了了解黄岩区某次数学统考8260名考生的平均成绩,你会采用什么样的行之有效的做法?
为了解5路公共汽车的营运情况,公交部门统计了某天5路公共汽车每个运行班次的载客量,得到下表:
载容最/人 组中值 频数
1≤X<21 11 3
21≤X<41 31 5
41≤X<61 51 20
61≤X<81 71 22
81≤X<101 91 18
1011≤X<121 111 15
这天5路公共汽车平均每班的载客量是多少?
【教学说明】老师提问后,先让学生自主探究,相互交流,然后教师给予指导,说明在不知道原始数据情况下,可以利用组中值和频数近似地计算一组数据的平均数.如在1≤x<21情况下,有3个班次,那么这3个班次的平均数为=11,从而可以估计这天5路公共汽车的载客量在1≤x<21情况下的总数为11×3=33人;类似地可得到这天5路公共汽车载客总量应约为11×3+31×5+51×20+71×22+91×18+111×15,因而平均每个班次的载客量约为人.
三、典例精讲
类型1 结合条形图来估计总体情况
例1为宣传节约用水,小明随机调查了某小区部分家庭5月份的用水情况,并将收集的数据整理成如下统计图.
(1)小明一共调查了多少户家庭?
(2)求所调查家庭5月份用水量的平均数;
(3)若该小区有400户居民,请你估计这个小区5月份的用水量.
解:(1)1+1+3+6+4+2+2+1=20(户),
答:小明一共调查了20户家庭;
(2)(1×1+1×2+3×3+4×6+5×4+6×2+7×2+8×1)÷20=4.5(吨),
答:所调查家庭5月份用水量的平均数为4.5吨;
(3)400×4.5=1800(吨),
答:估计这个小区5月份的用水量为1800吨.
方法归纳
读懂统计图,从统计图中得到必要的信息是解决问题的关键.条形统计图能清楚地表示出每个项目的数据.
类型2 结合频数分布直方图来估计总体情况
例2 统计武汉园博会前20天日参观人数,得到如下频数分布表和频数分布直方图(部分未完成):
武汉园博会前20天日参观人数的频数分布表
组别(万人) 组中值(万人) 频数 频率
7.5~14.5 11 5 0.25
14.5~21.5 6 0.3
21.5~28.5 25 0.3
28.5~35.5 32 3
(1)请补全频数分布表和频数分布直方图;
(2)求出日参观人数不低于21.5万的天数和所占的百分比;
(3)利用以上信息,试估计武汉园博会(会期247天)的参观总人数.
解:(1)14.5~21.5小组的组中值是(14.5+21.5)÷2=18,3÷20=0.15.
武汉园博会前20天日参观人数的频数分布表:
组别(万人) 组中值(万人) 频数 频率
7.5~14.5 11 5 0.25
14.5~21.5 18 6 0.3
21.5~28.5 25 6 0.3
28.5~35.5 32 3 0.15
(2)依题意得日参观人数不低于21.5万有6+3=9(天),所占百分比为9÷20=45%;
(3)∵园博会前20天的平均每天参观人数约为==20.45(万人),∴武汉园博会(会期247天)的参观总人数约为20.45×247=5051.15(万人).
答:武汉园博会(会期247天)的参观总人数约为5051.15万人.
四、课堂小结
在实际生活中,可用样本的平均数来估计总体的平均数.样本容量越大时,这种估计越准确.
第二十章 数据的分析
20.1 数据的集中趋势
20.1.2 中位数和众数
目标展示
教学目标
理解中位数、众数的概念和意义,会求一组数据的中位数、众数.
重点难点
重点:理解中位数、众数的概念和意义,会求一组数据的中位数、众数.
难点:求一组数据的中位数、众数.
教学过程
一、新课导入
师用多媒体展示如下漫画
师提出问题:
经理所说的公司的平均月薪2700元是否欺骗了应聘者?
平均月薪2700元能客观反映公司员工的平均收入吗?若不能,你认为用哪个数据表示该公司员工收入的平均水平更合适?
怎样说明这些问题呢?我们需要学习新的数据代表——中位数和众数.
二、新知探究
探究点一:中位数
根据中央电视台2011年10月20日19时30分预报,我国大陆各直辖市和省会城市21日的最高气温(℃)如下表所示:
各地21日最高气温(℃)预报
北京 17 天津 22 石家庄 21 太原 21 呼和浩特 18 沈阳 22 长春 20 哈尔滨 19
上海 23 南京 23 杭州 24 合肥 22 福州 27 南昌 26 济南 23 郑州 22
武汉 25 长沙 26 广州 30 海口 30 南宁 29 成都 21 重庆 20 贵阳 17
昆明 20 拉萨 20 西安 21 兰州 18 银川 20 西宁 16 乌鲁木齐 9
思考下面的问题,并与同学交流.
(1)这组数据中,共有多少个数据?
师生活动:引导学生通过独立思考和交流,自己得出答案.
结论:这组数据中,共有31个数据.
(2)将我国大陆直辖市和省会城市21日的最高气温数据按照由小到大的顺序加以排列,排在中间位置的数据是哪一个?如果按照从大到小的顺序加以排列呢?你发现了什么?
师生活动:引导学生通过独立思考和交流,自己得出答案.
结论:按照由小到大的顺序排列为
9,16,17,17,18,18,19,20,20,20,20,20,21,21,21,21,22,22,22,22,23,23,23,24,25,26,26,27,29,30,30.
排在中间位置的是21℃.
按照由大到小的顺序排列为
30,30,27,26,26,25,24,23,23,23,22,22,22,22,21,21,21,21,20,20,20,20,20,19,18,18,17,17,16,9.
排在中间位置的是21℃.
所以,不论将这组数据按照从大到小还是从小到大的顺序排列,排在中间的数据只有一个,且都是21℃.
(3)如果再加入一个城市青岛21日的最高气温22℃,那么新的一组最高气温的数据中有多少个数据?如果将这组新数据按照从小到大的顺序加以排列,那么排在正中间位置的数据是哪几个数?如果按照由大到小的顺序加以排列呢?
师生活动:引导学生通过独立思考和交流,自己得出答案.
结论:数据的个数是32,不论按照从大到小,还是从小到大的顺序将这组数据加以排列,排在正中间的数据总有两个,分别是21℃和22℃.这两个数据的平均数是21.5℃.
归纳定义:一般地,将一组数据按大小顺序排列后,处于中间位置的数叫做这组数据的中位数.如果数据的个数为奇数,那么处于中间位置的一个数据是这组数据的中位数;如果数据的个数为偶数,那么处于中间位置的两个数据的平均数,是这组数据的中位数.
师强调:当一组数据的个数为偶数时,它的中位数不一定是这组数据中的一个.
(4)观察你在(2)和(3)中重新排列的两组数据,你认为中位数21℃和21.5℃具有什么实际意义?
师生活动:引导学生通过独立思考并相互交流,师生共同探讨中位数的实际意义.
结论:在上面的两个问题中,21℃和21.5℃分别处于排列后该组数据的中间的位置,从而我们可以用21℃和21.5℃分别代表着两组城市21日最高气温的一般温度.由此可见,在按大小顺序排列后的一组数据中,由于中位数的位置居中,因而它能够反映这组数据的集中趋势和一般水平,因此,通常也把中位数作为这组数据的代表.
探究点二:众数
(1)根据上面的“各地21日最高气温(℃)预报”表,你能说出每个温度数据出现的次数分别是多少吗?其中,出现次数最多的数据有哪几个?与同学交流.
师生活动:师引导学生先熟悉问题的实际情境,然后让学生通过观察和思考作出解答.
结论:各温度出现次数的统计表如下:
气温 (℃) 9 16 17 18 19 20 21 22 23 24 25 26 27 29 30
频数 1 1 2 2 1 5 4 4 3 1 1 2 1 1 2
由表可知,出现次数最多的数据是20℃,出现了5次.
归纳概念:一组数据中出现次数最多的数据,叫做这组数据的众数.
(2)若有两个气温值(如20℃和22℃)的频数并列最多,那怎样确定众数呢?
师生活动:师可让学生在组内展开讨论,选代表回答,师给予指正.
结论:这时,不能取20℃和22℃这两个数的平均数作为众数,而是说这两个气温值都是众数.
在一组数据中,如果有较多的重复数据,它的众数可能是1个,也有可能是2个或更多个.众数是出现次数最多的数据,而不是重复出现的次数.当一组数据中没有重复出现的数据时,这组数据便没有众数,但不能说众数为0.
(3)通过学习平均数、中位数、众数,我们知道它们都是反映一组数据集中趋势的代表,那你能归纳一下它们之间有什么不同吗?与同学交流.
师生活动:学生通过独立思考和交流,自己归纳结论.
结论:平均数、众数和中位数是三种从不同途径获得的刻画数据集中程度的统计量.平均数是通过计算得到的,它的大小由这组数据中所有的数据决定,因而能刻画一组数据的集中程度和一般水平.平均数的应用最为广泛,但是它的值容易受到个别极端数据的影响.中位数是由这组数据处于中间位置的数据决定的,当数据按照大小顺序排列时,个别极端数据只能排在这组数据的最前或最后,因而中位数不容易受个别极端数据的影响.众数是一组数据中重复出现次数最多的数据,也不容易受个别极端数据的影响.所以在实际问题中,应根据具体情况,从平均数、中位数和众数中选择最为合适的统计量,代表一组数据的集中程度.
三、典例精讲
类型1 中位数与众数的实际应用
例1某商场本月1—10日的日营业额(单位:万元)如下表所示:
日 期 1 2 3 4 5 6 7 8 9 10
日营业额/万元 5.3 6.2 3.6 4.5 8.6 6.8 4.5 6.3 6.5 6.6
(1)求这10天日营业额的平均数和中位数;
(2)请对该商场本月2日的营业情况作出评价.
解:(1)这10天日营业额的平均数为
=5.89(万元);
将这组数据按由小到大的顺序排列为:
3.6,4.5,4.5,5.3,6.2,6.3,6.5,6.6,6.8,8.6.
这组数据的中位数为处于中间位置的两个数据6.2,6.3的平均数,即
=6.25(万元).
所以,这10天营业额的平均数为5.89万元,中位数为6.25万元.
(2)该商场本月2日的营业额为6.2万元,高于该月1—10日的日平均营业额,因而营业额情况还是不错的.但是,该天的营业额略低于1—10日营业额的中位数,这说明该天的营业额在这10天中,处于中等稍偏下水平.
跟踪训练
下图是某篮球队队员年龄结构统计图,根据图中信息解答下列问题.
(1)该队队员年龄的平均数;
(2)该队队员年龄的众数和中位数.
解:(1)队员年龄的平均数为(17×1+18×2+21×3+23×2+24×2)÷10=21(岁).
(2)众数为21岁,中位数为21岁.
类型2 平均数、众数和中位数的选择
例2 某公司有15名工作人员,他们的月工资情况如下表所示,
职务 经理 副经理 职员
人数 1 2 12
月工资/元 8000 5000 2000
(1)求该公司工作人员月工资的平均数、中位数和众数;
(2)假设经理的月工资由8000元提升到12000元,副经理的月工资由5000元提升到6000元,职员的月工资仍为2000元,求工资变动后所得一组新的数据的平均数、中位数和众数;
(3)由(1)(2)你认为在这一问题中,哪个统计量更能反映出这个公司员工的月工资水平?结合统计量的实际意义加以解释.
解:(1)该公司工作人员月工资的平均数为
(元).
把15名工作人员的月工资按从小到大排列,可得该公司的月工资的中位数为2000元,众数也为2000元.
(2)该公司工资变动后,月工资的平均数为
(元).
该公司月工资的中位数和众数仍为2000元.
(3)由于经理和副经理的工资偏高,使该公司的原月平均工资2800与绝大多数员工的差距较大.该公司经理和副经理的工资变动后,月平均工资由2800升至3200,但中位数和众数仍为2000元.由此可见,在这一问题中,要反映该公司工作人员月工资水平,用中位数和众数要比用平均数更客观一些.
四、课堂小结
1.中位数
一般地,将一组数据按大小顺序排列后,处于中间位置的数叫做这组数据的中位数.如果数据的个数为奇数,那么处于中间位置的一个数据是这组数据的中位数;如果数据的个数为偶数,那么处于中间位置的两个数据的平均数,是这组数据的中位数.
2.众数
一组数据中出现次数最多的数据,叫做这组数据的众数.在一组数据中,如果有较多的重复数据,它的众数可能是1个,也有可能是2个或更多个.众数是出现次数最多的数据,而不是重复出现的次数.当一组数据中没有重复出现的数据时,这组数据便没有众数,但不能说众数为0.
3.对平均数、中位数和众数三个统计量的理解
平均数、众数和中位数是三种从不同途径获得的刻画数据集中程度的统计量.平均数是通过计算得到的,它的大小由这组数据中所有的数据决定,因而能刻画一组数据的集中程度和一般水平.平均数的应用最为广泛,但是它的值容易受到个别极端数据的影响.中位数是由这组数据处于中间位置的数据决定的,当数据按照大小顺序排列时,个别极端数据只能排在这组数据的最前或最后,因而中位数不容易受个别极端数据的影响.众数是一组数据中重复出现次数最多的数据,也不容易受个别极端数据的影响.所以在实际问题中,应根据具体情况,从平均数、中位数和众数中选择最为合适的统计量,代表一组数据的集中程度.