课件25张PPT。2.2.2 用样本的数字特征估计总体的数字特征一 、复习众数、中位数、平均数的概念 2、中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数. 1、众数:在一组数据中,出现次数最多的数据叫做这组数据的众数. 众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛. 3、平均数: 一般地,如果n个数 ,那
么, 叫做这n个数的平均数。1、求下列各组数据的众数(1)、1 ,2,3,3,3,5,5,8,8,8,9,9众数是:3和8(2)、1 ,2,3,3,3,5,5,8,8,9,9众数是:32、求下列各组数据的中位数(1)、1 ,2,3,3,3,4,6,8,8,8,9,9(2)1 ,2,3,3,3,4,8,8,8,9,9中位数是:5中位数是:4 3、在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:分别求这些运动员成绩的众数,中位数与平均数 。 解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70; 答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米)。 这组数据的平均数是二 、 众数、中位数、平均数与频率分布直方图的关系 例如,在上一节抽样调查的100位居民的月均用水量的数据中,我们得知这一组样本数据的 ,并画出过这组数据的频率分布直方图.众数 =2.3(t)
中位数=2.0(t)
平均数=2.0(t)现在,观察这组数据的频率分布直方图,能否得出这组数据的众数、中位数和平均数?众数、中位数和平均数0.52.521.5143.534.5频率
组距思考:小长方形面积、对应这个组的频率、这个组占的比例的关系。0.52.521.5143.534.5频率
组距2.25 归纳总结得:
因为在频率分布直方图中,各小长方形的面积表示相应各组的频率,也显示出样本数据落在各小组的比例的大小,所以从图中可以看到,在区间[2,2.5)的小长方形的面积最大,即这组的频率是最大的,也就是说月均用水量在区间[2,2.5)内的居民最多,即众数就是在区间[2,2.5)内。
众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。0.52.521.5143.534.5频率
组距0.040.080.150.220.250.140.060.040.02提示:中位数左边的数据个数与右边的数据个数是相等的。0.52.521.5143.534.5频率
组距0.040.080.150.220.250.140.060.040.02前四个小矩形的面积和=0.49后四个小矩形的面积和=0.262.02 归纳总结得:
在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。在这个频率分布直方图中,左边的直方图的面积代表50个单位,右边的直方图也是代表50个单位,它们的分界线与x轴交点的横坐标就是中位数。
中位数在样本数据的频率分布直方图中,就是把频率分布直方图划分左右两个面积相等的分界线与x轴交点的横坐标。思考讨论以下问题:
1、2.02这个中位数的估计值,与样本的中位数值2.0不一样,你能解释其中原因吗?答:2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,直方图已经损失一些样本信息。所以由频率分布直方图得到的中位数估计值往往与样本的实际中位数值不一致.0.52.521.5143.534.5频率
组距0.040.080.150.220.250.140.060.040.02提示:在频率分布直方图中,各个组的平均数如何找?
0.52.521.5143.534.5频率
组距0.040.080.150.220.250.140.060.040.02.........0.751.752.252.753.253.754.251.250.5提示:与小长方形面积的比例有关吗?0.52.521.5143.534.5频率
组距0.040.080.150.220.250.140.060.040.022.02.........0.751.752.252.753.253.754.251.250.5 总结归纳得:
平均数是频率分布直方图的“重心”,是直方图的平衡点。 先找出每个小长方形的“重心”,即每小组的平均数,再按比例算出直方图的平均数。
平均数在样本数据的频率分布直方图中,等于频率分布图中每个小长方形面积乘以小矩形底边中点的横坐标之和。思考讨论以下问题:
2、样本中位数不受少数极端值的影响,这在某些情况下是一个优点,但它对极端值的不敏感有时也会成为缺点。你能举例说明吗?答:优点:对极端数据不敏感的方法能够有效地预防错误数据的影响。
对极端值不敏感有利的例子:例如当样本数据质量比较差,即存在一些错误数据(如数据录入错误、测量错误等)时,用抗极端数据强的中位数表示数据的中心值更准确。 缺点:(1)出现错误的数据也不知道;(2)对极端值不敏感有弊的例子:某人具有初级计算机专业技术水平,想找一份收入好的工作。这时如果采用各个公司计算机专业技术人员收入的中位数作为选择工作的参考指标就会冒这样的风险:很可能所选择公司的初级计算机专业技术水平人员的收入很低,其原因是中位数对极小的数据不敏感。这里更好的方法是同时用平均工资和中位数作为参考指标,选择平均工资较高且中位数较大的公司就业.三 、三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征。 2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。 3、平均数与每一个样本的数据有关,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。 思考讨论以下问题:
3、“用数据说话”,这是我们经常听到的一句话。但是,数据有时也会被利用,从而产生误导。例如,一个企业中,绝大多数人是一线工人,他们的年收入可能是一万元左右,另有一些经理层次的人,年收入过到几十万元。这时年收入的平均数比中位数大得多。尽管这时的中位数比平均数更合理些,但是这个企业的老板到人力市场去招聘工人时,也许更可能用平均数来回答有关工次待遇的指问。
你认为“我们单位的收入水平比别的单位高”这句话应当怎么解释?答:
我认为这句话是这样解释的:这个企业的老板以员工平均工资收入水平去描述他们单位的收入情况。我觉得这是不合理的,因为这些员工当中,少数经理层次的收入与大多数一般员工收入的差别比较大,所以平均数不能反映该单位员工的收入水平。这个老板的话有误导与蒙骗行为。课后练习
假设你是一名交通部门的工作人员,你打算向市长报告国家对本市26个公路项目投资的平均资金数额,其中一条新公路的建设投资为2000万元人民币,另外25个项目的投资是20~100万元。中位数是25万元,平均数是100万元,众数是20万元。你会选择哪一种数据特征来表示国家对每一个项目投资的平均金额?你选择这种数字特征的缺点是什么?答:
这里应该采用平均数来表示每一个国家项目的平均金额,因为这能反映所有项目的信息。但平均数会受到极端数据2000万元的影响,所以大多数项目投资金额都和平均数相差比较大。四.小结
1.学习利用频率直方图估计总体的众数 、中位数和平均数的方法。
2.介绍众数、中位数和平均数这三个特征数的优点和缺点。
3.学习如何利用众数、中位数和平均数的特征去分析解决实际问题。作业1.(同步)P45(10),P51 (6)(8)(周一交,检查至P51)
2.《高中数学必修课程综合测评》P12~17(B)卷.课件24张PPT。1. 众数、中位数、平均数2.2.2 用样本的数字特征估计总体的数字特征一 众数、中位数、平均数的概念 中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数. 众数:在一组数据中,出现次数最多的数据叫做这组数据的众数. 众数、中位数、平均数都是描述一组数据的集中趋势的特征数,只是描述的角度不同,其中以平均数的应用最为广泛.平均数: 一组数据的算术平均数,即
x= 练习: 在一次中学生田径运动会上,参加男子跳高的17名运动员的成绩如下表所示:分别求这些运动员成绩的众数,中位数与平均数 平均数: 一组数据的算术平均数,即
x= 解:在17个数据中,1.75出现了4次,出现的次数最多,即这组数据的众数是1.75.
上面表里的17个数据可看成是按从小到大的顺序排列的,其中第9个数据1.70是最中间的一个数据,即这组数据的中位数是1.70; 这组数据的平均数是 答:17名运动员成绩的众数、中位数、平均数依次是1.75(米)、1.70(米)、1.69(米). 二 、 众数、中位数、平均数与频率分布直方图的关系 1、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)例如,在上一节调查的100位居民的月均用水量的问题中,如图所示:从这些样本数据的频率分布直方图可以看出,月均用水量的众数是2.25t. 2、在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数,因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值。0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)下图中用虚线代表居民
月均用水量的中位数近似值,
此数据值为2.02t. 0.040.080.150.220.250.140.060.020.04说明:
2.02这个中位数的估计值,与样本的中位数值2.0不一样,这是因为样本数据的频率分布直方图,只是直观地表明分布的形状,但是从直方图本身得不出原始的数据内容,所以由频率分布直方图得到的中位数近似值往往与样本的实际中位数值不一致. 3、平均数是频率分布直方图的“重心”.
是直方图的平衡点. 等于频率分布图中每个小矩形的面积乘以小矩形底边中点的横坐标之和0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量(t)下图中用虚线代表居民
月均用水量的平均数的估计值,
此数据值为2.02t. 平均数等于频率分布图中每个小矩形的面积乘以小矩形底边中点的横坐标之和0.040.080.150.220.250.140.060.020.04三 三种数字特征的优缺点 1、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征.如上例中众数是2.25t,它告诉我们,月均用水量为2.25t的居民数比月均用水量为其它数值的居民数多,但它并没有告诉我们多多少. 2、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。如上例中假设有某一用户月均用水量为10t,那么它所占频率为0.01,几乎不影响中位数,但显然这一极端值是不能忽视的。 3、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此 ,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。 四 众数、中位数、平均数的简单应用例 某工厂人员及工资构成如下:(1)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么? 分析:众数为200,中位数为220,平均数为300。
因平均数为300,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。 平均数向我们提供了样本数据的重要信息,但是平均有时也会使我们作出对总体的片面判断.因为这个平均数掩盖了一些极端的情况,而这些极端情况显然是不能忽略的.因此,只有平均数这个特征还难以概括样本数据的实际状态.如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:甲:7 8 7 9 5 4 9 10 7 4乙:9 5 7 8 7 6 8 6 7 7如果你是教练,你应当如何对这次射击作出评价?如果看两人本次射击的平均成绩,由于 两人射击 的平均成绩是一样的.那么两个人的水平就没有什么差异吗?
45678910环数频率0.10.20.3(甲)456789100.10.20.30.4环数频率(乙)甲的成绩分布比较分散乙的成绩分布比较集中因此,我们还需要从另外的角度来考察这两组数据.例如:在作统计图,表时提到过的极差.
甲的环数极差=10-4=6
乙的环数极差=9-5=4.
它们在一定程度上表明了样本数据的分散程度,与平均数一起,可以给我们许多关于样本数据的信息.显然,极差对极端值非常敏感,
注意到这一点,我们可以得到一种
“去掉一个最高分,去掉一个最低分”的统计策略.考察样本数据的分散程度的大小,最常用的统计量是标准差.
标准差是样本平均数的一种平均距离,一般用s表示.所谓“平均距离”,其含义可作如下理解:由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差.显然,标准差(方差)越大,则数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.考虑一个容量为2的样本:一个样本中的个体与平均数之间的距离关系可用下图表示:可算出甲,乙两人的的成绩的标准差由 可以知道,甲的成绩离散程度大,乙的成绩离散程度小.由此可以估计,乙比甲的射击成绩稳定.上面两组数据的离散程度与标准差之间的关系可用图直观地表示出来.2. 极差、标准差、方差小结
用样本的数字特征估计总体的数字特征1. 众数、中位数、平均数