(共35张PPT)
《常用表格数据的处理》
主讲人:
数据整理
下图是学生体质健康数据的部分原始数据,观察该数据存在什么问题?
学籍号 性别 既往 病史 生日 体重(kg) 身高(cm) BMI评价
1840116 女 无 2003/9/29 44.8 1.615 正常
男 无 2002年9月30日 93.7 165.5 肥胖
1840118 女 无 2003/3/1 56.6 156.3 超重
1840118 女 无 2003/3/1 56.6 156.3 超重
1840120 男 无 2003/10/3 68 174.2 正常
1840121 男 无 2003/2/31 50 180.5 消瘦
学籍号 性别 既往 病史 生日 体重(kg) 身高(cm) BMI评价
1840116 女 无 2003/9/29 44.8 1.615 正常
男 无 2002年9月30日 93.7 165.5 肥胖
1840118 女 无 2003/3/1 56.6 156.3 超重
1840118 女 无 2003/3/1 56.6 156.3 超重
1840120 男 无 2003/10/3 68 174.2 正常
1840121 男 无 2003/2/31 50 180.5 消瘦
数据缺失
格式不一致
逻辑错误
数据异常
数据重复
1840117
2002/9/30
2003/2/28
161.5
数据整理:检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
数据整理
数据问题 处理方法
数据缺失 忽略含有缺省值的实例或属性(简单)
采用平均值、中间值或概率统计值来填充(优)
数据重复 在进一步审核的基础上进行合并或删除处理
异常数据 不符合一般规律的数据对象,可能为噪声或重要数据对象
逻辑错误 通过检测字段中各属性有效数据值的范围来判断
格式不一 数据转换成适合后续分析和挖掘的统一形式
数据整理的应用
乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了几年的生命。
excel基础知识
单元格地址
B5
区域地址
A2:C5
=C2+D2+E2
=SUM(C2:E2)
=SUM(C2,D2,E2)
数据计算
excel常见函数
SUM( ):求和
AVERAGE( ):求平均值
MIN( ):求最小值
MAX( ):求最大值
课堂练习
如果EXCEL中单元格B4的值是单元格B1、B2、B3 的平均值,则输入公式错误的是( )
A.=AVERAGE(B1:B3)
B.=AVERAGE(B1,B2,B3)
C.AVERAGE(B1+B2+B3)
D.=(B1+B2+B3)/3
C
公式运算
公式:以“=”开头,由常数、函数、单元格引用和运算符组成的算式。
单元格引用:连续的单元格用“:”连接,不连续的单元格用“,”连接,如A2:A5,D2:D5。
自动填充:利用填充柄将公式复制到其它相邻单元格中
=C2+D2+E2
一般情况,上下填充变行号,左右填充变列号!
=C7+D7+E7
自动填充
excel自动填充
自动填充
如在单元格F8中输入“=(E8+D8)*C2-B3*D4”,则自动填充到G10单元格后,单元格的内容为?
=(F10+E10)*D4-C5*E6
相对引用
一般情况,上下填充变行号,左右填充变列号!
引用
A1——相对引用(默认):公式所在单元格的位置改变,引用也随之改变。
$A$1——绝对引用:公式所在单元格的位置改变,引用保持不变。
混合引用:公式所在单元格的位置改变,绝对引用部分不变,相对引用部分随之改变,如$A1(仅锁定列号), A$1(仅锁定行号) 。“$”在谁前面,谁被锁定。
=E4*B$16
引用
上机实践
如图所示为2012-2016年部分省市区国内生产总值,请使用Excel完成部分空白数据的统计。
分别计算北京地区的5年生产总值和年生产平均值,并填充到G3、H3单元格中。
设置年生产平均值数单元格格式为保留两位小数。
利用自动填充功能完成其它省市区空白数据的计算。
函数
函数是预定义的公式,通过使用参数按特定顺序或结构进行计算,其中参数可以是数字、单元格或单元格区域。
注意:函数名称的字母均采用大写、以“=”为开头。
常用函数 功能 举例
SUM(num1,num2…) 求参数的和 =SUM(A1:A12)
AVERAGE(num1,num2…) 求参数的平均值 =AVERAGE(A1:A12)
MAX(num1,num2…) 返回参数列表中的最小值 =MAX(A1:A12)
MIN(num1,num2…) 返回参数列表中的最大值 =MIN(A1:A12)
上机实践
修改已完成的2012-2016年部分省市区国内生产总值表。
使用函数计算北京地区的5年生产总值和年生产平均值,并填充到G3、H3单元格中。
设置年生产平均值数单元格格式为保留两位小数。
利用自动填充功能完成其它省市区空白数据的计算。
上机实践
根据已完成的2012-2016年部分省市区国内生产总值表,完成占比表数据的填充。在K3单元格计算北京地区2012年生产值占5年总产值的比例,并自动填充到K3:O10单元格中。设置K3:O10单元格格式为百分数,并保留两位小数。
上机实践
根据已完成的2012-2016年部分省市区国内生产总值表,完成数据的排序。将生产总值表按“5年生产总值”进行降序排序,当“5年生产总值”相等时按照年生产平均值进行升序排序。对“上海、北京、天津、山西”四地按照“5年生产总值”进行升序排序。
上机实践
根据已完成的2012-2016年部分省市区国内生产总值表,绘制如图所示的柱形图。
绘制2012-2016年各省市区生产总值图。
修改图表标题为“2012-2016年部分省市区国内生产总值图”。
数据区域选取
根据图表判断数据区域:根据x轴、y轴选定数据区域,根据图例选定标题区域,最终数据区域呈现矩形状,如图所示的数据区域为A2:A10,E2:F10。
图表的标题与选定数据区域无关。
数据排序
1.选取数据区域
避开合并单元格
不能只选定关键字进行排序,而应将参与排序数据的整条记录全部选中后再排序
2.确定主要关键字、次要关键字,设置对应的排序依据和排序次序
先按主要关键字排序,当主要关键字相同按次要关键字排序.
数据包含标题,选区第一行为标题,不参与排序;数据不含标题,则所选区域即为排序区域,全部参与排序
数据筛选
筛选:符合筛选条件的显示,不符合条件的隐藏
文本筛选:通配符(?匹配一个字符,*匹配任意多个字符)、包含、结尾是、开头是
数字筛选:大于、小于、不等于任意、10个最大的值
多条件筛选
多条件筛选:筛选结果为多个条件的交集。
筛选后再排序,只有筛选出的记录参与排序。
如何选出女生中成绩最好的三个?
先选出性别为女生,再选出成绩最大的三项
先选出成绩最大的三项,再选出性别为女生
先选出女生,再按成绩进行排序
先按成绩进行排序,再选出女生
Excel图表
创建图表:选择数据区域—选择图表类型—创建图表—增加/删除/修改图表元素。
创建图表:
①选择数据区域
②选择图表类型
③创建图表
④增加/删除/修改图表元素
★ 图表呈现数据,让数据更直观,更有吸引力……
图表
柱形图
用于显示一段时间内的数据变化或显示各项之间的比较情况。
柱形图
折线图可以显示随时间而变化的连续数据,非常适用于显示在相等时间间隔下数据的趋势
柱形图
用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
柱形图
雷达图也称为网络图,蜘蛛图,星图。用于两组或者多组变量进行多项指标对比,反应数据相对中心点和其他数据点的变化情况。常用与多项指标的全面分析。
散点图
一般研究2~3个变量之间的关系,图中点的位置,由X值和Y值确定,也叫XY散点图。
气泡图
用于展示3~4个变量之间的关系,与散点图类似。气泡大小反应第三维度变量值,气泡颜色反应第四维度变量值。
Excel图表
图表和数据区域相关联:当图表引用的数据区域发生变化时(数据修改、排序、筛选等),该图表也随之发生变化;但设置单元格小数位数不影响图表。
常见错误类型
错误类型 错误名称 错误原因
#DIV/0! 除零错误 除数为0
#REF! 引用错误 删除一个在公式中被引用的单元格
#VALUE 数据类型错误 如一个文本型加一个数值型
#NAME 函数名错误 如SUM拼成了SAM
###### 不是错误,是单元格列宽不够造成的 谢谢