(共19张PPT)
数据整理:检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
常见数据问题:数据缺失、数据重复、异常数据、逻辑错误、格式不一
数据问题 处理方法
数据缺失 忽略含有缺省值的实例或属性
采用平均值、中间值或概率统计值来填充
数据重复 在进一步审核的基础上进行合并或删除处理
异常数据 不符合一般规律的数据对象,可能为噪声或重要数据对象
逻辑错误 通过检测字段中各属性有效数据值的范围来判断
格式不一 数据转换成适合后续分析和挖掘的统一形式
日常数据处理可使用Excel软件完成,专业的数据处理和统计分析工具有SPSS、SAS、MATLAB等,也可通过R、Python、Java等计算机编程语言来处理。
行号用1、2、3…等数字表示,列号用A、B、C…等字母表示,列号和行号的交叉称为单元格,如图选中单元格为F7。
设置表格格式
单元格F7
当前工作表,默认为Sheet1
公式是以“=”开头,由常数、函数、单元格引用和运算符组成的算式。
单元格引用是指对工作表中的单元格或单元格区域的引用,连续的单元格用“:”连接,不连续的单元格用“,”连接,如A2:A5,D2:D5。
自动填充:利用填充柄将公式迅速复制到其它相邻单元格中
运算 处理方法 说明
算术运算 ^、%、*、/、+、- 进行基本数学运算
比较运算 =、>、<、>=、<=、<> 比较两个值,结果为逻辑值TRUE或FALSE
文本连接 & 连接一个或多个文本字符串,生成一段新的文本
如图所示为2012-2016年部分省市区国内生产总值,请使用Excel完成部分空白数据的统计。
分别计算北京地区的5年生产总值和年生产平均值,并填充到G3、H3单元格中。
设置年生产平均值数单元格格式为保留两位小数。
利用自动填充功能完成其它省市区空白数据的计算。
函数是预定义的公式,通过使用参数按特定顺序或结构进行计算,其中参数可以是数字、单元格或单元格区域。
注意:函数名称的字母均采用大写、以“=”为开头。
常用函数 功能 举例
SUM(num1,num2…) 求参数的和 =SUM(A1:A12)
AVERAGE(num1,num2…) 求参数的平均值 =AVERAGE(A1:A12)
MAX(num1,num2…) 返回参数列表中的最小值 =MAX(A1:A12)
MIN(num1,num2…) 返回参数列表中的最大值 =MIN(A1:A12)
修改已完成的2012-2016年部分省市区国内生产总值表。
使用函数计算北京地区的5年生产总值和年生产平均值,并填充到G3、H3单元格中。
设置年生产平均值数单元格格式为保留两位小数。
利用自动填充功能完成其它省市区空白数据的计算。
相对引用(默认):公式所在单元格的位置改变,引用也随之改变,如A1。
绝对引用:公式所在单元格的位置改变,引用保持不变,如$A$1。
混合引用:公式所在单元格的位置改变,绝对引用部分不变,相对引用部分随之改变,如$A1。
“$”在谁前面,谁被锁定。
单元格 含义 说明
A1 行列均相对引用 单元格发生变化,引用的行列也发生变化
$A$1 绝对引用:行列都锁定 单元格发生变化,引用的行列都不会变化
$A1 混合引用:仅锁定列号 单元格发生变化,引用的行号不变,列号变化
A$1 混合引用:仅锁定行号 单元格发生变化,引用的列号不变,行号变化
根据已完成的2012-2016年部分省市区国内生产总值表,完成占比表数据的填充。
在K3单元格计算北京地区2012年生产值占5年总产值的比例,并自动填充到K3:O10单元格中。
设置K3:O10单元格格式为百分数,并保留两位小数。
1.选取数据区域
排序的区域只能连选,呈矩形状的单一区域
避开合并单元格
不能只选定关键字进行排序,而应将参与排序数据的整条记录全部选中后再排序
2.确定主要关键字、次要关键字,设置对应的排序依据和排序次序
先按主要关键字排序,当主要关键字相同按次要关键字排序
数据包含标题,则Excel自动将所选区域的第一行理解为标题,不参与排序;数据不含标题,则所选区域即为排序区域,全部参与排序
根据已完成的2012-2016年部分省市区国内生产总值表,完成数据的排序。
将生产总值表按“5年生产总值”进行降序排序,当“5年生产总值”相等时按照年生产平均值进行升序排序。
对“上海、北京、天津、山西”四地按照“5年生产总值”进行升序排序。
筛选:符合筛选条件的显示,不符合条件的隐藏,一般通过选取标题行进行筛选。
文本筛选:通配符(?匹配一个字符,*匹配任意多个字符)、包含、结尾是、开头是
数字筛选:大于、小于、不等于任意、10个最大的值
多条件筛选:筛选结果为多个条件的交集。
筛选后再排序,只有筛选出的记录参与排序。
如何选出女生中成绩最好的三个?
先选出性别为女生,再选出成绩最大的三项
先选出成绩最大的三项,再选出性别为女生
先选出女生,再按成绩进行排序
先按成绩进行排序,再选出女生
柱形图:对比各项数据的大小
折线图:描述数据的变化趋势
饼图:描述各项数据所占比例
散点图:2-3个变量间的关联或分布
雷达图:多项指标的比较
气泡图:3-4个变量间的关联或分布
创建图表:选择数据区域—选择图表类型—创建图表—增加/删除/修改图表元素。
图表和数据区域相关联,当图表引用的数据区域发生变化时(数据修改、排序、筛选等),该图表也随之发生变化;但设置单元格小数位数一般不影响图表。
根据已完成的2012-2016年部分省市区国内生产总值表,绘制如图所示的柱形图。
绘制2012-2016年各省市区生产总值图。
修改图表标题为“2012-2016年部分省市区国内生产总值图”。
根据图表判断数据区域:根据x轴、y轴选定数据区域,根据图例选定标题区域,最终数据区域呈现矩形状,如图所示的数据区域为A2:A10,E2:F10。
图表的标题与选定数据区域无关。
错误类型 错误名称 错误原因
#DIV/0! 除零错误 除数为0
#REF! 引用错误 删除一个在公式中被引用的单元格
#VALUE 数据类型错误 如一个文本型加一个数值型
#NAME 函数名错误 如SUM拼成了SAM
###### 不是错误,是单元格列宽不够造成的
主讲人:XX老师