(共37张PPT)
第四章 数据处理与应用
4.1 常用表格数据的处理
学习目标
学会根据实际需求,对表格数据进行简单整理、计算。
学会使用数据排序功能,把数据变为有序。
学会使用数据筛选功能,筛选出符合要求的数据。
能采用合适的方法分析数据和可视化呈现数据,并能从中提取有用信息,形成结论。
乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
在生产生活中,人们经常遇到以二维表方式组织存储的数据,如成绩数据、家庭收支数据等。
数据处理的核心是数据,数据的质量直接影响数据分析的结果。但获取的数据并不都是优质的,常常存在缺失、重复、错误、数量级不同等问题。因此,在数据分析和数据挖掘前,通常先对数据进行整理。
那我们针对不同的数据问题要如何进行整理呢?
知识点一:数据整理
新课讲授
数据整理的目的:是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
常见的数据问题:数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。
数据缺失
最简单的方法是忽略含有缺失值的实例或属性(数据集不完整,致使后续统计结果出现偏差。)。
通常采用平均值、中间值或概率统计值来填充缺失值。
数据重复
重复数据会导致数据冗余,浪费存储空间和网络带宽,在数据分析中还可能会误导用户。
可以采用基于字段或基于记录的算法进行检测,在进一步审核的基础上进行合并或删除等处理。
数据异常
不符合一般规律的数据对象。
可能是要去掉的噪音,也可能是含有重要信息的数据对象。
逻辑
错误
数据集中的属性值与实际值不符,或违背业务规则或逻辑。
通过检测字段中各属性有效数据值的范围可以判断该值错误。
格式不一致
不同来源的数据可能存在格式不一致的情况。
需要进行统一标准化表达的数据转换,以便形成一个适合后续分析和挖掘的描述形式。
知识点二:数据计算
数据计算是数据处理的常用方法之一。
日常简单的数据处理可以使用Excel软件完成;
专业的数据处理和统计分析工具软件有SPSS、SAS、MATLAB等,也可以通过R、Python、Java等计算机语言编程进行数据处理。
Excel,你值得拥有!
曾经,有一堆数据摆放在我的面前,我没有头绪整理,等到我抓狂的时候才后悔莫及,人世间最痛苦的事莫过于此。如果上天能够给我再来一次的机会,我会对那堆数据说5个字:我要修理你! 如果非要使用武器,我希望是…… EXCEL!
公式:在Excel软件中,可以应用 = 表达式进行数据的计算。公式以“=”开头,表达式是由常数、函数、单元格引用和运算符组成的式子(公式不仅用于计算,更重要的是构建计算模型)。
例如:
=E3+46
=E4+F4
=SUM(E3:E5)/3
单元格引用:是指对工作表中的单元格或单元格区域的引用。
单元格地址
E3
区域地址
连续区域
E3:G4
不连续区域
E3:G3,E5:G6
相对引用
相对引用和绝对引用:公式不仅用于计算,更重要的是构建计算模型。
从编辑栏中可看出:引用的单元格区域发生改变
绝对引用:在列号或行号前都加上$号,则无论公式复制或移动到哪,引用的单元格地址的行或列都不会改变。
运算符:
算术运算符:用于进行基本的数学运算
算术运算符 含义 举例
+ 加法运算 =A5+B3
- 减法运算 =66-B3
* 乘法运算 =D3*50
/ 除法运算 =D6/C3
% 百分号 =40%
^ 乘方运算 =3^3
比较运算符:用于比较两个值,结果为逻辑值TRUE或FALSE
运算符 描述 举例 值
= 等于 =B6="团员"
< > 不等于 =B2<>10
< 小与 =60<32 FALSE(假)
> 大于 =66>35 TRUE(真)
<= 小于等于 =B2<=B3
>= 大于等于 =B2>=100
文本运算符&:可以连接一个或多个文本字符串,生成
一段文本。
函数:是预定义的公式,通过使用参数按特定顺序或结构进行计算。单击fx插入函数,或在编辑栏直接输入公式。
记住要输入“=”
知识点三:数据图表呈现
图表是用视觉形式向人们展示数据的一种方法。
通常依据数据间的关系选择相应的图表类型。
常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。
柱形图:用于显示一段时间内的数据变化或显示各项之间的比较情况。
折线图:可以显示随时间而变化的连续数据,非常适用于显示在相等时间间隔下数据的趋势。
饼图:主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
雷达图:也称为网络图\蜘蛛图\星图。
可以表示不同对象多个参数的比较情况。
也可以表示单个对象多个参数的情况。
散点图:一般研究2个变量之间的关系,图上的点在哪个位置,是由其X值和Y值确定的,也叫XY散点图。判断两变量之间是否存在某种关联或总结坐标点的分布模式。
气泡图:可用于展示三个及以上变量之间的关系,它与散点图类似。
使用Excel创建图表
1.分析数据
2.创建图表
3.检查图表:数据是否完整,图表数据和表格数据是否一致。
小节:
数据整理的目的:是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。
常见的数据问题:数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。
数据计算:Excel软件中,公式以“=”开头,由常数、函数、单元格引用和运算符组成的式子(公式不仅用于计算,更重要的是构建计算模型)。
数据图表呈现:1.分析数据;2.创建图表(柱形图、折线图、饼图、雷达图、散点图、气泡图等);3.检查图表。
1.数据整理的目的是( )
①检测和修正错漏的数据
②整合数据资源
③规整数据格式
④提高数据质量
⑤预测趋势
A.①②⑤ B.②④⑤
C.①②③④ D.②③④⑤
随堂练习
C
2. 某表格中部分数据如图所示。图中数据存在的问题主要为( )
A.数据缺失 B.数据重复 C.逻辑错误 D.格式不一致
A
3.下列软件主要用于表格数据处理的有( )
A.“记事本”“画图”程序
B.“记事本”程序、SAS软件
C.Excel、MATLAB软件
D.SPSS、Word软件
C
4.使用Excel软件处理某地部分市场菜篮子价格数据,如图所示。
计算表中“平均值”列数据:选择I3单元格输入公式,然后用自动填充功能完成其他单元格的计算。则I3单元格中可使用的公式为 ( )
A. =SUM(C$3:H$3)/6
B. =(3.5+3+3+3+3+3)/6
C.(C3+D3+E3+F3+G3+H3)/6
D. =AVERAGE(C3:H3)
D
5.若要采用图表的方式对比分析6个市场“东北大米”的价格情况,合适的图表类型为( )
A.雷达图
B.柱形图
C.散点图
D.饼图
B