(共27张PPT)
我们毕业啦
其实是答辩的标题地方
第四章 数据处理与应用
数据处理的过程
数据采集
数据分析
数据整理
数据呈现
传感器、网络爬虫等。
采集到的数据会有缺失、重复或异常。
数据整理的目的是对数据进行校验和标准化。
对比分析法、评均分析法、结构分析法等。
以图形、动画等方式直观地呈现数据分析的结果。
数据采集方法
传感器采集
网络采集
搜索引擎
爬虫
调查问卷
采集已有网页数据
精确抓取网络数据
需要人提供的数据
采集物理世界的数据
数据采集
数据采集到的数据,是怎样保存的呢?
常见的数据保存形式是云存储、数据库、文件。
数据保存
文件格式保存,最常见的是txt、csv格式。
csv文件也是一种保存了数据的文本文件,其中的数据通常以英文逗号分隔开。excel、wps等表格软件可以兼容打开该格式的文件。
下图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。
缺失
数据为空
错误
数据不准确
重复
重复的数据
非标准
数据单位
格式不一致
数据整理需求
1、存在重复数据!
——去重
2、数据太多了,我们只需要某个城市数据!
——筛选
3、日期格式不正确!
——标准化
4、现有缺失数据!
——尽可能补缺
数据整理
整理目的
整理方法
问题数据
去重
勘误
补漏
重复数据
非标准化数据
错误数据
缺失数据
数据整理
数据分析作用:了解事物的现状
数据分析
数据分析
数据分析作用:剖析事物的发展历程
数据分析作用:预测事物未来走向
数据分析
平均分析法:是指运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平。多用于比较同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系;也可以对某一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。
平均工资、平均年龄、平均身高、平均分
平均分析法
数据分析
对比分析法:也叫比较分析法,通常用于从数量上展示 和说明研究对象规模大小,水平高低等。
对比分析法分为横向和纵向对比两大类。
数据分析
横向对比
对比分析法——纵向对比
同类数据不同时间的上的对比
结构分析法:也称构成分析法,是将各个部分与总体进行对比,是分析事物内部的结构和部分与整体之间关系的方法。
用Excel软件进行数据分析
在Excel软件中,可以应用公式进行数据的计算。公式是以“=”开头,由常数、函数单元格引用和运算符组成的式子。公式不仅用于计算,更重要的是构建计算模型。
单元格引用是指对工作表中的单元格或单元格区域的引用。
(1)默认情况下,单元格相对引用,如 A1;
(2)单元格绝对引用(如果公式所在单元格的位置改变,绝对引用保持不变),如 $A$1 ;
(3)绝对引用列,如 $A1(锁定列);
(4)绝对引用行,如 A$1(锁定行);
(3)连续的单元格区域弓用,如A2:D5;
(4)不续的单元格区域引用,如A2:A5,D2:D5。
算术运算符有~、%、*、/、+、-,用于进行基本的数学运算。比较运算符有=、>、<>=、<=、<>,用于比较两个值,结果为逻辑值TRUE 或 FALSE。文本连接运算符“&”可以连接一个或多个文本字符串,生成一段文本。
用Excel软件进行数据分析
Excel常用函数语法如下:
(1)求参数和函数: =SUM(number1,number2,…)
(2)求参数平均值函数:=AVERAGE(number1,number2,…)
(3)求参数列表中最小值:=MIN(number1,number2,…)
(4)求参数列表中最大值:=MAX(number1,number2,…)
参数可以是数字、单元格或单元格区域
(5)条件求和函数:=SUMIF(条件所在区域,条件,求和区域)
(6)条件平均函数:=AVERAGEIF(条件所在区域,条件,实际计算区域)
(7)条件计数函数:=COUNTIF(计数区域,条件)
(8)排名函数:=rank(参与排名的数值,排名的数值区域,排名方式)
(9)条件判断函数:=IF(条件,“真值”,“假值”)
用Python软件进行数据分析
pandas模块处理数据
pandas模块处理数据
pandas模块处理数据
图表 词云
数据可视化
可视化的常见形式
用词频表现文本特征
常用图表类型介绍-折线图
折线图可以显示随时间而变化的连续数据,常用于分析相等时间间隔下数据的发展趋势。
常用图表类型介绍-柱形图
柱形图通常用于显示一定范围内数据的变化情况或用于各项数据的比较。
常用图表类型介绍-饼图
饼图用于显示各部分数据在总数据中的大小和比例关系。
常用图表类型介绍-散点图
用于表示若干数据系列中各数值之间的关系,以便判断两个变量中间是否存在某种关联。
常用图表类型介绍-雷达图
雷达图用来比较每个数据相对中心的数据变化,适用于多维数据的呈现。
用表格软件绘制图表
操作步骤:
1、打开表格文件文件
2、选中需要绘图的数据区域。
3、点击“插入”菜单,选择“柱形图”的第一个图形。