(共11张PPT)
数据分析与表达
1
数据的分析
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并运用可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
目
录
CONTENTS
1
特征探索
2
关联分析
3
聚类分析
4
数据分类
1 特征探索
数据特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据、绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。
2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
扫描历史数据,并对每项数据进行频率次数统计
构建候选项a,并计算其支持度,即数据出现频率次数与总数的比。
对候选集的支持度进行筛选,筛选的数据项支持度应当不小于最小支持度,从而形成频繁项集L1.
对频繁项集L2进行连接生成候选项集C2,重复上述步骤,最终形成频繁K项集或者最大频繁项集。
3 聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析的算法有很多,最终目的均是为了实现“物以类聚,人以群分”的效果。
4 数据分类
数据分类是数据分析中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类标准,然后将待分类数据项映射到某一类别。
数据分类和回归分析都可用于预测,预测是指从基于样本数据记录,根据分类准则自动给出对未知数据的推广描述,从而实现对未知数据进行预测。
PART
2
数据 的 可视化 表达
1 数据可视化表达
数据可视化可以让人们快速抓住要点信息,让关键的数据点从人的眼睛快速通往心灵深处。
从常用和使用的维度,数据可视化的呈现类型主要分为探索和解释两种不同的类型。
1、探索类可以帮助人们发现数据背后的价值。
2、解释型则把数据简单明了的解释给人们
2 体验词云的魅力
词云:由词汇组成类似云的彩色图形。
“词云”就是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的“关键词”的形成视觉上的突出。
THANKS