(共23张PPT)
第四章 数据处理与应用
4.2 大数据处理
4.2.3 文本数据处理
4.2.4 数据可视化
学习目标
了解文本数据处理的一般过程和方法。
掌握分词的方法和技巧。
掌握可视化的基本方法。
使用百度搜索“春节”,如图所示,找到相关结果约100,000,000个,这些返回的结果数据对“春节”的关键特征描述是什么?
知识点一:文本数据处理
新课讲授
文本数据处理是大数据处理的重要分支之一,目的是从大规模的文本数据中提取出符合需要的、感兴趣的和隐藏的信息。目前,文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
1.文本数据处理的一般过程
(1)中文分词
①基于词典的分词方法
②基于统计的分词方法
③基于规则的分词方法
(2)特征提取
特征项:在中文文本分析中可以采用字、词或短语作为表示文本的特征项。
特征词:相比较而言,词的切分难度小且更能表达文本的含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。
特征提取的方式:
根据专家的知识挑选有价值的特征;
用数学建模的方法构造评估函数自动选取特征。
2.文本数据分析与应用
在取得特征词后,需要根据项目的需求,确定解决问题的路径,选合适的工具、设计算法抽取出文本中隐含的价值。
(1)标签云
用词频表现文本特征,将关键词按照一定的顺序和规律排列,并以文字大小的形式代表词语的重要性。是文本可视化的一种方式,文本可视化将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来。
(2)文本情感分析
通过计算机技术对文本的主观性、观点、情绪、极性进行挖掘和分析,对文本的情感倾向做出分类判断。主要应用于网络舆情监控、用户评论分析与决策、信息预测等众多领域。
知识点二:数据可视化
将数据以图形图像等形式表示,直接呈现数据中蕴含信息的处理过程。
1、可视化的作用
(1)快捷观察与追踪数据
(2)实时分析数据
(3)增强数据的解释力与吸引力
2、可视化的基本方法
(1)有关时间趋势的可视化
折线图、柱形图等。
(2)有关比例的可视化
饼图、环形图等。
(3)有关关系的可视化
散点图、气泡图等。
(4)有关差异的可视化
雷达图等。
(5)有关空间关系的可视化
地图等。
3.可视化的工具
大数据魔镜
Gephi
Tableau(实时可视化分析)
Python、R
D3.js
Highcharts (用纯JavaScript编写的开源图表库)
Google Charts
4.可视化的典型案例
1.文本数据处理的主要步骤包括:
①数据分析 ②特征提取 ③分词 ④结果呈现 ⑤文本数据源
下列文本数据处理顺序正确的是( )
A.①⑤②③④
B.②⑤③①④
C.⑤①③②④
D.⑤③②①④
随堂练习
D
2.在中文文本分析中,一般不用做文本的特征项的是( )
A.字
B.词
C.短语
D.段落
D