(共24张PPT)
第
四
4.2.3文本数据处理
文本数据处理
章
复习回顾
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
数据是对客观事物的符号表示,如数字、___________、___________。
字母
图形符号
在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,具有一定意义的数字、字母、符号和模拟量等的通称,表示形式可以是______、________、_______、________、_______等
文字
图形
图像
音频
视频
课前导入
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
除了我们之前学习的一些数字类型的数据,生活中还存在着其他类型的数据处理的实例,他们有什么共同点?
文本数据处理的应用
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
搜索引擎
情报分析
自动摘要、自动校对
论文查重、文本分类
垃圾邮件过滤
机器翻译
自动应答
复习回顾
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
结构化:也称行数据,由二维表结构来进行逻辑表达和实现的数据,严格地遵循数据格式与长度规范
非结构化:数据不规整或者不完整,包括各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频
半结构化:介于结构化和非结构化之间的数据
文本
文本数据处理的一般过程
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
文本数据源
分词
特征提取
数据分析
结果呈现
非结构化
结构化
中文分词
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
对比两篇文章,你觉得那篇文章更容易使用程序切分成单个的词语,为什么?
雪落在那些年雪落过的地方,我已经不注意它们了。比落雪更重要的事情开始降临到生活中。三十岁的我,似乎对这个冬天的来临漠不关心,却又好像一直在倾听落雪的声音,期待着又一场雪悄无声息地覆盖村庄和田野。
我静坐在屋子里,火炉上烤着几片馍馍,一小碟咸菜放在炉旁的木凳上,屋里光线暗淡。许久以后我还记起我在这样的一个雪天,围抱火炉,吃咸菜啃馍馍想着一些人和事情,想得深远而入神。柴禾在炉中啪啪地燃烧着,炉火通红,我的手和脸都烤得发烫了,脊背却依旧凉飕飕的。寒风正从我看不见的一道门缝吹进来。冬天又一次来到村里,来到我的家。我把怕冻的东西一一搬进屋子,糊好窗户,挂上去年冬天的棉门帘,寒风还是进来了。它比我更熟悉墙上的每一道细微裂缝。
空格分割
紧密相连
中文分词
jieba分词模块中的词典内容
请输入标题
https://www./
常见的分词算法:
1.基于词典的分词方法:也称基于字符匹配的分词方法
中文分词
请输入标题
https://www./
jieba库名字由来
“我要进行关键词提取”
#【全模式】:我/ 要/ 进行/ 关键/ 关键词/ 提取
#【精确模式】:我要/ 进行/ 关键词/ 提取
#【搜索引擎模式】:我要/ 进行/ 关键/ 关键词/ 提取
中文分词
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
2.基于统计的分词方法,统计分词的思想,是依据上下文中相邻的字出现的频率统计,同时出现的次数越高就越可能组成一个词。
中文分词
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
https://www./
3.基于规则的分词方法,让计算机模拟人的理解方式,根据大量的现有资料和规则进行学习,达到对文字进行分词的效果。
由于中文语言知识的笼统性、复杂性,这种分词方法目前还在试验阶段。
中文分词
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
名称 简介
Jieba分词 Python开源项目
IKAnalyzer Java开源分词包
NLPIR 北京理工大学大数据搜集与挖掘实验室,非商业应用免费
语言云 哈尔滨工业大学社会计算与信息检索研究中心,在线API接口调用
BosonNLP 玻森中文语义开放平台,在线API接口调用或者库调用
常见的分词系统
特征提取
感谢您使用我们的PPT模板,请在此输入您需要的文字内容
请输入标题
中文文本可以采用字、词或短语作为表示文本的特征项。
相比较而言词的切分难度小且更能表达文本含义。
目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。
特征项
特征提取方式
一般方式:①根据专家的知识挑选有价值的特征
②用数学建模的方法构造评估函数自动选取特征值
文本数据分析与应用
请输入标题
标签云
Acfun热词榜
QQ个人标签
文本数据分析与应用
请输入标题
观察下列标签云,他们有什么共同点?
由词语组成
文字有大小
颜色丰富
文本数据分析与应用
请输入标题
标签云
定义:用词频表示文本特征,将关键词按照一定的顺序和规律排序,如频度递减、字母顺序等。并以文字大小的形式代表词语的重要性。
应用:标签云广泛运用于报纸、杂志等传统媒体和互联网
标签云是文本可视化的一种方式。
文本数据分析与应用
请输入标题
文本情感分析
最早之人工智能之父明斯基就提过“我们的问题不是怎样才能让机器智能有情感,而是机器智能怎么能没有情感。”
人类有哪些情感?
好,恶,乐,怒,哀,惧,欲
喜极而泣,抱头痛哭,捶胸顿足,七情六欲,五味杂陈
文本数据分析与应用
请输入标题
文本情感分析
粗粒度
细粒度
整篇文章
语句级
词语级
词语级是在分词的基础上,根据情感词典进行特征提取和分类,再给特征词赋予权重进行统计分析。例如:满意+5,差-5
文本数据分析与应用
文本情感分析
应用:网络舆情监控、用户评论分析和决策、信息预测等众多领域
文本数据分析与应用
文本数据处理的一般过程不包括( )
A.分词
B.特征提取
C.数据分析
D.机器翻译
D
文本数据分析与应用
以下哪项不是中文分词的一般方法( )
A.基于词典法
B.基于统计法
C.基于阿尔法
D.基于规则法
C
文本数据分析与应用
构造评估函数的特征提取法大多是基于( )设计的
A.语义分析
B.情感分析
C.概率统计
D.专家知识
C
文本数据分析与应用
标签云主要是以( )为文本特征
A.词频
B.词义
C.词句
D.词序
A
总结
1、文本数据处理的一般过程
2、中文分词的原理、方法、系统
3、文本特征提取的方法
4、文本数据分析与应用(标签云、文本情感分析)