2021-2022学年高中信息技术浙教版(2019)必修4.2.3 文本数据处理 课件-1(23张PPT)

文档属性

名称 2021-2022学年高中信息技术浙教版(2019)必修4.2.3 文本数据处理 课件-1(23张PPT)
格式 pptx
文件大小 2.0MB
资源类型 教案
版本资源 浙教版(2019)
科目 信息技术(信息科技)
更新时间 2021-10-26 20:15:51

图片预览

文档简介

(共23张PPT)
4.2.3文本数据处理
1.文本数据处理的一般过程
2.文本数据的分析与应用
文本数据处理的目的
文本数据处理的主要目的是从大规模的文本数据中提取出符合需求的、感兴趣的和隐藏的信息。
文本数据处理的应用
搜索引擎
情报分析
自动摘要、自动校对
论文查重、文本分类
垃圾邮件过滤
机器翻译
自动应答
文本数据处理的一般过程
文本数据源
分词
特征提取
数据分析
结果呈现
中文分词
分词是将连续的字序列按照一定的规范重新组合成词序列的过程。
下雨天留客天留人不留
主人家:下雨天留客,天留人不留
徐:下雨天,留客天,留人不?留!
中文分词的方法
1、基于词典的分词方法
根据设定好的词典进行分词
2、基于统计的分词方法
依据上下文中相邻字出现的频率统计
3、基于规则的分词方法
模拟人的思维,根据资料和规则进行学习分词。(尚在探索)
一般采用词典法和统计法两者结合
常见的分词系统
jieba(结巴)分词
IKAnalyzer
NLPIR
语言云
BosonNLP
jieba分词实例
下雨天留客天留人不留
特征项
中文文本可以采用字、词或短语作为表示文本的特征项。
相比较而言词的切分难度小且更能表达文本含义。
目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。
特征提取的方式
1、根据专家的知识挑选有价值的特征
2、用数学建模的方法构造评估函数自动选取
目前大多数采用基于概率统计的构造评估函数方法进行特征提取,随着大数据分析,深度学习等技术的发展,这一方法的提取会更加准确、科学。
文本数据分析与应用
根据项目需求,确定解决问题的路径,选取合适的工具、设计算法抽取出文本中隐含的价值。
标签云
以词频文文本特征,将关键词按照一定的顺序和规律排列,以文字的大小来代表词语的重要性。
从标签云中你能得到什么信息?
文本情感分析
根据不同的粒度(词语、语句、全文)进行分词,根据情感词典进行特征提取与分类,再分别给特征词赋予权重进行统计分析。
主要应用于网络舆情监控、用户评论分析与决策、信息预测等。
北京城市心情
练习1
文本数据处理的一般过程不包括( )
A.分词
B.特征提取
C.数据分析
D.机器翻译
D
练习2
以下哪项不是中文分词的一般方法( )
A.基于词典法
B.基于统计法
C.基于阿尔法
D.基于规则法
C
练习3
构造评估函数的特征提取法大多是基于( )设计的
A.语义分析
B.情感分析
C.概率统计
D.专家知识
C
练习4
标签云主要是以( )为文本特征
A.词频
B.词义
C.词句
D.词序
A
作业
作业本P89~92《文本数据处理》
总结
1、文本数据处理的一般过程
2、中文分词的原理、方法、系统
3、文本特征提取的方法
4、文本数据分析与应用(标签云、文本情感分析)
谢 谢