2.2数据的采集与分类 课件 2022—2023学年粤教版(2019)高中信息技术选修3(16张PPT)

文档属性

名称 2.2数据的采集与分类 课件 2022—2023学年粤教版(2019)高中信息技术选修3(16张PPT)
格式 pptx
文件大小 1.9MB
资源类型 教案
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2023-02-14 08:15:16

图片预览

文档简介

(共16张PPT)
第二章
需求分析与数据建模
教师
项目需求分析与解决方案
2.1
数据的采集与分类
2.2
建立关系数据模型
2.3
目录
PART 2.2
数据的采集与分类
数据采集的途径
2.2.1
1.分析文档资料:料有助于了解一些内部信息
数据采集的途径
2.2.1
2.面谈:与人面对面交流来采集信息
数据采集的途径
2.2.1
3.实地调查:实地调查是了解一个系统运作的最有效的技术。
数据采集的途径
2.2.1
4.研究:对应用或问题本身进行详细研究
数据采集的途径
2.2.1
5.问卷调查:从大量的人群中采集数据信息
数据的分类
2.2.2
1.噪声数据现象及其成因
噪声数据(Noisy data),就是无意义的数据,就是被测量的变量的随机误差或方差,是指数据中存在着错误或异常(偏离期望值)的数据。
165,174,175,157,15,163,173,121,166,174,355,163,185,285,85
数据的分类
2.2.2
原因:
机器因素:如硬件故障、编程错误、语音或光学字符识别程序(OCR)中的乱码等
人为因素:如拼写错误、行业简称以及俚语
1.噪声数据现象及其成因
数据的分类
2.2.2
下风云出我辈
一入江湖岁月催
皇图霸业谈实泊
不胜人间一场辞
噪声数据可能会影响后面数据分析的结果。
数据的分类
2.2.2
2.分类数据
结构化数据:可以使用二维表结构来表示和存储,如数字、符号等。一般特点是数据以行位单位,一行数据表示一个实体的信息。每行数据的属性是相同的。
数据的分类
2.2.2
非结构化数据:不方便用数据库二维表来表现,数据结构不规则或不完整。包括所有格式的办公文档、文本、图片、图像、音频/视频信息等。
2.分类数据
数据的采集与分类
2.2
半结构化数据:介于完全结构化数据和完全非结构化数据(如声音、图像文件等)之间的数据,包含相关标记,如HTML文档。
2.分类数据
数据的分类
2.2.2
2.分类数据
对于不同结构的数据,管理和调用的方式是不同的。
(1)结构化数据,是带有表头的表结构数据,数据按行和列组织。
(2)非结构化数据,通常是建立一个包含“编号”、“内容描述”和“内容(指向)”的表来实现与“数据”的对应。
(3)半结构化数据,这个数据以没有表头的表格形式存储,其中的值是使用了难以理解的编码,需要使用此数据附带说明文档才能解码。
知识拓展:大数据环境下的数据采集和分类
2.2
大数据环境下,数据来源非常丰富而且形式多样,大数据要处理的往往是大量的非结构化数据。大数据环境下,数据采集和分类一般包括以下方法:
(1)系统日志采集方法
(2)网络数据采集方法:对非结构化数据的采集
(3)其他数据采集方法
通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件。