一轮复习专题一:信息、数据、数据处理、人工智能
一、数据与信息
1.数据是对客观事物的符号表示,在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,其表现形式可以是文字(数字)、图形、图像、音频、视频等。
2.信息的一般定义是数据所包含的意义。在信息论中,香农给出的定义是用来消除随机不确定的东西。
3.信息的特征:
(1)载体依附性:即信息必须依附于载体存在,不存没有载体的信息。
(2)时效性:信息(的内容或价值)会随着时间的推移发生变化
(3)共享性:信息可以共享,且在传播的过程中不产生损耗。
(4)可加工处理性、真伪性:信息是可以进行加工的,加工后的信息具有真伪性
(5)价值性:信息的价值包括显性价值和隐形价值两个方面,同时价值的高低具有相对性
二、数字化
1.数字化的定义:将模拟信号转换为数字信号的过程称为数字化。其中用到的主要设备是模数转换器(ADC)。
2.模拟量:模拟信号以连续变化的物理量存在,自然界中大多数信号都是以模拟量形式存在。
3.数字量:数字信号在取值上是离散的、不连续的信号。
4.将模拟信号转换成数字信号一般需要经过采样、量化与编码三个步骤。
(1)采样的参数是采样频率,单位是赫兹(Hz)。根据采样定理:当采样频率大于或等于被采样信号最高频率的两倍时,得到的离散信号可以完整的保留原始信号的所有信息。
(2)量化指将信号的连续取值近似为有限个离散值的过程。量化主要参数是量化位数,单位是比特(bit);量化位数越多,划分的越精细,量化结果与实际数据也越接近。
三、数制
1.数据在计算机内部是以二进制的方式存储和处理的。除了二进制(B)和十进制(D),常用的进制还有八进制(O)和十六进制(H)。
2.进制转换
(1)二进制转十进制:基权相乘再相加
(110)2 = 1*22+1*21+0*20 =(6)10
(2)十进制转二进制:除2取倒余,(173)10 = (10101101)2
(3)十六进制转二进制: 1位转4位
(4)二进制转十六进制:4位转1位
四、字符编码
1.ASCII码(美国信息交换标准代码,半角字符):主要用于显示现代英语和其他西欧语言,属于机内码;编码范围:00H—7FH;常用字符内码:字符”0”=48D=30H/字符”A”=65D=41H/字符”a”=97D=61H.
2.GB2312(国标码,全角字符):计算机中处理汉字需要经过外码(输入码),交换码,机内码和字形码多种编码过程。其中GB2312属于交换码,用两个字节表示一个汉字。GB2312中对英文字符和标点符号也进行了重新编码,在做题时需要根据具体情况确定其使用的编码类型。
五、图形编码
1.条形码:常见的条形码是由反差率相差很大的黑条和白条排成的平行图案。我国普遍采用的条形码是EAN13条形码
2.二维码:用某种特定的几何图形按一定规律在平面上分布黑白相间的图形记录数据符号信息。相对条形码,二维码存储信息量更大。
3.对条形码和二维码的识别过程中虽然用到了摄像头,但信息是直接从图形编码中获取的,所以不涉及数字化的过程。
六、多媒体编码
1.容量单位换算:1Byte=8bit;1KB=1024B;1MB=1024KB;1GB=1024MB;1TB=1024GB
2.图像编码
(1)矢量图:基于数据方程的几何元素描述的图像,特点是放大不失真。
(2)未压缩BMP格式图像的容量计算公式:水平像素*垂直像素*颜色位深度(bit)/8
(3)常见颜色格式:RGB/8=全彩色=24位;256色图=256阶灰度=8位;黑白图像=1位。
(4)常见图像格式:.bmp(未压缩);.jpg(静态图像有损压缩);.gif(可将多张图片压缩进一个文件中,最多支持256种颜色);.png(有透明像素)
3.音频编码
(1)未压缩Wave格式的容量计算公式:采样频率(Hz)*量化位数(bit)*声道数*时间(s)/8
(2)常见格式:.wav(未压缩);.mp3(有损压缩);.wma(微软音频)
4.视频编码
(1)PAL制式每秒25帧,NTSC制式每秒30帧。
(2)未压缩avi格式视频容量计算公式:每张图像容量*帧数*时间(s)
(3)常见视频格式:.avi(可以是未压缩,也可以是压缩);.mp4(有损压缩);.flv;.mov(苹果)
七、数据保存与数据安全
1.计算机数据的管理已经经历了人工管理、文件管理、数据库管理三个阶段。
2.结构化、半结构化、非结构化数据
(1)结构化数据:也成为行数据,可以由二维表来进行逻辑表达和实现的数据
(2)非结构化数据:数据结构不规范,不完整,无法用二维表来进行逻辑呈现。
(3)半结构化数据:介于结构化和非结构化之间,具有一定的结构性
3.通过保护介质实现数据安全的方法:磁盘阵列、数据备份、异地容灾
4.通过加密数据实现数据安全的方法:凯撒加密、换位密码、简单异或
5.通过数据校验保证数据完整的方法:MD5、CRC(奇偶校验)、SHA-1
八、大数据
1.大数据的特征
(1)数据体量大 (2)速度快:包括产生速度和处理速度
(3)数据类型多 (4)价值密度低
2.大数据思维
(1)大数据分析全体数据而不是抽样数据
(2)对数据不再追求精确性
(3)不强调因果性而强调相关性。
九、数据处理
1.常见的数据问题及其处理方法:
(1)数据缺失:数据集中普遍存在的问题,一般可能是数据丢失或数据本身不完整
处理方法:忽略或采用平均值、中间值或概率统计值填充。
(2)数据重复:在多数据源合并时经常出现,导致资源冗余和浪费。
处理方法:进一步审核的基础上进行合并或删除。
(3)异常数据:数据集中的某些数据不符合一般规律,例:健康系统显示体温到达50摄氏度。
处理方法:这些有可能是要去掉的噪声,也有可能是含有重要信息的数据对象。
(4)逻辑错误:属性与实际不符,违背业务规则或逻辑,例:某人的生日为13月40日
处理方法:对应的字段需要设置取值范围判断。
(5)格式不一致:多出现在数据来源多样的系统中
处理方法:将不同格式的数据转换成统一格式后再进行处理。
2.常用的数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。
3.常见的图表类型有:柱形图、折线图、饼图、雷达图、散点图、气泡图等。
柱形图 折线图
饼图 雷达图
散点图 气泡图
十、大数据处理
1.大数据处理的基本思想:“分治思想”,即将一个复杂的问题拆分成两个或多个相同或相似的子问题,找到求这几个问题的解法之后,再找出合适的方法把它们组合成求整个问题的解法。
2.大数据处理的数据类型:
(1)静态数据:在处理时已经收集完成、在计算时不会发生改变的数据
处理方法:批处理
(2)流数据:不间断地、持续地到达的实时数据。流数据的价值会随着时间的流逝降低。
处理方法:流计算或实时分析计算
(3)图数据:现实世界中以图形式展现的数据。如社交网络、道路交通等
处理方法:图计算
3.批处理
Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批量计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。
(1)分布式文件系统(HDFS):将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统管理。HDFS是一个高度容错性的文件系统,云盘、网盘的底层一般采用HDFS实现。
(2)分布式数据库(HBase):HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要存储非结构化和半结构化的数据,具有良好的横向扩展能力。
(3)分布式并行计算模型(MapReduce):MapReduce是一种分布式并行编程模型,能够进行大规模的并行计算。其核心处理思想是将任务分解并分发到多个节点上进行并行处理,最后汇总输出。
4.流计算
流计算主要用于处理流数据,如大型购物网络的广告推荐、社交网络的个性化推荐等。处理流数据的软件主要有Twitter Storm、Heron、Yahoo!S4等。Storm和S4是目前较为流行的开源分布式实时计算系统。
5.图计算
现实世界中的很多数据以图的形式呈现,或者是需要转换为图后才能分析。目前图处理的软件主要分为两类:图数据库和并行图处理系统。
十一、文本数据处理
1.文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。
2.典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。
3.中文分词方法
(1)基于词典的分词方法:用词典中的词语进行比对。案例:Python中的jieba库
(2)基于统计的分词方法:根据上下文相邻字出现的频率统计。
(3)基于规则的分词方法:根据现有资料和规律学习实现分词。
4.特征提取方法
(1)根据专家知识挑选有价值的特征。(约等于人工分析)
(2)用数学建模的方法构造评估函数自动选取特征。(目前大多采用)
5.结果呈现方式:
(1)标签云:用文字大小形式表现词语的重要性
(2)文本情感分析:根据分析颗粒度可以分为词语级、语句级、整篇文章级三类。
十二、数据可视化
1.数据可视化是将数据以图形、图像等形式表示、直接呈现数据中蕴含信息的处理过程。
2.可视化的作用:快速观察与追踪数据、实时分析数据、增强数据的解释力和吸引力等。
3.可视化的基本方法
(1)有关时间趋势的可视化:展示随时间的推移而变化的数据,可以采用柱形图、折线图等。
(2)有关比例的可视化:展示各部分的大小及其占总体比例关系的数据,可以采用饼图、环形图(也称面包圈图)等。
(3)有关关系的可视化:探究具有关联性数据的分布关系,可以使用散点图、气泡图等。
(4)有关差异的可视化:包含多种变量的对象与同类之间的差异和联系,可以采用雷达图。
(5)有关空间关系的可视化:地理数据或者基于地理数据的分析结果可以运用不同颜色或图表直接在地图上进行展示。
十三、大数据的典型应用
1.大数据应用领域:随着大数据在各行业的应用,数据成为核心资产。目前,大数据广泛应用于金融、交通、环境、医疗、能源、农业等领域,极大地促进了各行业的发展。
2.大数据在电子商务方面的应用;精准营销基于用户购买行为挖掘用户偏好;仓储管理实现商品自动补货;供应链管理实现最优配送路径;智能网站分析用户后向用户智能推荐商品。
十四、人工智能
1.人工智能的概念:人工智能是指以机器(计算机)为载体,模仿、延伸和扩展人类智能、其与人类或其他动物所呈现的生物智能有着重要区别。
2.人工智能的主要方法
(1)符号主义:认为学习或者其他的智能特征原则上均可以被符号精确地描述,从而被机器仿真。符号主义方法包含知识库和推理引擎 两个部分。它先将所有知识以逻辑形式表达,然后依靠推理引擎,去验证命题或谓语正确与否,或者学习推导出新规则、新知识。
案例:“鸵鸟会飞”、专家系统
(2)联结主义:通过模仿人类大脑中神经元之间的复杂交互来进行认知推理。多层神经网络(包含输入端、隐藏层和输出端)是一种典型的深度学习模型。
(3)行为主义:认为智能体可以在与环境的交互中不断学习,从而提升自己的智能水平。案例:扫地机器人,阿尔法狗
3.人工智能的应用分类
(1)领域人工智能:依赖于领域知识和数据的人工智能。
(2)跨领域人工智能:智能系统从一个领域快速跨越到另一个领域。
(3)混合增强人工智能:多种智能体的混合形式,他将人的作用或人的认知模型引入人工智能系统,形成“混合增强智能”的形态。需要注意的是,在智能叠加协调的回路中,人类智能是智能回路的开关。
4.人工智能对社会的影响
(1)人工智能改善人类生活:智能家居、智慧城市、智能出行、智能购物等。
(2)人工智能促进经济发展:提供虚拟劳动力、提高生产力、加快实体经济转型升级。
(3)人工智能带来的社会担忧:人工智能取代人类岗位,威胁人类安全。