(共17张PPT)
3.1数据编码
学习目标
Learning goals
01
了解各类数据采集的基本方法
02
能够解释文本、音频等数据的编码原理
03
理解数据编码的意义和作用
数据编码
数据编码是信息从一种形式或格式转换为另一种形式或格式的过程。
这里的编码是用预先规定的办法将文字、数字或其他对象编成可以存储在计算机里的数值。
数据编码
按照取值特征,可以将信号分为模拟信号与数字信号。用传感器直接获得的信号一般为模拟信号,如声音、温度、压强等。模拟信号的值是随时间连续变化的,波形光滑。模拟信号的值称为模拟数据。
模拟信号与数字信号
数字信号随时间的变化是非连续的,数字信号可以由模拟信号转换得来,数字信号的值即数字数据,直接用计算机所能理解的二进制表示,以方便计算机对其进行处理。
声音编码·声音的数字化
数据编码
采样:在时间轴上按照一定的时间间隔取一系列时刻,得到每个时刻对应的声波信号的瞬时振幅值。采样频率-(单位为赫兹Hz)每隔一段时间在模拟声音信号的波形上采集一个幅度值,理论上来说采样频率越高,声音的还原度就越高,声音就越真实。
声音编码·声音的数字化
数据编码
量化:将信号波形的纵轴划分为若干区间。落到某一区间的采样点按四舍五入的规则规则取整选值,这个过程称为量化。
将采样所得的振幅瞬时值往最接近的整数取整,每个样本所对应的整数值即为纵坐标。
声音编码·声音的数字化
数据编码
编码:将样本值用计算机能够存储和处理的二进制数据值表示的过程称为编码。
将量化后标出的整数值用二进制数值表示,即可得到一串二进制数,我们可以将这些二进制数值理解为该声音信号的数字数据。
声音编码·声音的数字化
数据编码
模拟
信号
声音量化
声音编码
声音采样
数字
信号
我们不能把连续的音频信号存放在计算机中,必须将模拟声音数据转换为数字数据。将模拟数据转换为数字数据的这一过程,称为声音的数字化。
先对模拟声音信号按给定的时间间隔进行采样;
然后对采样数据进行量化;
将量化后的数据用计算机能够存储和处理的二进制数值表示,即编码。
声音编码·声音的数字化
数据编码
数据编码
音频所占的存储容量 = 采样频率 × 量化位数 × 声道数 × 时长/8
例:一首时长为100s的双声道音乐,采样频率为44.1kHz,量化位数为16,计算该音乐的音频所占的存储容量。
音频所占的存储容量 = 44100×16×2×100/8 = 17640000B
17640000/1024/1024 ≈ 17MB
声音编码
数据编码
图像编码
·图像的数字化
数据编码
图像编码
图像所占的存储容量 = 水平像素数 × 垂直像素数 × 颜色深度/8
例1:图像尺寸为90×72像素,颜色深度为1,计算该图像所占的存储容量。
图像所占的存储容量 = 90×72×1/8 = 810B
例2:图像尺寸为90×72像素,颜色深度为24位,计算该图像所占的存储容量。
图像所占的存储容量 = 90×72×24/8 = 19440B
19440/1024 ≈ 19KB
数据编码
文本数据的编码
文本数据是用来表示一定意思的一系列字符,包括字母、数字、标点符号、汉字等。
文本数据的编码通过对其中每一个字符进行编码实现。用于文本数据字符编码的方案有多种类型,其中ASCII码和Unicode是最为典型的两种编码方案。
ASCII编码
美国信息交换标准代码 用7位(标准ASCII码)或8位(扩展ASCII码)二进制数表示一个字符。
unicode编码
Unicode是为了解决传统字符编码方案的局限性而产生的。它可以用两个字节来表示一个字符。
字符编码-英文字符编码
数据编码
ASCII编码
标准ASCII码字符定义了大小写英文字母、标点符号、数字等字符和符号,共128个。计算机内部用一个字节来存放一个ASCII码字符,最高位用0表示。例如,“A”的ASCII码为01000001,即65。
字符编码-通用字符编码方案
数据编码
unicode字符集与编码方案
Unicode字符集,是全球可以共享的编码字符集,涵盖了世界上主要文字的字符,其中包括简繁体汉字,共计74686个汉字。如汉字“男”的Unicode编码为3007(十进制),用二进制表示为0111010100110111。
Unicode能表示很多国家的常用字。目前,Unicode还可以用更多字节来对字符进行编码。为了简化ASCII与Unicode之间的转换,原来用ASCII码能表示的字符,其对应的Unicode码只是在原来的ASCII码前加上8个0。比如“a”的ASCII码是01100001,而它的Unicode码是0000000001100001。
字符编码-中文字符编码
数据编码
(1)GB 2312--1980 共收录 7445 个字符,其中汉字 6763 个,拉丁字母、希腊字母等在内的682个字符;
计算机要处理汉字,必须对汉字进行编码,显然每个汉字至少需要两个字节。我国先后制定了多个汉字编码方案:
(2)GBK字符集,兼容GB2312--1980标准,收21003个汉字,883个符号,共计21886个字符;
(3)GB 18030--2000字符集,包含GBK字符集和CJK统一汉字扩充A的汉字,共计27533个汉字;
(4)GB 18030--2005字符集,是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。在GB 18030--2000的基础上,增加了CJK统一汉字充B的汉字及其他汉字共计70244个汉字。
课堂小结
数据编码
字符编码
声音编码:常见的音频文件类型有wav、mp3、wma、mid等。
图像编码:常见的图像文件类型有bmp、jpg、png、gif等。
数据(声音、图像等)数字化的过程:采样、量化、编码
ASCII码(英文字符编码):计算机内用一个字节来存放一个字符。
Unicode码(通用字符编码):用两个字节来表示一个字符。
中文字符编码:GB2312-1980字符集、GBK字符集、GB18030-2000字符集、GB18030-2005字符集。