数据编码(上)
学习目标
知道数据编码的基本方式。
学习内容.
将现实世界的事物现象符号化、数据化,需要有一个理解、抽象、推理的过程,这个过程由计算机来完成。计算机将它们处理转换成0和1组成的二进制编码,进而采用基于二进制的算术运算和逻辑运算进行数字计算。
模拟信号与数字信号
声、光信号是人的感官所能识别和接收的信号,而计算机是一种采用电信号进行运作的机器。要将人的感官所能识别的信号转换为计算机能够识别的信号,实现人机交互,就必须清楚计算机是如何处理这些信号的?
1.模拟信号
模拟信号是指用连续变化的物理量所表达的信息。其信号的幅度、频率或相位随时间作连续变化,如声音信号、图形信号等。模拟信号的波形可以是简单的,也可以是复杂的。例如,由单一钢琴定音器产生的声波,就是简单波形,仅仅包括一个单一频率;人类或管风琴的声音产生的声波,就是复杂波形,包含了许多不同频率的组合。
单一频率波形示意图
多频率组合波形示意图
模拟信号是传导能量的一种方式。例如,声音通过空气等介质来向远处传送能量,在传播的过程中,能量会不断被损耗而逐渐衰减。
模拟信号的衰减示意图
无论是有线相连的电话,还是无线发送的广播电视,都是通过模拟信号来传递信息的。
2.数字信号)
数字信号是离散时间信号的数字化表示。其信号的自变量、因变量都是离散的。例如,开关电路中输出电压和电流脉冲就是离散的信号。
在计算机中,数字信号的大小常用有限位的二进制数表示。例如,字长为2位的二进制数可表示00、01、10和11共四种数字信号。
尽管基于数字信号的数据通信才出现几十年,但因其抵抗电路本身干扰和环境干扰的能力强,且数字信号有利于存储、加密与纠错,从而具有较强的保密性和可靠性。因此在现代技术的信号处理中,数字信号发挥的作用越来越大,覆盖的范围越来越广。
模拟信号与数字信号比较!
模拟信号
优点:1.模拟信号的主要优点是其精确的分辨率,在理想情况下,它具有无穷大的分辨率。与数字信号相比,模拟信号的信息密度更高。由于不存在量化误差,它可以对自然界物理量的真实值进行尽可能逼近的描述。2.模拟信号的另一个优点是,当达到相同的效果,模拟信号处理比数字信号处理更简单。模拟信号的处理可以直接通过模拟电路组件(例如运算放大器等)实现,而数字信号处理往往涉及复杂的算法,甚至需要专门的数字信号处理器。
缺点:模拟信号的主要缺点是它总是受到杂讯(信号中不希望得到的随机变化值)的影响。信号被多次复制,或进行长距离传输之后,这些随机噪声的影响可能会变得十分显著。噪声效应会使信号产生有损。有损后的模拟信号几乎不可能再次被还原,因为对所需信号的放大会同时对噪声信号进行放大。
数字信号.
优点:1.抗干扰能力强、无噪声积累。在模拟通信中,为了提高信噪比,需要在信号传输过程中及时对衰减的传输信号进行放大,信号在传输过程中不可避免地叠加上的噪声也被同时放大。随着传输距离的增加,噪声累积越来越多,以致使传输质量严重恶化。对于数字通信,由于数字信号的幅值为有限个离散值(通常取两个幅值),在传输过程中虽然也受到噪声的干扰,但当信噪比恶化到一定程度时,即在适当的距离采用判决再生的方法,再生成没有噪声干扰的和原发送端一样的数字信号,所以可实现长距离高质量的传输。
2.便于加密处理。信息传输的安全性和保密性越来越重要,数字通信的加密处理的比模拟通信容易得多,以话音信号为例,经过数字变换后的信号可用简单的数字逻辑运算进行加密、解密处理。
3.便于存储、处理和交换。数字通信的信号形式和计算机所用信号一致,都是二进制代码,因此便于与计算机联网,也便于用计算机对数字信号进行存储、处理和交换,可使通信网的管理、维护实现自动化、智能化。
4.设备便于集成化、微型。数字通信采用时分多路复用,不需要体积较大的滤波器。设备中大部分电路是数字电路,可用大规模和超大规模集成电路实现,因此体积小、功耗低。5.便于构成综合数字网和综合业务数字网。采用数字传输方式,可以通过程控数字交换设备进行数字交换,以实现传输和交换的综合。另外,电话业务和各种非话业务都可以实现数字化,构成综合业务数字网。
缺点:占用信道频带较宽。一路模拟电话的频带为4kHz带宽,一路数字电话约占64kHz。随着宽频带信道(光缆、数字微波)的大量利用(一对光缆可开通几千路电话)以及数字信号处理技术的发展(可将一路数字电话的数码率由64kb/s压缩到32kb/s甚至更低的数码率),数字电话的带宽问题已不是主要问题了。
实验
在航海灯语系统中,灯语是一种通信手段,用灯光一明一暗的间歇做出长短不同的信号来传递信息。在古代,灯语对人们之间的交流起到很大的帮助。随着科技的发展,灯语已经通过计算机网络实现了灯光信号的自动发送、获取和识别。
实验名称:用手电筒传递信息。
实验目的:了解灯语的使用场景,理解数据编码的必要性。
实验步骤:
a.两人一组,一人控制手电筒开关,按照莫尔斯码发送一组字母,另一人观察手电筒发出的光信号,记录数据,并使用莫尔斯码译出这组字母。
b.双方核对信息,多次重复实验。
c.通过分析实验数据,总结该方法传递信息的利弊,提出改进方法。
d.设计一套自己的灯语,用“密码”传送信息。
微视频1:沈梦辰带来帅气航海员,现场演示解释灯语,用摩斯密码打成灯光!
微视频2:海军练习灯语,新兵直接写答案遭质疑,最后他却让人无话可说
在现代技术的信号处理中,数据基本上是通过编码将模拟信号转换为数字信号进行存储和传输,文字、图像、声音等类型的数据都可经过编码进行存储和传输。数据编码(下)
学习目标
知道数据编码的基本方式。
学习内容
在现代技术的信号处理中,数据基本上是通过编码将模拟信号转换为数字信号进行存储和传输,文字、图像、声音等类型的数据都可经过编码进行存储和传输。
文字编码
文字(字符)编码是效率相对较低的编码方式,有单字节码和双字节码两种。其中,ASCII码、莫尔斯码属于单字节码,国标码(GBK)、统一码(Unicode)属于双字节码。
1.ASCII码
1960年,香农创立了数字计算机的基本字符编码系统,简称ASCII码(
American
Standard
Code
for
Information
Interchange),用7位二进制码为所有的英文字母(大小写52个)、阿拉伯数字(10个)和常用的不可见控制符(33个)以及标点符号、运算符号等(33个)建立了转换码,第一次将符号转换为“0”和“1”构成的编码。
2.国标码
由于ASCII码只包含英文、数字和一些控制符号,并不能表示汉字,因此,我国设计了用于处理汉字的简体中文的GB码和用于繁体中文的BIG5码(大五码)。
1980年发布的《信息交换用汉字编码字符集》(GB2312)一共收录了7445个字符,包括6763个汉字和682个其他符号。GB2312主要分为两部分:编号127之前的符号跟ASCII码所表示的意义相同,属于单字节码;编号127之后的符号统一用两个字节表示,包含了几乎所有的简体中文字(中文编码高字节的最高位不为0)。
1995年公布的《汉字内码扩展规范》(GBK1.0)收录了21886个符号,分为汉字区和图形符号区,汉字区包括21003个字符。)
图像编码
图像编码是指在满足一定保真度的条件下,对图像数据进行变换、编码和压缩,以较少比特数表示图像或图像中所包含的信息的技术。
(1)位图图像编码
位图,最小单位为光栅点(或称像素),因而也叫作点阵图(或像素图)。
位图采用位映射存储格式,即将每一个像素映射为一个数据,存放在以字节为单位的矩阵中。如下图所示的黑白图像中,共有32×2个像素,如果将黑、白像素分别映射为1和0,就表示11111111,00000110,10000110,11111111,10000001,01100011,01111100,10000001,这就是黑白图像的二进制编码。通常图像编码采用16进制编码
(2)位图文件大小
在计算机二进制数系统中,每个0或1就是一个位(bit,数据存储的最小单位),8个位就称为一个字节(Byte)。
黑白图像,每一个像素有2种可选颜色(黑,白),称为1位图像。因此,上图所包含的图形数据为32×2÷8=8个字节。
16色图像,每一个像素有16种可选颜色,称为4位图像(24=16);256色图像称为8位图像(28=256);24位图像的可选颜色更丰富,为224种。
实际上,一个位图文件除了包含图形数据,还包括文件头、位图信息头、颜色信息、图形数据等几部分。
①文件头:包含文件的类型、大小和位图起始位置等信息,共14个字节。
②位图信息头:用于说明位图的尺寸等信息,占40个字节。
③颜色信息:用于说明位图中的颜色,有若干个表项,每一个表项定义一种颜色。当图像量化位数为1、4、8时,分别有2、16、256种颜色,每个颜色表项占4字节:当图像量化位数为24时,没有颜色表项。
④图形数据:记录位图的每一个像素值,其记录顺序先从左到右,再从下到上。
一般情况下,位图文件所占用的空间可按以下公式计算:
文件的大小=文件头+信息头+颜色表项+图像分辨率x图像量化位数÷8
其中,图像分辨率=图像x方向的像素数x图像y方向的像素数。图像量化位数,也叫图像深度,是指图像中每个像素点记录颜色所用二进制数的位数。
思考
1.有一幅24位的位图图像,像素为1024x800。试确定其数据文件的大小。
2.若将上述图像另存为256色位图图像,则文件大小为多大?
声音编码
对声音进行数据编码,必须经过前期的数据采样和数据量化。
(1)采样。采样就是把输入的模拟信号按适当的时间间隔得到各个时刻的样本值,使其转换为时间上离散、幅度上连续的脉冲信号。
根据奈奎斯特(
Harry
Nyquist,物理学家,1889-1976)采样定理,如果以一定时间间隔对某个信号f(t)进行采样,并且采样频率高于该信号最高频率的两倍,则采样值包含了原信号的全部信息,如下图所示。
奈奎斯特采样定理示意图'
对于音频信号,常用的采样频率有三种:44.1kHz、22.05kHz和11.025kHz。
(2)量化。量化是把样值信号的无限多个可能的取值,近似地用有限个数的数值来表示。首先是将采样信号幅度划分为若干量化等级(国标声音量化等级分为256个,即28个),然后将采样后的信号幅度与所划分的各个量化等级进行比较,向下取最接近的量化等级的数值。
(3)编码。编码是将量化后的采样值用二进制数码表示,并转换为由二进制编码0和1组成的数字信号。模拟信号采样后可用8位二进制数表示,最高位表示符号,正数为0,负数为1。
编码时采用的二进制位数越多,数据量越大,占用的存储空间也越大。其存储空间遵循如下公式:
声音存储空间=采样频率x量化位数x声道x时间÷8例如,采样频率为44.1kHz、量化位数为16位的立体声,1秒声音所需字节数为44.1×1000×16×2×1÷8=1764(KB)。
编码后的信号可以实现无差错的数据传输。实际上,不仅文字、图像、声音等类型的数据可以被编码,视频等数据也都可以被码成数据文件。
程序设计,简称编程,也属于编码,是运用程序设计语言,实现人机交互,提高计算机应用效率,为实现操作程序化要求所进行的编码。总之,编码是数据存储及其表现的基础,也是人们认识世界的基础。