(共32张PPT)
陕广学校 贺娟
计算机采用二进制数据的原因
容易实现
仅有两种稳定状态的物理元件在技术上很容易实现,如电位的高和低,0和1这两个数字就表示这两种状态。
运算简单
二进制的运算规则是“逢二进一,借一当二”,算术运算特别简单。
便于表示逻辑量
二进制的0和1与逻辑量“假”和“真”相对应,便于计算机进行逻辑判别和逻辑运算。
简单的二进制能表示客观世界的信息吗?
1775年4月18日,美国革命前夕,麻省的民兵正计划抵抗英军的进攻,派出的侦察员需要将英军的进攻路线传回。作为信号,侦察员会在教堂的塔上点一个或两个灯笼。一个灯笼意味着英军从陆地进攻,两个灯笼意味着从海上进攻。但如果一部分英军从陆地进攻,而另一部分英军从海上进攻的话,是否要使用第三只灯笼呢? 聪明的侦察员很快就找到了好的办法。每一个灯笼都代表一个比特,点亮的灯笼表示比特值为1,未亮的灯笼表示比特值为0,因此一个灯笼就能表示出两种不同的状态,两个灯笼就可以表示出如下四种状态: 00=英军不进攻 01=英军从海上进攻 10=英军从陆地进攻 11=英军一部分从海上进攻,另一部分从陆地进攻
比特:一个二进制位(bit)
拥有的比特位数越多,可以传递的不同可能性就越多。只要比特的位数足够多,就可以代表单词、图片、声音、数字等多种信息形式。
比特是数字,当用比特表示信息时只要将可能情况的数目数清楚就可以了,这样就决定了需要多少个比特位,从而使得各种可能的情况都能分配到一个编号 。
编码:用一组特定的数字来表示信息的方法。
信息的计量单位
各种信息在计算机内部都以二进制形式存储。
基本存储单位
位(bit):比特,计算机存储信息的最小单位,能够存储二进制数据中的一位数据0或1。
字节(Byte):计算机信息处理和存储分配的基本单位,由8位二进制位组成,简记为B, 1B=8bit。
扩展存储单位
KB:千字节。1KB=210B=1024B
MB:兆字节。1MB=210KB=1024KB
GB:吉字节。1GB=210MB=1024MB
TB:太字节。1TB=210GB=1024GB
一、数值数据的信息表示
当计算机接收到从键盘输入的一个数字后,会按照一定规则,将数字转成二进制数。
如:十进制的“2”被转换成二进制的“0010”,十进制的“6”被转换成二进制的“0110”等。
二、文本信息的表示
西文字符的表示:
计算机普遍使用的编码是ASCII编码。ASCII编码是美国标准信息交换码( American Standard Code for Information Interchange)的缩写,它是将字符用二进制代码表示的编码系统,已经被国际标准化组织ISO采纳,作为国际通用的信息交换标准代码。如下所示
ASCII码
b7b6b5
b4b3b2b1 000 001 010 011 100 101 110 111
0000 NUL DLE SP 0 @ P ` p
0001 SOH DC1 ! 1 A Q a q
0010 STX DC2 “ 2 B R b r
0011 ETX DC3 # 3 C S c s
0100 EOT DC4 $ 4 D T d t
0101 ENQ NAK % 5 E U e u
0110 ACK SYN & 6 F V f v
0111 BEL ETB ‘ 7 G W g w
1000 BS CAN ( 8 H X h x
1001 HT EM ) 9 I Y i y
1010 LF SUB * : J Z j z
1011 VT ESC + ; K [ k {
1100 FF FS , < L \ l |
1101 CR GS - = M ] m }
1110 SO RS . > N ^ n ~
1111 SI US / O _ o DEL
汉字编码
输入码就是用键盘输入汉字的编码,是用户向计算机输入汉字的手段。
大体可分为顺序码、音码、形码、音形码四类,各种输入法对同一汉字的编码不相同,输入码也称为“外码”。
在有的输入法中,一个“外码”与多个汉字对应,称为“重码”。
为了提高汉字录入速度,目前提供了很多智能化的输入方法,如语音输入、笔输入、扫描输入。
汉字输入码 (外码)
汉字国标码 GB2312-80 目前使用的汉字字库,双字节编码
GBK 国家信息技术标准化技术委员会 1995 年发布的扩充后的汉字编码方案 ,双字节编码,向下与 GB2312 编码兼容,收录了20902 个汉字,只是一种规范,不是一个国家标准。
GB18030 2000年颁布,是取代GBK的正式国家标准。收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。编码采用单字节、双字节和4字节方案。其中单字节、双字节和GBK完全兼容。
BIG5 是台湾计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。
是台湾计算机界实行的汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字)。
Unicode( Universal Multiple-Octet Coded Character Set)是一种由国际组织设计编码方法,可以容纳全世界所有语言文字的字符编码方案。
几种常用编码(内码):
汉字字库
字模
字的模型,汉字的字形表示,储存计算机内,字模的集合就构成了字模库,简称字库。
汉字输出时,需要先根据内码找到字库中对应的字模,再根据字模输出汉字。
汉字字形码通常有两种表示方式:点阵和矢量表示方式。
汉字的编码
点阵法
每一个汉字以点阵形式存储在记录介质上,有点的地方为“1”,空白的地方为“0”。
16*16点阵:16*16/8=32字节
24*24点阵:24*24/8=72字节
向量(矢量)法
存储的是描述汉字字形的轮廓特征。将汉字分解成笔画,每种笔画使用一段段的直线(向量)近似地表示,这样每个字形都可以变成一连串的向量。
点阵法编码、存储方式简单、无需转换直接输出,但字形放大后产生的效果差,而且同一种字体不同的点阵需要不同的字库。
矢量表示法输出汉字时要经过计算机的计算,还原复杂,但可以方便地进行缩放、旋转等变换,与大小、分辨率无关,能得到美观、清晰、高质量的输出效果。
Windows操作系统中使用的TrueType技术就是汉字的矢量表示方式。
小结
信息在计算机中是以什么形式表示的?
数字信息如何在计算机中表示?
西文字符一般在计算机中什么编码表示?
我国国内目前使用的汉字编码是什么?
输入法属于内码还是外码?
你平时用什么输入法?
量化
量化位数也称图像的颜色深度 。彩色图像是由红、蓝、绿(R、G、B三基色)不同亮度混合而成的,当三基色每个颜色的强度级别分为256级,则每个颜色分量要用8位来量化,每个像素点的颜色深度就要用24位表示,它们共可表示224=16777216种颜色,称为真彩色。
一幅不经压缩的图像数据量计算公式为:
字节数=图像水平分辨率×图像垂直分辨率×颜色深度(位数)/8
图像信息的采集和数字化
图像信息的采集和数字化
量化
例:一幅分辨率为1024×768(即有1024×768个采样点)的24位真彩色图像所需要的存储量:
存储量=1024×768×24 / 8 =2359296B = 2.25MB
编码
数字化后的图像数据量非常大,在图像的传输、存储时开销过大,必须经过编码技术来大大压缩信息量,才有实用价值。
BMP格式——.bmp
与设备无关的位图格式文件,Windows软件中常用的一种位图形式的图像格式。
GIF格式——.gif
Internet上WWW中的重要文件格式之一,最大不超过64 KB,只能是256色,压缩比较高,与设备无关。
JPEG格式——.jpg
利用JPEG方法压缩的图形文件,适用于处理256色以上、大幅面图像,适用于在Internet上进行图像传输。
图像文件格式
图像文件格式
TIFF格式——.tif
用于扫描仪和桌面出版系统的文件格式,支持单色到32位真彩色的所有图像,不依赖操作平台及机型,有多种数据压缩存储方式。
PNG格式——.png
一种网络图像格式,它汲取了JPEG及GIF的优点,存储形式丰富。PNG格式的特点是:采用无损压缩使图像不失真,显示速度快,但不支持动画应用效果。
四、声音信息的表示
声音信息的采集与数字化
声音是空气中分子震动产生的声波传到我们耳膜产生的结果,声波具有周期性和一定的幅度。周期性表现为频率,控制音调的高低。频率越高,声音越尖,反之就越沉。幅度控制声音的音量,幅度越大,声音越响,反之就越弱。下图为声音的波形示意图。
(1). 采样和量化
数字化音频的过程如下图所示。
(a) 模拟音频信号
(b) 音频信号的采样
(c) 采样信号的量化
模拟信号的数字化过程
采样与量化过程示例 以图4-1所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒,即每1/1000秒A/D转换器采样一次,其幅度被划分成0 9共10个量化等级,并将其采样的幅度值取最接近0 9之间的一个数来表示,如图4-2所示。图中每个长方形表示一次采样。
当D/A转换器从图4-2得到的数值中重构原来信号时,得到图4-3中蓝色(直线段)线段所示的波形。从图中可以看出,蓝色线与原波形(红色线)相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。
左图为采样率2000Hz,量化等级为20的采样量化过程
右图为采样率4000Hz,量化等级为40的采样量化过程
当采样率和量化等级提高一倍,从图中可以看出,当用D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
WAVE文件—— .WAV
记录了真实声音的二进制采样数据,通常文件较大。
MPEG文件——.mp1/.mp2/.mp3
采用MPEG音频压缩标准进行压缩的文件。MPEG是运动图像专家组(Moving Picture Experts Group)的英文缩写,MPEG音频层(MPEG Audio Layer)代表MPEG标准中的音频部分。压缩比高,音质优美,制作简单,交换方便。
MIDI文件——.mid/.rmi
数字音乐的国际标准. 记录的是音符数字,文件小。
数字音频的文件格式
RA文件——.ra
音乐压缩文件格式,压缩比可达96:1,主要用于在低速广域网中实现网上实时播放,即边下载边播放。
WMA文件——.wma
WMA是Windows Media Audio的速写,WMA文件是Windows media的一个子集,表示Windows media音频格式。WMA文件只有MP3的一半大小,音质基本保持相同,目前,大部分的MP3播放器都支持WMA文件。
数字音频的文件格式
五、视频信息的处理
视频信息的采集与数字化
视频信息的采集
视频是图像的动态形式
动态的图像是由一系列的静态画面按一定的顺序排列组成。每一幅称为“帧(Frame)”。这些帧以一定的速度连续地投射到屏幕上,由于视觉的暂留现象产生动态效果
视频分为模拟视频和数字视频。
视频信号在生成、传递及显示过程中所遵循的标准即制式,常用的电视制式有NTSC制、PAL制、SECAM制。美国、日本等国家采用NTSC制式,中国、德国等国家采用PAL制式,法国、俄罗斯等国家采用SECAM制式。
视频信息的数字化
量化
将采样后的连续像素值转化为有限的离散值。
量化位数率决定系统的动态范围,更高的比特率可以获得更好的性能,但需要的存储空间也更多。
编码
视频信号数字化后若不经过压缩,数据量非常庞大。
例如:连续显示分辨率为1280× 1024的“真彩色”电视图像,帧速为30帧/秒,显示1分钟,需要的存储量:
1280 × 1024 × 3 × 30 × 60≈6.6GB
数字视频编码技术主要有JPEG、MPEG及H.264标准。
视频文件格式
影像视频文件
AVI格式文件——.avi
将视频与音频信息交错地保存在一个文件中,较好地解决了音频与视频的同步问题,已成为Windows视频标准格式文件 ,数据量较大,要压缩。
MOV格式文件——.mov
可以合成视频、音频、动画、静止图像等多种素材。数据量较大,要压缩。
MPEG格式文件——.mpeg /.mpg/.dat
MPEG文件格式是运动图像压缩算法的国际标准,它采用有损压缩方法减少运动图像中的冗余信息,压缩效率高,图像和音响的质量非常好。DAT格式文件是VCD专用的格式文件,与MPEG文件格式的文件结构基本相同。
视频文件格式
流媒体文件
流媒体是一种可以使音频、视频等多媒体文件在Internet上以实时的、无需下载等待的流式传输方式进行播放的技术。
RealMedia
可以根据网络数据传输速率的不同而采用不同的压缩比率,在数据传输过程中边下载边播放视频影像。
ASF及WMV
是 Microsoft 为了和 Real player 竞争而发展出来的一种在Internet上实时传播多媒体的技术标准。
WMV是一种动态图像压缩技术,也是一种在Internet上实时传播多媒体的技术标准。
QuickTime
Apple计算机公司开发的一种视音频文件格式,用于保存视频和音频信息,具有先进的视频和音频功能,被几乎所有主流的个人计算机平台支持。
小结
数字的信息表示
文本的信息表示
图形、图像信息的表示
声音信息的表示
视频信息的表示