字符的编码

文档属性

名称 字符的编码
格式 rar
文件大小 792.0KB
资源类型 教案
版本资源 浙教版
科目 信息技术(信息科技)
更新时间 2011-09-16 16:54:35

图片预览

文档简介

(共31张PPT)
信息的编码
——字符的编码
ASCII码
计算机处理非数值型的数据(如字符、汉字)也要进行编码。
搜集所需字符并为每个字符规定一个二进制形式的代码。
为了便于交换,必须采用标准化编码。英文字符普遍采用ASCII(美国信息交换标准码)。34个控制字符和94个图形字符,共128个字符(代码范围0-127),所以使用了7位二进制数。存储时要占一个字节,最高位永远为0。
ASCII
课堂实践——1、2
扩展ASCII
为了表示更多的字符,各厂商制定了很多扩展ASCII规范,但不属于ASCII标准。IBM定制的扩展ASCII表:
汉字有多少?
《说文解字》(公元100年)收9353字;
《声类》(227-239年)收11520字;
《玉篇》(543年)收22726字;
《唐韵》(751年)收26194字;
《类篇》(1066年)收31319字;
《字汇》(1615年)收33179字;
《康熙字典》(1716年)收47035字;
《中华大字典》(1915年)收48000字;
《中文大字典》(1968年)收49905字;
《汉语大字典》(1986年)收56000字。
汉字编码
由于汉字是象形文字,字的数目很多,常用汉字就有3000~5000个,加上汉字的形状和笔画多少差异极大,因此,不可能用少数几个确定的符号将汉字完全表示出来,像英文那样将汉字拼写出来。
汉字必须以独特的编码(每个汉字一个编码),实现二进制代码表示。由于汉字数量多,用一个字节是无法表示的,所以汉字需要用多个字节表示。
GB2312编码
GB2312-80收录了6763个汉字和682个非汉字图形符号(包括几种外文字母、数字和符号),共7445个中文字符。6763个汉字又按其使用频度、组词能力以及用途大小分成一级常用汉字3755个和二级常用汉字3008个。一级汉字按拼音字母顺序排列;二级汉字按部首顺序排列。
汉字编排顺序:94×94矩阵方式排列。因为ASCII码图形文字也只有94个,同时也为了避开34个ASCII控制符。由此每一字节只有94种可用状态用于汉字编码,需要二个字节才能表示出7445个中文字符(94×94=8836)。
处理码(内码):计算机内部用于存储、加工处理、传输统一使用的代码。连续两个字节的最高位分别置为1(作为中英区分标志),再加32(避开前33个控制码,否则汉字会造成不支持汉字的机器误动)而得到的。这样每个汉字的编码显示为16进制时都大于A0(80H+20H)。
其他编码
GBK汉字扩展规范:1995年的汉字扩展规范GBK1.0收录了21886个符号,包括21003个汉字和883个其它符号。
GB18030-2000:收录的字符分别以单字节、双字节和四字节编码。GB18030-2000收录了27533个汉字。
GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编码的欧元符号(0x80)。GB18030-2005收录了70244个汉字。
课堂实践——3
交换码与处理码
交换码(区位码):为了方便各种数字系统之间的汉字信息的交换制定的标准。规定汉字收集数量、排列顺序。
处理码(内码):计算机内部实际存储每个汉字的编码。GB2312交换码与处理码不一样,后来的编码就直接用处理码来表示交换码。
输入码
输入码(外码):为了将汉字通过键盘输入计算机而设计的代码
常见输入法
区位输入法:用区位来实现汉字的输入方法。
利用汉字音、形或其他特征信息实现输入。
音码:全拼、智能ABC、搜狗拼音、谷歌拼音。
形码:五笔字型。音形码:郑码、自然码。
字形码
字形码:汉字字库中存储的汉字字形的数字化信息,用于汉字的显示和打印
点阵方式:汉字字形点阵的代码,每个点的虚实来表示汉字的轮廓,16×16或24×24个点,点阵字库汉字最大的缺点是不能放大,一旦放大后就会发现文字边缘的锯齿。一个汉字方块中行数、列数分得越多,描绘的汉字也就越细微,但占用的存储空间也就越多。
字形码
矢量方式:保存的是对每一个汉字的描述信息,比如一个笔划的起始、终止坐标,半径、弧度等等。在显示、打印这一类字库时,要经过一系列的数学运算才能输出结果,但是这一类字库保存的汉字理论上可以被无限地放大,笔划轮廓仍然能保持圆滑。
Windows使用的字库也为以上两类,在FONTS目录下,如果字体扩展名为FON,表示该文件为点阵字库,扩展名为TTF则表示矢量字库。
课堂实践——4
汉字编码关系图
计算机系统A
计算机系统B
交换码
输入码
(外码)
译码
处理码
(内码)
字形码
汉字显示
OS的汉字服务程序