课程基本信息
课题
《数据编码——字符编码》
教科书
书名:《信息技术必修1:数据与计算》
出版社:人民教育出版社、中国地图出版社
出版日期:
2019
年
6月
教学目标
教学目标:1.知道字符编码作用,了解常见字符编码方案ASCII、GB2312-1980、GBK、
GB18030-2005、unicode字符集及编码方案。【信息意识】【计算思维】
2.了解计算机处理字符的过程,知道中文汉字的输入码、机内码以及输出码。
【信息意识】【计算思维】
3.掌握常见字符处理问题(txt文档与网页乱码现象、Word中文字重叠)的
解决方法,能够根据需要选择合适的字符编码。【信息意识】【数字化学习
与创造】
教学重点:常见的字符编码方案
教学难点:常见字符处理问题的解决方法
教学过程
时间
教学环节
主要师生活动
2分钟
提出真实问题、确立探究主题
在日常使用计算机的时候,同学们有没有遇到过这样的情况或问题呢:
打开文本文档、浏览网页时出现了乱码现象
Word文件中出现了文字重叠的情况
遇到这些情况时,我们该怎么办呢?若想解决问题,必要知其原理。今天,我们就和大家一起来探究计算机是如何处理字符的。
15分钟
辨析概念原理、理解字符编码
计算机作为数据处理的一种工具,只识别0和1的二进制。因此,在处理各种对象时需要将其转换成计算机可识别的二进制数据。那么字符是如何转变成二进制的呢?
(一)
探究一:字符如何变成二进制?
1.
字符编码的概念
字符编码是按照预先确定的规则,将所需字符转换映射为计算机可以接受的二进制数字的过程。字符编码方案会为每个字符指定对应的数字编码,便于不同计算机系统间交换文件,产生的编码叫做交换码。
字符编码包括字符集(系统支持的所有抽象字符的集合)与字符编码(方案)(符号集合与数字系统间建立对应关系的法则)。
(1)
英文字符编码方案——ASCII
在早期应用时,计算机只用处理英文字母、数字和常用的英文标点符号。为了处理英文字符,美国信息标准协会制定ASCII
(American
Standard
Code
for
Information
Interchange)美国信息交换标准代码。在ASCII编码方案中,制定了包含128个英文字符的字符集,包括英文大小写字、数字、常用符号等。
提问思考:至少需要几个字节可以表示128个字符呢?
1个字节为8位,可以表示256种情况。因此,ASCII采用1个字节对128个字符进行编码。
体验活动:利用编码输入字符
在输入英文字符时,我们可以通过键入字符、插入符号等方式,也可以利用ALT+ASCII编码来输入。
(2)
中文字符编码方案
当计算机引入中国后,我国的中文汉字多达10万多个,1个字节的ASCII编码已无法满足需求。因此,我国设计了GB系列字符编码用于将汉字转换为计算机可接受的数字。
GB2312-1980
1980年,我国颁布了GB2312-1980,即《信息交换用汉字编码字符集——基本集》。共收录了6763个汉字,以及包括数字、拉丁字母、希腊字母等在内的682个字符。GB2312-1980兼容ASCII编码,依然用单字节表示ASCII规定的英文字符,采用2个字节表示1个汉字以及其他字符。
GBK
GB2312基本满足了计算机处理汉字的需要,但未包含人名、古汉语等方面出现的罕用字。在GB2312的基础上我们又增加了2万多个字符1995年,形成了GBK《汉字内码扩展规范》,。
GB18030-2005
在GBK的基础上,GB18030-2005又增加了少数民族的文字。采用单字节、双字节和4字节的变长编码,且能够向下兼容GBK、GB2312和ASCII。
(3)
unicode字符集与编码方案
每个国家拥有自己的语言和文化,在使用计算机时也会建立自己的字符编码。随着互联网将世界连接起来,各个国家采用的字符编码不同,信息交流时就会产生问题。那么有没有一种编码方案能够容纳世界上的所有字符,实现集大成者呢?
面对这样的情况,国际标准化组织和Unicode组织制定了unicode字符集,致力于将世界上所有文字和符号都纳入,以满足使用不同语言的人利用计算机进行信息交流。对于unicode字符集,常见的编码方案有UTF-8、UTF-16、UTF-32等。
(4)
体验活动:txt中的联通
刚刚我们学习了常见的字符编码,下面我们通过实践体验一下不同的字符编码对字符处理会产生什么样的影响。
①
体验实践
请同学们在自己的计算机中新建一个txt文档,输入“联通”两个汉字,保存后再打开看看会出现什么?
②
原理分析
经过实践,同学们发现“联通”两个字变成了乱码,那么这是为什么呢?让我们通过一段短片来看一下。
③
问题解决
文本文档【另存为】-【编码】选项中选择合适的字符编码。
(二)
探究二:计算机处理字符时要经历哪些过程?
1.
计算机处理字符的基本工作过程
通过键盘等方式输入字符,在计算机内部进行存储和处理,最后通过显示屏等输出。
(1)
输入字符
英文字符:利用键盘直接键入
中文汉字:输入码(外码)
输入码是将汉字与键盘能建立对应关系,实现利用键盘将汉字输入到计算机中。
(2)
处理字符
英文字符:ASCII编码
中文汉字:机内码(由交换码计算而来)
由于GB2312-1980等编码方案兼容ASCII编码,以3021(十六进制)为例,它在GB2312-1980和ASCII中表示不同,计算机就会产生歧义。因此,计算机在处理中文汉字时,要在交换码的基础上计算得出机内码。
(3)
输出字符
字型码用于字符在显示屏或打印机输出,又称输出码、字模码,通常有两种表示方式:点阵和矢量。不同的字体库拥有不同的字形码。
2.
小结计算机处理字符的过程
环节英文中文输入键盘直接键入输入码
(拼音、五笔等)处理ASCII编码机内码输出字型码(输出码):点阵&矢量
6分钟
解决常见问题、应用所学实践
1.
问题1:如何解决乱码的问题?
解决方法:选择合适的字符编码方案
(1)
txt文档——另存为选择编码方案
(2)
网页——右击选择编码方案
2.
问题2:如何解决Word中的文字重叠?
解决方法:字间距设置,选择合适的字体库
3.
问题2拓展:Word能不能同时保存字体?
解决方法:保存时嵌入字体库
学生根据演示视频学习保存Word文件时嵌入字体库的方法并实践。
2分钟
回顾复习新知、自评学习效果
1.
回复复习所学知识
2.
利用小测自评学习效果
Q1.
在GB2312-1980中,一个汉字占用几个字节?(单选)(
)
A.1个
B.2个
C.4个
Q2.
以下哪些是常用汉字的编码方案?(多选)(
)
A.ASCII
B.GB2312-1980
C.GBK
D.GB18030-2005
Q3.用计算机处理汉字,可能要经历哪些编码过程?(单选)(
)
A.输入码->ASCII码->字型码
B.字型码->机内码->输入码
C.输入码->机内码->字型码E.unicode字符集与UTF-8编码(共48张PPT)
数据编码——字符编码(第四课时)
你遇到过这些问题吗?
文档网页
出现乱码
你遇到过这些问题吗?
下载Word
文字重叠
计算机是如何处理字符的?
计算机是如何处理字符的?
字符如何转换成二进制?
一、字符编码
字符
(文字、符号等)
数字
(二进制等)
预先确定的规则
每个字符拥有对应的数字编码
便于不同计算机系统间交换信息
交换码
编码方案
一、字符编码
字符
(文字、符号等)
数字
(二进制等)
预先确定的规则
编码方案
字符集
方案支持的所有
抽象字符的集合
字符编码
字符集与数之间
建立对应关系的法则
1.
英文字符编码
英文字母
数字
英文标点符号
……
1.
英文字符编码
ASCII编码
美国信息交换标准代码
(American
Standard
Code
for
Information
Interchange)
字符集:大小写字母、数字、常用符号等128个字符
1.
英文字符编码
00110000
0
00110001
1
00110010
2
00110011
3
……
01000001
A
01100001
a
01000000
@
00101011
+
……
128个
字符
几个字节?
1.
英文字符编码
ASCII编码
美国信息交换标准代码
(American
Standard
Code
for
Information
Interchange)
字符集:大小写字母、数字、常用符号等128个字符
字符编码:利用1个字节对128个字符进行数字编码
体验活动:利用ASCII码输入字符
ALT键
+
数字(十进制)
2.
中文字符编码
2.
中文字符编码
《信息交换用汉字编码字符集——基本集》
收录6763个汉字,及包括数字、拉丁字母等在内的682个字符
字符编码:兼容ASCII编码;1个字节表示ASCII规定的英文字符,采用2个字节表示1个汉字以及其他字符。
GB2312-1980
2.
中文字符编码
GB2312-1980
扩充2万多个字符
GBK
《汉字内码扩展规范》
2.
中文字符编码
GB2312-1980
GBK
GB18030-2005
收录7万多个汉字
兼容GB2312-1980、GBK、ASCII等
采用多字节编码,包括1个、2个、4个字节
2.
中文字符编码
GB2312-1980
GBK
GB18030-2005
GB18030-2005
GBK
GB2312-1980
ASCII
3.
通用字符编码方案
unicode字符集与编码方案
致力于纳入世界上所有字符
国际化标准组织和Unicode组织联合制定
unicode字符集
字符编码方案
UTF-8
UTF-16
UTF-32
……
不同语言的人
使用计算机
体验活动:txt中的“联通”
新建一个txt文本文档,输入“联通”两个字,保存后再打开看看会如何?
体验活动:txt中的“联通”
新建一个txt文本文档,输入“联通”两个字,保存后再打开看看会如何?
为什么会出现乱码?
资
料
体验活动:txt中的“联通”
为什么会出现乱码?
相同数字在各字符编码代表可能不同
选择合适的字符编码
二、计算机处理字符的过程
存储、操作、
传输等
处理
显示屏输出、
打印输出等
输出
利用键盘等
输入字符
输入
1.
输入字符:输入码
利用键盘等
输入字符
输入
英文字符
键盘对应,直接输入
加入我们!
1.
输入字符:输入码
利用键盘等
输入字符
输入
中文汉字
拼音、五笔等
输入码(外码)
建立汉字与
键盘的关系
加入我们!
二、计算机处理字符的过程
环节
英文
中文
输入
键盘直接键入
输入码
(拼音、五笔等)
2.
内部处理:ASCII编码&机内码
存储、操作、
传输等
处理
英文
字符
字符
二进制
中文
字符
ASCII编码
2.
内部处理:ASCII编码&机内码
例:3021(十六进制)
0!
啊
GB2312
ASCII编码
产生歧义!
GB18030-2005
GBK
GB2312-1980
ASCII
2.
内部处理:ASCII编码&机内码
英文
字符
字符
二进制
中文
字符
ASCII编码
机内码
基于交换码计算
存储、操作、
传输等
处理
二、计算机处理字符的过程
环节
英文
中文
输入
键盘直接键入
输入码
(拼音、五笔等)
处理
ASCII编码
机内码
3.
输出字符:字型码
显示屏输出、
打印输出等
输出
字符
二进制
字型码
3.
输出字符:字型码
用于字符在显示屏或打印机输出
又称输出码、字模码
通常有两种方式:点阵和矢量
字型码
显示屏输出、
打印输出等
输出
3.
输出字符:字型码
点阵码
3.
输出字符:字型码
二、计算机处理字符的过程
环节
英文
中文
输入
键盘直接键入
输入码
(拼音、五笔等)
处理
ASCII编码
机内码
输出
字型码(输出码):点阵&矢量
三、解决常见的字符处理问题
问题1:如何解决显示乱码?
解决方法:选择合适的字符编码方案
三、解决常见的字符处理问题
问题1:如何解决显示乱码?
解决方法:选择合适的字符编码方案
txt文本文档
另存为—>选择编码
三、解决常见的字符处理问题
问题1:如何解决显示乱码?
解决方法:选择合适的字符编码方案
网页:右击—>选择编码
三、解决常见的字符处理问题
问题2:如何解决Word中的文字重叠?
解决方法:字间距设置
,选择合适的字体库
三、解决常见的字符处理问题
问题2拓展:Word能不能同时保存字体?
解决方法:保存时嵌入字体库
三、解决常见的字符处理问题
四、小结与练习
字符
编码
字符编码概念
计算机处理汉字的编码过程
含义:字符转换成二进制
组成:字符集和编码方式等
常见字符编码方案
作用:便于不同系统交换信息
英文:ASCII编码
通用:unicode字符集与编码方案(UTF-8等)
中文:GB2312-1980、GBK、GB18030-2005
输入:输入码(拼音、五笔等)
输出:字型码(点阵&矢量)
处理:机内码(基于交换码计算而得)
四、小结与练习
Q1.
在GB2312-1980中一个汉字占用几个字节?
Q2.
常用汉字的编码方案有哪些?
Q3.
用计算机处理汉字,可能要经历哪些编码过程?课后练习
Q1.
在GB2312-1980中,一个汉字占用几个字节?(单选)(
)
A.1个
B.2个
C.4个
Q2.
以下哪些是常用汉字的编码方案?(多选)(
)
ASCII
B.GB2312-1980
C.GBK
D.GB18030-2005
E.unicode字符集与UTF-8编码
Q3.
用计算机处理汉字,可能要经历哪些编码过程?(单选)(
)
A.输入码->ASCII码->字型码
B.字型码->机内码->输入码
C.输入码->机内码->字型码
正确答案:
B
BCDE
ASCII是英文字符编码。
C学习任务单
课程基本信息
课题
《数据编码——字符编码》
教科书
书名:《信息技术必修1:数据与计算》
出版社:人民教育出版社、中国地图出版社
出版日期:
2019
年
6月
学生信息
姓名
学校
班级
学号
学习目标
(1)
知道字符编码作用,了解常见的字符编码方案ASCII、GB2312-1980、GBK、GB18030-2005、unicode字符集及编码方案。【信息意识】【计算思维】
(2)
了解计算机处理字符的过程,知道中文汉字的输入码、机内码以及输出码。【信息意识】【计算思维】
(3)
掌握常见字符处理问题(txt文档与网页乱码现象、Word中文字重叠)的解决方法,能够根据需要选择合适的字符编码。【计算思维】【数字化学习与创造】
课前学习任务
1.
准备好任务单。
2.
在自己的电脑中安装好Word软件。
课上学习任务
【学习任务一】体验活动:利用ASCII码输入字符
请同学们打开ASCII编码表,查找字符对应的十进制数字。新建word文件,利用ALT+十进制数字尝试输入字母或符号,例如ALT+65输入A。其中,十进制数字要通过数字小键盘输入。
提示:如果使用的笔记本电脑没有数字小键盘,同学们可以通过【开始】-搜索【屏幕键盘】-点击【NumLock】,打开屏幕键盘中的数字小键盘。标准ASCII编码表见最后。
请将你的输入结果截图放在下面:
【学习任务二】体验活动:
txt中的“联通”
请在自己的计算机上新建一个txt文档,输入“联通”两个字,保存后再打开看看会出现什么?
出现乱码的原因是:____________________________________________
解决的办法是:__________________________________________________
【学习任务三】任务实践:Word保存嵌入字体库
请同学们根据课程中的演示,学习如何在Word设置文件保存嵌入字体库。
推荐的学习资源
字符所占的存储容量
用点阵表示字型时,根据汉字的不同要求所有的点阵也不一样。通常,显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。根据点阵的大小,可以计算出一个汉字所需占用的空间。例如16×16点阵的汉字字模,每个小格是1b,字模大小就是16b×16b/2=32B,即16×16点阵表示一个汉字,字形码需用32字节。
2.
ANSI编码
在unicode字符集及其编码方案问世前,各个国家都在ASCII编码的基础上设计了自己国家的编码方案。所有这些各个国家和地区所独立制定的既兼容ASCII又互相不兼容的字符编码,微软统称为ANSI编码。在Windows系统中,ANSI编码一般代表系统默认编码方式。例如,在简体中文操作系统中ANSI编码默认指的是GB系列编码(GB2312、GBK、GB18030)
标准ASCII
编码
二进制
十进制
十六进制
字符/缩写
解释
00000000
0
00
NUL
(NULL)
空字符
00000001
1
01
SOH
(Start
Of
Headling)
标题开始
00000010
2
02
STX
(Start
Of
Text)
正文开始
00000011
3
03
ETX
(End
Of
Text)
正文结束
00000100
4
04
EOT
(End
Of
Transmission)
传输结束
00000101
5
05
ENQ
(Enquiry)
请求
00000110
6
06
ACK
(Acknowledge)
回应/响应/收到通知
00000111
7
07
BEL
(Bell)
响铃
00001000
8
08
BS
(Backspace)
退格
00001001
9
09
HT
(Horizontal
Tab)
水平制表符
00001010
10
0A
LF/NL(Line
Feed/New
Line)
换行键
00001011
11
0B
VT
(Vertical
Tab)
垂直制表符
00001100
12
0C
FF/NP
(Form
Feed/New
Page)
换页键
00001101
13
0D
CR
(Carriage
Return)
回车键
00001110
14
0E
SO
(Shift
Out)
不用切换
00001111
15
0F
SI
(Shift
In)
启用切换
00010000
16
10
DLE
(Data
Link
Escape)
数据链路转义
00010001
17
11
DC1/XON
(Device
Control
1/Transmission
On)
设备控制1/传输开始
00010010
18
12
DC2
(Device
Control
2)
设备控制2
00010011
19
13
DC3/XOFF
(Device
Control
3/Transmission
Off)
设备控制3/传输中断
00010100
20
14
DC4
(Device
Control
4)
设备控制4
00010101
21
15
NAK
(Negative
Acknowledge)
无响应/非正常响应/拒绝接收
00010110
22
16
SYN
(Synchronous
Idle)
同步空闲
00010111
23
17
ETB
(End
of
Transmission
Block)
传输块结束/块传输终止
00011000
24
18
CAN
(Cancel)
取消
00011001
25
19
EM
(End
of
Medium)
已到介质末端/介质存储已满/介质中断
00011010
26
1A
SUB
(Substitute)
替补/替换
00011011
27
1B
ESC
(Escape)
逃离/取消
00011100
28
1C
FS
(File
Separator)
文件分割符
00011101
29
1D
GS
(Group
Separator)
组分隔符/分组符
00011110
30
1E
RS
(Record
Separator)
记录分离符
00011111
31
1F
US
(Unit
Separator)
单元分隔符
00100000
32
20
(Space)
空格
00100001
33
21
!
?
00100010
34
22
"
?
00100011
35
23
#
?
00100100
36
24
$
?
00100101
37
25
%
?
00100110
38
26
&
?
00100111
39
27
'
?
00101000
40
28
(
?
00101001
41
29
)
?
00101010
42
2A
?
00101011
43
2B
+
?
00101100
44
2C
,
?
00101101
45
2D
-
?
00101110
46
2E
.
?
00101111
47
2F
/
?
00110000
48
30
0
?
00110001
49
31
1
?
00110010
50
32
2
?
00110011
51
33
3
?
00110100
52
34
4
?
00110101
53
35
5
?
00110110
54
36
6
?
00110111
55
37
7
?
00111000
56
38
8
?
00111001
57
39
9
?
00111010
58
3A
:
?
00111011
59
3B
;
?
00111100
60
3C
<
?
00111101
61
3D
=
?
00111110
62
3E
>
?
00111111
63
3F
?
?
01000000
64
40
@
?
01000001
65
41
A
?
01000010
66
42
B
?
01000011
67
43
C
?
01000100
68
44
D
?
01000101
69
45
E
?
01000110
70
46
F
?
01000111
71
47
G
?
01001000
72
48
H
?
01001001
73
49
I
?
01001010
74
4A
J
?
01001011
75
4B
K
?
01001100
76
4C
L
?
01001101
77
4D
M
?
01001110
78
4E
N
?
01001111
79
4F
O
?
01010000
80
50
P
?
01010001
81
51
Q
?
01010010
82
52
R
?
01010011
83
53
S
?
01010100
84
54
T
?
01010101
85
55
U
?
01010110
86
56
V
?
01010111
87
57
W
?
01011000
88
58
X
?
01011001
89
59
Y
?
01011010
90
5A
Z
?
01011011
91
5B
[
?
01011100
92
5C
\
?
01011101
93
5D
]
?
01011110
94
5E
^
?
01011111
95
5F
_
?
01100000
96
60
`
?
01100001
97
61
a
?
01100010
98
62
b
?
01100011
99
63
c
?
01100100
100
64
d
?
01100101
101
65
e
?
01100110
102
66
f
?
01100111
103
67
g
?
01101000
104
68
h
?
01101001
105
69
i
?
01101010
106
6A
j
?
01101011
107
6B
k
?
01101100
108
6C
l
?
01101101
109
6D
m
?
01101110
110
6E
n
?
01101111
111
6F
o
?
01110000
112
70
p
?
01110001
113
71
q
?
01110010
114
72
r
?
01110011
115
73
s
?
01110100
116
74
t
?
01110101
117
75
u
?
01110110
118
76
v
?
01110111
119
77
w
?
01111000
120
78
x
?
01111001
121
79
y
?
01111010
122
7A
z
?
01111011
123
7B
{
?
01111100
124
7C
|
?
01111101
125
7D
}
?
01111110
126
7E
~
?
01111111
127
7F
DEL
(Delete)
删除