(共35张PPT)
第2单元 编程计算
第1单元 初识数据与计算
第3单元 认识数据
第4单元 计算与问题解决
第5单元 数据分析与人工智能
信息技术
(必修1)
3.1 数据编码
了解各类数据采集的基本方法
能够解释文本、音频等数据的编码原理
理解数据编码的意义和作用
1
3
2
学习目标
智能公交系统是智慧城市的重要组成部分,它的应用提高了城市公交的运营效率,方便了人们的出行。市民在办理市民卡时,一般要到指定地点办理录入信息、拍摄照片等手续。
想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?
生活中还有哪些数据可以采集以及如何采集?
表现形式 实例 采集该数据的设备
文本 姓名、家庭住址、性别、手机号…… 键盘、手写输入、语言输入
数字 年龄、身高、体重、身份证号…… 键盘、手写输入、数字化采集仪
图像 照片…… 手机、相机、扫描仪
声音 讲话的声音、音乐、其他声音…… 手机、录音机、录音笔
视频 监控视频、电影…… 摄像机、手机、摄像头
想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?
生活中还有哪些数据可以采集以及如何采集?
这些数据计算机能直接处理吗?
编码就是信息从一种形式或格式转换成另一种形式或格式的过程。
指用预先规定的方法将文字、数字或其他对象编成可以存储在计算机里的数值。
编码
模拟信号与数字信号
模拟信号
模拟信号一般用传感器直接获得,如声音、温度、压强等。
模拟信号的值随时间而连续变化,波形光滑。
外部信息存入计算机内部必须以二进制形式存储
数字信号
数字信号一般随时间而产生非连续的变化。数字信号可以由模拟信号转化而来,数字信号的值即数字数据,可直接用计算机所能理解的二进制表示,方便计算机对其处理。
模拟信号:连续变化,温度可以自己估读出来,可以是区间里的任何一个数字
数字信号:离散,不连续,只能是固定的数字
将模拟声音数据转换为数字数据的这一个过程,
称为声音的数字化。
01
采样
02
量化
03
编码
对模拟声音信号按给定的时间间隔进行采样
对采样数据进行量化
将量化后的数据用二进制数值表示
声音数字化
第一步 采样 。在时间轴上按照一定的时间间隔取一系列时刻,得到每个时刻对应的声波信号的振幅值。
声音的数字化过程
在横轴上按一定的时间间隔,从信号中取一个瞬时值,这个过程称为采样。
录音设备在1秒内对声音信号的采样次数称为采样频率,常用的CD音质的采样频率就是44.1kHz。
第二步 量化。将第一步所得的振幅瞬时值往最接近的整数取整。
声音的数字化过程
将信号波形的纵轴划分为若干区间,落到某一区间的采样点按四舍五入的规则取整选值,这个过程称为量化。
第三步 编码。
时刻 1 2 3 4 5 6 7 8 9 10
十进制 1 2 3 4 3 2 2 2 3 3
二进制数值 001 010 011 100 011 010 010 010 011 011
将样本值用二进制表示的过程称为编码。
量化位数:每个幅值用16个二进制位记录,CD音质的量化位数为16位,
即用16个二进制位记录一个数值,因此可记录216=65536种不同的数值。
声音的数字化过程
二进制数有0和1两种不同的数字,其基本计数规则是逢二进一,即1+1=10。
计算机存储数据的最小单位是二进制位,用比特(bit)表示。
计算机存储数据的基本单位是字节(Byte,简写为B),8比特为一个字节。
字节单位太小,常用的存储单位有KB,MB,GB等。
1KB = 210B = 1024B
1MB = 210KB = 220B = 1048576B
1GB = 210MB = 220KB = 230B = 1073741824B
1比特能表示两种(21)状态(即0和1);
2比特能表示00、01、10、11四种(22)状态;
3比特能表示八种(23)状态;
1字节能表示28(256)种状态。
二进制与数制转换
用于记录数据,表示数据的多少
常用的数制系统
生活中:十进制(逢十进一)、六十进制(逢六十进一)
计算机:二进制(逢二进一)、八进制、十六进制
进位计数制的三个要素:基数、数位、权值
数制系统
基 数
十进制
10
二进制
2
N进制
n
…
…
指在某种进位计数制中,数位上所能使用的数字符号的个数。
数 位
10011
第0位
第1位
第2位
第3位
第4位
第N位
…
指数字符号在一个数中所处的位置。
权 值
数 位
权 值
10011
第0位
第1位
第2位
第3位
第4位
第N位
…
基数
数位
一个数字处在不同的位置所代表的值。
二进制转十进制
10011
权 值
结 果
×
1
2
0
0
16
+
+
+
+
十进制数
19
按权展开求和
十转二进制
19
基 数
十进制数
余 数
2
2
2
9
4
2
1
0
2
2
1
1
0
0
1
第0位
第1位
第2位
第3位
第4位
低位
高位
=
2
除2取余法
55
十进制
R进制
除R取余法
二进制
八进制
十六进制
按权展开求和
110111
67
37
55
8
8
6
……
7
0
……
6
6 7 O
8
0
8
1
*
*
48+7=55 D
55
16
16
3
……
7
0
……
3
3 7 H
16
0
16
1
*
*
48+7=55 D
55
2
2
27
……
1
2
13
……
1
6
……
1
3
……
0
2
2
1
……
1
2
0
……
1
1 1 0 1 1 1 B
2
0
2
1
2
2
2
3
2
4
2
5
*
*
*
*
*
*
32+16+0+4+2+1=55 D
2
0
2
1
Binary 二进制
Octal 八进制
Decimal 十进制
Hexadecimal 十六进制
二进制转八进制
方法为:3位二进制数按权展开相加得到1位八进制数。(注意事项,3位二进制转成八进制是从右到左开始转换,不足时补0)。
拓展
八进制转成二进制
方法为:八进制数通过除2取余法,得到二进制数,对每个八进制为3个二进制,不足时在最左边补零。
二进制转十六进制
方法为:与二进制转八进制方法近似,八进制是取三合一,十六进制是取四合一。(注意事项,4位二进制转成十六进制是从右到左开始转换,不足时补0)。
十六进制转二进制
方法为:十六进制数通过除2取余法,得到二进制数,对每个十六进制为4个二进制,不足时在最左边补零。
八进制 转十六进制
方法:将八进制转换为二进制,然后再将二进制转换为十六进制,小数点位置不变。
十六进制转八进制
方法:将十六进制转换为二进制,然后再将二进制转换为八进制,小数点位置不变。
10110100 B=( )D
3D H=( )D
255 D=( )H
56 D=( )B
180
61
FF
111000
练一练
ord:字符—编码
chr:编码—字符
必须在二进制数之前加“0b”,表示一个二进制数值
bin:十进制 — 二进制
查看数据编码
A
B
C
文本数据包括字母、数字、标点符号、汉字等
ASCII码和Unicode码是最经典的两种编码方案
文本数据的编码通过对其中每一个字符进行编码实现
字符编码
用于文本数据字符编码的方案有多种类型,其中ASCII码和unicode是典型的2种方案。
ASCII码
标准ASCII码(用7位二进制数表示一个字符):集中定义了大小写英文字母、标点符号、数字等字符和符号,共128个。
ASCII码(十进制) 字符
0~31 控制字符或通信专用字符(不可见)
32 空格
48~57 数字0~9
65~90 大写英文字母A~Z
97~122 小写英文字母a~z
其他 英文标点符号、运算符号、括号
ASCII码
扩展ASCII码(用8位二进制数表示一个字符):
计算机内部用一个字节来存放一个ASCII码字符,最高位用0表示。
例如,“A”的ASCII码为01000001,即65。
计算机要处理汉字,必须对每个汉字进行编码,每个汉字至少需要2个字节。我国先后制定了多个汉字编码方案:
(1)GB 2312—1980字符集共收录6763个汉字
(2)GBK字符集,兼容GB 2312—1980标准,收入21003个汉字
(3)GB 18030—2000字符集,包含GBK字符集和CJK统一汉字扩充A的汉字,共计27533个汉字;
(4)GB 18030—2005字符集,在GB 18030—2000的基础上,增加了CJK统一汉字扩充B的汉字及其他汉字, 共计70244个汉字。
Unicode码
Unicode码
为解决传统字符编码方案的局限性而产生了Unicode 码,它可以用2个字节表示一个符号,还可以用更多字节来对字符进行编码。Unicode码兼容ASCII码。原来用ASCII码能表示的字符,其对应的unicode码只是在原来的ASCII码前加上8个0。比如“a”的ASCII码是01100001,其unicode码是00000000 01100001。
Unicode字符集,是全球可以共享的编码字符集,涵盖了世界上主要文字的字符,其中包括简繁体汉字,共计74686个汉字。如汉字“男” 的Unicode编码为30007(十进制),用十六进制表示为7537,用二进制表示为0111010100110111。
小结