(共63张PPT)
数据
对客观事物的符号表示,如图形符号、数字、字母等。
计算机科学中,数据是指所有能输人到计算机并被计算机程序处理的符号总称,是用于输人
到计算机中进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
信息
消除随机的不确定性的东西(数据中的有意义,有价值的内容)。
今我们用手机地图,高德地图会提供信息,让我们判断路应该怎么走,消除了我们对路线的不确定性
数据
信息
经过解释,分析,处理后产生
知识
加工,归纳
知识
知识是人类在社会实践中所获得的认识和经验的总和,是人类认识客观世界的成果。
知识的获得,是利用自身已有的知识对信息进行加工,归纳,并纳入自己的知识结构。
智慧
高层次的综合能力,表现为收集,加工,应用,传播知识的能力以及对事物前瞻性看法。
时效性
信息为事物某一时
间的状态,随时间变化
载体依附性
不能独立存在,
必须依附于载体
共享性
可共享,不会损耗
可加工处理性,真伪性
可加工处理,转变形态
信息有真假
价值性
显性价值,隐性价值
相对价值
信息的特征
1.3数据采集与编码(一)
老师
冯文博
1
1.3.1数据采集
2
1.3.2数字化
3
1.3.3数制
目录 Contents
1.3.1数据采集
获取信息的方法
传统方式:人工方式为主;通过观察,实验等方式
现代方式:机器获取为主;传感器获取自然信源的数据;
网络爬虫获取网络数据
互联网,物联网技术发展
传感器:能感应被测量(物理量,化学量,生物量等)并按一定的规律
转换成可用输出信号(电信号)的器件和装置
网络爬虫:按照一定规则,按特定关键字,自动抓取网页上数据的程序
或脚本。
1.3.1数据采集
传感器
传感器是一种能感受被测量量并按照一定的规律转换成可用输出信号的器件或装置,通常由敏感元件和转换元件组成。在科研、生产和日常生活中,常需要利用传感器对环境中的物理量、化学量和生物量等进行感知与测量,并转换成电信号,进行适当处理后形成数据。
1.3.1数据采集
传感器随时从自然信源获取数据
光线传感器(Ambient Light Sensor)
距离传感器(proximity sensor)
重力传感器(G-Sensor)
磁(场)传感器(Magnetism Sensor)
陀螺仪(Gyroscope)
GPS
指纹传感器
气压传感器(气压计,barometer)
心率传感器
紫外线传感器
1.3.1数据采集
传感器随时从自然信源获取数据
生物传感器
温度传感器
红外线传感器
光学传感器
声音传感器
1.3.1数据采集
python爬虫即网络爬虫,网络爬虫是一种程序,主要用于搜索引擎,它将一个网站的所有内容与链接进行阅读,并建立相关的全文索引到数据库中,然后跳到另一个网站.样子好像一只大蜘蛛.
1.3.2数字化
数字化的定义
将模拟信号转换为数字信号的过程称为数字化。
模拟信号(Analog):连续变化的物理量
数字信号(Digital):离散的、不连续的量
(二进制 0和1形式)
1.3.2数字化
数字化的理论依据
数字化的理论依据是采样定理,采样定理的基本内容:在一定的条件下,用离散的序列可以完全代表一个连续函数。
1.3.2数字化
模拟信号数字化过程
1.3.2数字化
模拟信号
模数转换器ADC (数字化)
数模转换器DAC
文字图片 动画声音
11100101010100110101010101001010110100……
二进制
数字信号
1.3.3数制
数的进制
名词 概念
进制(计数法或位置计数法) 一种记数方式。
基(基数) 组成该数制的数码个数
权(权值) 每一个数位上的1对应的数值,
可以表示为基数的若干次幂
153
1.3.3数制
进制 标识符号 数码范围 进位
二进制 B(Binary) 0~1 逢二进一、借一当二
八进制 O(Octal) 0~7 逢八进一、借一当八
十进制 D(Decimal) 0~9 逢十进一、借一当十
十六进制 H(Hexadecimal) 0~9,A~F 逢十六进一、借一当十六
数的进制
1.3.3数制
十进制举例
十进制数的基数为10、十进制数153中的1权值是102,5的权值是101,3的权值是100,所以153可以表示为
153=1×102 +5× 101+ 3×100
102
101
100
1 5 3
1.3.3数制
1.只有两个基本数码:0,1
2.采用“逢二进一”的进位规则(满2就向前进1)
3.每个数码在不同的数位上,对于不同的权值。
二进制举例
1.3.3数制
二进制举例
十进制:153=1×102 +5× 101+ 3×100
102
101
100
1 5 3
二进制:11011
=1×24+1×23+0×22+1×21+1×20
1 1 0 1 1
16(24)
8(23)
4(22)
2(21)
1(20)
=
=27
1.3.3数制
十六进制举例
十六进制:A02
=10×162+0×161+2×160
A 0 2
256(162)
16(161)
1(160)
=2562
1.有十六个基本数码:0,1,2,3,4……9,A,B,C,D,E,F
2.采用“逢十六进一”的进位规则(满16就向前进1)
3.每个数码在不同的数位上,对于不同的权值。
1.3.3数制
十进制:153D=1×102+5×101+3×100
二进制:10010B
=1×24+0×23+0×22+1×21+0×20
(位权展开法)
十六进制:A02H
=10×162+0×161+2×160
其中102、101、100 、 23 、 22 、 21 、 20、162、161、160
为该位的权
通式:(111)a=1×a2+1×a1+1×a0
二进制举例
1.3.3数制
十进制 二进制(4位) 十六进制
0 0000 0
1 0001 1
2 2
3 3
4 4
5 5
6 6
7 7
8 1000 8
9 9
10 A
11 B
12 1100 C
13 D
14 E
15 F
16
二-十六-十进制对照表
1.3.3数制
十进制 二进制(4位) 十六进制
0 0000 0
1 0001 1
2 0010 2
3 0011 3
4 0100 4
5 0101 5
6 0110 6
7 0111 7
8 1000 8
9 1001 9
10 1010 A
11 1011 B
12 1100 C
13 1101 D
14 1110 E
15 1111 F
16 1 0000 10
二-十六-十进制对照表
1.3.3数制
练习
101B=1×__ + 0×__ +1×__
2FH=2×___ +15×___
1010B=(_____ D)
3BH=( D)
10
59
=47D
=5D
1.3.3数制
练习
1、110011B=________D=________H
2、十六进制数后加1个0,新数值比原来大____倍
1.3.3数制
十进制转二进制(方法一:拆分权值法):
25D=
16(24)
8(23)
4(22)
2(21)
1(20)
1
1
1
0
0
权值相加:将二进制每一位上的数字(0或1)乘以它对应的权值,然后相加二进制数字。最有一位的权值应该为2的0次幂
1.3.3数制
十进制转二进制(方法一:拆分权值法):
39D=
16(24)
8(23)
4(22)
2(21)
1(20)
权值相加:将二进制每一位上的数字(0或1)乘以它对应的权值,然后相加二进制数字。最有一位的权值应该为2的0次幂
32(25)
32+7
=32+4+2+1
=100111B
1.3.3数制
十进制转其他进制(方法二:):
十进制转二进制:除2取余数,直到商为0,将所得余数倒排序。
13D
十进制转十六进制:除16取余数,直到商为0,将所得余数倒排序。
60D
=1101B
=3CH
除该种进制取余数,至商为0,余数逆序输出
1.3.3数制
练习
37D=_______B、_____H____O
100101B
25H
45O
37D
2
18
9
4
2
1
2
2
2
2
……0
……1
……0
……1
……0
0
2
……1
37D
16
2
0
……2
……5
16
1.3.3数制
二进制数转化为十六进制数:从二进制数的低位开始,每四位二进制数转换成一位十六进制数,位数不够左边补0凑足。
二进制、十六进制相互转化方法
十六进制数转换为二进制数:每一位十六进制数转换成四位二进制数,最前端的0省去不写。
所以:111010B= 3A H
0011
3 A
例如111010B= H
1010
0011 1010
111010
例如:3AH= B
所以:3AH= 111010 B
0011转十进制为3,十六进制里仍为3。1010转十进制为10,即十六进制为A。
1.3.3数制
(B6AC)16=( ) 2
十六进制转二进制
1100
1010
0110
1011
每1位十六进制转换为4位二进制,
转换为二进制后可把最左边的0省略不写
1011011010101100
练习
1.3.3数制
练习
一个6位二进制数1_1_01,其中两位数字看不到,下列选项中,可能与此二进制相等的是 ( )
A、2AH B、42H C、41D D、3CH
=0011 1101=3DH=3*16^1+13*16^0=61D
=0010 1001=29H=2*16^1+9*16^0=41D
=0011 1001=39H=3*16^1+9*16^0=57D
=0010 1101=2D=2*16^1+13*16^0=45D
列举出所有可能性,然后将其转换成对应的进制
C
111101B
101001B
111001B
101101B
1.3.3数制 例题
考题1:10D+A1H=( )
A、171H B、AAH C、10101011B D、161D
考题2:十进制数81D对应的十六进制数为( )
A、51D B、51H C、33H D、129H
C
B
1.3.3数制
二进制 十进制 十六进制 八进制
字母表示 B D H O
数字范围 0,1 0~9 0~9,A~F 0~7
运算规则 “逢二进一” “逢十进一” “逢十六进一” “逢八进一”
归纳整理
1.3.3数制
注意:
十进制转其他进制:1、权值相加;2、除进制取余,逆序输出
十六进制:如9后面是A不是熟知的10,而10前面的是F而不是9
1.3.3数制
练习:
0011 1100 0011 0111
C
7
3
3
3C37H═
1.3.4编码
老师
冯文博
1.3.4二进制位
位(Bit):计算机中最小的存储单元。由数字0和1组成,用字母b表示。
字节(Byte):计算机中数据处理的基本单位或信息的最小单位。8个二进制位成为一个字节,用字母B表示。
计算机中所有数据占用的容量大小以这些数据占用了几位二进制来衡量。
3位(bit):占用计算机容量大小为3比特。
1字节(Byte):占用计算机容量大小为1字节,容量大小也为8位。
1B=8b
1.3.4二进制位
B
KB
MB
GB
TB
1Byte=8bit
1KB = 1024 Byte
1MB = 1024 KB
1GB = 1024 MB
1TB = 1024 GB
计算机中的信息单位
1.3.4二进制位
一张段视频是1.03GB,请问这段视频是多少位
1.03
×1024
×1024
×8
MB
×1024
KB
KB
B
文字、音频、视频等数据以什么方式存储在计算机中
二进制
这些数据如何变成二进制的?
编码
1.3.4二进制位
生活中的编码:
邮政编码:一二位代表省份成直辖市,第三四位代表地、市,第五六位代表县、镇。
身份证号:
(1)前1、2位数字表示:所在省份的代码; (2)第3、4位数字表示:所在城市的代码; (3)第5、6位数字表示:所在区县的代码; (4)第7~14位数字表示:出生年、月、日; (5)第15、16位数字表示:所在地的派出所的代码;
计算机以二进制形式存储和处理数据,因此,字符必须按特定的规则进行编码才能进入计算机
条形码与二维码:
1.3.4二进制位
1比特的数据,即一位二进制数,他的编码有两种可能,即0或1
2比特的数据,即一位二进制数,他的编码有四种可能,即00、01、11、10
n比特的数据,即一位二进制数,他的编码有_____可能
2n
练习1:如果将你们班所有人编号用二进制编码,需要几位二进制?
练习2:用二进制对所有英文字母进行编码,需要几位二进制?
每一种可能具有唯一性。
1.3.4ASCII和汉字编码
是信息按照某种规格和格式,从一种形式转换为另一种形式的过程,解码是编码的逆过程。
编码
国际上普遍采用的西文字符编码是ASCII码(美国信息交换标准码)英文编码 ASCII码
常用的汉字编码有GB2312-80、GBK等,编码方式不唯一。
其他编码方式: Unicode、 UTF-8
1.3.4ASCII和汉字编码
ASCII码是美国信息交换标准代码,是对一套西文字符(字幕、数字、符号)进行二进制编码的体系。
ASCII由33个控制字符、10个数字、26个大写字母、26个小写字母、英文标点符号组成。
1.3.4编码
ASCII码表(见课本最后一页)
0的ASCII码值是48
A的ASCII码值是65
a的ASCII码值是97
空格的ASCII码值是32
1.3.4编码
ASCII码表(见课本最后一页)
ASCII码用一个字节的后7位来表示字符,最高位不用,一般为0表示校验码
0
MAX值:01111111B=127D
MAX值:00000000B=0D
7位二进制位最多能表示128种不同的编码状态
n个二进制位最多能表示2n种不同的编码状态
1.3.4编码
ASCII码编码特点
1.大写字母的ASCII码值比相对应的小写字母小32
例:A的ASCII值为65,而a的ASCII值为97
2.数字、字母都是按顺序排列的;
3.ASCII码值大小关系:
4.计算机存储器在存放ASCII码时,占用一个字节1Byte=8bit(计算机在存放ASCII码时,只占用1个字节后7位,最左位补0; 形式如0xxxxxxx)。
1.3.4编码
汉字编码
计算机中汉字的表示也是用二进制编码,同样是人为编码的。根据应用目的的不 同,汉字编码分为外码、交换码、机内码和字形码。
一类:自动识别方式,;另一类汉字编码输入。
(1)怎样将汉字输入计算机——输入码(外码)
(2)输入码的类型大致分为:音码和形码
音码:用汉子拼音字母组成的编码。如拼音码等
形码:是吧汉字的基本构件如偏旁、部首和字根等分类,以不同的键相队形,组成的编码。如五笔字形码等
输入码(外码)
1.3.4编码
交换码
交换码是用于各种数字系统(不仅是计算机系统)之间信息的标准汉字代码。这种代码的编制单位通常是国家或国际标准化组织,带有法定的强制性。
1.3.4编码
处理码是字计算机内部处理和存储汉字时所用的代码,简称内码。
目前汉字机内码尚未有统一的标准码,但对于一个系统而言,内容是统一的。不管用何种输入码将汉字从键盘输入到系统,都由相应的处理软件将其转换为统一的机内码。
处理码
GB2312 Unicode UTF-8
一个汉字占用两个字节
1.3.4编码
字形码
点阵式和矢量方式,一般采用点阵形式
例如:以8*8点阵记录“七中”字形为例
每一格即一个点,若白色为0,黑色为1,这就使用点阵法将字形与二进制对应的方法。点越多越精细,占用的存储空间也就越大。
1.3.4编码
UltraEdit编码软件
1.3.4编码
UltraEdit编码软件查看内码,查看大写A、0、“七中”的内码,对比ASCII码表
1.3.4编码
UltraEdit编码软件查看内码,查看大写A、0、“七中”的内码,对比ASCII码表
UltraEdit编码软件查看内码,字符“挑”的内码是________,G的内码是___________
数字,英文字符占用一个字节,十六进制第一位最大是7
汉字和全角字符占用两个字符,十六进制第一位最小为A
1.3.4编码
UltraEdit软件查看字符内码,部分界面如下图所示,图中内码对应的字符是()
1.3.4声音编码
声音数字化
采样:每隔一段时间在模拟音频波形上取一个幅度值。
产生一组离散的数值序列
单位时间采样次数称为采样频率,单位Hz。
1.3.4声音编码
声音数字化
量化:将各个采样结果提升或降低到级数值。
形成一组二进制数字序列
1.3.4声音编码
例:对如图原始模拟波形(红色曲线)进行采样和量化。
思考:声音的数字化过程中,声音信号会不会失真?
用什么方法可以提高数字音频质量,减小失真?
1.3.4声音编码
思考:声音的数字化过程中,声音信号会不会失真?
用什么方法可以提高数字音频质量,减小失真?
采样率和量化等级提高一倍,信号的失真明显减少,信号质量得到了提高,同时存储容量变大。
1.3.4图像编码
找出图中与声音容量有关系的参数,计算声音容量。
WAV音频容量=采样频率×量化位数×声道数×时长
WAV音频容量=比特率x时间
方法一:10*60*44100*16*2/8/1024/1024MB
方法二:10*60*1411/8/1024 MB
1.3.4图像编码
61
数一数图像中的像素点个数,推算每个像素点所占的位数,计算图像的容量。
图像的存储空间 = 总的像素点个数 × 每个像素点所占的位数
① 像素点个数 →水平像素点的个数×垂直像素点的个数。
5×5
② 每个像素点所占的位数 → 图像的颜色数
黑白图像:1位 2种颜色
图像的存储空间 = 5×5×1位
0 1 0 1 0
1 0 1 0 1
1 0 1 0 0
1 1 0 1 1
1 0 1 0 1
1.3.4图像编码
62
3 3 3 3 3 3 3 3
3 2 2 2 2 2 2 3
3 2 1 1 1 1 2 3
3 2 1 0 0 1 2 3
3 2 1 0 0 1 2 3
3 2 1 1 1 1 2 3
3 2 2 2 2 2 2 3
3 3 3 3 3 3 3 3
11 11 11 11 11 11 11 11
11 10 10 10 10 10 10 11
11 10 01 01 01 01 10 11
11 10 01 00 00 01 10 11
11 10 01 00 00 01 10 11
11 10 01 01 01 01 10 11
11 10 10 10 10 10 10 11
11 11 11 11 11 11 11 11
① 像素点个数 →水平像素点的个数×垂直像素点的个数。
8×8
② 每个像素点所占的位数 → 图像的颜色数
2位 4种颜色
图像的存储空间 = 8×8×2位
1.3.4视频编码
63
视频是如何数字化的呢?
静态的图像连续播放就形成视频。
视频存储空间=水平像素×垂直像素×每个像素所需位数×帧频×时间
帧图像容量
总帧数
我国使用的PAL制式的视频每秒显示25帧。NTSC制式每秒显示30帧