(共58张PPT)
第一章 数据与信息
—— 信息技术 必修一 ——
感知数据
(1)信息自古就有且无处不在。
(2)数据与生活密切相关,人类生活离不开数据,大多数数据会随着时间的推移而变化。人们在利用数据的同时,自身的行为也在产生数据。
(3)科学研究离不开数据,数据的客观性为科学研究提供了可靠的依据。各国都重视高精尖实验室的建设,也是为了获取相关数据。
数据
(1)数据是对客观事物的符号表示,如图形符号、数字、字母等。
数字是最简单的一种数据。
(2)单纯的数据没有意义,经过解释的数据才变得有意义。
数据具有普遍性、多样性和感知性。
(3)在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符 号总称。其表现形式可以是文字、图形、图像、音频、视频等。
数据
时间 数据形式 处理技术
古代 图案、数字、文字 结绳记事、文字、造纸术、印刷术
近代 图像、声音、视频 摄影技术、电话电报技术、
广播电视技术
现代 多样化、大数据 计算机技术、通信技术、微电子技术
光电子技术、传感器技术
(4)数据的表现形式及处理技术
信息
信息自古就有。
《通信的数学理论》(香农):信息是用来消除随机不确定性的东西。对某一事物或事件的属性描述的越多,消除的不确定性就越多。
物质,能量和信息是构成世界的三大要素
信息是数据存储、分析解释后的意义,不是内容本身。
数据+背景(认识、解读)=信息
数据是信息的载体
信息的特征
①载体依附性:信息不能独立存在,必须依附于一定的载体;(不可脱离载体)
同一信息可以依附于不同的载体(脱离所反映的事物)
②时效性:信息往往反映的是事物某一特定时间内的状态,它会随着时间推移而变化。
③共享性:信息可以被共享、重复利用而不会发生损耗。
④可加工处理性:信息经过加工、处理、分析后可以被更好地使用。
⑤真伪性:在加工处理的过程中,容易产生虚假信息。
⑥价值性:包括显性价值(信息内容本身具有的价值)和隐性价值(收集整理总结)
其价值对于不同的对象有所不同。(价值相对性)
知识
知识是人类在社会实践中所获得的认识和经验的总和,也是人类在实践中认识客观世界(包括人类自身)的成果,包括对事实、信息的描述以及在教育和实践中获得的技能。
知识是可以继承和传递的。课本里的知识都是以前总结积累并继承下来的。
不同的人所建构的知识不同。人们通过归纳、演绎、比较等手段挖掘信息,得到有价值的,与原有知识体系结合,形成知识。不只是积累和存储。
信息+经验(体验、学习)=知识
知识更接近行动,与决策相关,知道“为什么”,“怎么做”
智慧
智慧是一种更高层次的综合能力,主要表现为收集、加工、应用、传播知识的能力,以及对事物发展的前瞻性看法、预测。
智慧在知识的基础之上,通过对知识的累积,形成的认识、远见、判断力。
智慧
数据
信息
知识
智慧
储存、分析及解释
加工、归纳
收集、加工、应用
×
√
√
√
√
√
×
D
1、下列有关信息的说法,正确的是( )
A.信息的传播可以不依赖于载体,如蓝牙和无线 WIFI
B.信息存储于计算机内部可以是二进制,也可以是十六进制,它们可以相互转换
C.信息越新越有价值,过时的信息无任何价值
D.信息具有价值性,信息的价值包括显性价值与隐性价值
D
1. 李明踢完球赛后回家,妈妈用额温枪测量其体温为 37.5℃。结合上述示例,下列对于数据、信息与知识的描述正确的是( )
A. 数据的表现形式只有数字
B. 信息与人类社会密切相关,所以只有人类社会才存在信息
C. 等李明在室内休息以后测得的额温为 36.5℃,这说明信息具有真伪性
D. 妈妈知道运动后体温会升高,并没有将李明送医,说明她具备相关知识
C
1.以下关于数据、信息、知识和智慧的说法正确的是( )
A.所有的数据中都蕴含着信息
B.“珠穆朗玛峰峰顶海拔过高,不宜人类居住”,这体现了了人类的智慧
C.圆的面积可以用圆周率近似值 3.14 乘以半径的平方获得,这是知识
D.若在纸上单独书写“2008”这几个数字时,它就已经被赋予了一定的意义
C
1. 小华家门口有条小河,他想知道小河的宽度,决定用勾股定理来求解。于是他在河岸边选取点A、点 B、点 C、点 D,测得相关数据如下图所示,最后求得小河宽度15√3 m。下列说法正确的是( )
A. 上述表述中的 30 是数据,数据就是数字,本身没有意义
B. ∠CAD=30°表示直线 AC 与河岸线形成的夹角为 30 度,这是知识
C. 勾股定理是数学家通过归纳、演绎等手段对信息进行挖掘后形成的知识
D. 用勾股定理求小河宽度是智慧的体现
计算机技术的应用,使得数据的处理方式发生了巨大的转变,数据的处理效率也得到了极大的提高
数据采集
从前车马很慢,书信很远,一生只够爱一个人;
现在高铁很快,视频很近,一天可以看很多人!
早期一般通过观察、实验等人工方式得到数据;
现在数据的获取方法已逐渐以机器获取为主,包括传感器、网络爬虫等。
(1)传感器通常有敏感元件和转换元件组成,可以随时获取来自自然信源的数据;网络爬虫可在短时间内获取大量网络数据。
(2)互联网也成为数据采集的主要来源。用户可以通过应用程序接口API采集互联网上向公众开放的数据。
数据采集
不同的采集方式使得所获取的数据形式多种多样,要用计算机处理这些数据,需要对采集到的数据进行一定的转换
信息可以用模拟信号或数字信号表达。
模拟信号(Analog)是以连续变化的物理量存在,如:温度值,电流值,声波等。
数字信号(Digital)在取值上是离散的、不连续的信号,这种信号表示的数据是指可被计算机存储、处理的二进制数据。
模拟信号与数字信号可以相互转换。模数转换、数模转换。
模数转换又叫数字化,数字化的理论依据是采样定理,即:在一定条件下,用离散的序列可以完全代表一个连续函数。
数字化
数字化
数字化
采样:按一定的时间间隔取值。将信号从连续时间(空间)域上的模拟信号转换到离散时间(空间)域上的离散信号的过程。
对于同一模拟信号,采样时间间隔约小,采集到的信号样本数量越多。
每秒的采样样本数叫做采样频率(Hz)。相同时间内,采样频率越高,采集的样本数量越多。
数字化
量化:将信号的连续取值近似为有限个离散值的过程。
连续信号经过采样成为离散信号,离散信号经过量化后可用数值表示。
量化的过程是先将整个幅度划分成有限个小幅度的集合,把落入某个范围内的样值归为一类,并赋予相同的量化值。量化位数最大,量化值越多,量化越精细。
B
C
数字化
编码是信息按照某种规则或格式,从一种形式转换为另一种形式的过程,解码是编码的逆过程。
数据在计算机内部是以二进制方式进行存储和处理的。
数制
进制是一种记数方式,也称进位计数法或者位值记数法。利用这种记数法,可以使用有限种数字符号来表示所有的数值。
任何一种数制都包含两个基本要素:基和权。
基又叫基数,是组成该数制的数码个数,如:十进制的基数就是十。
权又叫权值,是指每一个数位上的1对应的数值,可以表示为基数的若干次幂。
最高位的权值是Kn-1
百位 十位 个位
1 2 3
102 101 100
十进制数 123
数制
在信息技术中,人们通常采用二进制、八进制、十进制、十六进制来表示信息。为了区分各种进位制的数码,通常用后缀或下标来表示
数制 二进制 八进制 十进制 十六进制
后缀 B O D H
下标 (2) (8) (10) (16)
前缀 0b 0o 无前缀 0x
示例 10B 0b10 10(2) 26O 0o26 26(8) 22 16H
0xF
16(16)
23(10)= 17 (16)
数制
十进制转二进制
23(10)= 10111 (2)
2 23
2 11 1
2 5 1
2 2 1
2 1 0
0 1
余数
读数
十进制转八进制
十进制转十六进制
23(10)= 27 (8)
8 23
8 2 7
0 2
余数
16 23
16 1 7
0 1
余数
一定要除到商为0才算结束!
每算一步,写出余数!
读数从下往上倒着读!
十进制转n进制——短除法,除n取余,倒着连起来
数制
二进制转十进制
n进制转十进制——按权相加法
10011(2)= 19 (10)
1×24+0×23+0×22+1×21+1×20
八进制转十进制
271(8)= 185 (10)
十六进制转十进制
1C5(16)= 453 (10)
2×82+7×81+1×80=2×64+7×8+1×1=185
1×162+12×161+5×160=256+192+5=453
数制
二进制转十进制
8421法
8421法是按权相加法的简化过程
仅适用于二进制的转换,二进制转八进制、十进制、十六进制
10011(2)=1×24+0×23+0×22+1×21+1×20= 19 (10)
24 23 22 21 20
1 0 0 1 1
16 0 0 2 1
+ + + +
权值
练一练
11010011(2)= 211 (10)
1 1 0 1 0 0 1 1
128 64 32 16 8 4 2 1
16 8 4 2 1
数制
8421法
二进制转八进制
8421法是按权相加法的简化过程
仅适用于二进制的转换,二进制转八进制、十进制、十六进制
10011(2)= 23 (8)
0 1 0 0 1 1
前提因素:23=8,即:三位二进制可以表示0-7,刚好是八进制的基本数码
4 2 1 4 2 1
2 3
先从右往左分组,每三位二进制为一组,分到最后一组时,不足三位二进制的,往前补0。
练一练
11010011(2)= 323 (8)
0 1 1 0 1 0 0 1 1
4 2 1 4 2 1 4 2 1
3 2 3
数制
二进制转十六进制
8421法
8421法是按权相加法的简化过程
仅适用于二进制的转换,二进制转八进制、十进制、十六进制
10011(2)= 13 (16)
0 0 0 1 0 0 1 1
前提因素:24=16,即:四位二进制可以表示0-F,刚好是十六进制的基本数码
8 4 2 1 8 4 2 1
1 3
先从右往左分组,每四位二进制为一组,分到最后一组时,不足四位二进制的,往前补0。
练一练
11010011(2)= D3 (16)
1 1 0 1 0 0 1 1
8 4 2 1 8 4 2 1
13 3
B
R进制的数字,%R得到最后一位,//R去掉最后一位
末尾+n,则乘R加n
2. 下面关于数值的说法,不正确的是( )
A. 十进制偶数 n,先转换为二进制数,再去掉末位后,所得值的大小为 n/2
B. 8 位二进制数最多能表示 255 个不同的数值
C. 十六进制数 n 除以(10000)2,得到的余数是 n 的末位数
D. 某 4 位二进制正整数 n 按位取反,转换成十进制数,与 n 相加的结果为 15
B
10.有如下 python 程序
a=[0]*10
c=0
n=int(input())
while n>0:
a[n%10]+=1
if a[n%10]==1:
c+=1
n//=10
print(10-c)
运行该程序后,输出结果为 6,则键盘输入内容为
A.135753 B.234125 C.202210 D.6784631
R进制的数字,%R得到最后一位,//R去掉最后一位
9.有如下python程序
s='1w2e3dx@en45';num=0
for i in s:
if 'a'<=i<='z'or 'A'<=i<='Z':
continue
elif '0'<=i<='9':
num=num*10+int(i)
else:
break
print(num)
运行程序后,num的值为
A.12345 B.45 C.123 D.1
末尾+n,则乘R加n
×
√
√
√
×
×
×
×
编码
编码是信息按照某种规则或格式,从一种形式转换为另一种形式的过程,解码是编码的逆过程。常见的有ASCII、Unicode以及各种汉字编码。
ASCII码共128个,从00000000-01111111,即十六进制的00-7F,不超过7位,占1字节
汉字编码分为外码(输入码)、交换码(国标码)、机内码(处理码)
和字形码(输出码)
1 汉字输入码(外码)
汉字输入
汉字存储
汉字显示
汉字打印
汉字传输
1
2
3
3
4
2 处理码(内码)
3 字形码
4 交换码
ord(‘0’)=48
ord(‘a’)=97
ord(‘A’)=65
数制
外码也叫输入码,是用来将字符输入到计算机中的一组键盘符号,常用的有汉字输入码有音码(拼音)、形码(五笔)、区位码等等。
交换码用于计算机内部信息交换,GB2312国标码是汉字交换码
区位码与通信时用的特殊字符有重复,不能用于通信,因此把区位码的区号和位号都加上32,即区位码+2020H=国标码
编码
1 汉字输入码(外码)
汉字输入
汉字存储
汉字显示
汉字打印
汉字传输
1
2
3
3
4
2 处理码(内码)
3 字形码
4 交换码
数制
机内码用于存储和处理,计算机还不能将国标码作为汉字在计算机中的机内码,因为会和ASCII码发生冲突,因此国标码+8080H=机内码。占两字节
为显示和打印输出汉字而形成的汉字编码为字型码,计算机通过汉字内码在字模库中找出汉字的字型码,实现其转换。
编码
1 汉字输入码(外码)
汉字输入
汉字存储
汉字显示
汉字打印
汉字传输
1
2
3
3
4
2 处理码(内码)
3 字形码
4 交换码
Word中“输入文字→保存文档→打印文档”的过程,所涉及的汉字编码分别为( )[
A.内码→内码→交换码 B.交换码→交换码→处理码
C.处理码→处理码→字形码 D.输入码→内码→字形码
编码
D
编码
使用 UltraEdit 软件查看机内码
数字是16进制,两个数字是一个字节
英文字符是ASCII码,一字节;
中文字符两字节,且每字节首位大于7
常见问法:
总字节数:这些字符共14b?
看某个字符内码:!的内码是A1?2的内码转化成二进制是10?
中英文字符:一共8个英文字符(ASCII编码),2个中文字符(汉字/GB2312编码)?
已知求未知:
i的内码69,I的内码?
i的内码69,j的内码?
9的内码是39,10的内码是3A
编码
EAN13条形码,由13位数字组成。前3位表示国家代码,’690‘表示中国大陆。最后一位叫校验码,用来检查到的数字是不是又错误,由前12位数字按一定规律计算得到。
编码
将模拟声音数字化需要讲过采样、量化、编码三过程。
在音频数字化的过程中,声音保真度受采样频率和量化值的影响,采样频率越高,量化位数越多,声音越保真,其存储容量也越大。常见的格式有Wave、MP3、WMA等。
采样、量化
模拟信号(连续)
数字信号(0、1)
采样频率:每秒所采样的次数,单位为HZ(赫兹)。
量化位数:每个采样点所需的二进制位数。
存储容量=采样频率(Hz) × 量化位数(bit) × 声道数 × 时长(s)(单位:bit)
编码
计算机中存储容量最小单位是比特(bit)也称为位,1位二进制数码表示1个bit,但1bit所能表示的值太小,实际上计算机中都以8bit为一个基本单位,称为字(Byte)。常见的单位还有KB,MB等,转换关系如下:
1B=8bit 1KB=1024B 1MB=1024KB 1GB=1024MB
1TB=1024GB 1PB=1024TB 1EB=1024PB 1ZB=1024EB
B
编码
矢量图形是指用点、直线或多边形等基于数学方程的几何图元表示的图像,由指令构成,存储空间小,放大不失真。可以用Flash,AutoCAD,CorelDraw等软件绘制。
位图图像又称为栅格图或点阵图,组成它的基本单位是像素。像素点越多,图像越真实,色彩丰富,存储空间大,放大会失真。可以用摄像头等设备获取。也可用Photoshop、画图等软件创作
常见位图格式:jpg、jpeg(压缩,文件小)、gif(动图)、bmp(大,画质好)、png(透明)等
数字图像包括矢量图形和位图图像。
像素:位图图像是由许多小方块组成。这些小方块就称为像素(pixel),简称px。
编码
存储容量=总像素(像素宽x高)× 颜色位深度(单位:bit)
颜色 每个像素点所占的二进制位数(量化位数/位深度)
黑白两色 1位(21=2)
256色位图 8位(28=256)
16色位图像 4位(24=16)
16位真彩色 16位
RGB/8 24位
256级灰度 8位(28=256)
编码
存储容量=总像素(像素宽x高)× 颜色位深度(单位:bit)
色彩
模式
黑白
只有黑和白两种颜色(1位)
灰度
黑到白之间256级亮度(8位)
RGB
以红绿蓝为三原色构成其它颜色
由十进制0~255表示
RGB(0,0,0) 黑色
RGB(255,255,255) 白色
RGB(255,0,0) 红色
RGB(0,255,0) 绿色
RGB(0,0,255) 蓝色
位图格式
色彩模式
单通道
色彩位数
(8*3=24位)
编码
5、下列三个图片均是用画图软件生成的 24 位位图,且尺寸均为 60*30 像素,
其各自占用存储空间情况为( )
A.colours.bmp 最小 B.red.bmp 最大 C.white.bmp 最小 D.一样大
D
编码
★1024×768 像素的 BMP 图像“海滩.bmp”,压缩成 JPG 格式图像“海滩.jpg” 后容量约为 51KB,压缩比为 15:1。每个像素所占二进制位数为( )
A. 1b B. 4b C. 8b D. 24b
数据压缩:
在不损失有用信息前提下,按照一定的编码规则对数据进行重新组合,以去除数据冗余。使文件更少地占用存储空间和缩短传输时间。
无损压缩: 压缩后的数据进行还原后,得到的数据与压缩前完全相同—压缩包
有损压缩: 在压缩过程中会损失一定的信息,压缩后的数据无法还原成压缩前的数据。音视频的压缩(MP3),经常采用有损压缩的方式。
编码
静态的图像连续播放就形成了视频。
早期的模拟电视中,PAL制式每秒播放25帧图像,NTSC制式每秒播放30帧图像。
现在数字电视采用数字传输和存储技术,具有高清晰度、双向交互、多功能多业务等优势。
视频数据量大,不便传输,往往需要压缩,常见视频编码方式有MPEG-1,MPEG-2,MPEG-4等,常见的视频文件格式:3GP、MP4、flv、avi、mov等。
存储容量=总像素(像素宽x高)× 颜色位深度 × 时长(s) × 帧频 (单位:bit)
图像大小
×
√
√
√
×
√
数据管理与安全
数据管理是利用计算机硬件和软件技术对数据进行有效收集、存储、处理和应用的过程,目的是充分、有效地发挥数据的作用。
计算机数据的管理经过了:人工管理——文件管理——数据库管理。
计算机中,数据一般以文件的形式存储。编码规则不同,文件格式也不同,如扩展名:.doc、.jpg、.mp4,用来区分不同类型的存储数据。
计算机一般采用树形目录结构来管理文件。Windows中,采用更加形象的文件夹。
数据管理与安全
传统数据库基于结构化数据开发,是现代社会数据管理的主要方式。
结构化数据:二维表结构,遵循数据格式和长度规范,如excel表格
非结构化:结构不规则,如文本、图片、音频视频
传统数据库基于结构化数据开发,有数据独立性、数据可共享等特点
借助云计算、大数据等技术,数据管理水平正不断提高,可以管理大量半结构化、非结构化数据
MD5,CRC,SHA-1
数据加密是指通过加密算法和加密密钥将明文转变为密文,而解密则是通过解密算法和解密秘钥将密文恢复为明文。
数据校验是为保证数据的完整性进行的一种验证操作,通常用一种指定的算法对原始数据计算出一个检验值,接收方按同样的算法计算出一个检验值,如果两次计算得到的校验值相同,则说明数据是完整的。
大数据
大数据的特征(4个V概括)
Volume
数量
Variety
多样
Value
价值
Velocity
速度
数据体量大。
速度快。体现在数据产生的速度快;和数据处理的速度快。
数据类型多。大数据的数据来源多。
价值密度低。大数据蕴含巨大价值,但因其数量庞大,价值密度相对较低。
大数据代表着信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将其转换为价值。
大数据
大数据思维
大数据是一场变革,改变的不仅是数据,还有人们的思维。
大数据要分析的是全体数据,而不是抽样数据。
对于数据不再追求精确性,而是能够接受数据的混杂性。
不一定强调对事物因果关系的探求,而是更加注重它们的相关性。
大数据让生活便利,决策精准,带来就业需求和新的社会问题,如:信息泄露、数据安全、隐私等。
×
√
×
章节测验