(共35张PPT)
数据管理/大数据
1.4-1.5数据管理与安全/数据库/大数据
预习目标
1.数据管理定义及阶段、数据管理方式
2.威胁数据安全的因素、保护数据安全的措施
3.大数据概念及特征
4.大数据思维、大数据对社会的影响
情景导入
脑动一下,在搜索软件中,我们是什么样子的?
极有可能,我们就是一串带着各种属性标识的长长的数字。这串数字描述了我们的每一次浏览、每一次关注、每一次点击、每一次选择、每一次购买和每一次收藏。我们每次登录搜索软件,在搜索软件上进行操作,我们的数字就会跟着变化,反过来又会影响我们在搜索软件上看到什么,以及我们会收到什么信息。
随着技术的发展,数据量的增长速度越来越快,如何有效管理数据和保证数据安全成为各行各业都面临的问题。
问题1:什么是数据管理?
问题2:数据管理的历程
问题3:如何有效管理数据?
问题1:什么是数据管理
数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。
问题2:数据管理的历程
随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。
问题3:如何有效管理数据?
文件格式(或文件类型)是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种扩展名可以用来识别,但也可能没有扩展名。扩展名可以帮助应用程序识别的文件格式。对于硬盘机或任何电脑存储来说,有效的信息只有0和1两种。所以电脑必须设计有相应的方式进行信息-位元的转换。对于不同的信息有不同的存储格式。
常见文件格式
文本文件
常见的文件格式
图像文件
声音文件
动画文件
视频文件
txt
doc
wps
html
pdf
jpg
bmp
gif
psd
png
wav
mid
mp3
wma
fla
gif
swf
avi
mpg
flv
mov
各类文件如何管理呢?
数据库技术
问题:如何管理生活中的数据?
数据库技术:基于结构化数据开发的,具有数据独立性、数据可共享等特点。
①解决数据冗余的问题。
②解决维护、更新数据时需要大量的人工干预的问题。
问题:如何理解书本中关于结构化、半结构化和非结构化数据的描述?(P24)
拓展链接
问题1:经常接到广告推销的电话,他们是怎么知道我们的号码?
数据安全
问题2:威胁数据安全的因素有哪些?
硬盘驱动器损坏、操作失误、黑客入侵、感染计算机病毒、遭受自然灾害。
问题3:如何提高数据本身的安全?(P24)
(1)保护存储数据的介质:磁盘阵列、数据备份、异地容灾
(2)提高数据本身的安全:数据加密、数据校验
1
数据安全
保护存储数据的介质。
一、硬件方面保护
提高数据本身的安全。
二、软件方面保护
数据安全保护分两种保护:
1
硬件—数据存储介质保护
磁盘阵列
数据备份
异地容灾
硬盘按照一定的顺序排列而成,分块存储数据。
将数据备份到移动硬盘或者其他数据中心(云储存)。
在多个地方建立多个数据中心,每个数据中心的功能一样
介质防护手段
1
软件—数据本身防护
主动安装防火墙
防止网络入侵
安装杀毒软件
定期更新病毒库
定期更新密码
防止撞库时间
数据加密
数据检验
1.4 数据管理与安全:思维导图
问题与讨论:
“记事本”软件默认保存的是.txt文件,word软件默认保存的是.docx文件,这两种文件有哪些区别?
“记事本”软件建立的是文本文件,其内容由文字、符号、数字等纯字符组成,有时也称为文本文件,
用字符查看软件观察每个字符都根据特定的规则进行编码。文本文件一般属于无格式文档,可以由
多个软件浏览、编辑。
Word文档建立的文档则比较复杂,用户不仅可以对文档中的字符设置格式,还可以插入表格、图像、
声音、视频等内容。它是一种专用的文档格式,一般由word软件打开、编辑。最新版的word文档格式
尚未公开,不过已经有第三方软件可以对word文档进行简单编辑。
数据与大数据
互联网、移动网络、物联网等每天都产生着大量数据,这些数据规模巨大、格式多样,已经很难用传统的方式进行处理。于是,大数据技术应运而生,通过分析、挖掘这些数据,发现其中蕴藏的价值。那么,什么是大数据?
大数据之“大”,不仅指规模、速度和种类的特征,还意味着它超出以往常用的数据采集、组织、管理和加工等软件的处理能力,要求新型集成技术从多元、复杂和巨量规模的数据集里洞察规律。
大数据的特征——数据体量巨大
数据量大
1B=8bit
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
1YB=1024ZB
1BB=1024YB
1NB=1024BB
1DB=1024NB
1PB相当于50%的全美学术研究图书馆藏书信息内容
5EB相当于至今全世界人类所讲过的话语
1ZB如同全世界海滩上的沙子数量总和
1YB相当于7000位人类体内的微细胞总和
亚马逊AWS宁夏数据中心
大数据特征(P26)
数据量大就是大数据吗?
大数据有四个特征,分别为:
数据规模大、处理速度快、数据类型多、价值密度低。
可以用4个V来概括:
数量(Volume)、速度(Velocity)、多样(Variety)、价值(Value)
记忆口诀:量大速度快,”累”多价值低
1.新浪微博用户每天发布、转发的信息有几亿条
2.面向网民的实时竞价广告的推送方式需要以毫秒级的速度分析海量数据,进而实现互联网广告的精准推送
3.网络时代的数据包括网络日志、音频、视频、图片、地理位置信息等
4.一桩案件,警察通过翻找十年内某路段的所有监控信息,最终找到了部分有价值的监控数据
数据体量大
速度快
数据类型多
价值密度低
体现了大数据的哪些特征?
大数据思维(P27)
1.大数据要分析的是全体数据,而不是抽样数据。
2.对于数据不再追求精确性,而是能够接受数据的混杂性。
3.不一定强调对事物因果关系的探求,而是更加注重它们的相关性。
大数据是一场变革,改变的不仅是数据,还有人们的思维
大数据对社会的影响(P28)
1.大数据让生活更便利(如:城市热力图)
2.大数据让决策更精准(如:利用共享单车产生的大数据,精确地制定更为利民的交通路线图)
3.大数据带来新的就业需求(如:系统研发工程师)
4.大数据带来新的社会问题(如:个人信息泄露)
“我们相信技术可以成为推动生活改变的最大力量,技术本身没有好与坏,他们什么都不想要,一切由我们人来决定,由我们每个人来决定。”
大数据对社会的影响——让生活更便利。
抗疫期间每日更新的疫情地图
大数据对社会的影响——让决策更精准
大数据对社会的影响——带来新的就业需求
大数据对社会的影响——带来新的社会问题
1.学生学籍系统中存放着大量的学生数据,这些数据是否属于大数据?为什么?
这些数据不属于大数据。本题可以从大数据的4个特征入手进行分析,这些数据从个人角度来看,
似乎很‘大’,但实际上远远达不到大数据的量级,且这些数据更新慢、变化少,每个数据都有
较大价值等。
2.物质、能源、信息是人类赖以生存的基础。控制论的创始人诺伯特 维纳认为:信息就是信息,不是物质,也不是能量。结合实例说明物质、能源、信息三者之间的关系。
物质描述了世界的实在性,能量描述了世界的运动性,而信息,按照经典的信息论范式,它描述了物质世界从反应性、感应性到反映性的特性。
3.10进制数10的二进制值为1010B,十进制数20、40、80的二进制值分别是多少?
10100B、101000B、1010000B
问题与讨论:
现在,人们在生活中越来越依赖于智能手机,手机中不仅存储了联系人、照片、视频等个人数据,还有电子银行、支付宝以及微信钱包等账户信息,如果存有这些信息的手机丢失,将会造成很大的损失。如何才能将因手机丢失而造成的损失降到最小?
可以采用日常数据备份、各种应用的身份认证及密码强度等方面采取预防错误;也可以结合具体型号的手机,在出现问题时进行补救,如进行远程锁定、数据擦除等操作。
1.5 数据与大数据:思维导图
×
√
×
√
√
√
√
√
×
×
√
√
课后练习
1.下列说法正确的是 ( )
A.数据管理和信息一样自古以来就有
B.数据管理的目的是在于充分、有效发挥数据的作用
C.数据管理已经经历了人工管理、文件管理、智能管理三个阶段
D.数据管理就是对数据有效收集、存储、处理和应用的过程,因此不用借助其他设备
B
2.以下关于结构化数据、半结构化数据与非结构化数据说法错误的是 ( )
A.结构化数据必须严格遵循数据格式与长度规范
B.传统的数据库常用于处理结构化数据,很难处理半结构化与非结构化数据
C.生活中常见的图片、文档、网页都属于非结构化数据
D.半结构化数据介于结构化与非结构化之间,因此生活中最常见的数据为半结构化数据
D
3.关于大数据的特征,以下说法正确的是 ( )
A.数据量大并不一定是大数据
B.数据的产生速度很快,处理速度可以不用很快
C.虽然大数据的数据类型很多,但是各种数据的格式还是基本一致的
D.大数据之所以蕴含着巨大的价值,就是因为其发挥价值的数据量十分庞大
A
4. 脱去数据的保护层,把密文变成明文的过程称为( )
A.加密 B.解密算法 C.加密算法 D.解密
5.半结构化数据包括( )
A.Excel表格 B.银行账户上的消费记录
C.检查身体后得到的体检报告 D.HTML文档
D
D
6.下列属于可执行文件的是( )
A.小飞象.jpg B. 小飞象.exe C. 小飞象.doc D. 小飞象.mpg
7.下列措施不能提高手机安全的是( )
A.设置开机密码 B. 短信的链接不要点
C. 不随意安装软件 D. 经常恢复出厂设置
8.关于密码,下列说法不正确的是( )
A. 密码强度要高 B. 重要网站、邮箱、银行卡密码要独立
C. 不要在陌生的电脑上输入密码 D. 经常使用电话或生日做密码
B
D
D
9. 大数据的特征可以用被总结为4V特征,以下哪个不属于大数据的4V特征( )
A.种类多(Variety) B.体量大(Volume)
C.Venture(风险大) D.速度快(Velocity)
10.1TB=( )GB。
A.256 B.512 C.1024 D.2048
11.大数据的容量不断增长,也就要求有更加复杂的数据管理方法,为此,如下哪项不是大数据存储面临的挑战( )
A.简单的数据模型 B.低成本 C.易扩展 D.易于使用
12.(多选)大数据的来源途径有许多,如下哪些属于大数据来源( )
A.网络爬虫得到的数据 B.计算机网络运行产生的日志
C.人在微博上发表的记录 D.传感器设备采集的数据
C
C
A
ABCD
第一章数据