(共22张PPT)
5.2
数据的采集
高中信息技术
必修1
新知导入
本节主要内容:
1、数据采集的方法和工具
2、数据的存储和保护
新知讲解
5.2.1
数据采集的方法和工具
新知讲解
数据采集的基本步骤
新知讲解
数据采集的方法
新知讲解
网络爬虫的工作过程
采集类型:支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
新知讲解
Python网络数据采集程序使用的扩展库
新知讲解
Python模块库。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。使用import语句导入模块的语法如下:
新知讲解
from
import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from
import语句导入模块内指定方法的语法如下:
新知讲解
其他数据采集法
应用领域:企业生产经营或科学研究等保密性要求较高的数据。
使用方法:与企业或研究机构合作,使用特定系统接口等相关方式收集数据。
例如:科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。
新知讲解
5.2.2
数据的存储和保护
新知讲解
数据的存储的方式
(1)把数据存在本地内部。
(2)把数据放在第三方公共或私有的“云端”存储。
新知讲解
云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。
云存储供应商的作用:拥有并管理这些服务器,负责管理数据的使用和访问权限,以及云存储环境的日常运营和维护。
数据的存储的方式:采用分布式文件存储或NoSQL数据库存储。
新知讲解
数据安全保护指数据不被破坏、更改、泄露或丢失。
防备数据安全隐患的常规方法:杀毒软件和防火墙。
数据保护的有效方法:拷贝、备份、复制、镜像、持续备份。
新知讲解
数据安全保护技术的使用特点。
数据安全保护技术
适用场合
备份介质
备份距离
管理
拷贝/FTP
简单小数据量备份,个人不定期的文件保护等
磁盘
近
手动执行,占用人力资源。
?备份
?有归档需求的用户等
磁带机
磁带库
磁盘
近,以本地备份为主
备份软件对使用者要求较高,需要掌握数据库、文件系统等综合知识。
复制技术
?企业等
?磁盘
?远近皆可。
设定策略后无须人工干预,复制与恢复的过程都很简单。
?镜像技术
企业等
?磁盘
近,带宽和距离影响延迟时间和性能,因此多以本地为主
?简单。
持续备份
企业等
磁盘
远近皆可
连续备份,可以实现过去任意一个时间点的数据恢复。
新知讲解
隐私泄露的途径
新知讲解
数据的隐私保护方法
(1)技术手段
常用的隐私保护有:
①
数据收集时进行数据精度处理;
②
数据共享时进行访问控制;
③
数据发布时进行人工加扰;
④
数据分析时进行数据匿名处理等。
(2)提高自身的保护意识。
(3)要对数据使用者进行道德和法律上的约束。
新知讲解
数据的隐私的实践
(1)了解cookies
Cookies是指用户浏览网页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。
Cookies的主要目的是帮助网站记忆用户之前可能进行的操作
网站通过获取并分析属于用户的Cookies,为用户提供设置或推送服务,使得网站更人性化,操作更方便快捷。
新知讲解
(2)设置cookies
①
选择网页浏览器,右键选择“属性”。
②
在弹出的“Internet选项”窗口选择“设置”按钮。
新知讲解
(2)设置cookies
③
在弹出的新窗口“网站数据设置”中,当前位置就是Cookies所在的位置,可以选择“查看文件”按钮找到文件所在处。
谢谢
21世纪教育网(www.21cnjy.com)
中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php中小学教育资源及组卷应用平台
5.2
数据的采集
一、选择题
1、大数据时代,数据使用的关键是(
?)。?
A、数据收集??
B、数据存储??
C、数据分析??
D、数据再利用
2、智能健康手环的应用开发,体现了(?
)的数据采集技术的应用。?
A、统计报表??
B、网络爬虫??
C、API接口??
D、传感器
3、数据采集的基本方法包括(
)、网络数据采集法和其他数据采集法。
A、数据库采集法
B、访问记录采集法
C、数据目录采集法
D、系统日志采集法
4、网络数据采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的(
)开始获取。
A、HTML
B、WWW
C、URL
D、XML
5、下列(
)不属于Python网络数据采集程序使用的扩展库。
A、System
B、SciPy
C、Pandas
D、Matplotlib
6、在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用(
)语句把指定模块导入当前程序中。
A、move
B、in
C、import
D、print
7、下列(
)不是数据保护的有效方法。
A、剪切
B、复制
C、拷贝
D、镜像
8、下列(?
)数据安全保护技术可以进行远距离使用。?
A、拷贝
?B、备份?
C、复制?
?
D、镜像
9、下列(
)不属于隐私保护的手段。?
A、数据收集时进行数据精度处理
B、数据共享时进行访问控制
C、不使用任何智能化设备
D、数据发布时进行人工加扰
10、我们一般说的cookies是(?
)。
A、数据收集程序
?B、数据应用程序
?
C、数据存储程序
?
D、数据处理程序
二、判断题
1、要完成数据的采集工作,首先需要明确数据需求选定项目主题。(
)
2、网络数据采集法:在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送来进行管理。(????)
3、只要删除掉上网的浏览记录就可以避免信息泄露。(????)
4、我们可以把数据放在第三方公共或公有的“云端”存储。(????)
5、数据的存储的方式:采用分布式文件存储或NoSQL数据库存储。(????)
试题答案
一、选择题
1
2
3
4
5
6
7
8
9
10
D
D
D
C
A
C
A
C
C
C
解析:
1、大数据时代,数据使用的关键是数据再利用。
2、智能健康手环可以通过传感器采集人的血压、心跳、步数等数据采。
3、数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
4、网络爬虫从网页的URL开始获取,采集类型支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
5、Python网络数据采集程序使用的扩展库主要有:NumPy、SciPy、Pandas、Matplotlib。
6、在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中,格式:import
module。
7、数据保护的有效方法:拷贝、备份、复制、镜像、持续备份。
8、复制、持续备份远近皆可,拷贝、备份、镜像主要是进行近距离备份。
9、常用的隐私保护有数据收集时进行数据精度处理、数据共享时进行访问控制、数据发布时进行人工加扰、数据分析时进行数据匿名处理。
10、Cookies是指用户浏览网页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。
二、判断题
1
2
3
4
5
√
×
×
×
√
解析:
1、数据采集的基本步骤:明确数据需求选定项目主题;制订数据采集清单内容大纲;适当的方法和工具进行采集。
2、网络数据采集法:指通过网络爬虫或网站公开API(Application
Programming
Interface,
应用程序接口)等方式从网站上获取数据信息。
系统日志采集法:在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
3、信息泄露的途径非常多,在上网访问的同时我们的信息已经被收集记录,所以通过清除访问记录,并不能避免信息泄露,正确的做法是不要将敏感信息在不安全的网络环境下传播发送。
4、我们可以把数据放在第三方公共或私有的“云端”存储,是私有的云存储,不是公有。
5、数据的存储的方式:采用分布式文件存储或NoSQL数据库存储。
21世纪教育网
www.21cnjy.com
精品试卷·第
2
页
(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)