5.2数据采集 (共19张PPT)+练习

文档属性

名称 5.2数据采集 (共19张PPT)+练习
格式 zip
文件大小 8.0MB
资源类型 试卷
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2020-12-14 11:54:30

文档简介

中小学教育资源及组卷应用平台
第五章第二节数据采集课后练习
1、数据采集的基本方法包括(
)、网络数据采集法和其他数据采集法。
A.访问记录采集法
B.系统日志采集法
C.数据库采集法
D.数据目录采集法
2、网络数采集法,主要通过网络爬虫或网站公开API的方式获取,网络爬虫从网页的(
)开始获取。
A.XML
B.HTML
C.URL
D.WWW
3、python中引入第三方库使用(
)语句
A.if
B.for
C.while
D.import
4、存储数据主要有两种方式,一种是把数据存在本地内部,另一种是把数据放在公有或私有的(
)存储。
A.服务器
B.磁盘
C.硬盘
D.云端
5、为了防止他人对机密数据、数据库进行非法访问、删除、修改、拷贝等操作,可以采用对数据进行(
)等方法。
A.持续备份
B.封装
C.加密
D.镜像
6.思考题
某公司推出了嵌入多种传感器、能够测量生命体征数据的T恤,该公司称为“Fit衫”,从而使专业医护人员能够以低成本频繁检测患者体质,提供更加有效的预防性医疗保健。“Fit衫”利用内嵌的各种传感器测量或记录用户的数据,例如,利用体温传感器测量体温,利用生物电传感器收集心电、脑电数据,利用热通量传感器监测热量消耗能力……“Fit衫”传感器所测得的心率、活动量及心电图等数据可显示在平板电脑的显示器上。
(1)请你简单描述“Fit衫”主要通过什么方法和工具来收集数据。
(2)在收集数据的过程中,如何才能避免侵犯他人的隐私,请谈谈你的看法。
参考答案:1.B
2.C
3.D
4.D
5.C
6.(1)其他数据采集法
使用各种传感器采集
(2)略
21世纪教育网
www.21cnjy.com
精品试卷·第
2

(共
2
页)
HYPERLINK
"http://21世纪教育网(www.21cnjy.com)
"
21世纪教育网(www.21cnjy.com)(共19张PPT)
数据的采集
粤教版高中信息技术必修一
数据采集的方法和工具
01
数据的存储
02
数据的保护
03
CONTENTS


数据采集的方法和工具
数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
1.系统日志采集法
在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
2.网络数据采集法
网络数据采集是指通过网络爬虫或网站公开API(Application
Programming
Interface,应用程序接口)等方式从网站上获取数据信息。网络爬虫从一个或若干初始网页的URL(Uniform
Resource
Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
应用程序接口(API:application
programming
interface)是一组定义、程序及协议的集合,通过
API接口实现计算机软件之间的相互通信。
统一资源定位系统(uniform
resource
locator;URL)是因特网的万维网服务程序上用于指定信息位置的表示方法。它最初是由蒂姆·伯纳斯·李发明用来作为万维网的地址。
网络爬虫
Python
中的扩展库
由于Python可以安装第三方扩展库模块来扩展功能,因此使用Python进行网络数据采集和分析显得简单易用。
Python引入第三方库的两种方法:
1、在Python模块库中有大量模块可供使用,使用import语句导入模块的语法如下:
import
module
关键字
模块名
2、from
import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from
import语句导入模块内指定方法的语法如下:
from
module
import
name
关键字
模块名
关键字
方法名
Python
第三方库的安装
在python中,引入第三库之前需要先安装,安装第三方库的方法如下:
在“开始”-“运行”命令中输入”cmd”进入系统命令符界面,输入”pip
install
第三方库名称”进行安装
Python
网络数据采集程序使用的扩展库
(1)NumPy。
NumPy(Numerical
Python)是构建科学计算最基础的软件库,为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库还提供了NumPy数组类型的数学运算向量化,可以提升性能,加快执行速度。
(2)SciPy。
SciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。SciPy的主要功能建立在
NumPy
的基础之上,因此它的数组大量使用了NumPy。它通过其特定的子模块提供高效的数值例程操作,如数值积分等。SciPy的所有子模块中的函数都有详细的介绍文档。
(3)Pandas。
Pandas是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作,简单直观。Pandas是data
wrangling的完美工具。它设计用于快速简单的数据操作、聚合和可视化。库中有两个主要的数据结构,一维数组(Series)和二维数组(DataFrame)结构。
(4)Matplotlib。
Matplotlib是Python的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在NumPy、SciPy和Pandas的帮助下,通过
Matplotlib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条形图、散点图等。
3.其他数据采集法
对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。
打开并运行配套学习资源包“第五章课本素材程序5-1
5-2”体会import语句的作用及爬取网络资源的过程。
数据的存储
本地存储
云存储
存储数据主要有两种方式,一种是把数据存在本地内部计算机上,另一种是把数据放在第三方公共或私有的“云端”存储。
云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。云存储供应商拥有并管理这些服务器,负责管理数据的使用和访问权限,以及云存储环境的日常运营和维护。
对于用户而言,无须关注云存储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。数据的存储采用分布式文件存储或NoSQL数据库存储。
云存储
数据的保护
(1)数据安全保护技术。数据安全保护指数据不被破坏、更改、泄露或丢失。安装
杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。
数据加密
为了防止他人对机密的数据、数据库进行非法访问、删除、修改、拷贝等操作,可以采用对数据进行加密等方法,保护数据在存储和传递过程中不被修改或泄露。
加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的是同一个密钥。非对称式加密指加密和解密用的是两个不同的密钥,必须配对使用,否则不能打开加密数据。
(2)数据的隐私保护。任何事物都有两面性,数据正在变成生活的第三只眼,敏锐
地洞察却也正监控着我们的生活。我们上网浏览、出行、购物等数据,统统都被记录了,人人都成了数据的产生者和贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显得越发严峻。
预防隐私泄露的方法
解决隐私泄露问题的方法主要有:
一是技术手段,常用的隐私保护有:①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等。
二是提高自身的保护意识。
三是要对数据使用者进行道德和法律上的约束。
认识Cookies
用户主动访问某些网站时,便产生了网络缓存(Cookies)。Cookies是指用户浏览网页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。Cookies的主要目的是帮助网站记忆用户之前可能进行的操作。网站通过获取并分析属于用户的Cookies,为用户提供设置或推送服务。
1.选择网页浏览器,右键选择“属性”。2.在弹出的“Internet选项”窗口选择“设置”按钮。3.在弹出的新窗口“网站数据设置”中,当前位置就是Cookies所在的位置,可以选择“查看文件”按钮找到文件所在处。
谢谢大家
https://www.21cnjy.com/help/help_extract.php