(共27张PPT)
5.2
数据的采集
H01005001.0。
105
TT.11.00010
情景导入
制作反诈宣传册需要什么?
防疤电信网络非骗
防非保护自附产欢全
辆
宣传手册
不轻信
网缩广告+“购物送
3中奖
卖
电信作罪
小心谨慎
不轻信
不透露不汇
及时向公安机
诈端识别公式要主
+
>>预防电信诈
国家反诈中心
、
数据采集的方法
大数据时代,我们如何获取大量的数据?
01
系统日志采集法
网络爬虫
数据采集的
02
网络数据采集法
方法与工具
网络公开API
03
(应用程序接口)
其他数据采集法
上、
数据采集的方法)
系统日志采集法
系统日志
系统日志采集
系统日志是记录系统中硬件、
在目标主机上安装一个小
软件和系统问题的信息文件。系统
程序,将目标主机的文本、应
用程序、数据库等日志信息有
日志包括操作系统日志、应用程序
选择地定向推送到日志服务器
日志和安全日志。
进行存储、监控和管理。
、
数据采集的方法
URL
URL
网页
网络爬虫
URL
URL
按照一定的规则自动
URL
网页
地抓取万维网信息的
URL
程序或者脚本,能够
URL
在网络之间游走把网
站上的信息收集回
URL
网页
来。分为通用爬虫和
URL
聚焦爬虫。
URL
待抓取URL列队
2
、
数据采集的方法
2.认识模块库
requests库
re库
(正则表达式)
python的模块库,可以通过调用来
是Pythonl的内置模块库,通过匹
帮助我们实现自动爬取网页页面以
配字符串解析网页内容。
及模拟人类访问服务器,自动提交
网络请求。
数据采集的方法I
2.认识模块库
使用importi语句导入模块的语法:
import module
import
requests
import I
re
使用from importi语句导入模块内指定方法的语法:
from module import
name
from PIL import Image
from PIL import
、
数据采集的方法
小组探究:思考网络爬虫采集数据的过程
步骤
购买商品过程
爬虫采集数据过程
代码实例
找到商店地址
确定目标网址
110
0011
84610
二
逛商店
抓取网页数据
00
10
三
选择看中的物品
解析网页内容
1019010011
111191111
四
购买
保存图片数据