5.2 数据的采集 课件 2022—2023学年高中信息技术粤教版(2019)必修1 (23张PPT)

文档属性

名称 5.2 数据的采集 课件 2022—2023学年高中信息技术粤教版(2019)必修1 (23张PPT)
格式 pptx
文件大小 32.1MB
资源类型 教案
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2022-10-18 12:24:12

图片预览

文档简介

(共23张PPT)
5.2 数据的采集
必修一 《数据与计算》
第五章
知识回顾:
第一章
常见的数据类型有哪些?
这数据类型用什么设备可以获取?
文本,图片,音频,视频等
键盘,数码相机,麦克风,数码DV等
高中信息技术必修1 数据与计算
5.2 数据的采集
1、明确数据应用项目的需求,能制定数据采集的需求清单;
2、知道数据采集的方法和工具;
1、了解数据采集的基本方法。
学业要求
学习目标
高中信息技术必修1 数据与计算
5.2 数据的采集
1
PART ONE
什么是数据采集
什么是数据采集
数据采集是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。(百度百科)
数据采集是指根据需求采用适当的方法和工具获取所需要的数据。(课本描述)
1
数据采集是目前一个重要的研究领域,有大量书籍和研究文献供我们学习。
2
对于我们而言,从数据采集的过程、数据采集的方法和工具,来理解数据采集。
3
数据编码
数据编码、
现有数据获取
高中信息技术必修1 数据与计算
5.2 数据的采集
体验数据采集
需要获取什么数据?
经纬度
去哪儿找经纬度?
手机APP
手机APP为什么能获取经纬度?
GPS定位传感器
动手:下载手机APP,获取经纬度。安装时注意,要允许APP获取“位置信息”权限。
高中信息技术必修1 数据与计算
5.2 数据的采集
如何记录当前自己的精确位置?
体验数据采集
高中信息技术必修1 数据与计算
5.2 数据的采集
如何记录当前自己的精确位置?
2
PART TWO
数据采集的过程
数据采集的过程
明确数据应用的需求
围绕项目主题,制定数据采集的需求清单和内容大纲。
第1步
选择适当的方法和工具
针对不同数据类型,选择适当的工具,运用有效的方法,进行数据采集。
第2步
数据的存储和保护
采集的数据要选择合适的存储方式并注意数据安全,为数据分析和可视化表达做准备。
第3步
经纬度
手机APP+GPS传感器
记录经纬度
高中信息技术必修1 数据与计算
5.2 数据的采集
确定项目的数据需求
淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。
在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。
那么,你要完成前期调研工作,需要获取到哪些数据呢?完成下表中第2,3列。
编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存
方式
1
2
3
各类零食销售数据:包括商品名称、店铺名称、商品价格、商品销量
淘宝网-零食类别
客户购物喜好数据:包括商品价格、商品销量、商品评论
店铺销售订单数据:包括每个订单购买的商品名称、数量
淘宝网-零食类别
淘宝网店铺后台
高中信息技术必修1 数据与计算
5.2 数据的采集
3
PART THREE
数据采集的方法和工具
数据采集的方法
传感器采集法
利用数据采集设备,检测、采集物理信息,并将其转换为电信号形式表示的一种采集方法。
1
高中信息技术必修1 数据与计算
5.2 数据的采集
数据采集的方法
传感器采集法
利用数据采集设备,检测、采集物理信息,并将其转换为电信号形式表示的一种采集方法。
1
系统日志采集法
利用系统中记录硬件、软件和系统问题的信息文件来采集数据。有操作系统日志、应用程序日志、安全日志等。如:通过Web日志,获取网站点击率。
2
高中信息技术必修1 数据与计算
5.2 数据的采集
网络数据采集法
通过网络爬虫或网站API(应用程序接口)等方式从网站上获取数据信息。
3
网络
爬虫
网络数据采集的工具——网络爬虫
1、又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通常分为通用爬虫和聚焦爬虫。
高中信息技术必修1 数据与计算
5.2 数据的采集
高中信息技术必修1 数据与计算
5.2 数据的采集
网络数据采集的工具——网络爬虫
又称全网爬虫,它将爬取对象从一些种子 URL扩充到整个Web上的网站,主要用途是为门户站点、搜索引擎和大型Web服务提供商采集数据。
通用爬虫
用户检索
爬虫爬取
高中信息技术必修1 数据与计算
5.2 数据的采集
网络数据采集的工具——网络爬虫
又称全网爬虫,它将爬取对象从一些种子 URL扩充到整个Web上的网站,主要用途是为门户站点、搜索引擎和大型Web服务提供商采集数据。
通用爬虫
高中信息技术必修1 数据与计算
5.2 数据的采集
网络数据采集的工具——网络爬虫
又称主题网络爬虫,是指选择性地爬取那些与预先定义好的主题相关的页面的网络爬虫。
聚焦爬虫
网络
爬虫
网络数据采集的工具——网络爬虫
1、又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
2、网页:是一个包含HTML标签的纯文本文件。
3、用户浏览网页:浏览器提交请求->下载网页代码->解析/渲染成页面。
4、爬虫程序:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中。
5、Robots协议:用来告知爬虫哪些页面能被抓取,哪些页面不能被抓取。以此为爬虫使用规范。
高中信息技术必修1 数据与计算
5.2 数据的采集
爬虫程序实践
搭建“网络商城”网站:安装、并运行XAMPP,启动Apache、MySQL;
将文件“wholesale.html”复制到C:\xampp\htdocs目录下。
安装Python扩展库:通过pip安装bs4、requests、xlwt、datetime等库。
浏览抓取的数据:打开名如“nike*.xls”的excel文件。
网站测试:浏览器输入http://127.0.0.1/ wholesale.html ,访问网站,尝试查看网页源码。
运行Python IDLE调试:打开“程序5-3-2 爬取程序(教材范例).py”,阅读关键代码,调试运行。
1
2
3
4
5
高中信息技术必修1 数据与计算
5.2 数据的采集
第1步、第3步
可下载微课学习
爬虫程序实践
高中信息技术必修1 数据与计算
5.2 数据的采集
动手调试:
调试时,记录爬虫程序的关键语句,并说明作用,完成学习资源包中的记录表。
思考:
如果将刚才爬虫程序中的” url = ‘http://127.0.0.1/wholesale.html’ ”,改成其它网络商城网址,能直接爬取数据吗?
确定采集方法和工具
淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。
在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。
确定数据需求清单后,对比各种采集方法和工具,选择哪种更合适呢?
编号 项目数据内容大纲 数据来源 采集方法和工具 数据保存
方式
1
2
3
各类零食销售数据:包括商品名称、店铺名称、商品价格、商品销量
淘宝网-零食类别
客户购物喜好数据:包括商品价格、商品销量、商品评论
店铺销售订单数据:包括每个订单购买的商品名称、数量
淘宝网-零食类别
淘宝网店铺后台
方法:网络数据采集法
工具:爬虫程序
方法:网络数据采集法
工具:爬虫程序
方法:网络数据采集法
工具:系统导出、手工记录等
高中信息技术必修1 数据与计算
5.2 数据的采集
课堂小结:
高中信息技术必修1 数据与计算
5.2 数据的采集