5.1认识大数据 课件(共16张PPT) 2022—-2023学年粤教版(2019)高中信息技术必修1

文档属性

名称 5.1认识大数据 课件(共16张PPT) 2022—-2023学年粤教版(2019)高中信息技术必修1
格式 pptx
文件大小 289.2KB
资源类型 教案
版本资源 粤教版(2019)
科目 信息技术(信息科技)
更新时间 2022-12-29 08:20:01

图片预览

文档简介

(共15张PPT)
数据处理和可视化表达
5.1认识大数据
大数据
什么是大数据?
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的信息集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据
大数据都有哪些特征?
角度 特征
互联网产生大数据 大量(Volume)、多样(Variety)
低价值密度(Value)、高速(Velocity)
互联网思维 样本渐趋于总体、精确让位于模糊、
相关性重于因果
大数据存储与计算 存储在互联网不同的服务器与客户端
分布式并行计算
大数据
讨论大数据对日常生活的影响?
正面影响 负面影响
1.方便支付
2.方便出行
3.方便看病与诊病
1.个人信息泄露
2.信息伤害与诈骗
大数据
讨论如何避免大数据带来的负面影响?
信息泄露方面 信息伤害与诈骗方面
1.避免使用不熟悉的网络上网
2.不使用信用卡刷卡消费
3.保管好手机等电子设备
……
1.要判断手机收到陌生信息的真伪
2.接到关于钱财方面的电话,要多方查证
……
5.2数据的采集
听说过“网络爬虫”嘛?
学习“爬虫”有什么用呢?
HTML标记语言
网络爬虫从一个或若干个初始网页URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面抽取新的URL放入队列,直到满足系统的一定停止条件。
网页1
网页2
网页3
网页4
URL1
URL2
URL3
URL4
网页5
URL5
网页6
URL6
Hash表
数据采集
采集方法 采集工具 应用范围(举例)
系统日志采集法 系统导出 导出上网行为管理系统日志
网络数据采集法 1.爬虫程序 2.系统导出 3.接口程序 爬取网站数据
其他数据采集法 系统接口 生产和业务数据或学术研究数据(高保密性要求)
HTML标记语言
HTML的英文全称是 Hyper Text Marked Language,即超文本标记语言。
用HTML编写的超文本文档称为HTML文档,它能独立于各种操作系统平台(如UNIX, Windows等)。
使用HTML语言,将所需要表达的信息按某种规则写成HTML文件,通过专用的浏览器来识别,并将这些HTML文件“翻译”成可以识别的信息,即现在所见到的网页。
HTML标记语言
标签
HTML称为超文本标记语言,是一种标识性的语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。
HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。
HTML标记语言
标签
<标记> 内容
标记和被标记的内容构建出HTML文档
HTML标记语言
标签的属性值
<标记 属性1=属性值 属性2=属性值 ... ... >内容
下课