(共10张PPT)
第十三课、大数据处理
信息技术
七年级上
新课导入
在数量较小的情况下,单台计算机的数据处理速度可以很快,但是处理速度会随着数据量的增加而变得越来越缓慢。因此在大数据时代,需要优化的思路方式来应对大数据的处理。
大数据处理的基本思想
01
大数据处理的基本思想
新课导入
“分治法”又称分治策略,顾名思义,就是分而治之的意思。它的基本思想是将难以解决的、规模较大的问题,分解成若干个能直接解决的、相互独立的子问题,这些子问题与原问题性质相同。求出子问题的解,就可以得到原问题的解,即一种分目标完成的程序算法。
分治法
01
大数据处理的基本思想
新知讲解
01
大数据处理的基本思想
分治所能解决的问题一般具有以下几个特征:
该问题的规模缩小到一定的程度就可以容易地解决;
该问题可以分解为若干个规模较小的相同问题,即该问题具有最优子结构性质
利用该问题分解出的子问题的解可以合并为该问题的解;
该问题所分解出的各个子问题是相互独立的,即子问题之间不包含公共的子问题。
总体思想:
将要求解的较大规模的问题分割成k个更小规模的子问题。
对这k个子问题分别求解。如果子问题的规模仍然不够小,则再划分为k个子问题,如此递归的进行下去,直到问题规模足够小,很容易求出其解为止。
将求出的小规模的问题的解合并为一个更大规模的问题的解,自底向上逐步求出原来问题的解。
02
大数据处理的类型
大数据处理按照类型一般可以分为三种:
1、静态数据的批处理
2、对数据的实时计算
3、对图数据的图计算
不同的处理类型都有相应的分布式处理框架或平台。
大数据处理
静态处理
流数据
图数据
批处理技算
流计算
图计算
新知讲解
02
大数据处理的类型
Hadoop是对静态数据批处理计算时比较常用的一种框架:
1、可以实现卡计算机节点的数据并行处理。
2、通过不断增加节点方式处理不断增加的数据,从而保持高效、稳定的处理水平,获得及时、准确的处理结果。
3、核心组件:一是Hadoop分布式文件系统HDFS,它是一种可靠的、搞宽带、低成本的数据存储集群,主要是将大规模数据以文件形式用于多个副本保存在不同的存储节点中,并用分布式系统进行管理。二是MapReduce,这是一种分布式进行编辑模型,能够处理大数据集的并行运算,它的计算由Map(映射)和
Reduce(归纳)两个函数来实现处理。
新知讲解
拓展延伸
04
大数据处理流程
数据分析:大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。
批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有
Hadoop
MapReduce、Spark、Flink
等;
流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有
Storm、Spark
Streaming、Flink
Streaming
等。
课堂练习
描述一个生活中可以通过“分治法”来解决实际问题。
01
谢谢
21世纪教育网(www.21cnjy.com)
中小学教育资源网站
有大把高质量资料?一线教师?一线教研员?
欢迎加入21世纪教育网教师合作团队!!月薪过万不是梦!!
详情请看:
https://www.21cnjy.com/help/help_extract.php中小学教育资源及组卷应用平台
第十三课
大数据处理
教学设计
1教学目标
1、
通过案例分析学习与探讨、理解分治法和并行处理。
2、
通过了解大数据处理的类型,认识常用的大数据分布式处理框架Hadoop。。
3、
通过对分治法和并行处理的理解,训练计算思维,提高解决生活中实际问题的能力。
2重点难点
★教学重点:大数据处理的基本思想,大数据处理类型。
★教学难点:分治法、并行处理的理解,大数据处理类型的区分,电信处理类型的归类。
3教学过程
一、新课讲授
大数据处理的基本思想:在数量较小的情况下,单台计算机的数据处理速度可以很快,但是处理速度会随着数据量的增加而变得越来越缓慢。因此在大数据时代,需要优化的思路方式来应对大数据的处理。
1、分治法
“分治法”又称分治策略,顾名思义,就是分而治之的意思。它的基本思想是将难以解决的、规模较大的问题,分解成若干个能直接解决的、相互独立的子问题,这些子问题与原问题性质相同。求出子问题的解,就可以得到原问题的解,即一种分目标完成的程序算法。
总体思想:
?
将要求解的较大规模的问题分割成k个更小规模的子问题。
?
对这k个子问题分别求解。如果子问题的规模仍然不够小,则再划分为k个子问题,如此递归的进行下去,直到问题规模足够小,很容易求出其解为止。
?
将求出的小规模的问题的解合并为一个更大规模的问题的解,自底向上逐步求出原来问题的解。
分治所能解决的问题一般具有以下几个特征:
?
该问题的规模缩小到一定的程度就可以容易地解决;
?
该问题可以分解为若干个规模较小的相同问题,即该问题具有最优子结构性质
?
利用该问题分解出的子问题的解可以合并为该问题的解;
?
该问题所分解出的各个子问题是相互独立的,即子问题之间不包含公共的子问题。
任务:学生自己百度搜索有关“数据分析报告的样版”,了解数据分析报告的写作样例,如何写出一份完整的数据分析报告。
大数据的处理类型:
大数据处理按照类型一般可以分为三种:
1、静态数据的批处理
2、对数据的实时计算
3、对图数据的图计算
不同的处理类型都有相应的分布式处理框架或平台。
Hadoop
(?https:?/??/?haokan.baidu.com?/?v?vid=7716051625015575404&pd=bjh&fr=bjhauthor&type=video?)是对静态数据批处理计算时比较常用的一种框架:
(?https:?/??/?haokan.baidu.com?/?v?vid=7716051625015575404&pd=bjh&fr=bjhauthor&type=video?)
1、可以实现卡计算机节点的数据并行处理。
2、通过不断增加节点方式处理不断增加的数据,从而保持高效、稳定的处理水平,获得及时、准确的处理结果。
3、核心组件:一是Hadoop分布式文件系统HDFS,它是一种可靠的、搞宽带、低成本的数据存储集群,主要是将大规模数据以文件形式用于多个副本保存在不同的存储节点中,并用分布式系统进行管理。二是MapReduce,这是一种分布式进行编辑模型,能够处理大数据集的并行运算,它的计算由Map(映射)和
Reduce(归纳)两个函数来实现处理。
二、拓展延伸
大数据处理流程:
数据分析:大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。
?
批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有
Hadoop
MapReduce、Spark、Flink
等;
?
流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有
Storm、Spark
Streaming、Flink
Streaming
等。
三、课后作业
1、描述一个生活中可以通过“分治法”来解决实际问题。
大数据处理
静态处理
流数据
图数据
批处理技算
流计算
图计算
21世纪教育网
www.21cnjy.com
精品试卷·第
2
页
(共
2
页)
HYPERLINK
"http://www.21cnjy.com/"
21世纪教育网(www.21cnjy.com)