Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架(如图 1 所示)使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本练习的一部分,Oozie 运行了一个 Apache Sqoop 作业,以便在 MySQL 数据库中的数据上执行导入操作,并将数据传输到 Hadoop 分布式文件系统 (HDFS) 中。可以利用导入的数据集执行 Sqoop 合并操作,从而更新较旧的数据集。通过利用 UNIX shell 操作,可从 MySQL 数据库中提取用来执行 Sqoop 作业的元数据。同理,可执行 Java 操作来更新 Sqoop 作业所需的 MySQL 数据库中的元数据。
本系列课程共包含以下课程:
1、Hadoop 2.x (一)大数据基础
2、Hadoop 2.x (二)大数据进阶
3、Hadoop 2.x (三) 数据分析引擎:Hive
4、Hadoop 2.x (四)数据分析引擎:Pig
5、Hadoop 2.x(五) MapReduce实战案例集锦
6、Hadoop 2.x(六) 使用Avro实现序列化
7、Hadoop 2.x (七):工作流引擎Oozie
建议学员从第一门课程开始,逐步学习;并完成相应的实验,这样可以更好的理解和掌握Hadoop的体系结构。
第一章 课程概述与Oozie的安装配置
(*)课程概述与基本概念
(*)安装和配置Oozie
(*)演示Oozie自带的Example
第二章 定义Oozie的节点
(*)控制节点
(*)动作节点之一:Fs
(*)动作节点之二:Java-Main
(*)动作节点之三:MapReduce
(*)动作节点之四:Sqoop
(*)动作节点之五:Hive
(*)动作节点之六:Pig
第三章 综合案例:处理商品订单
(*)综合案例:处理商品订单
第四章 Coordinator和Bundle
(*)什么是OOzie的Coordinator?
(*)什么是OOzie的Bundle?
-