【赵强老师】大数据工做流引擎Oozie

【赵强老师】大数据工做流引擎Oozie

1、什么是工做流?

工做流(WorkFlow)就是工做流程的计算模型,即将工做流程中的工做如何先后组织在一块儿的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工做流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预约规则自动传递。下面咱们以“员工请假的流程”为例,来为你们介绍什么是工做流。mysql

【赵强老师】大数据工做流引擎Oozie

这个例子包含了一个完整的员工请假流程。从“请假流程开始”,到“员工填写请假条”,再到“部门经理审批”,若是审批不经过,流程回到“员工填写请假条”;若是部门经理审批经过,则流程进入下一个节点;直到最后的流程结束。在Java中,咱们能够使用一些框架帮助咱们来实现这样的过程。Java的三大主流工做流引擎分别是:Shark,osworkflow,JBPMweb

2、什么是Oozie?

关于什么是Oozie,其实Oozie是服务于Hadoop生态系统的工做流调度工具,Job运行平台是区别于其余调度工具的最大的不一样。但其实现的思路跟通常调度工具几乎彻底相同。Oozie工做流经过HPDL(一种经过XML自定义处理的语言,相似JBOSS JBPM的JPDL)来构造。Oozie工做流中的Action在运程系统运行如(Hadoop,Pig服务器上)。一旦Action完成,远程服务器将回调Oozie的接口 并通知Action已经完成,这时Oozie又会以一样的方式执行工做流中的下一个Action,直到工做流中全部Action都完成(完成包括失败)。Oozie工做流提供各类类型的Action用于支持不一样的须要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定义扩展以上各类类型的Action。sql

一个正常工做的Oozie系统须包含以下四个模块:Oozie Client、Oozie Server、DataBase和Hadoop集群。数据库

  • Oozie Client能够经过Web Service API、Java API、Command line 方式向Oozie Server提交工做流任务请求。Oozie客户端能够经过REST API或者Web GUI来从Oozie服务端获取Job的日志流。一般在Client端包括工做流配置文件、工做流属性文件和工做流库。
  • Oozie Server负责接收客户端请求、调度工做任务、监控工做流的执行状态。Oozie自己不会执行具体的Job,而是将Job的配置信息发送到执行环境。
  • DataBase用于存储Bundle、Coordinator、Workflow工做流的Action信息、Job信息,记录Oozie系统信息。简单说,除了Oozie 运行日志存在本地硬盘不存在DB中,其余信息都存储到DB。
  • Hadoop集群运行Oozie工做流的实体,负责处理Oozie Server提交来的各类Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop组件提交的Job。

3、编译Oozie

  • 使用的版本信息以下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3
  • 在oozie解压后的目录下,编译oozie,执行命令:
bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

注意:若是第一次安装,Maven会自动下载依赖的jar包,时间可能 会比较长。api

  • 若是出现下面的错误,表示Maven的内存溢出。

【赵强老师】大数据工做流引擎Oozie

设置环境变量:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m",而且从新编译。
  • 编译完成,成功出现如下提示。

【赵强老师】大数据工做流引擎Oozie

4、安装部署Oozie

  • 解压安装包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
  • 设置环境变量

【赵强老师】大数据工做流引擎Oozie

  • 创建MySQL数据库
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
  • 修改文件:conf/oozie-site.xml

【赵强老师】大数据工做流引擎Oozie

  • 配置oozie的web console
(*)建立目录:mkdir /root/training/oozie-4.3.0/libext
(*)将文件ext-2.2.zip和mysql的驱动上传到这个目录
(*)拷贝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目录下
(*)因为hadoop和oozie自带的tomcat jar包有冲突,因此须要把冲突的jar包驱动。执行下面的命令:

      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化数据库:ooziedb.sh create -sqlfile oozie.sql -run
(*)将不一样任务依赖的共享jar包上传到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,注释掉下面的记录:

【赵强老师】大数据工做流引擎Oozie

  • 启动oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver

【赵强老师】大数据工做流引擎Oozie

【赵强老师】大数据工做流引擎Oozie

相关文章
相关标签/搜索