azkaban使用教程

时间 2019-11-06

标签 azkaban 使用教程繁體版

原文原文链接

https://localhost:8443
注意是https，采用的是jetty ssl连接。输入帐号密码azkaban/azkanban（若是你以前没有更改的话）python

首页有四个菜单shell

主要介绍projects部分
首先建立一个工程，填写名称和描述，好比o2olog。oop

type=command
command=echo "data 2 hive"

一个简单的job就建立好了，解释下，type的command，告诉azkaban用unix原生命令去运行，好比原生命令或者shell脚本，固然也有其余类型，后面说。测试

一个工程不可能只有一个job，咱们如今建立多个依赖job，这也是采用azkaban的首要目的。spa

咱们说过多个jobs和它们的依赖组成flow。怎么建立依赖，只要指定dependencies参数就好了。好比导入hive前，须要进行数据清洗，数据清洗前须要上传，上传以前须要从ftp获取日志。
定义5个job：unix

依赖关系：
3依赖4和5，2依赖3，1依赖2，4和5没有依赖关系。日志

o2o_2_hive.jobcode

type=command
# 执行sh脚本，建议这样作，后期只需维护脚本就好了，azkaban定义工做流程
command=sh /job/o2o_2_hive.sh
dependencies=o2o_clean_data

o2o_clean_data.jobip

type=command
# 执行sh脚本，建议这样作，后期只需维护脚本就好了，azkaban定义工做流程
command=sh /job/o2o_clean_data.sh
dependencies=o2o_up_2_hdfs

o2o_up_2_hdfs.jobhadoop

type=command
#须要配置好hadoop命令，建议编写到shell中，能够后期维护
command=hadoop fs -put /data/*
#多个依赖用逗号隔开
dependencies=o2o_get_file_ftp1,o2o_get_file_ftp2

o2o_get_file_ftp1.job

type=command
command=wget "ftp://file1" -O /data/file1

o2o_get_file_ftp2.job

type=command
command=wget "ftp:file2" -O /data/file2

能够运行unix命令，也能够运行python脚本（强烈推荐）。将上述job打成zip包。
ps：为了测试流程，我将上述command都改成echo ＋相应命令

上传：

点击o2o_2_hive进入流程，azkaban流程名称以最后一个没有依赖的job定义的。

右上方是配置执行当前流程或者执行定时流程。

Flow view：流程视图。能够禁用，启用某些job
Notification:定义任务成功或者失败是否发送邮件
Failure Options:定义一个job失败，剩下的job怎么执行
Concurrent：并行任务执行设置
Flow Parametters：参数设置。

1.执行一次
设置好上述参数，点击execute。

绿色表明成功，蓝色是运行，红色是失败。能够查看job运行时间，依赖和日志，点击details能够查看各个job运行状况。

咱们能够点击Detail查看详细输出，以及报错。

2.定时执行

type=flow
flow.name=fisrt_flow

type=command
command=echo "hello"
command.1=echo "world"

type=command
command=wget "ftp://file1" -O /data/file1
retries=12
#单位毫秒
retry.backoff=300000