上一节介绍了Flume多个agent链接配合使用。本节博主将为小伙伴们介绍azkaban的相关概念、简单的安装使用。因为azkaban使用新版本太耗时间,须要编译安装,因此博主这次就使用编译好的老版本2.5;等所有教程作完后,博主会将各软件的最新版本的使用安装在后面补充章节中推出。html
1、工做流调度器azkabanjava
概述node
1.一、为何须要工做流调度系统mysql
一个完整的数据分析系统一般都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,各任务单元之间存在时间前后及先后依赖关系,为了很好地组织起这样的复杂执行计划,须要一个工做流调度系统来调度执行;linux
例如,咱们可能有这样一个需求,某个业务系统天天产生20G原始数据,咱们天天都要对其进行处理,处理步骤以下所示:
一、经过Hadoop先将原始数据同步到HDFS上;
二、借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;
三、须要对Hive中多个表的数据进行JOIN处理,获得一个明细数据Hive大表;
四、将明细数据进行复杂的统计分析,获得结果报表信息;
五、须要将统计分析获得的结果数据同步到业务系统中,供业务调用使用。git
1.二、工做流调度实现方式github
简单的任务调度:直接使用linux的crontab来定义;
复杂的任务调度:开发调度平台或使用现成的开源调度系统,好比ooize、azkaban等web
1.三、常见工做流调度系统ajax
市面上目前有许多工做流调度器,在hadoop领域,常见的工做流调度器有Oozie, Azkaban,Cascading,Hamake等sql
1.四、各类调度工具特性对比
下面的表格对上述四种hadoop工做流调度器的关键特性进行了比较,尽管这些工做流调度器可以解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面仍是存在显著的区别,在作技术选型的时候,能够提供参考
特性 |
Hamake |
Oozie |
Azkaban |
Cascading |
工做流描述语言 |
XML |
XML (xPDL based) |
text file with key/value pairs |
Java API |
依赖机制 |
data-driven |
explicit |
explicit |
explicit |
是否要web容器 |
No |
Yes |
Yes |
No |
进度跟踪 |
console/log messages |
web page |
web page |
Java API |
Hadoop job调度支持 |
no |
yes |
yes |
yes |
运行模式 |
command line utility |
daemon |
daemon |
API |
Pig支持 |
yes |
yes |
yes |
yes |
事件通知 |
no |
no |
no |
yes |
须要安装 |
no |
yes |
yes |
no |
支持的hadoop版本 |
0.18+ |
0.20+ |
currently unknown |
0.18+ |
重试支持 |
no |
workflownode evel |
yes |
yes |
运行任意命令 |
yes |
yes |
yes |
yes |
Amazon EMR支持 |
yes |
no |
currently unknown |
yes |
1.五、Azkaban与Oozie对比
对市面上最流行的两种调度器,给出如下详细对比,以供技术选型参考。整体来讲,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。若是能够不在乎某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。
详情以下:
功能
二者都可以调度mapreduce,pig,java,脚本工做流任务
二者都可以定时执行工做流任务
工做流定义
Azkaban使用Properties文件定义工做流
Oozie使用XML文件定义工做流
工做流传参
Azkaban支持直接传参,例如${input}
Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}
定时执行
Azkaban的定时执行任务是基于时间的
Oozie的定时执行任务基于时间和输入数据
资源管理
Azkaban有较严格的权限控制,如用户对工做流进行读/写/执行等操做
Oozie暂无严格的权限控制
工做流执行
Azkaban有两种运行模式,分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server能够部署在不一样节点)
Oozie做为工做流服务器运行,支持多用户和多工做流
工做流管理
Azkaban支持浏览器以及ajax方式操做工做流
Oozie支持命令行、HTTP REST、Java API、浏览器操做工做流
2、Azkaban介绍
Azkaban是由Linkedin开源的一个批量工做流任务调度器。用于在一个工做流内以一个特定的顺序运行一组工做和流程。Azkaban定义了一种KV文件格式来创建任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工做流。
它有以下功能特色:
Web用户界面
方便上传工做流
方便设置任务之间的关系
调度工做流
认证/受权(权限的工做)
可以杀死并从新启动工做流
模块化和可插拔的插件机制
项目工做区
工做流和任务的日志记录和审计
Azkaban安装部署:
(1) 准备工做
Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 目前azkaban的2.5版只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并创建了 root用户,密码 123. 下载地址:http://azkaban.github.io/downloads.html
(2) 安装
将安装文件上传到集群,最好上传到安装 hive、sqoop的机器上,方便命令的执行,在当前用户目录下新建 azkabantools目录,用于存放源安装文件.新建azkaban目录,用于存放azkaban运行程序
azkaban web服务器安装:
#上传解压azkaban-web-server-2.5.0.tar.gz 命令: Alt+p put *.gz mkdir azkaban mv azkaban-* ./azkaban cd azkaban/ tar -zxvf azkaban-web-server-2.5.0.tar.gz #将解压后的azkaban-web-server-2.5.0从新命名 az-server 命令: mv azkaban-web-2.5.0 az-server
azkaban 执行服器安装:
#解压azkaban-executor-server-2.5.0.tar.gz 命令: tar -zxvf azkaban-executor-server-2.5.0.tar.gz #将解压后的azkaban-executor-server-2.5.0从新命名 az-executor 命令: mv azkaban-executor-2.5.0 az-executor
azkaban脚本导入
解压: azkaban-sql-script-2.5.0.tar.gz 命令:tar -zxvf azkaban-sql-script-2.5.0.tar.gz 将解压后的mysql 脚本,导入到mysql中: 进入mysql mysql> create database azkaban; mysql> use azkaban; Database changed mysql> source /root/azkaban-2.5.0/create-all-sql-2.5.0.sql;
建立SSL配置
[hadoop@centos-aaron-h1 azkaban]$ keytool -keystore keystore -alias jetty -genkey -keyalg RSA 输入密钥库口令: 再次输入新口令: 您的名字与姓氏是什么? [Unknown]: aaron 您的组织单位名称是什么? [Unknown]: empire 您的组织名称是什么? [Unknown]: empire 您所在的城市或区域名称是什么? [Unknown]: shanghai 您所在的省/市/自治区名称是什么? [Unknown]: shanghai 该单位的双字母国家/地区代码是什么? [Unknown]: cn CN=aaron, OU=empire, O=empire, L=shanghai, ST=shanghai, C=cn是否正确? [否]: y 输入 <jetty> 的密钥口令 (若是和密钥库口令相同, 按回车):
完成上述工做后,将在当前目录生成 keystore 证书文件,将keystore 考贝到 azkaban web服务器根目录中.如:cp keystore az-server
配置文件
注:先配置好服务器节点上的时区
一、先生成时区配置文件Asia/Shanghai,用交互式命令 tzselect 便可
二、拷贝该时区文件,覆盖系统本地时区配置
sudo cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime sudo date -s '2019-03-07 23:39:46' #将时间写入硬件,重启后可也能够生效 sudo sudo hwclock -w
azkaban web服务器配置
进入azkaban web服务器安装目录 conf目录
修改azkaban.properties文件
命令vi azkaban.properties
内容说明以下:
#Azkaban Personalization Settings azkaban.name=Test azkaban.label=My Local Azkaban azkaban.color=#FF3601 azkaban.default.servlet.path=/index web.resource.dir=web/ default.timezone.id=Asia/Shanghai #Azkaban UserManager class user.manager.class=azkaban.user.XmlUserManager user.manager.xml.file=conf/azkaban-users.xml #Loader for projects executor.global.properties=conf/global.properties azkaban.project.dir=projects database.type=mysql mysql.port=3306 mysql.host=192.168.29.131 mysql.database=azkaban mysql.user=root mysql.password=123456 mysql.numconnections=100 # Velocity dev mode velocity.dev.mode=false # Azkaban Jetty server properties. jetty.maxThreads=25 jetty.ssl.port=8443 jetty.port=8081 jetty.keystore=keystore jetty.password=123456 jetty.keypassword=123456 jetty.truststore=keystore jetty.trustpassword=123456 # Azkaban Executor settings executor.port=12321 # mail settings mail.sender=xxxtking@136.com mail.host=smtp.163.com mail.user=aaron mail.password=xxxx job.failure.email=xxxtking@163.com job.success.email=xxxtking@163.com lockdown.create.projects=false cache.directory=cache
azkaban 执行服务器executor配置
进入执行服务器安装目录conf,修改azkaban.properties
vi azkaban.properties
#Azkaban default.timezone.id=Asia/Shanghai # Azkaban JobTypes Plugins azkaban.jobtype.plugin.dir=plugins/jobtypes #Loader for projects executor.global.properties=conf/global.properties azkaban.project.dir=projects database.type=mysql mysql.port=3306 mysql.host=192.168.29.131 mysql.database=azkaban mysql.user=root mysql.password=123456 mysql.numconnections=100 # Azkaban Executor settings executor.maxThreads=50 executor.port=12321 executor.flow.threads=30
用户配置
进入azkaban web服务器conf目录,修改azkaban-users.xml
vi azkaban-users.xml 增长 管理员用户
<azkaban-users> <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" /> <user username="metrics" password="metrics" roles="metrics"/> <user username="admin" password="admin" roles="admin,metrics" /> <role name="admin" permissions="ADMIN" /> <role name="metrics" permissions="METRICS"/> </azkaban-users>
在azkaban web服务器目录下执行启动命令
bin/azkaban-web-start.sh
注:在web服务器根目录运行
或者启动到后台
nohup bin/azkaban-web-start.sh 1>/tmp/azstd.out 2>/tmp/azerr.out &
在执行服务器目录下执行启动命令
bin/azkaban-executor-start.sh
注:只能要执行服务器根目录运行
启动完成后,在浏览器(建议使用谷歌浏览器)中输入https://服务器IP地址:8443 ,便可访问azkaban服务了.在登陆中输入刚才新的户用名及密码,点击 login.
效果以下:
最后寄语,以上是博主本次文章的所有内容,若是你们以为博主的文章还不错,请点赞;若是您对博主其它服务器大数据技术或者博主本人感兴趣,请关注博主博客,而且欢迎随时跟博主沟通交流。