大数据教程（13.4）azkaban实例演示

时间 2019-11-07

标签数据教程 13.4 azkaban 实例演示繁體版

原文原文链接

上一章节，介绍了azkaban的简介、安装相关的知识；本篇博客博主将为小伙伴们分享azkaban的一些案例来帮助熟悉其使用。java

Azkaba内置的任务类型支持command、java；node

1、command类型单一job示例web

(1)、建立job描述文件sql

建立文件command.job，添加以下内容：
#command.job
type=command
command=echo 'hello aaron'

(2)、将job资源文件打包成zip文件apache

command.zip

(3)、经过azkaban的web管理平台建立project并上传job压缩包安全

首先建立project

上传zip包

启动执行该job

执行结果

2、Command类型多job工做流flow服务器

一、建立有依赖关系的多个job描述
第一个job：foo.jobapp

# foo.job
type=command
command=echo foo

第二个job：bar.job依赖foo.joboop

# bar.job
type=command
dependencies=foo
command=echo bar

二、将全部job资源文件打到一个zip包中大数据

三、在azkaban的web管理界面建立工程并上传zip包
四、启动工做流flow

五、效果图

3、HDFS操做任务

一、建立job描述文件

# fs.job
type=command
command=/home/hadoop/apps/hadoop-2.9.1/bin/hadoop fs -mkdir /azaz

二、将job资源文件打包成zip文件

三、经过azkaban的web管理平台建立project并上传job压缩包
四、启动执行该job

4、MAPREDUCE任务

Mr任务依然可使用command的job类型来执行

一、建立job描述文件，及mr程序jar包（示例中直接使用hadoop自带的example jar）

# mrwc.job
type=command
command=/home/hadoop/apps/hadoop-2.9.1/bin/hadoop  jar hadoop-mapreduce-examples-2.9.1.jar wordcount /wordcount/input /wordcount/azout

二、将全部job资源文件打到一个zip包中

三、经过azkaban的web管理平台建立project并上传job压缩包
四、启动执行该job

5、HIVE脚本任务

一、建立job描述文件和hive脚本

Hive脚本： test.sql

use default;
drop table aztest;
create table aztest(id int,name string) row format delimited fields terminated by ',';
load data inpath '/aztest/hiveinput' into table aztest;
create table azres as select * from aztest;
insert overwrite directory '/aztest/hiveoutput' select count(1) from aztest;

Job描述文件：hivef.job

# hivef.job
type=command
command=/home/hadoop/apps/apache-hive-1.2.2-bin/bin/hive -f 'test.sql'

二、将全部job资源文件打到一个zip包中
三、在azkaban的web管理界面建立工程并上传zip包
四、启动job
五、执行效果

注意：博主在执行hdfs命令是报错，hadoop集群一直处于safe mode

经分析，多是由于：因为系统断电，内存不足等缘由致使dataNode丢失超过设置的丢失百分比，系统自动进入安全模式；解决方案以下：

一、查看namenode是不是安全状态
hadoop dfsadmin -safemode get  
Safe mode is OFF  
二、进入安全模式（hadoop启动时30秒内是安全状态）
hadoop dfsadmin -safemode enter  
Safe mode is ON  
三、离开安全模式
hadoop dfsadmin -safemode leave  
Safe mode is OFF  

步骤1 执行命令退出安全模式：
hadoop dfsadmin -safemode leave
步骤2 执行健康检查，删除损坏掉的block。  
hdfs fsck  /  -delete

最后寄语，以上是博主本次文章的所有内容，若是你们以为博主的文章还不错，请点赞；若是您对博主其它服务器大数据技术或者博主本人感兴趣，请关注博主博客，而且欢迎随时跟博主沟通交流。