0 关于oozie 寻找包寻找位置原则:html
oozie在运行的时候 只会去两个地方寻找本身须要的lib 1 回去当前提交任务的workflow所在的hdfs目录下的lib下寻找 eg: /user/root/examples/apps/fork-merge的workflow下有 job.properties lib workflow.xml三个目录 会去lib目录下找对应jar 2 若是是shell命令提交的话,他会主动去本身的公共资源库中寻找本身须要的jar文件,公共资源库为 /user/root/share/lib/lib_20150128185329 其中共享库里面存放的是oozie 常见action须要的包 好比hive hive2 pig sqoop oozie hcatalog distcp等 若是是java客户端提交任务的话,须要设置oozie.libpath(此时此路径下能够存放你工程须要的别的jar包而不须要存放在共享库中 防止混淆) properties.setProperty("oozie.use.system.libpath","true"); ---> 设置使用oozie共享库 properties.setProperty("oozie.libpath","hdfs://master:9000/user/hdfs/examples/thirdlib"); ---> 设置存放工程使用的第三方的jar 3 上面2是针对java代码写法,若是对应到job.properties写法为: nameNode=hdfs://master:9000 jobTracker=master:8032 queueName=default examplesRoot=examples oozie.use.system.libpath=true oozie.libpath=hdfs://master:9000/user/hdfs/examples/thirdlib oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/sqoop-sqlserver-to-hdfs
1 关于oozie使用调用sqoop action执行数据导出导入时对应的jar包:java
1.1 须要将 mysql/sqlserver/oracle等主流数据库的驱动包放在oozie的共享库对应hdfs目录下 eg:node
hdfs://master:9000/user/root/share/lib/lib_20141031094140/sqoop下mysql
1.2 将 oozie-sharelib-sqoop-4.0.0-cdh5.1.0.jar sqoop-1.4.4-cdh5.1.0.jar也放在上述目录中web
2 hadoop运行时内存不足或者其余缘由内存引发的错误sql
修改hadoop的配置文件 mapred-site.xml 增长以下内容 <property> <name>mapred.child.java.opts</name> <value>-Xmx4096m</value> </property> <property> <name>mapred.map.child.java.opts</name> <value>-Xmx4096m</value> </property> <property> <name>mapred.reduce.child.java.opts</name> <value>-Xmx4096m</value> </property> 或者增长map的数量
3 关于oozie安装时数据库有问题的:shell
因为oozie错误或者其余缘由形成的oozie安装失败,第二次安装若是采用默认值可能会失败:eg 数据库初始化失败错误,
处理方式: 删除上一次默认的oozie数据文件data文件夹或者修改默认的值使得安装指向别的地方。数据库
4 oozie提交任务时,job.properties文件的namenode属性值不建议写IP 建议写主机名apache
5 关于oozie分支的:api
oozie的节点分为 动做节点(action) 和控制节点(好比 start end fork merge) 其中控制节点下目前只能够放动做节点 分支节点下不支持在存放分支节点(即分支套分支的写法) 案例来自官网: http://oozie.apache.org/docs/4.0.0/WorkflowFunctionalSpec.html#a3.1.5_Fork_and_Join_Control_Nodes <workflow-app name="sample-wf" xmlns="uri:oozie:workflow:0.1"> ... <fork name="forking"> <path start="firstparalleljob"/> <path start="secondparalleljob"/> </fork> <action name="firstparallejob"> <map-reduce> <job-tracker>foo:8021</job-tracker> <name-node>bar:8020</name-node> <job-xml>job1.xml</job-xml> </map-reduce> <ok to="joining"/> <error to="kill"/> </action> <action name="secondparalleljob"> <map-reduce> <job-tracker>foo:8021</job-tracker> <name-node>bar:8020</name-node> <job-xml>job2.xml</job-xml> </map-reduce> <ok to="joining"/> <error to="kill"/> </action> <join name="joining" to="nextaction"/> ... </workflow-app>
6 关于oozie 对应mysql数据库下表的说明:
7 关于oozie webservice api的部分说明:
其他问题后续须要跟进的: 须要等到7月份
a) 关于oozie流程设计图设计方面的技巧 规则 建议
b) 关于oozie 用户的,尤为是oozie在 cm版本上的用户 什么oozie用户 root用户 等等
在cm上oozie用的是哪一个帐号提交任务 白名单等
c) oozie提怎么提交任务给mr的,oozie是否有一些参数来规定提交到mr后 mr任务的启动的任务数,
占有资源等