<property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log.server.url</name> <value>http://node2:19888/jobhistory/logs</value> </property> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property>
spark.yarn.historyServer.address=node2:18080 spark.history.ui.port=18080 spark.eventLog.enabled=true spark.eventLog.dir=hdfs:///tmp/spark/events spark.history.fs.logDirectory=hdfs:///tmp/spark/events
若是你是运行在yarn之上的话,就要告诉yarn,你spark的地址,当我在yarn上点击一个任务,进去看history的时候,他会连接到18080里面,若是你配的是node1:18080,那么你就要在node1上启动spark的history server(见后面注①)html
最下面两个配置是运行spark程序的时候配置的,一旦你运行spark,就会将日志等发送到那两个目录,有了这两个目录,spark的historyserver就能够读取spark的运行状态信息日志等读取并展现node
18080是spark的history server,会显示出你最近spark跑过的一些程序,点击execution后,点击最右边的日志(若是有的话),会重定向到19888(见后面注②),这个是mr的jobserver的地址(启动命令:mr-jobhistory-daemon.sh start historyserver
)web
spark.yarn.historyServer.address和spark.history.ui.port若是缺乏其中一个,日志就看不到shell
综上,1和2两个配置齐全,才能够查看spark的stdout和stderr日志app
实际上,在spark程序运行的时候,会起一个driver程序和多个executor程序,他们都是跑在nodemanager之上的,在启动程序的时候,若是咱们在默认的配置项里面,配置了参数spark.eventLog.enabled=true,spark.eventLog.dir=地址,那么driver上就会把全部的事件所有给记录下来,事件包括,executor的启动,executor执行的task等发送给driveroop
每当写日志的时候,都有一个写日志的组件将日志写进那个目录里面,这个目录下面每个应用程序都会存在一个文件,而后将会由spark的history server(也就是配置在spark-default.conf里面),这个server会在18080启动一个进程,去扫描日志目录,并解析每个文件,进行还原,就获得了整个应用的状态post
在hadoop-2.7.3/etc/hadoop/mapred-site.xml配置文件中ui
<property> <name>mapreduce.jobhistory.done-dir</name> <value>/user/history/done</value> </property> <property> <name>mapreduce.jobhistory.intermediate-done-dir</name> <value>/user/history/done_intermediate</value> </property>
stdlog和err是每个nodemanager上的每个executor都会产生的,若是当程序完成后,在这个节点上,跟这个应用相关的全部信息所有会被清除掉,包括这些日志,这样的话若是咱们不把这个日志收集起来,那么后面在历史信息(18080 executord模块的stderr和out)里面就看不到这些日志url
为了可以看到这些日志,咱们要作的事情是,让nodemanager开启一个日志聚合的功能,这个功能的做用是,当应用程序终止的时候,须要将这个应用程序产生的全部日志所有汇集到远程hdfs上的一个目录,汇集以后,还须要经过一个http的接口去查看这些日志,查看日志的这个角色就叫作mr的history server,经过她的web ui接口,当咱们点击std日志的时候,就会跳转到mr job history server这个地址上19888上,而后去把这个日志展现出来spa
总的来讲,yarn-site.xml和conf/spark-defaults.conf这两个配置文件中的地址比较关键
http://node2:19888/jobhistory/logs : 对应的是点击strout的时候跳转的地址
spark.yarn.historyServer.address=node2:18080 :对应的是在yarn里点击history,跳转的地址
一、进入yarn的web ui页面,点击左侧FINISHED,可查看运行完的做业,点击一个app id
二、进入下图页面,点击History
三、重定向到conf/spark-defaults.conf配置的地址
一、我先运行一个spark程序
bin/spark-shell --master local
二、登陆Spark History server的web ui
http://node1:18080/
三、以下图,找到我刚才运行的程序
四、点击红框位置App ID,进入以下图页面
五、点击红框位置Executor,进入下图页面
六、右下角的stderr和stdout就是咱们此行的目标了
<property> <name>yarn.log.server.url</name> <value>http://node2:19888/jobhistory/logs</value> </property>
当你点击stderr或stdout,就会重定向到node2:19888,因此若是这里你配错了,那这两个日志你是看不了的
node2:19888是你的MapReduce job history server的启动节点地址
进入页面以下图