Spark job server原理初探

时间 2019-11-10

标签 spark job server 原理初探栏目 Spark 繁體版

原文原文链接

Spark job server是一个基于Spark的服务系统，提供了管理SparkJob，context，jar的RestFul接口。html

专一标注原文连接 http://www.cnblogs.com/shenh062326/p/6193375.htmlapi

使用说明restful

参考 http://debugo.com/spark-jobserver/网络

原理介绍cors

服务端JobServer首先启动，它会启动一个名叫WebApi的HttpService服务，它提供下面这几个Routesjvm

val myRoutes = cors {
  binaryRoutes ~ jarRoutes ~ contextRoutes ~ jobRoutes ~
  dataRoutes ~ healthzRoutes ~ otherRoutes
}

能够看到，spark job server支持二进制，jar，context，job，data，health，和其余这几类服务。用户发送http请求到服务端后，WebApi会调用相应的routes。这里我将介绍两个最主要的Routes，分别是contextRoutes和jobRoutes。spa

contextRoutesdebug

在contextRoutes的处理增长context（一个context对应一个SparkContext）逻辑中，会发送AddContext消息给LocalContextSupervisorActor(看起来当前只支持spark client模式), LocalContextSupervisorActor首先会判断contextName是否已经存在，若是存在则抛异常。不然建立context。（支持多个sparkcontext，代码中设置了spark.driver.allowMultipleContexts=true, 虽然spark不由止使用多个sparkcontext，但可能会出问题，由于spark源码中不少地方的假定都是基于sparkcontext，好比共享内存，thread local变量，许多全局的标识。SPARK-2243例子中出现的状况是一个spark job结束后另一个spark streaming job也失败）。多个SparkContext会以存在HashMap中。rest

另外contextRoutes还提供了删除和更新（先删除后增长）context的功能。code

jobRoutes

jobRoutes最主要的功能是提交 job，若是提交job时指定了context，spark job server会把job运行在相应的context中；经过没有指定，spark job server则会启动一个临时的context运行job。spark job server运行job时会调用用户代码中的validate方法验证输入，而后调用用户代码中的runjob执行做业的逻辑，同时把context传递给用户代码。

jobRoutes还提供了查询job信息，kill job等功能。

Spark Job Server的优缺点总结
优势：
提供了restful接口；能管理job，context，jar等功能；方便用户重用context，cache的数据。

缺陷

1 用户编写程序须要基于spark job server提供的接口，参考LongPiJob，继承于api.SparkJob。缺点：用户既要操做spark原生的接口，又要继承spark job server的SparkJob接口。

2 一个JVM启动多个SparkContext，可能会出问题。如今spark job Server的作法是忽略这种问题。

3 同一个jvm内启动多个sparkcontext，即便不出错，也可能会出现多个sparkcontext相互影响，如内存，网络（boardCast，getMapOutStatus，collect等）磁盘。须要提供相似接入层的逻辑，启动多个机器运行sparkContext。

虽然存在一些问题，但spark job server向人们提供了一种操做spark context和job的方式，值得咱们在构建spark应用平台时借鉴。