基础概念之 Spark on Yarn

时间 2019-12-12

标签基础概念 spark yarn 栏目 Spark 繁體版

原文原文链接

先抛出问题：Spark on Yarn有cluster和client两种模式，它们有什么区别？用Jupyter写Spark时，只能使用client模式，为何？html

写一篇文章，搞清楚 Spark on Yarn 的运行原理，同时回答上面的问题。网络

首先，把Spark和Yarn当作两个独立概念来看。单看Spark，不去管它底层依赖的存储结构，本质上讲，它就是个分布式计算的程序。程序的入口是一个叫作 SparkContext 的对象，也能够抽象地称为Driver，启动了 SparkContext 后，就能够运行各类Spark方法（好比 map,filter）。运行方法时，Spark会把每次执行分解成若干个Task，分发给若干个Executor执行，Executor是执行Task的进程，执行后的结果汇总到一块儿，返回给 SparkContext。Spark 本质上也是一个map+reduce的过程，与Hadoop不一样的是，Spark会先把数据存储到内存中，这样处理速度会比Hadoop快大约两个数量级。框架

这么多的Executor进程是怎么来的？分布式

是Yarn分配的。（注：还有其余资源管理框架，好比 Moses，这里先无论它。）oop

总结起来就是：Spark是一套能够运行的代码，代码运行须要资源（计算、存储、网络），Yarn把集群的资源分配一部分给Spark使用。spa

Yarn自己的运行方式是：Yarn把集群的节点分为两类，一类是Master，运行的进程叫ResourceManager（简称RM），另外一类是Worker，运行的进程叫NodeManager（简称NM），NM能够在本机内分配资源，生成若干个Container（不熟悉容器的同窗能够把Container近似理解为虚拟机）。Yarn的运行过程是，RM接受外部的资源申请（能够来自Hadoop、Spark或其余进程），按照要求分配资源，而后把对应的资源分配计划通知各个NM，NM收到本身的分配计划，按计划在本地启动若干个Container。code

Spark和Yarn各自介绍完毕。htm

Spark on Yarn就是把上述过程结合起来，Yarn在底层，Spark在上层，也就是说，咱们在写Spark代码时不须要操做Yarn，只须要设置好Spark的资源参数，Yarn会按照Spark的资源参数去分配资源，而后提供给Spark使用。对象

Spark on Yarn 的运行过程是：SparkContext运行起来，设置资源参数，Yarn中会为每一个Spark App启动一个Container，叫作App Master，由App Master把资源参数发送给RM，RM通知若干个NM，启动若干个Container，每一个Container内部都运行一个Executor，对，就是Spark中的Executor，这样Spark 和 Yarn 就结合起来了。blog

这里给出一个Spark on Yarn的资源参数配置示例：

conf = SparkConf().setMaster('yarn-client').setAppName('test')
conf.set('spark.executor.instances',10)
conf.set('spark.executor.cores',1)
conf.set('spark.executor.memory','2g')
conf.set("spark.driver.memory", "2g")
conf.set("spark.driver.maxResultSize", "0")

Spark on Yarn的原理都清楚了，下面要解决开头提出的问题了：Spark on Yarn 的 cluster 和 client 模式有什么区别？为何Jupyter只能用client模式？

对比cluster和client，从名字就能够看出，前者是分布式的，后者是本地化的。具体区别就在于上面的红字：App Master的做用不一样。

在cluster模式中，SparkContext运行在App Master所在的Container中，也就是说，在初始化Spark程序时，咱们不知道SparkContext会运行在哪一个节点，由RM分配一个Container做为App Master后，SparkContext运行在这个Container中，Spark程序的运行与咱们在哪一个节点启动它没有关系。

相对地，在client模式中，SparkContext运行在启动SparkContext的节点上，全部与Spark有关的调度工做都在这个节点上运行（注意：不是在这个节点的Container上），App Master只在向RM申请资源时起到了做用，以后就它什么事了，除非资源须要发生变化。

到这里，咱们就能明白为何Jupyter必须使用client模式了，由于Jupyter是运行在节点上的进程，只能和本地节点的内存实现数据交互，为了可以获取到spark运行过程当中的变量，Jupyter必须采用Client模式，让spark程序的变量值存储在节点的内存中。

参考资料：

https://www.cnblogs.com/tgzhu/p/5818374.html

基础概念 之 Spark on Yarn

基础概念之 Spark on Yarn