基础概念 之 Spark on Yarn

先抛出问题:Spark on Yarn有cluster和client两种模式,它们有什么区别? 用Jupyter写Spark时,只能使用client模式,为何?html

写一篇文章,搞清楚 Spark on Yarn 的运行原理,同时回答上面的问题。网络

首先,把Spark和Yarn当作两个独立概念来看。单看Spark,不去管它底层依赖的存储结构,本质上讲,它就是个分布式计算的程序。程序的入口是一个叫作 SparkContext 的对象,也能够抽象地称为Driver,启动了 SparkContext 后,就能够运行各类Spark方法(好比 map,filter)。运行方法时,Spark会把每次执行分解成若干个Task,分发给若干个Executor执行,Executor是执行Task的进程,执行后的结果汇总到一块儿,返回给 SparkContext。Spark 本质上也是一个map+reduce的过程,与Hadoop不一样的是,Spark会先把数据存储到内存中,这样处理速度会比Hadoop快大约两个数量级。框架

这么多的Executor进程是怎么来的?分布式

是Yarn分配的。(注:还有其余资源管理框架,好比 Moses,这里先无论它。)oop

总结起来就是:Spark是一套能够运行的代码,代码运行须要资源(计算、存储、网络),Yarn把集群的资源分配一部分给Spark使用。spa

Yarn自己的运行方式是:Yarn把集群的节点分为两类,一类是Master,运行的进程叫ResourceManager(简称RM),另外一类是Worker,运行的进程叫NodeManager(简称NM),NM能够在本机内分配资源,生成若干个Container(不熟悉容器的同窗能够把Container近似理解为虚拟机)。Yarn的运行过程是,RM接受外部的资源申请(能够来自Hadoop、Spark或其余进程),按照要求分配资源,而后把对应的资源分配计划通知各个NM,NM收到本身的分配计划,按计划在本地启动若干个Container。code

Spark和Yarn各自介绍完毕。htm

 

Spark on Yarn就是把上述过程结合起来,Yarn在底层,Spark在上层,也就是说,咱们在写Spark代码时不须要操做Yarn,只须要设置好Spark的资源参数,Yarn会按照Spark的资源参数去分配资源,而后提供给Spark使用。对象

Spark on Yarn 的运行过程是:SparkContext运行起来,设置资源参数,Yarn中会为每一个Spark App启动一个Container,叫作App Master,由App Master把资源参数发送给RM,RM通知若干个NM,启动若干个Container,每一个Container内部都运行一个Executor,对,就是Spark中的Executor,这样Spark 和 Yarn 就结合起来了。blog

这里给出一个Spark on Yarn的资源参数配置示例:

conf = SparkConf().setMaster('yarn-client').setAppName('test')
conf.set('spark.executor.instances',10)
conf.set('spark.executor.cores',1)
conf.set('spark.executor.memory','2g')
conf.set("spark.driver.memory", "2g")
conf.set("spark.driver.maxResultSize", "0")

 

Spark on Yarn的原理都清楚了,下面要解决开头提出的问题了:Spark on Yarn 的 cluster 和 client 模式有什么区别?为何Jupyter只能用client模式?

对比cluster和client,从名字就能够看出,前者是分布式的,后者是本地化的。具体区别就在于上面的红字:App Master的做用不一样。

在cluster模式中,SparkContext运行在App Master所在的Container中,也就是说,在初始化Spark程序时,咱们不知道SparkContext会运行在哪一个节点,由RM分配一个Container做为App Master后,SparkContext运行在这个Container中,Spark程序的运行与咱们在哪一个节点启动它没有关系。

相对地,在client模式中,SparkContext运行在启动SparkContext的节点上,全部与Spark有关的调度工做都在这个节点上运行(注意:不是在这个节点的Container上),App Master只在向RM申请资源时起到了做用,以后就它什么事了,除非资源须要发生变化。

到这里,咱们就能明白为何Jupyter必须使用client模式了,由于Jupyter是运行在节点上的进程,只能和本地节点的内存实现数据交互,为了可以获取到spark运行过程当中的变量,Jupyter必须采用Client模式,让spark程序的变量值存储在节点的内存中。

 

 

参考资料:

https://www.cnblogs.com/tgzhu/p/5818374.html

相关文章
相关标签/搜索