Spark on yarn 的两种模式

时间 2019-12-17

标签 spark yarn 两种模式栏目 Spark 繁體版

原文原文链接

一、两种模式的区别sql

cluster模式：Driver程序在YARN中运行，应用的运行结果不能在客户端显示，因此最好运行那些将结果最终保存在外部存储介质（如HDFS、Redis、Mysql）而非stdout输出的应用程序，客户端的终端显示的仅是做为YARN的job的简单运行情况。shell

client模式：Driver运行在Client上，应用程序运行结果会在客户端显示，全部适合运行结果有输出的应用程序（如spark-shell）app

二、原理分布式

client 模式测试

①在client模式下，Driver运行在Client上，经过ApplicationMaster向RM获取资源。本地Driver负责与全部的executor container进行交互，并将最后的结果汇总。结束掉终端，至关于kill掉这个spark应用。spa

②客户端的Driver将应用提交给Yarn后，Yarn会前后启动ApplicationMaster和executor，另外ApplicationMaster和executor都是装载在container里运行，container默认的内存是1G，ApplicationMaster分配的内存是driver- memory，executor分配的内存是executor-memory。同时，由于Driver在客户端，因此程序的运行结果能够在客户端显示，Driver以进程名为SparkSubmit的形式存在。进程

二、cluster模式内存

①. 由client向ResourceManager提交请求，并上传jar到HDFS上资源

这期间包括四个步骤：it

a).链接到RM

b).从RM的ASM（ApplicationsManager ）中得到metric、queue和resource等信息。

c). upload app jar and spark-assembly jar

d).设置运行环境和container上下文（launch-container.sh等脚本)

②. ResouceManager向NodeManager申请资源，建立Spark ApplicationMaster（每一个SparkContext都有一个ApplicationMaster）

③. NodeManager启动ApplicationMaster，并向ResourceManager AsM注册

④. ApplicationMaster从HDFS中找到jar文件，启动SparkContext、DAGscheduler和YARN Cluster Scheduler

⑤. ResourceManager向ResourceManager AsM注册申请container资源

⑥. ResourceManager通知NodeManager分配Container，这时能够收到来自ASM关于container的报告。（每一个container对应一个executor）

⑦. Spark ApplicationMaster直接和container（executor）进行交互，完成这个分布式任务。

经过aws Hue能够查看 cluster执行的时候，显示出来的是Object类名称

经过 aws Hue 能够查看client 执行的时候，显示出来的是appName名称

总结：通常测试来讲，可使用client模式能够实时打印数据，生产的话建议用cluster，由于数据只是在集群内部而后不用collect到driver端，预防driver内存撑爆