【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂(改)

 

“决胜云计算大数据时代”网络

Spark亚太研究院100期公益大讲堂 【第18期互动问答分享】app

 

Q1:Master和Driver的是同一个东西吗?框架

  • 二者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor经过多线的方式处理任务的; ide

  • Master位于集群的管理节点,通常和 NameNode在同一个节点上;大数据

  • Driver通常都位于客户机上,客户机通常都不属于集群,可是和集群在同一个网络环境下,由于客户机中的Driver要和集群中的Executor频繁的交互;this

 

Q2:Standalone和Yarn之间如何选择云计算

  • Standalone和Yarn都是用于资源管理的系统,Standalone是专门为Spark打造的资源管理和分配方式,是轻量级的,而Yarn是大数据通用的资源管理框架,不只能够用于管理Spark顶点资源分配,也能够用于管理实现了Yarn的其它计算平台的资源管理和分配; spa

  • 若是在生产系统中有多套计算框架 ,例如Spark、MapReduce、Mahout并存,建议使用Yarn或者Mesos进行资源统一的管理和调度;若是只使用Spark的话,建议使用Standalone就足够了,Yarn比较消耗资源;ip

Q3:Spark 的HA怎么处理的? 资源

  • 对于Master的HA,在Standalone模式下,Worker节点自动是HA的,对于Master的HA,通常采用Zookeeper;

  • Utilizing ZooKeeper to provide leader election and some state storage, you can launch multiple Masters in your cluster connected to the same ZooKeeper instance. One will be elected “leader” and the others will remain in standby mode. If the current leader dies, another Master will be elected, recover the old Master’s state, and then resume scheduling. The entire recovery process (from the time the the first leader goes down) should take between 1 and 2 minutes. Note that this delay only affects scheduling new applications – applications that were already running during Master failover are unaffected

  • 对于Yarn和Mesos模式,ResourceManager通常也会采用ZooKeeper进行HA;

相关文章
相关标签/搜索