spark on yarn做业执行流程

Spark是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient Distributed Datasets),提供了比MapReduce丰富的模型,能够快速在内存中对数据集进行屡次迭代,来支持复杂的数据挖掘算法和图形计算算法。算法 Spark 的计算调度方式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone方式性能与稳定性都获得了提高
相关文章
相关标签/搜索