Spark基础及架构

为什么使用Spark (1)MapReduce编程模型的局限性 1、繁杂 只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码 2、处理效率低: Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据 任务调度与启动开销大 3、不适合迭代处理、交互式处理和流式处理 (2)Spark是类Hadoop MapReduce的通用并行框架 1、Job中间输出结果可以保存在内
相关文章
相关标签/搜索