畅聊Spark(一)简介

为什么要有Spark?         上面这张图是Hadoop的MapReduce编程模型的计算概要流程图。       每一次Map完了都把数据放到HDFS,Reduce阶段时在在从HDFS拉取,这个效率太慢了,而且如果有10个MapReduce的任务都是连续性呢?       第一个MapReduce的程序计算完,第二个MapReduce程序是依赖第一个,第三个是依赖第二个和第一个的部分数据
相关文章
相关标签/搜索