Spark编程模型经典解析(一)

从Hadoop  MR到Spark编程 回顾hadoop -MR计算过程 1. 文件 经过 split,split的缘由:MapReduce是并行计算的,若是一个文件很大,500G的大小,作不了分片,那如何并行运行。因此要分红不少的split,每个split交给一个map来处理。缓存 2.  Map运行处理以后,存储在内存里面,内存满了,会刷到磁盘上造成文件。网络 3. 而后为了肯定map处理的结
相关文章
相关标签/搜索