spark shuffle 详解

时间 2021-01-04

原文原文链接

众所周知，大数据领域相关问题，无非就是大数据存储和分布式计算。Hadoop有HDFS和MapReduce计算引擎，但是MapReduce用于批处理，相对来说处理大数据集是强项，并且所依赖的机器配置方面要求较低。而慢慢的被后期之秀spark给取缔，我认为两者的核心区别是 MapReduce不支持迭代计算，而spark支持，其实都是批处理的方式进行大数据的存储，spark没有大数据存