MapReduce排序过程详解

时间 2019-12-04

原文原文链接

Hadoop、Spark等分布式数据处理框架在宣传本身的性能时大都以排序效果来作比较，各类类别的Sort Benchmark已成为行业基准测试。之因此选择排序是由于排序的核心是shuffle操做，数据的传输会横跨集群中全部主机，Shuffle基本支持了全部的分布式数据处理负载。下面就来详细分析一下使用mapreduce实现排序的基本过程。先看一些准备知识。html MapReduce中的数据流动