Spark 数据全局排序实现以及RangePartitioner的使用示例

时间 2019-12-05

标签 spark 数据全局排序实现以及 rangepartitioner 使用示例栏目 Spark 繁體版

原文原文链接

使用Java 随机数类随机生成0到Integer.MAX_VALUE之间的10GB文件，而后使用Spark计算框架进行全局排序。html 实现思路：能够局部排序(局部数据是全局数据的某一个范围)最后合并到全同一个文件，保证全局有序，这样能够设置一个reduce任务实现，可是对于更大量的数据容易出现OOM。若是不合并到同一个文件的话，能够将每个分区有序的数据输出到磁盘。最后借鉴Kafka的数据管理方

>>阅读原文<<