Spark 数据全局排序实现以及RangePartitioner的使用示例

使用Java 随机数类随机生成0到Integer.MAX_VALUE之间的10GB文件,而后使用Spark计算框架进行全局排序。html 实现思路:能够局部排序(局部数据是全局数据的某一个范围)最后合并到全同一个文件,保证全局有序,这样能够设置一个reduce任务实现,可是对于更大量的数据容易出现OOM。若是不合并到同一个文件的话,能够将每个分区有序的数据输出到磁盘。最后借鉴Kafka的数据管理方
相关文章
相关标签/搜索