spark二次排序

通常的二次排序,能够参考https://www.iteblog.com/archives/1819.html这篇文章,可是他的这种方式有问题。在这块代码:html item._2.toList.sortWith(_.toInt<_.toInt) 若是数据量很是大的话,会所有加在到内存中,容易形成内存溢出。web 在spark中能够使用repartitionAndSortWithinPartitio
相关文章
相关标签/搜索