Spark TeraSort 实现与调优

TeraSort简介 TeraSort是为Hadoop参加Sort Benchmark而开发的程序包。其中包含3个程序:html TeraGen:用来生成测试数据; TeraSort:用来对生成的测试数据进行排序; TeraValidate:用来校验排序结果的正确性; Spark的TeraSort实现 参考ehiggs/spark-terasort以及RDD#sortBy的代码,我本身实现了一个S
相关文章
相关标签/搜索