MapReduce实现之Reduce端重分区Join操作优化!

在前一篇文章中(链接参加文末),我们介绍了map端Join操作的几大方法。一般情况下,我会推荐企业选择map端的Join操作,这可以节省不小的成本。但是,如果数据集过于庞大以至于没有合适的map端连接方法适用,则需要使用MapReduce中的shuffle对数据进行排序和连接,并考虑选择Reduce端的Join操作。 一、重分区Join操作(Reduce端) 本文介绍的第一种方法是最基本的重分区J
相关文章
相关标签/搜索