Map Join和Reduce Join的区别以及代码实现

MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。 如果数据量比较大,在内存进行连接操会发生OOM。mapreduce join可以用来解决大数据的连接。  1 思路  1.1 reduce join 在map阶段, 把关键字作为key输出,并在value中标记出数据是来自data1还是data2。因为在shuf
相关文章
相关标签/搜索