MapJoin的简单实现

MapJoin 适用于有一份数据较小的链接状况。作法是直接把该小份数据直接所有加载到内存当中,按连接关键字创建索引。而后大份数据就做为 MapTask 的输入,对 map()方法的每次输入都去内存当中直接去匹配链接。而后把链接结果按 key 输出,这种方法要使用 hadoop中的 DistributedCache 把小份数据分布到各个计算节点,每一个 maptask 执行任务的节点都须要加载该数据
相关文章
相关标签/搜索