hadoop join之map side join

在本例中,咱们仍然采用上一例中的数据文件。之因此存在reduce side join,是由于在map阶段不能获取全部须要的join字段,即:同一个key对应的字段可能位于不一样map中。Reduce side join是很是低效的,由于shuffle阶段要进行大量的数据传输。Map side join是针对如下场景进行的优化:两个待链接表中,有一个表很是大,而另外一个表很是小,以致于小表能够直接存
相关文章
相关标签/搜索