spark中join不产生shuffle的操做方式

时间 2019-12-06

原文原文链接

（注：来源，spark大数据商业实战三部曲）算法在大数据处理场景中，多表join是常见的一类运算。为了便于求解，一般会将多表Join问题转为多个两表链接的问题。两表Join的实现算法很是多，通常咱们会根据两表的数据特色选取不一样的Join算法，其中，最经常使用的两个算法是map-side join和reduce-side join。map-side join也就是join不产生shuffle。a