Spark map-side-join 关联优化

将多份数据进行关联是数据处理过程当中很是广泛的用法,不过在分布式计算系统中,这个问题每每会变的很是麻烦,由于框架提供的 join 操做通常会将全部数据根据 key 发送到全部的 reduce 分区中去,也就是 shuffle 的过程。形成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程通常被称为 reduce-side-join。java 若是其中有张表较小的话,咱们则能够本身实如今 map
相关文章
相关标签/搜索