spark十亿数据join优化

转:https://daizuozhuo.github.io/spark-join/java 最近在项目中用Spark join了几十亿的数据,在debug和不断优化性能中感受收获良多,特此记录一下。git 任务很简单,就是join两张表,表A ship有几千万行,包含每日寄出去的包裹的信息,表B item有几十亿行,包括全部商品的属性,咱们须要把商品的属性信息加到每一个包裹里面的商品上。gith
相关文章
相关标签/搜索