spark-大表join优化方案

数据量: 1~2G左右的表与3~4T的大表进行Joinweb 拆分 将任务数据分为多个结果RDD,将各个RDD的数据写入临时的hdfs目录,最后合并svg 取所需的字段和数据,并去重,减小data shuffle的规模优化 调整并行度和shuffle参数spa spark-submit 参数code #提升shuffle阶段的任务并行度,下降单个任务的内存占用 --conf spark.defau
相关文章
相关标签/搜索