spark 调优:控制输出文件的个数

DataFrame输出结果保存为文件时,尤为是根据某个条件分区时,能够控制输出文件的个数,从而减小小文件的个数spa DataFrame..coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("分区条件列名").save("路径")orm 这里coalesce指定输出文件个数it
相关文章
相关标签/搜索