Spark 小文件合并优化实践

文章目录 背景 一些尝试 MergeTable 性能优化 后记 对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。node 背景 此文是关于公司在 Delta Lake 上线以前对Spark任务写入数据产生碎片文件优化的一些实践。web 造成缘由 数据在流转过程当中经历 filter/shuffle 等过程后,开发人员难以评估做业写出的数据量。即便使用了 Spark 提
相关文章
相关标签/搜索