如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题

时间 2019-12-07

标签如何应对 sparksql dataframe 保存 hdfs 出现过多文件问题栏目 Spark 繁體版

原文原文链接

缘由就不解释了，总之是由于多线程并行往hdfs写形成的（由于每一个DataFrame/RDD分红若干个Partition，这些partition能够被并行处理）。多线程其结果就是一个存下来的文件，实际上是hdfs中一个目录，在这个目录下才是众多partition对应的文件，最坏的状况是出现好多size为0的文件。函数若是确实想避免小文件，能够在save以前把DaraFrame的partitio

>>阅读原文<<