sparkstreaming实时写入hive后合并小文件问题

时间 2019-12-15

标签 sparkstreaming 实时写入 hive 合并文件问题栏目 Hadoop 繁體版

原文原文链接

今天主要来讲一下sparksql写入hive后小文件太多,影响查询性能的问题.在另一篇博客里面也稍微提到了一下,但仍是感受要单独说一下,首先咱们要知道hive里面文件的数量=executor-cores*num-executors*job数,因此若是咱们batchDuration的设置的比较小的话,天天在一个分区里面就会生成不少的小文件,咱们在hive里面查询的时候就会很是的影响性能,下面介绍两种

>>阅读原文<<