sparkstreaming实时写入hive后合并小文件问题

今天主要来讲一下sparksql写入hive后小文件太多,影响查询性能的问题.在另一篇博客里面也稍微提到了一下,但仍是感受要单独说一下,首先咱们要知道hive里面文件的数量=executor-cores*num-executors*job数,因此若是咱们batchDuration的设置的比较小的话,天天在一个分区里面就会生成不少的小文件,咱们在hive里面查询的时候就会很是的影响性能,下面介绍两种
相关文章
相关标签/搜索