关于hive当中的map输入数据和reduce输出数据的合并。

最近在做要执行很复杂的sql.然后在文件输出的时候出现了一堆小文件: 为啥要对小文件进行合并一句话总结为:文件数目过多,增加namenode的压力。因为每一个文件的元数据信息都是存在namenode上面的。所以要减少小文件的数据量。 同时也是降低下一个程序处理这些小文件,启动和小文件一样数量的map数。增加jvm的压力。 从两方面出发进行控制hive最终的文件大小: (1)从数据的文件大小控制,也
相关文章
相关标签/搜索