Hive小文件合并

Hive的后端存储是HDFS,它对大文件的处理是很是高效的,若是合理配置文件系统的块大小,NameNode能够支持很大的数据量。可是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。并且这些表一般会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增长。 小文件带来的问题 关于这个问题的阐述能够读一读Cloudera的这篇文章。简单来讲,HDFS的文件元信息,包括位置、大小、分块
相关文章
相关标签/搜索