hive小文件合并

    hive仓库表数据最终是存储在HDFS上,因为Hadoop的特性,对大文件的处理很是高效。并且大文件能够减小文件元数据信息,减轻NameNode的存储压力。可是在数据仓库中,越是上层的表汇总程度就越高,数据量也就越小,并且这些表一般会有日期分区,随着时间的推移,HDFS的文件数目就会逐步增长。node 1、小文件带来的问题sql HDFS的文件包好数据块和元信息,其中元信息包括位置、大小、
相关文章
相关标签/搜索