Hive之存储格式

常用的存储格式 1.textfile Hive数据表的默认格式,数据不做压缩,磁盘开销大,数据解析开销大。存储方式:行存储。 可以使用Gzip压缩算法,但压缩后的文件不支持split。 在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。 2.RCFile 存储方式:数据按行分块,每块按列存储。结合了行存储和列存储的优点: 首先,RCFi
相关文章
相关标签/搜索