Hive ORC和Parquet

相比传统数据库的行式存储引擎,列式存储引擎具备更高的压缩比,更少的IO操做,尤为是在数据列不少,但每次操做仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。数据库 目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,而且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的做用。apache 本文将重点讲解ORC文件存储格式,Parquet暂不深刻说明,后续抽时间
相关文章
相关标签/搜索