hive存储格式优化调研报告

写在前面: hive表的源文件存储格式有以下几类:text 、sequence、parquet、rc、orc。下面试着从写入时间、压缩比、查询速度、表结构修改几个方面对上述存储方式进行对比说明。 由于orc是对rc格式的改进,各方面相对于rc都有很好的优化和提升,因此暂时不对rc格式进行测试。 新增了两个关于parquet的对比格式。其中,parquet_gzip是基于gzip压缩的parquet
相关文章
相关标签/搜索