大数据文件格式简单介绍

大数据文件格式:parquet(column)、 Avro(Row)、 ORC(column) 相同点: 基于hadoop文件系统优化出的存储结构 提供高效的压缩 二进制存储格式 文件可分割 使用schema进行自我描述 列式存储:跳过不符合条件的数据,只读取需要的数据,减少了IO
相关文章
相关标签/搜索