大数据文件格式对比 Parquet Avro ORC 特点 格式 优劣势

文章目录 背景 Apache Avro Apache Parquet Apache ORC 总结 Ref 背景 在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。如何使用它为一个特定的用例和特定的数据管道。数据可以存储为可读的格式如JSON或CSV文件,但这并不意味着实际存储数据的最佳方式。 有三个文件格式用于Hadoop集群: Optimized Row Columnar (ORC) A
相关文章
相关标签/搜索