Cloudera和Twitter将Parquet带入Hadoop领域

Cloudera与Twitter携手合作,为Hadoop开源了一种新的列式存储格式,称为Parquet。 二人说,由 Github托管的项目 旨在为 Hadoop生态系统的任何齿轮部分 提供“ 压缩的,高效的列式数据表示”,这意味着Parquet与语言和数据模型无关。 像Impala和Apache Drill等新兴项目一样, Parquet大量借鉴了Google在2010年发表的研究论文 Drem
相关文章
相关标签/搜索