企业自有数据格式杂乱,MapReduce如何搞定?

本文作为《Hadoop从入门到精通》大型专题第三章的最后一篇文章,主要介绍了SequenceFile和Avro之外的其它数据格式,以及与MapReduce的兼容性,并介绍了企业常用的自定义数据格式或CSV格式如何作为MapReduce作业输入等内容。 3.4 柱状存储 当数据写入I/O设备(比如文件或关系数据库中的表)时,布局该数据的常见方式是基于行,这意味着第一行的所有字段将首先被写入,紧接着是
相关文章
相关标签/搜索