hadoop文件格式和压缩算法

需要考虑的因素 文件格式对存储空间利用率, 程序性能都有很大的影响. 具体表现在: 文件和压缩算法的组合是否支持可分片, MapReduce在读取数据的时候需要并行, 这就要求压缩后的文件可以分片读取. 在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块
相关文章
相关标签/搜索