Hadoop存储成本管理的具体方法

Hadoop存储成本管理的具体方法 |0x00 数据压缩 数据压缩是在以Hadoop为主要构架的数据仓库中常见的数据处理方式,一方面适当的压缩数据,能够有效的提高MR计算任务时数据传输的效率,另一方面由于HDFS自身的三备份策略,导致数据存在比较大的冗余,通过压缩能够降低存储的成本。 在进行数据压缩前,需要考虑如下几方面的事情: 所采用的的压缩算法是否支持文件的分片读取,是否支持MR的并行读取;
相关文章
相关标签/搜索