数据仓库系列(18):存储成本管理

(一)数据压缩 数据压缩是在以Hadoop为主要构架的数据仓库中常见的数据处理方式,一方面适当的压缩数据,可以有效的提升MR计算任务时数据传输的效率,另外一方面因为HDFS自身的三备份策略,致使数据存在比较大的冗余,经过压缩可以下降存储的成本。算法 在进行数据压缩前,须要考虑以下几方面的事情:app 1. 所采用的的压缩算法是否支持文件的分片读取,是否支持MR的并行读取;框架 2. 压缩算法的I/
相关文章
相关标签/搜索