用Pig处理高压缩比数据

最近遇到了一个神奇的问题。我有一个5M的数据,用pig处理很是慢。分析mapreduce日志,发现是第一个处理数据的mapper很是慢。为何呢?我一直找不到缘由,直到我偶然把这5M数据的生成方式改成非压缩后,我当即明白了:这5M的数据非压缩状况下有900M!java 也便是说,当第一个mapper把数据加载内存作解压后,一个5M的数据变成了900M。实际上在java对象中,磁盘上的900M加载的内
相关文章
相关标签/搜索