用Pig处理高压缩比数据

时间 2019-12-06

标签 pig 处理高压缩比数据繁體版

原文原文链接

最近遇到了一个神奇的问题。我有一个5M的数据，用pig处理很是慢。分析mapreduce日志，发现是第一个处理数据的mapper很是慢。为何呢？我一直找不到缘由，直到我偶然把这5M数据的生成方式改成非压缩后，我当即明白了：这5M的数据非压缩状况下有900M！java 也便是说，当第一个mapper把数据加载内存作解压后，一个5M的数据变成了900M。实际上在java对象中，磁盘上的900M加载的内

>>阅读原文<<