Pig 处理大量的小文件

Mapreduce job很是合适处理大文件,不善于处理大量的小文件。在处理大量小文件的时候,由于一个mapperjob须要的数据几乎所有来自网络,创建链接和传递数据的开销很大,因此致使job运行的时间变长,时间效率下降。同时大量的小文件会占用不少的namespace。java 因此在pig中要避免出现大量的小文件。但有时候这样的现象常常出现,尤为是当咱们须要从一大堆数据中抽取几列数据做分析的时候
相关文章
相关标签/搜索