MapReduce的Map Size Join以及Distributed Cache

  首先介绍Distributed Cache(分布式缓存),主要功能是把DataNode(客户端)一些小的文件送到DataNode上。 1. 通过job.addCacheFile(new Path(filename).toUri) 2.通过job.addCacheFile(new URI("xx/xxx/xxx/xx.json#customer_type")) 通过1和2来传过去(都是URI 就
相关文章
相关标签/搜索