大数据之hadoop面试题2

2.7.  用mapreduce来实现下面需求? 如今有10个文件夹,每一个文件夹都有1000000个url.如今让你找出top1000000url。 方法一: 运用2个job,第一个job直接用filesystem读取10个文件夹做为map输入,url作key,reduce计算url的sum, 下一个job map用url做key,运用sum做二次排序,reduce中取top10000000 1
相关文章
相关标签/搜索