分布式计算框架MapReduce总结

时间 2021-01-12

原文原文链接

源自于Google的MapReduce论文，克隆复制发展而来优点：海量数据离线处理＆易开发＆易运行(与Spark比较还是弱很多) 缺点:难以满足实时流式计算在跑MapReduce时，前面我的几篇博客说的HDFS和YARN都必须先跑起来词频统计案例分析： wordcount: 统计文件中每个单词出现的次数需求：求wc 文件内容小：shell(wc_shell.sh) 2）文件内容很大： TB