分布式计算框架MapReduce总结

源自于Google的MapReduce论文,克隆复制发展而来 优点:海量数据离线处理&易开发&易运行(与Spark比较还是弱很多) 缺点:难以满足实时流式计算 在跑MapReduce时,前面我的几篇博客说的HDFS和YARN都必须先跑起来 词频统计案例分析: wordcount: 统计文件中每个单词出现的次数 需求:求wc 文件内容小:shell(wc_shell.sh) 2)文件内容很大: TB
相关文章
相关标签/搜索