用淘宝Fourinone实现Hadoop经典实例wordcount

不少人是经过wordcount入门分布式并行计算, 该demo演示了Hadoop的经典实例wordcount的实现html

输入数据:n个数据文件,每一个1g大小,为了方面统计,每一个文件的数据由“aaa bbb ... ccc”(由空格分割的1k单词组)不断复制组成。分布式

输出数据:输出这n*1g个数据文件中的每一个单词总数oop

fourinone简单实现思路,假设有n台计算机,将这n个1g数据文件放置在每台计算机上,每台计算机各自统计1g数据,而后合并获得结果htm

WordcountCT:为一个工头实现,它把须要处理的数据文件名称发给各个工人,而后用一个HashMap<String,Integer> wordcount的map用来装结果ip

WordcountWK:为一个工人实现,它按照每次读取8m的方式处理文件数据,将文件大小除以8m获得总次数,每次处理过程将字符串进行空格拆分,而后放入本地一个map里,完成后将此map发给工头hadoop

ParkServerDemo: 分布式计算过程的协同服务park开发

运行步骤:
一、启动ParkServerDemo(它的IP端口已经在配置文件的PARK部分的SERVERS指定)
二、运行WordcountWK, 经过传入不一样的端口指定多个Worker,这里假设在同机演示,ip设置为localhost
三、运行WordcountCT,传入文件路径(假设多个工人处理相同数据文件)字符串

思惟发散:若是将以上实现部署到分布式环境里,它是1*n的并行计算模式,也就是每台机器一个计算实例,fourinone能够支持充分利用一台机器的并行计算能力,能够进行n*n的并行计算模式,好比,每台机器4个实例,每一个只须要计算256m,总共1g,这样总体的速度会大幅上升,如下是就wordcount和hadoop的运行对比结果:
部署

demo源码和开发包下载:
http://www.skycn.com/soft/68321.htmlget

相关文章
相关标签/搜索