分布式网络爬虫架构-技术选型

   分布式爬虫:Nutch,主要依赖Hadoop,存储于Mysql,Hbase,Hdfs等。    单机爬虫:Crawler4j、WebMagic、WebCollector    WebMagic ,若分布式,须要集成插件webmagic-extension,经过redis来存储URL。              webmagic的使用文档:http://webmagic.io/docs/htm
相关文章
相关标签/搜索