开发一款开源爬虫框架系列(五):爬虫架构的一些新思路

   爬虫开源项目地址:http://git.oschina.net/coliza/MongooCrawlergit 之前的思路是由客户端完成全部的下载网页,解析等功能,服务器端负责从内存队列中拿到数据并将获取的对象输出到存储层。如今发现一个很麻烦的问题,不一样的网站须要定制不一样的抓取策略,若是部署爬虫集群,那么假如我服务器 要修改解析策略或存储策略,客户端或者服务器只能重写、编译、部署,并且服
相关文章
相关标签/搜索