开发一款开源爬虫框架系列（五）：爬虫架构的一些新思路

时间 2019-12-07

原文原文链接

爬虫开源项目地址：http://git.oschina.net/coliza/MongooCrawlergit 之前的思路是由客户端完成全部的下载网页，解析等功能，服务器端负责从内存队列中拿到数据并将获取的对象输出到存储层。如今发现一个很麻烦的问题，不一样的网站须要定制不一样的抓取策略，若是部署爬虫集群，那么假如我服务器要修改解析策略或存储策略，客户端或者服务器只能重写、编译、部署，并且服

>>阅读原文<<