分布式多爬虫系统——架构设计

前言: 在爬虫的开发过程当中,有些业务场景须要同时抓取几百个甚至上千个网站,此时就须要一个支持多爬虫的框架。在设计时应该要注意如下几点:web 代码复用,功能模块化。若是针对每一个网站都写一个完整的爬虫,那其中一定包含了许多重复的工做,不只开发效率不高,并且到后期整个爬虫项目会变得臃肿、难以管理。 易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只须要写少许 必要的内容(
相关文章
相关标签/搜索