WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。我们先来看看两个非常优秀爬虫的设计。 Nutch Nutch由apache开源组织提供,主页:http://nutch.apache.org/ Nutch是目前最好的网络爬虫之一,Nutch分为内核和插件两个模块组成,内核控制整个爬取的逻辑,插件负责完成每个细节(与流程无关的细节)的实现。具体分工如下: 内核:控制爬虫按照 I
相关文章
相关标签/搜索