一个小型的网页抓取系统的架构设计

一个小型的网页抓取系统的架构设计              网页抓取服务是互联网中的经常使用服务。在搜索引擎中spider(网页抓取爬虫)是必需的核心服务。搜索引擎的衡量指标“多、快、准、新”四个指标中,多、快、新都是对spider的要求。搜索引擎公司比方google、baidu都维护者自己负责的spider系统。 当然他们的系统非常复杂,在这里我们介绍一个小型的网页抓取系统的架构,目标是高速的抓
相关文章
相关标签/搜索