Heritrix架构简述

本文的目的,其实是希望通过对heritrix架构的分析,了解如何实现一个网络爬虫。 Heritrix的架构如图: Web Administrative Console: 就是一个基于web的控制台。Heritrix内嵌了Jetty就是为了做这事。 CrawlOrder:这东西的名字有些奇怪。但其实就是一个crawl任务的配置。它是一个基于XML的object,Heritrix根据CrawlOrde
相关文章
相关标签/搜索