深入学习heritrix---体系结构(Overview of the crawler)

Heritrix采用了模块化的设计,它由一些核心类(core classes)和可插件模块(pluggable modules)构成。 核心类可以配置,但不能被覆盖,插件模块可以被由第三方模块取代。 (一)heritrix的体系结构图:   (二)架构分析 CrawlController(下载控制器) 整个下载过程的总的控制者,整个抓取工作的起点,决定整个抓取任务的开始和结束。从Frontier获
相关文章
相关标签/搜索