Nutch的工作流程

时间 2021-07-10

原文原文链接

Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目