nutch使用入门

   基本概念:数据库    crawldb,nutch所处理的全部url信息,包括是否被fetch过,以及url被fetch时间。    linkdb,url links,包括源url和连接文本信息    segments集合,每个segment是一组fetched的urls单元,segments包括如下子目录:                1. crawl_generate, 将要被抓取 u
相关文章
相关标签/搜索