nutch 执行流程以及简介

     Nutch体系流程图:          第一步:generator差生抓取列表,在generator产生抓取列表的过程中,会生成crawl_generator文件夹。     第二步:fetcher 从网上抓取网页,生成crawl_fetch以及content,content抓取下来的网页的源代码二进制的内容,crawl_fetch,每一个抓取URL的状态。     第三步:对抓取得网
相关文章
相关标签/搜索