nutch1.6在本地模式和分布式模式下爬取过程

一、本地模式下nutch1.6爬取 1、创建两个目录,crawl目录存储爬取的数据,urls目录存储爬取的url,并在urls目录中创建一个seed.txt文件,写入需要爬取的url地址。 2、修改./nutch1.6/runtime/local/conf/regex-urlfilter.txt文件的最后一行内容: 将文件的最后一行“+.”改为“+^http://([a-z0-9]*\.)*nut
相关文章
相关标签/搜索