Heritrix个性化设置抓取目标

  本文是Heritrix的使用的高级篇,针对对Heritrix已经可以运行的码农朋友们!css

咱们在抓取网页的时候,网页的连接中每每会包含有js、css、图片、视频等文件,第一次执行抓取任务的时候,许多农民朋友们可能会发现抓取速度使人着急,多是因为抓取了太多的没必要要的数据文件,尤为是视频文件,少则几十兆,多则上百兆,这严重影响了咱们的抓取的速度,还有一些缓存文件,配置文件等等。html

  那么如何才能作到只抓取html网页呢?(这里暂且不讨论抓取抓取指定域名的html网页,在以后的文章中可能会列出来!)缓存

一、Modules——>Extractor

因为咱们只对html文件中的连接感兴趣,因此去除了如下三个extractor。ide

ExtractorCSSfetch

ExtractorJSspa

ExtractorSWFregexp

修改前:视频

修改后:htm

二、Submodules——>midfetch-decide-rules

添加org.archive.crawler.deciderules.FilterDecideRulemidfetch-decide-rulesblog

添加org.archive.crawler.filter.ContentTypeRegExpFilterorg.archive.crawler.deciderules.DecidingFilter

而后添加org.archive.crawler.deciderules.FetchStatusDecideRule到DecidingFilter

修改前:

修改后:

三、Setting——>midfetch-decide-rules

修改 regexp: 的值为“text/html*”【没有引号】

修改target-status的值为200

修改后为:

这样Heritrix就不会下载除了Content-Type为text/html而且Status Code为200以外的其余文件。

到此,设置就基本结束了!【本方法经实践检验】

===========================参考网址===========================

http://www.360doc.com/content/13/1122/14/13518188_331292907.shtml

===========================参考网址===========================

相关文章
相关标签/搜索