Heritrix个性化设置抓取目标

时间 2019-11-20

标签 heritrix 个性化设置抓取目标繁體版

原文原文链接

　　本文是Heritrix的使用的高级篇，针对对Heritrix已经可以运行的码农朋友们！css

咱们在抓取网页的时候，网页的连接中每每会包含有js、css、图片、视频等文件，第一次执行抓取任务的时候，许多农民朋友们可能会发现抓取速度使人着急，多是因为抓取了太多的没必要要的数据文件，尤为是视频文件，少则几十兆，多则上百兆，这严重影响了咱们的抓取的速度，还有一些缓存文件，配置文件等等。html

　　那么如何才能作到只抓取html网页呢？（这里暂且不讨论抓取抓取指定域名的html网页，在以后的文章中可能会列出来！）缓存

一、Modules——>Extractor

因为咱们只对html文件中的连接感兴趣，因此去除了如下三个extractor。ide

ExtractorCSSfetch

ExtractorJSspa

ExtractorSWFregexp

修改前：视频

修改后：htm

添加org.archive.crawler.deciderules.FilterDecideRule到midfetch-decide-rulesblog

添加org.archive.crawler.filter.ContentTypeRegExpFilter和org.archive.crawler.deciderules.DecidingFilter

而后添加org.archive.crawler.deciderules.FetchStatusDecideRule到DecidingFilter

修改前：

修改后：

修改 regexp: 的值为“text/html*”【没有引号】

修改target-status的值为200

修改后为：

这样Heritrix就不会下载除了Content-Type为text/html而且Status Code为200以外的其余文件。

到此，设置就基本结束了！【本方法经实践检验】

===========================参考网址===========================

http://www.360doc.com/content/13/1122/14/13518188_331292907.shtml

===========================参考网址===========================