heritrix 3.2.0 详解 1 -- 环境搭建

heritrix做为一个比较经典的开源爬虫,写这篇文章目的是由于,3.X以后的heritrix的介绍以及配置的文章比较少了。 java

heritrix 3.x 之后使用maven 2配置jar包引用,可是老是有好多包无法从maven库下载。因此,这里讲的环境搭建直接使用了编译好的工程来作,heritrix-3.2.0-dist.tar.gz以及源码压缩包heritrix-3.2.0-src.tar.gz git

 

具体方法以下: web

新建java工程(非maven) tomcat


将heritrix-3.2.0-dist.tar.gz解压放到工程目录
maven

添加源代码引用,使用heritrix-3.2.0-src.zip: spa



 


 尝试启动heritrix,heritrix内核使用jetty因此不须要依附tomcat或者其余web容器。 code

入口类是这个org.archive.crawler.Heritrix blog



 
 

 启动成功: ip

Oracle Corporation Java(TM) SE Runtime Environment 1.7.0_55-b13
Using ad-hoc HTTPS certificate with fingerprint...
SHA1:7C:99:FC:BC:62:13:DD:F3:B8:24:2F:EF:B7:60:0E:E2:AF:A1:13:8E
Verify in browser before accepting exception.
2014-07-11 01:54:31.408 警告 thread-1 org.archive.crawler.framework.Engine.findJobConfigs() invalid job directory: .\jobs\.gitignore where job expected from: .\jobs\.gitignore
2014-07-11 01:54:31.550:INFO::Logging to STDERR via org.mortbay.log.StdErrLog
2014-07-11 01:54:31.552:INFO::jetty-6.1.26
2014-07-11 01:54:31.753:INFO::Started SslSocketConnector@localhost:9095
engine listening at port 9095
operator login set per command-line
NOTE: We recommend a longer, stronger password, especially if your web 
interface will be internet-accessible.
Heritrix version: 3.2.0

请求: https://localhost:9095/ ci



 如今能够正常使用了。

heritrix 3.2.0 dist 包下载见http://mitchz.iteye.com/blog/2088134

相关文章
相关标签/搜索