开源爬虫Labin，Nutch，Neritrix介绍和对比

时间 2019-11-18

标签开源爬虫 labin nutch neritrix 介绍对比栏目网络爬虫繁體版

原文原文链接

crawlerhtml	开发java 语言c++	功能web 单一正则表达式	支持分布式数据库爬取apache	效率浏览器	镜像服务器保存cookie
Nutch	Java	×	√	低	×
Larbin	C++	√	×	高	√
Heritrix	Java	√	×	中	√

**************

Larbin
开发语言：C++
http://larbin.sourceforge.net/index-eng.html
larbin是个基于C++的web爬虫工具，拥有易于操做的界面，不过只能跑在LINUX下，在一台普通PC下larbin天天能够爬5百万个页面(固然啦，须要拥有良好的网络)

简介

Larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是可以跟踪页面的url进行扩展的抓取，最后为搜索引擎提供普遍的数据来源。
Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户本身完成。另外，如何存储到数据库以及创建索引的事情 larbin也不提供。
Latbin最初的设计也是依据设计简单可是高度可配置性的原则，所以咱们能够看到，一个简单的larbin的爬虫能够天天获取５００万的网页，很是高效。

功能
      1. larbin 获取单个、肯定网站的全部联结，甚至能够镜像一个网站。
      2. larbin创建 url 列表群，例如针对全部的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3 。
      3. larbin 定制后能够做为搜索引擎的信息的来源（例如能够将抓取下来的网页每2000一组存放在一系列的目录结构里面）。

问题
Labin的主要问题是，：

仅提供保存网页保存功能，没有进行进一步的网页解析；

不支持分布式系统；

功能相对简单，提供的配置项也不够多；

不支持网页自动重访，更新功能；

从2003年末之后，Labin已经放弃更新，目前处于荒芜长草的状态

**********

Nutch
开发语言：Java
http://lucene.apache.org/nutch/

简介：

Apache的子项目之一，属于Lucene项目下的子项目。

Nutch是一个基于Lucene，相似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，相似Eclipse的插件机制保证了系统的可客户化，并且很容易集成到本身的应用之中。
整体上Nutch能够分为2个部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据作成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引，二者都使用索引中的字段。抓取程序和搜索程序能够分别位于不一样的机器上。下面详细介绍一下抓取部分。

抓取部分：
抓取程序是被Nutch的抓取工具驱动的。这是一组工具，用来创建和维护几个不一样的数据结构： web database， a set of segments， and the index。下面逐个解释这三个不一样的数据结构：
    一、The web database，或者WebDB。这是一个特殊存储数据结构，用来映像被抓取网站数据的结构和属性的集合。WebDB 用来存储从抓取开始（包括从新抓取）的全部网站结构数据和属性。WebDB 只是被抓取程序使用，搜索程序并不使用它。WebDB 存储2种实体：页面和连接。页面表示网络上的一个网页，这个网页的Url做为标示被索引，同时创建一个对网页内容的MD5 哈希签名。跟网页相关的其它内容也被存储，包括：页面中的连接数量（外连接），页面抓取信息（在页面被重复抓取的状况下），还有表示页面级别的分数 score 。连接表示从一个网页的连接到其它网页的连接。所以 WebDB 能够说是一个网络图，节点是页面，连接是边。
    二、Segment 。这是网页的集合，而且它被索引。Segment的Fetchlist 是抓取程序使用的url列表，它是从 WebDB中生成的。Fetcher 的输出数据是从 fetchlist 中抓取的网页。Fetcher的输出数据先被反向索引，而后索引后的结果被存储在segment 中。 Segment的生命周期是有限制的，当下一轮抓取开始后它就没有用了。默认的从新抓取间隔是30天。所以删除超过这个时间期限的segment是能够的。并且也能够节省很多磁盘空间。Segment 的命名是日期加时间，所以很直观的能够看出他们的存活周期。
    三、The index。索引库是反向索引全部系统中被抓取的页面，它并不直接从页面反向索引产生，而是合并不少小的segment的索引产生的。Nutch 使用 Lucene 来创建索引，所以全部Lucene相关的工具 API 都用来创建索引库。须要说明的是Lucene的segment 的概念和Nutch的segment概念是彻底不一样的，不要混淆。简单来讲 Lucene 的 segment 是 Lucene 索引库的一部分，而Nutch 的Segment是WebDB中被抓取和索引的一部分。
抓取过程详解：

      抓取是一个循环的过程：抓取工具从WebDB中生成了一个 fetchlist 集合；抽取工具根据fetchlist从网络上下载网页内容；工具程序根据抽取工具发现的新连接更新WebDB；而后再生成新的fetchlist；周而复始。这个抓取循环在nutch中常常指： generate/fetch/update 循环。
    通常来讲同一域名下的 url 连接会被合成到同一个 fetchlist。这样作的考虑是：当同时使用多个工具抓取的时候，不会产生重复抓取的现象。Nutch 遵循 Robots Exclusion Protocol, 能够用robots.txt 定义保护私有网页数据不被抓去。
    上面这个抓取工具的组合是Nutch的最外层的，也能够直接使用更底层的工具，本身组合这些底层工具的执行顺序达到一样的结果。这是Nutch吸引人的地方。下面把上述过程分别详述一下，括号内就是底层工具的名字：
    一、建立一个新的WebDB (admin db -create)。
    二、把开始抓取的跟Url 放入WebDb (inject)。
    三、从WebDb的新 segment 中生成 fetchlist (generate)。
    四、根据 fetchlist 列表抓取网页的内容 (fetch)。
    五、根据抓取回来的网页连接url更新 WebDB (updatedb)。
    六、重复上面3-5个步骤直到到达指定的抓取层数。
    七、用计算出来的网页url权重 scores 更新 segments (updatesegs)。
    八、对抓取回来的网页创建索引(index)。
    九、在索引中消除重复的内容和重复的url (dedup)。
    十、合并多个索引到一个大索引，为搜索提供索引库(merge)。

*****************

Heritrix
开发语言：Java
http://crawler.archive.org/
Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。

简介

Heritrix与Nutch对比

和 Nutch。两者均为Java开源框架，Heritrix 是 SourceForge上的开源产品，Nutch为Apache的一个子项目，它们都称做网络爬虫/蜘蛛（ Web Crawler），它们实现的原理基本一致：深度遍历网站的资源，将这些资源抓取到本地，使用的方法都是分析网站每个有效的URI，并提交Http请求，从而得到相应结果，生成本地文件及相应的日志信息等。

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其余非文本内容。抓取并存储相关的内容。对内容来者不拒，不对页面进行内容上的修改。从新爬行对相同的URL不针对先前的进行替换。爬虫经过Web用户界面启动、监控、调整，容许弹性的定义要获取的URL。

Nutch和Heritrix的差别：

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌

Nutch 能够修剪内容，或者对内容格式进行转换。

Nutch 保存内容为数据库优化格式便于之后索引；刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。

Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。

Nutch 的定制能力不够强，不过如今已经有了必定改进。Heritrix 可控制的参数更多。

Heritrix提供的功能没有nutch多，有点整站下载的味道。既没有索引又没有解析，甚至对于重复爬取URL都处理不是很好。

Heritrix的功能强大可是配置起来却有点麻烦。

*********************

三者的比较
1、从功能方面来讲，Heritrix与Larbin的功能相似。都是一个纯粹的网络爬虫，提供网站的镜像下载。而Nutch是一个网络搜索引擎框架，爬取网页只是其功能的一部分。

2、从分布式处理来讲，Nutch支持分布式处理，而另外两个好像尚且尚未支持。

3、从爬取的网页存储方式来讲，Heritrix和 Larbin都是将爬取下来的内容保存为原始类型的内容。而Nutch是将内容保存到其特定格式的segment中去。

四，对于爬取下来的内容的处理来讲，Heritrix和 Larbin都是将爬取下来的内容不经处理直接保存为原始内容。而Nutch对文本进行了包括连接分析、正文提取、创建索引（Lucene索引）等处理。

五，从爬取的效率来讲，Larbin效率较高，由于其是使用c++实现的而且功能单一。

crawler	开发语言	功能单一	支持分布式爬取	效率	镜像保存
Nutch	Java	×	√	低	×
Larbin	C++	√	×	高	√
Heritrix	Java	√	×	中	√

-----------------------------------------------------------

其它一些开源爬虫汇总：

WebSPHINX
WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫做机器人或蜘蛛)是能够自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工做平台和WebSPHINX类包。
http://www.cs.cmu.edu/~rcm/websphinx/

WebLech
WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并可以尽量模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操做。
http://weblech.sourceforge.net/
Arale
Arale主要为我的使用而设计，而没有像其它爬虫同样是关注于页面索引。Arale可以下载整个web站点或来自web站点的某些资源。Arale还可以把动态页面映射成静态页面。
http://web.tiscali.it/_flat/arale.jsp.html

J-Spider
J-Spider:是一个彻底可配置和定制的Web Spider引擎.你能够利用它来检查网站的错误(内在的服务器错误等),网站内外部连接检查，分析网站的结构(可建立一个网站地图),下载整个Web站点，你还能够写一个JSpider插件来扩展你所须要的功能。
http://j-spider.sourceforge.net/

spindle
spindle 是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于建立索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目提供了一组JSP标签库使得那些基于JSP的站点不须要开发任何Java类就可以增长搜索功能。
http://www.bitmechanic.com/projects/spindle/

Arachnid
Arachnid: 是一个基于Java的web spider框架.它包含一个简单的HTML剖析器可以分析包含HTML内容的输入流.经过实现Arachnid的子类就可以开发一个简单的Web spiders并可以在Web站上的每一个页面被解析以后增长几行代码调用。 Arachnid的下载包中包含两个spider应用程序例子用于演示如何使用该框架。
http://arachnid.sourceforge.net/

LARM
LARM可以为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含可以为文件，数据库表格创建索引的方法和为Web站点建索引的爬虫。
http://larm.sourceforge.net/

JoBo
JoBo 是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优点是可以自动填充form(如：自动登陆)和使用cookies来处理session。JoBo还有灵活的下载规则(如：经过网页的URL，大小，MIME类型等)来限制下载。
http://www.matuschek.net/software/jobo/index.html

snoics-reptile
snoics -reptile是用纯Java开发的，用来进行网站镜像抓取的工具，可使用配制文件中提供的URL入口，把这个网站全部的能用浏览器经过GET的方式获取到的资源所有抓取到本地，包括网页和各类类型的文件，如：图片、flash、mp三、zip、rar、exe等文件。能够将整个网站完整地下传至硬盘内，并能保持原有的网站结构精确不变。只须要把抓取下来的网站放到web服务器(如：Apache)中，就能够实现完整的网站镜像。
http://www.blogjava.net/snoics

Web-Harvest
Web-Harvest是一个Java开源Web数据抽取工具。它可以收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操做。
http://web-harvest.sourceforge.net

spiderpy
spiderpy是一个基于Python编码的一个开源web爬虫工具，容许用户收集文件和搜索网站，并有一个可配置的界面。
http://pyspider.sourceforge.net/

The Spider Web Network Xoops Mod Team
pider Web Network Xoops Mod是一个Xoops下的模块，彻底由PHP语言实现。
http://www.tswn.com/

爬虫