web爬虫

时间 2019-11-21

标签 web 爬虫栏目 HTML 繁體版

原文原文链接

web爬虫

概览web爬虫

web爬虫主要功能是从web中发现，下载以及存储内容。普遍应用于各类搜索引擎中。java

一个典型的web爬虫主要由如下的部分组成：web

能被爬虫识别的URL库。
文档下载模块，主要用于从web中下载内容。
文档解析模块，用于解析下载文档中的内容，如解析HTML,PDF,Word等等。这个模块还要提取网页中的URL和一些对于索引有用的数据。
存储文档的元数据以及内容的库。
规范化URL模块，把URL转成标准的格式。
URL过滤器，爬虫能够过滤掉不须要的URL。

设计与实现上述模块，主要取决于你的爬虫到底要爬取什么以及要抓取的范围。最简单的例子是从一个已知的站点抓取一些网页，这个爬虫代码用一页纸就能够写完。互联网应用中，可能会碰到这种十分简单的需求，可是若是要实现一个爬取大量文档的爬虫，就不是那么简单了。通常来讲这个爬虫就是N个应用组成，而且难点是基于分布式的。

爬虫的两个阶段

一个典型的爬虫主要有以下两个阶段apache

URL库初始化而后开始爬取。
爬虫读取没有访问过的URL，来肯定它的工做范围。

对于要抓取的URL，要进行以下的不重

获取URL的内容
解析内容，获取URL以及所需的数据。
存储有价值的数据。
规范化新抓取的URL。
过滤掉不须要爬去的URL。
把要抓取的URL更新到URL库中。
重复步骤2，直到抓取的网页深度完毕为止。

从广度进行分类的话，爬虫有两类。通用型和集中型。通用型是采集全部能解析的文档。它们主要经过URL过滤技术来实现这一过程。而集中型爬虫主要爬取特定内容的文档，如爬取sina博客，格式为固定内容也是咱们感兴趣的。

幸运的是，有开源的爬虫可使用

在java中，nutch和heritrix都提供了爬虫的实现。Nutch是apache lucene的子项目，地址是http://lucene.apache.org/nutch/。这个项目很是稳定，而且文档丰富。Nutch把多个网页存储在一个文件中。对于大的爬虫来讲，这么下降I/O读写，性能更加优秀。分布式

Heritrix是互联网存档的web爬虫。项目地址为http://crawler.archive.org/。Heritrix专一于大型爬虫的实现。许可证为LGPL。性能

另外提一下，还有一个项目值得关注，那就是apache tika。项目地址为http://tika.apache.org/。tika使用解析器从文档中发现以及提取元数据和文本内容。搜索引擎