分布式爬虫技术架构

时间 2019-11-24

标签分布式爬虫技术架构栏目系统架构繁體版

原文原文链接

Spiderman

Spiderman 是一个Java开源Web数据抽取工具。它可以收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。git

项目结构：github

依赖关系以下：web

webmagic采用彻底模块化的设计，功能覆盖整个爬虫的生命周期(连接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。cookie

工程结构：多线程

工程间的关系：分布式

用总体正在进行中，目前积中在分布式爬虫阶段。ide

目前设计阶段的结构为：模块化

基本思想为：工具

WEB：界面及功能部分。oop

SAMPLES：示例部分。

CORE：须要调用的核心包。

RULES：规则处理部分。

PARSERS：解析部分。

PLUGIN：插件部分。

CDOOP：分布式处理部分。

ADAPTER：代理适配部分。

STORE：存储层。

目前项目的地址在：