Spiderman 是一个Java开源Web数据抽取工具。它可以收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。git
项目结构:github
依赖关系以下:web
webmagic采用彻底模块化的设计,功能覆盖整个爬虫的生命周期(连接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。cookie
工程结构:多线程
工程间的关系:分布式
用总体正在进行中,目前积中在分布式爬虫阶段。ide
目前设计阶段的结构为:模块化
基本思想为:工具
WEB:界面及功能部分。oop
SAMPLES:示例部分。
CORE:须要调用的核心包。
RULES:规则处理部分。
PARSERS:解析部分。
PLUGIN:插件部分。
CDOOP:分布式处理部分。
ADAPTER:代理适配部分。
STORE:存储层。
目前项目的地址在: