Webmagic源码分析之运行流程

Webmagic是Java中的一个爬虫开源框架,主要有四大核心组件,分别是:Downloader、PageProcessor、Scheduler、Pipeline,并有Spider进行管理。这四个组件分别对应了爬虫生命周期中的下载、处理、管理、持久化。同时还支持XPath、Jsoup、CSS选择器,方便咱们对抓取的页面进行解析。html     Webmagic的源码能够从github上pull下
相关文章
相关标签/搜索