Crawlab是一个专一于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,很是适合对爬虫管理、爬虫工程化有要求的开发者及企业。git
对Crawlab还不了解的童鞋,请移步以前的文章:github
Crawlab的任务调度核心模块基于Celery,所以自然支持分布式爬虫、多节点抓取。微信
Crawlab的自定义爬虫可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以scrapyd为核心,所以只能支持scrapy框架的爬虫,而Crawlab不只支持scrapy,还支持其余框架的爬虫。框架
Crawlab在版本v0.2.1中新增了可配置爬虫功能,用户经过配置爬虫的抓取规则,不用写任何代码,就能够在1-3分钟内开发好一个集下载、解析、存储一体的常规爬虫。scrapy
在v0.2.2中,加入了自动提取列表字段规则,让用户可以一键提取匹配的列表字段,开发时间进一步下降到半分钟之内。所以Crawlab正在朝真正的“一键抓取”的目标迈进。分布式
Github: tikazyq/crawlabpost
若是您以为Crawlab对您的平常开发或公司有帮助,请加做者微信拉入开发交流群,你们一块儿交流关于Crawlab的使用和开发。优化