Crawlab自初版发布已经几个月了,其中经历了好几回迭代:版本从v0.1到了v0.3.0;后端语言从Python到了Golang;从最初使用Celery做为任务调度引擎,到本身开发分布式任务调度引擎;从只能运行自定义爬虫到能够运行可配置爬虫(虽然还没迁移到最新版本);从手动部署爬虫到自动部署爬虫;从本身搭建环境到Docker部署;从手动执行任务到定时任务;等等(详情见CHANGELOG)。在使用者们的反馈下,Crawlab爬虫平台也逐渐变得稳定和实用,可以真正帮助到有爬虫管理需求的用户。现在在Github上有近1k的star,相关社区(微信群、微信公众号)也创建起来,四分之一的用户表示已经将Crawlab应用于企业爬虫管理。能够看出,Crawlab是受开发者们关注和喜欢的。html
Github: github.com/tikazyq/cra…前端
对于通常的爬虫爱好者来讲,写一个单机爬虫脚本已经足够,并且Scrapy这样的优秀爬虫框架可以让开发者轻松调试、编写一个简单的爬虫,须要定时任务就直接上Crontab,分分钟搞定。然而,通常的企业对爬虫的要求相对较高,其中主要涉及一个问题,也就是规模(Scale)。固然,这里的规模是指大型规模。爬虫的规模分为两种:一种是爬虫须要抓取大量的数据(Volume),例如全网抓取淘宝的商品;另外一种是爬虫须要涵盖大量的网站(Coverage),例如搜索引擎。node
不一样的规模须要有不一样的架构策略(以下图):git
而爬虫管理平台就是针对状况(2)、(3)、(4)而存在的分布式管理平台,可以让用户轻松管理多个爬虫或多机运行的爬虫。github
Crawlab从诞生之初就解决了分布式爬虫问题,最先采用了Celery做为分布式任务调度引擎,以Redis做为消息队列,HTTP请求做为节点通讯媒介,简单地实现了分布式管理。但随着用户不断使用Crawlab,发现这样的方式并非很方便,用户须要指定节点的IP地址和API端口,并且还不能指定节点执行任务。由于各类问题,在最新版本v0.3.0
用Golang重构后端的时候,就将Celery弃用了,转而本身开发分布式节点的监控和通讯应用,这样更加灵活和高效。本文是核心原理介绍,下面将着重介绍Crawlab的分布式架构原理(Golang版本)。算法
Crawlab的总体架构以下图,由五大部分组成:数据库
以执行爬虫任务为例,它是Crawlab中常见的使用场景,咱们来看看它具体是如何工做的:json
以上就是执行爬虫任务的大体流程。固然,这还不是所有,咱们还须要考虑日志处理、并发执行、取消任务等细节问题。具体的处理信息,请查看相关文档和源代码。后端
总的来讲,能够将主节点看做是Crawlab总体架构的中控系统,理解为Crawlab的大脑;工做节点是实际干活的部分,是Crawlab的运动躯体;MongoDB和Redis是负责通讯交流的,能够看做Crawlab的血液和神经网络。这些模块一块儿构成了一个完整、自洽、相互协做的系统。安全
节点监控主要是经过Redis来完成的(以下图)。
工做节点会不断更新心跳信息在Redis上,利用HSET nodes <node_id> <msg>
,心跳信息<msg>
包含节点MAC地址,IP地址,当前时间戳。
主节点会周期性获取Redis上的工做节点心跳信息。若是有工做节点的时间戳在60秒以前,则考虑该节点为离线状态,会在Redis中删除该节点的信息,并在MongoDB中设置为"离线";若是时间戳在过去60秒以内,则保留该节点信息,在MongoDB中设置为"在线"。
这样,就作到了一个监控节点是否在线的节点注册系统。这样架构的好处在于,节点之间根本不用像HTTP、RPC那样IP或端口,只须要知道Redis的地址就能够完成节点注册和监控。所以,也就减小了用户配置节点的操做,简化了使用流程。同时,因为隐藏了IP地址和端口,也更为安全。另外,相较于Celery版本的监控,咱们去除了Flower服务,不用在服务中单独起一个Flower服务的进程,减小了开销。
下图是Crawlab UI界面上的节点之间的关系图(拓扑图)。
相较于一些常见的分布式架构,例如Zookeeper,Crawlab还存在一些不完善的地方。
高可用性(High Availability)是Crawlab暂时尚未作得很好的。例如,当主节点宕机的时候,整个系统就会瘫痪,由于主节点是Crawlab的大脑中枢,负责不少功能。若是主节点宕机,前端就没法获取API数据,任务没法调度,固然也没法监控节点了。虽然Zookeeper没有将可用性(Availability)作得很是完善,但其投票选举机制保证了其必定程度的高可用。若是Crawlab要改善这一点的话,会在主节点宕机后,用必定的方式选举出另外一个主节点,保证高可用。
若是仔细看上面的总体架构图的话,你可能会注意到Crawlab中通讯有两种。一种是同步信息(Sync via Msg),另外一种是派发任务(Assign Tasks)。这两种通讯分别叫即时通讯和延迟通讯。下面分别介绍。
即时通讯是指某节点A经过某种媒介向另外一节点B发送信息,取决因而否为双向通讯,节点B收到信息后可能会经过同一种媒介将信息回复给节点A。
Crawlab的即时通讯是经过Redis的PubSub来实现的(以下图)。
所谓PubSub,简单来讲是一个发布订阅模式。订阅者(Subscriber)会在Redis上订阅(Subscribe)一个通道,其余任何一个节点均可以做为发布者(Publisher)在该通道上发布(Publish)消息。
在Crawlab中,主节点会订阅nodes:master通道,其余节点若是须要向主节点发送消息,只须要向nodes:master
发布消息就能够了。同理,各工做节点会各自订阅一个属于本身的通道nodes:<node_id>
(node_id是MongoDB里的节点ID,是MongoDB ObjectId),若是须要给工做节点发送消息,只须要发布消息到该通道就能够了。
一个网络请求的简单过程以下:
<nodes:<node_id>
通道发布消息给相应的工做节点;<nodes:master>
通道发布给主节点;Crawlab的获取日志、获取系统信息、取消任务、告知节点获取爬虫文件都是经过即时通讯完成的。
而实现代码相对来讲有些复杂。下面是主节点的PubSub回调函数。
func MasterNodeCallback(channel string, msgStr string) {
// 反序列化
var msg NodeMessage
if err := json.Unmarshal([]byte(msgStr), &msg); err != nil {
log.Errorf(err.Error())
debug.PrintStack()
return
}
if msg.Type == constants.MsgTypeGetLog {
// 获取日志
fmt.Println(msg)
time.Sleep(10 * time.Millisecond)
ch := TaskLogChanMap.ChanBlocked(msg.TaskId)
ch <- msg.Log
} else if msg.Type == constants.MsgTypeGetSystemInfo {
// 获取系统信息
fmt.Println(msg)
time.Sleep(10 * time.Millisecond)
ch := SystemInfoChanMap.ChanBlocked(msg.NodeId)
sysInfoBytes, _ := json.Marshal(&msg.SysInfo)
ch <- string(sysInfoBytes)
}
}
复制代码
这里实际上是用msg.Type
来区分消息类别,若是要扩展的话须要写很多if/else
。工做节点的回调函数也须要写相似的逻辑。
这个可能跟HTTP请求和RPC通讯相较来讲麻烦一些。不过,这其实和WebSocket很是像(对WebSocket不了解的同窗能够看看韦世东最近的文章《开发者必知必会的 WebSocket 协议》),都须要在客户端和服务端定义回调函数。一个改进方法是不用if/else
来区分信息类别,转而用PubSub频道名称,监听多个频道。总之,具体实践中怎么选择,还须要考虑实际状况。
延迟通讯对即时性要求不高,不须要节点或客户端对请求即时回复。一般来讲,延迟通讯的实现方式有队列、轮询等方式。这样的方式不要求即时性。延迟通讯主要是用做须要长时间的操做,例如发送邮件、数据处理、构建应用等等。
Crawlab中的延迟通讯主要包含任务队列以及轮询,都是经过Redis来实现的。任务队列是用做爬虫任务执行:主节点接收抓取请求后,将执行任务的消息推到任务队列中,工做节点不断轮询任务队列,获取任务并执行(以下图)。Crawlab爬虫任务执行的详情请参见相关文档和源代码。
Crawlab的延迟通讯主要包括爬虫任务执行和爬虫部署。爬虫任务执行这里再也不赘述。下面简单介绍一下爬虫部署(流程以下图)。
整个爬虫部署的生命周期:
这样,全部爬虫将被周期性的部署在工做节点上。
在后续的开发中,Crawlab将会加入邮件通知、短信通知、微信推送等功能。而这些都是属于延迟通讯的范畴,主要实现方法无外乎队列和轮询。
下面将介绍一个多机爬虫的实际应用场景,帮助你们深刻理解Crawlab的分布式原理。
首先,你可能须要足够的网络带宽,由于须要抓取的网站上百了,不是简简单单的单机爬虫,你须要多台机器。这里只是简单介绍下拓扑架构,并不会详细介绍大规模爬虫的去重、反爬、容错等逻辑。以下图,每个工做节点能够限制抓取一部分网站,总共M个网站平均分配给N个工做节点。在Crawlab中就是用指定节点的方式了,这个不难。另外,你也能够经过随机分配的方式来派发任务,每个工做节点统计上也会均匀分配到任务,这其实也就是一个负载均衡(Load Balancing)的过程。
固然,你可能好奇上百个新闻网站是否是须要写上百个爬虫。对于这个问题,没有确切的准确回答。答案应该是“看状况”。对于自动提取字段的算法不够自信的开发者来讲,能够选择Crawlab的可配置爬虫(看这篇文章《我是如何在3分钟内开发完一个爬虫的》),这样的开发成本相对来讲比较小。可是对于已经有技术实力的能够写出很好的通用提取规则的选手来讲,只写一个通用爬虫就足够了(简单的列表页提取规则参考《爬虫平台Crawlab核心原理--自动提取字段算法》),抓取多个网站等于抓取一个网站,不过仍是须要部署在多个机器上,以求最大的带宽和计算资源。固然,无论是哪种,都绕不开去重、反爬、错误监控,不过这些不在本文讨论范围,网上有不少教程能够多学习一下。
若是您以为Crawlab对您的平常开发或公司有帮助,请加做者微信 tikazyq1 并注明"Crawlab",做者会将你拉入群。欢迎在Github上进行star,以及,若是遇到任何问题,请随时在Github上提issue。另外,欢迎您对Crawlab作开发贡献。
本篇文章由ArtiPub自动发布, ArtiPub让您的文章随处可阅