文章大部分引至:http://jolestar.com/etcd-architecture/java
Etcd 按照官方介绍node
Etcd is a distributed, consistent key-value store for shared configuration and service discoverygit
是一个分布式的,一致的 key-value 存储,主要用途是共享配置和服务发现。Etcd 已经在不少分布式系统中获得普遍的使用,本文的架构与实现部分主要解答如下问题:github
全部的分布式系统,都面临的一个问题是多个节点之间的数据共享问题,这个和团队协做的道理是同样的,成员能够分头干活,但老是须要共享一些必须的信息,好比谁是 leader, 都有哪些成员,依赖任务之间的顺序协调等。因此分布式系统要么本身实现一个可靠的共享存储来同步信息(好比 Elasticsearch ),要么依赖一个可靠的共享存储服务,而 Etcd 就是这样一个服务。golang
Etcd 主要提供如下能力,已经熟悉 Etcd 的读者能够略过本段。docker
更详细的使用场景不在这里描述,有兴趣的能够参看文末infoq的一篇文章。apache
说到这个就不得不提及raft协议。但这篇文章不是专门分析raft的,篇幅所限,不能详细分析,有兴趣的建议看raft协议的一个动画。便于看后面的文章,我这里简单作个总结:json
Etcd 实现raft的时候,充分利用了go语言CSP并发模型和chan的魔法,想更进行一步了解的能够去看源码,这里只简单分析下它的wal日志。后端
wal日志是二进制的,解析出来后是以上数据结构LogEntry。其中第一个字段type,只有两种,一种是0表示Normal,1表示ConfChange(ConfChange表示 Etcd 自己的配置变动同步,好比有新的节点加入等)。第二个字段是term,每一个term表明一个主节点的任期,每次主节点变动term就会变化。第三个字段是index,这个序号是严格有序递增的,表明变动序号。第四个字段是二进制的data,将raft request对象的pb结构整个保存下。Etcd 源码下有个tools/etcd-dump-logs,能够将wal日志dump成文本查看,能够协助分析raft协议。网络
raft协议自己不关心应用数据,也就是data中的部分,一致性都经过同步wal日志来实现,每一个节点将从主节点收到的data apply到本地的存储,raft只关心日志的同步状态,若是本地存储实现的有bug,好比没有正确的将data apply到本地,也可能会致使数据不一致。
Etcd v2 和 v3 本质上是共享同一套 raft 协议代码的两个独立的应用,接口不同,存储不同,数据互相隔离。也就是说若是从 Etcd v2 升级到 Etcd v3,原来v2 的数据仍是只能用 v2 的接口访问,v3 的接口建立的数据也只能访问经过 v3 的接口访问。因此咱们按照 v2 和 v3 分别分析。
Etcd v2 是个纯内存的实现,并未实时将数据写入到磁盘,持久化机制很简单,就是将store整合序列化成json写入文件。数据在内存中是一个简单的树结构。好比如下数据存储到 Etcd 中的结构就如图所示。
/nodes/1/name node1
/nodes/1/ip 192.168.1.1
store中有一个全局的currentIndex,每次变动,index会加1.而后每一个event都会关联到currentIndex.
当客户端调用watch接口(参数中增长 wait参数)时,若是请求参数中有waitIndex,而且waitIndex 小于 currentIndex,则从 EventHistroy 表中查询index小于等于waitIndex,而且和watch key 匹配的 event,若是有数据,则直接返回。若是历史表中没有或者请求没有带 waitIndex,则放入WatchHub中,每一个key会关联一个watcher列表。 当有变动操做时,变动生成的event会放入EventHistroy表中,同时通知和该key相关的watcher。
这里有几个影响使用的细节问题:
从而能够看出,Etcd v2 的一些限制:
Etcd v3 将watch和store拆开实现,咱们先分析下store的实现。
Etcd v3 store 分为两部分,一部分是内存中的索引,kvindex,是基于google开源的一个golang的btree实现的,另一部分是后端存储。按照它的设计,backend能够对接多种存储,当前使用的boltdb。boltdb是一个单机的支持事务的kv存储,Etcd 的事务是基于boltdb的事务实现的。Etcd 在boltdb中存储的key是reversion,value是 Etcd 本身的key-value组合,也就是说 Etcd 会在boltdb中把每一个版本都保存下,从而实现了多版本机制。
举个例子: 用etcdctl经过批量接口写入两条记录:
etcdctl txn <<<'
put key1 "v1"
put key2 "v2"
'
再经过批量接口更新这两条记录:
etcdctl txn <<<'
put key1 "v12"
put key2 "v22"
'
boltdb中其实有了4条数据:
rev={3 0}, key=key1, value="v1"
rev={3 1}, key=key2, value="v2"
rev={4 0}, key=key1, value="v12"
rev={4 1}, key=key2, value="v22"
reversion主要由两部分组成,第一部分main rev,每次事务进行加一,第二部分sub rev,同一个事务中的每次操做加一。如上示例,第一次操做的main rev是3,第二次是4。固然这种机制你们想到的第一个问题就是空间问题,因此 Etcd 提供了命令和设置选项来控制compact,同时支持put操做的参数来精确控制某个key的历史版本数。
了解了 Etcd 的磁盘存储,能够看出若是要从boltdb中查询数据,必须经过reversion,但客户端都是经过key来查询value,因此 Etcd 的内存kvindex保存的就是key和reversion以前的映射关系,用来加速查询。
而后咱们再分析下watch机制的实现。Etcd v3 的watch机制支持watch某个固定的key,也支持watch一个范围(能够用于模拟目录的结构的watch),因此 watchGroup 包含两种watcher,一种是 key watchers,数据结构是每一个key对应一组watcher,另一种是 range watchers, 数据结构是一个 IntervalTree(不熟悉的参看文文末连接),方便经过区间查找到对应的watcher。
同时,每一个 WatchableStore 包含两种 watcherGroup,一种是synced,一种是unsynced,前者表示该group的watcher数据都已经同步完毕,在等待新的变动,后者表示该group的watcher数据同步落后于当前最新变动,还在追赶。
当 Etcd 收到客户端的watch请求,若是请求携带了revision参数,则比较请求的revision和store当前的revision,若是大于当前revision,则放入synced组中,不然放入unsynced组。同时 Etcd 会启动一个后台的goroutine持续同步unsynced的watcher,而后将其迁移到synced组。也就是这种机制下,Etcd v3 支持从任意版本开始watch,没有v2的1000条历史event表限制的问题(固然这是指没有compact的状况下)。
另外咱们前面提到的,Etcd v2在通知客户端时,若是网络很差或者客户端读取比较慢,发生了阻塞,则会直接关闭当前链接,客户端须要从新发起请求。Etcd v3为了解决这个问题,专门维护了一个推送时阻塞的watcher队列,在另外的goroutine里进行重试。
Etcd v3 对过时机制也作了改进,过时时间设置在lease上,而后key和lease关联。这样能够实现多个key关联同一个lease id,方便设置统一的过时时间,以及实现批量续约。
相比Etcd v2, Etcd v3的一些主要变化:
这三个产品是常常被人拿来作选型比较的。 Etcd 和 Zookeeper 提供的能力很是类似,都是通用的一致性元信息存储,都提供watch机制用于变动通知和分发,也都被分布式系统用来做为共享信息存储,在软件生态中所处的位置也几乎是同样的,能够互相替代的。两者除了实现细节,语言,一致性协议上的区别,最大的区别在周边生态圈。Zookeeper 是apache下的,用java写的,提供rpc接口,最先从hadoop项目中孵化出来,在分布式系统中获得普遍使用(hadoop, solr, kafka, mesos 等)。Etcd 是coreos公司旗下的开源产品,比较新,以其简单好用的rest接口以及活跃的社区俘获了一批用户,在新的一些集群中获得使用(好比kubernetes)。虽然v3为了性能也改为二进制rpc接口了,但其易用性上比 Zookeeper 仍是好一些。 而 Consul 的目标则更为具体一些,Etcd 和 Zookeeper 提供的是分布式一致性存储能力,具体的业务场景须要用户本身实现,好比服务发现,好比配置变动。而Consul 则以服务发现和配置变动为主要目标,同时附带了kv存储。 在软件生态中,越抽象的组件适用范围越广,但同时对具体业务场景需求的知足上确定有不足之处。