大约在五六年前,第一次接触到了当时已是hot topic的NoSql。不过那个时候学的用的都是mysql,Nosql对于我而言仍是新事物,并无真正使用,只是不明觉厉。可是印象深入的是这么一张图片(后来google到图片来自这里):html
简而言之:BASE经过最终一致性来尽可能保证服务的可用性。注意图中最后一句话“But I think it‘s a spectrum”,就是说ACID BASE只是一个度的问题,并非对立的两个极端。node
2002年,在Brewer's conjecture and the feasibility of consistent, available, partition-tolerant web services中,两位做者经过异步网络模型论证了CAP猜测,从而将Brewer的猜测升级成了理论(theorem)。但实话说,我也没有把文章读得很明白。mysql
2009年的这篇文章brewers-cap-theorem,做者给出了一个比较简单的证实:web
如上图所示,N1,N2两个节点存储同一份数据V,当前的状态是V0。在节点N1上运行的是安全可靠的写算法A,在节点N2运行的是一样可靠的读算法B,即N1节点负责写操做,N2节点负责读操做。N1节点写入的数据也会自动向N2同步,同步的消息称之为M。若是N1,N2之间出现分区,那么就无法保证消息M在必定的时间内到达N2。算法
从事务的角度来看这各问题sql
α这个事务由操做α1, α2组成,其中α1是写数据,α2是读数据。若是是单点,那么很容易保证α2能读到α1写入的数据。若是是分布式的状况的状况,除非能控制 α2的发生时间,不然没法保证 α2能读到 α1写入的数据,但任何的控制(好比阻塞,数据集中化等)要么破坏了分区容错性,要么损失了可用性。mongodb
另外,这边文章指出不少状况下 availability比consistency重要,好比对于facebook google这样的网站,短暂的不可用就会带来巨大的损失。数据库
2010年的这篇文章brewers-cap-theorem-on-distributed-systems/,用了三个例子来阐述CAP,分别是example1:单点的mysql;example2:两个mysql,但不一样的mysql存储不一样的数据子集(相似sharding);example3:两个mysql,对A的一个insert操做,须要在B上执行成功才认为操做完成(相似复制集)。做者认为在example1和example2上 都能保证强一致性,但不能保证可用性;在example3这个例子,因为分区(partition)的存在,就须要在一致性与可用性之间权衡。apache
于我看来,讨论CAP理论最好是在“分布式存储系统”这个大前提下,可用性也不是说总体服务的可用性,而是分布式系统中某个子节点的可用性。所以感受上文的例子并非很恰当。缓存
从收入目标以及合约规定来说,系统 可用性是首要目标,于是咱们常规会使用缓存或者过后校核更新日志来优化系统的可用性。所以,当设计师选择可用性的时候,由于须要在分区结束后恢复被破坏的不变性约。实践中,大部分团体认为(位于单一地点的)数据中心内部是没有分区的,所以在单一数据中心以内能够选择CA;CAP理论出现以前,系统都默认这样的设计思路,包括传统数据库在内。分区期间,独立且能自我保证一致性的节点子集合能够继续执行操做,只是没法保证全局范围的不变性约束不受破坏。 数据分片(sharding)就是这样的例子,设计师预先将数据划分到不一样的分区节点,分区期间单个数据分片多半能够继续操做。相反,若是被分区的是内在关系密切的状态,或者有某些全局性的不变性约束非保持不可,那么最好的状况是只有分区一侧能够进行操做,最坏状况是操做彻底不能进行。
上面摘录中下选线部分跟MongoDB的sharding状况就很类似,MongoDB的sharded cluste模式下,shard之间在正常状况下,是无需相互通讯的。
在13年的文章中《better-explaining-cap-theorem》,做者指出“it is really just A vs C!”,由于
(1)可用性通常是在不一样的机器之间经过数据的复制来实现
(2)一致性须要在容许读操做之间同时更新几个节点
(3)temporary partion,即几点之间的通讯延迟是可能发生了,此时就须要在A 和 C之间权衡。但只有在发生分区的时候才须要考虑权衡。
在分布式系统中,网络分区必定会发生,所以“it is really just A vs C!”
在《经过一步步建立sharded cluster来认识MongoDB》一文中,对MongoDB的特性作了一些介绍,包括高性能、高可用、可扩展(水平伸缩),其中,MongoDB的高可用性依赖于replica set的复制与自动failover。对MongoDB数据库的使用有三种模式:standalone,replica set, shareded cluster,在前文中详细介绍了shared cluster的搭建过程。
standalone就是单个mongod,应用程序直接链接到这个Mongod,在这种状况下无分区容错性可言,也必定是强一致性的。对于sharded cluster,每个shard也都推荐是一个replica set。MongoDB中的shards维护的是独立的数据子集,所以shards之间出现了分区影响不大(在chunk迁移的过程可能仍是有影响),所以也主要考虑的是shard内部replica set的分区影响。因此,本文中讨论MongoDB的一致性、可用性问题,针对的也是MongoDB的replica set。
对于replica set,只有一个primary节点,接受写请求和读请求,其余的secondary节点接受读请求。这是一个单写、多读的状况,比多读、多写的状况仍是简化了许多。后文为了讨论,也是假设replica set由三个基点组成,一个primary,两个secondary,且全部节点都持久化数据(data-bearing)
MongoDB关于一致性、可用性的权衡,取决于三者:write-concern、read-concern、read-preference。下面主要是MongoDB3.2版本的状况,由于read-concern是在MongoDB3.2版本中才引入的。
write concern表示对于写操做,MongoDB在什么状况下给予客户端响应。包括下面三个字段:
{ w: <value>, j: <boolean>, wtimeout: <number> }
w: 表示当写请求在value个MongoDB实例处理以后才向客户端返回。取值范围:
1:默认值,表示数据写入到standalone的MongoDB或者replica set的primary以后返回
0:不用写入就直接向客户端返回,性能高,但可能丢数据。不过能够配合j:True来增长数据的可持久性(durability)
>1: 只有在replica set环境下才有用,若是value大于的replica set中节点的数目,那么可能致使阻塞
‘majority’: 当数据写入到replica set的大多数节点以后向客户端返回,对于这种状况,通常是配合read-concern使用:
After the write operation returns with a
w: "majority"
acknowledgement to the client, the client can read the result of that write with a"majority"
readConcern
j:表示当写请求在写入journal以后才向客户端返回,默认为False。两点注意:
若是在对于未开启journaling的MongoDB实例使用j:True,会报错
在MongoDB3.2及以后,对于w>1, 须要全部实例都写到journal以后才返回
wtimeout:表示写入的超时时间,即在指定的时间(number),若是还不能向客户端返回(w大于1的状况),那么返回错误
默认为0,至关于没有设置该选项
在MongoDB3.4中,加入了writeConcernMajorityJournalDefault
.这么一个选项,使得w,j在不一样的组合下状况下不一样:
在前文已经讲解过,一个replica set由一个primary和多个secondary组成。primary接受写操做,所以数据必定是最新的,secondary经过oplog来同步写操做,所以数据有必定的延迟。对于时效性不是很敏感的查询业务,能够从secondary节点查询,以减轻集群的压力。
MongoDB指出在不一样的状况下选用不一样的read-reference,很是灵活。MongoDB driver支持一下几种read-reference:
primary:默认模式,一切读操做都路由到replica set的primary节点
primaryPreferred:正常状况下都是路由到primary节点,只有当primary节点不可用(failover)的时候,才路由到secondary节点。
secondary:一切读操做都路由到replica set的secondary节点
secondaryPreferred:正常状况下都是路由到secondary节点,只有当secondary节点不可用的时候,才路由到primary节点。
nearest:从延时最小的节点读取数据,无论是primary仍是secondary。对于分布式应用且MongoDB是多数据中心部署,nearest能保证最好的data locality。
若是使用secondary或者secondaryPreferred,那么须要意识到:
(1) 由于延时,读取到的数据可能不是最新的,并且不一样的secondary返回的数据还可能不同;
(2) 对于默认开启了balancer的sharded collection,因为还未结束或者异常终止的chunk迁移,secondary返回的多是有缺失或者多余的数据
(3) 在有多个secondary节点的状况下,选择哪个secondary节点呢,简单来讲是“closest”即平均延时最小的节点,具体参加Server Selection Algorithm
read concern是在MongoDB3.2中才加入的新特性,表示对于replica set(包括sharded cluster中使用复制集的shard)返回什么样的数据。不一样的存储引擎对read-concern的支持状况也是不同的
read concern有如下三个level:
local:默认值,返回当前节点的最新数据,当前节点取决于read reference。
majority:返回的是已经被确认写入到多数节点的最新数据。该选项的使用须要如下条件: WiredTiger存储引擎,且使用election protocol version 1
;启动MongoDB实例的时候指定 --enableMajorityReadConcern选项。
linearizable:3.4版本中引入,这里略过了,感兴趣的读者参考文档。
在文章中有这么一句话:
Regardless of the read concern level, the most recent data on a node may not reflect the most recent version of the data in the system.
就是说,即使使用了read concern:majority, 返回的也不必定是最新的数据,这个和NWR理论并非一回事。究其根本缘由,在于最终返回的数值只来源于一个MongoDB节点,该节点的选择取决于read reference。
在这篇文章中,对readconcern的引入的意义以及实现有详细介绍,在这里只引用核心部分:
readConcern
的初衷在于解决『脏读』的问题,好比用户从 MongoDB 的 primary 上读取了某一条数据,但这条数据并无同步到大多数节点,而后 primary 就故障了,从新恢复后 这个primary 节点会将未同步到大多数节点的数据回滚掉,致使用户读到了『脏数据』。当指定 readConcern 级别为 majority 时,能保证用户读到的数据『已经写入到大多数节点』,而这样的数据确定不会发生回滚,避免了脏读的问题。
回顾一下CAP理论中对一致性 可用性的问题:
一致性,是指对于每一次读操做,要么都可以读到最新写入的数据,要么错误。
可用性,是指对于每一次请求,都可以获得一个及时的、非错的响应,可是不保证请求的结果是基于最新写入的数据。
前面也提到,本文对一致性 可用性的讨论是基于replica set的,是不是shared cluster并不影响。另外,讨论是基于单个客户端的状况,若是是多个客户端,彷佛是隔离性的问题,不属于CAP理论范畴。基于对write concern、read concern、read reference的理解,咱们能够得出如下结论。
回过来来看,MongoDB所说的高可用性是更普世意义上的可用性:经过数据的复制和自动failover,即便发生物理故障,整个集群仍是可以在短期内回复,继续工做,况且恢复也是自动的。在这个意义上,确实是高可用的。