本文主要聊一聊主流开源产品的replication方式。node
replication和partition/sharding是分布式系统必备的两种能力。具体详见复制、分片和路由.
对于海量数据来讲,replication一方面能够增长冗余,保证系统可用性,一方面还能够提高读取的效率。
本文主要聚焦于replication,即假设每一个node都足以存下整个副本。mysql
按照有无leader以及leader数目能够分为:redis
具体详见副本更新策略,主要有以下几种算法
无中心的复制,能够分为三种拓扑结构,环形、星/树型、网状拓扑sql
主要分为如下几种数据库
WAL
)PG使用的就是这种。segmentfault
logical log
)通常replication增长冗余经常使用来作master的的热备(支持查询)/温备(不支持查询)缓存
一旦replication支持读取的话,那么就涉及读的一致性问题,通常理论上除了强一致外,有这几种最终一致性:并发
读取的话,涉及读己所写,因果读(
针对操做有序
)、单调读(不读到旧数据
)less
假设某份数据须要复制到3个节点,为了保证强一致性,不须要全部节点都确认写入操做,只须要其中两个节点(也就是超半数节点)确认就能够了。在这种状况下,若是发生两个相互冲突的写入操做,那么只有其中一个操做能为超过半数的节点所承认,这就是写入仲裁(write quorum),若是用稍微正规一点的方式说,那就是W>N/2,这个不等式的意思是参与写入操做的节点数W,必须超过副本节点数N的一半,副本节点数又称为复制因子(replication factor)。
读取仲裁(read quorum),也就是说想保证可以读到最新的数据,必须与多少个节点联系才行。假设写入操做须要两个节点来确认(W=2),那么咱们至少得联系两个节点,才能保证获取到最新数据。然而,假如某些写入操做只被一个节点所确认(W=1),那么咱们就必须3个节点都通讯一遍,才能确保获取到的数据是最新的。一个状况下,因为写入操做没有得到足够的节点支持率,因此可能会产生更新冲突。可是,只要从足够数量的节点中读出数据,就必定能侦测出此类冲突。所以,即便在写入操做不具有强一致性的状况下,也能够实现除具备强一致性的读取操做来。
这三者之间的关系,能够用一个不等式来表述,即只有当R+W>N的时候,才能保证读取操做的强一致性。
产品 | 复制方式 | 实现方式 | 其余 |
---|---|---|---|
mysql | 主从半同步 | MySQL 5.0及以前的版本仅支持statement-based的复制,5.1+版本,当有不肯定语句时,就切换为row-based log replication | 主从延迟处理 |
kafka | 主从ISR半同步 | leader写入消息并复制到全部follower,ISR中的副本写入成功返回ack给leader才算commit成功 | 生产者能够选择是否等待ISR的ack |
elasticsearch | 主从半同步,默认replication=sync | consistency可选的值有quorum、one和all。默认的设置为quorum | tradelog及fsync以及refresh |
pg | 主从异步复制 | 基于Write-ahead log | archive及stream方式 |
redis | 主从异步复制 | 增量Redis Protocol(全量增量长链接) | Sentinel failover |
mongo | 主从异步,Replica set模式 | 持久化的ring-buffer local.oplog.rs(initial_sync,steady-sync) | Arbiter选主 |
能够看见一些对一致性要求高的,能够采用半同步的机制,通常是基于quorum机制,像es就是基于这种机制,而kafka是采用ISR机制,两者均可以配置
其余的基本是异步复制,对于新加入的node以及recovery node的同步来讲,采用不一样的同步方式,新加入的通常采用全量同步,而处于正常状态的node,通常是增量同步
In-Sync Replicas的缩写,表示副本同步队列
)全部的副本(replicas)统称为Assigned Replicas,即AR。ISR是AR中的一个子集,由leader维护ISR列表,follower从leader同步数据有一些延迟,任意一个超过阈值都会把follower剔除出ISR,存入OSR(Outof-Sync Replicas)列表,新加入的follower也会先存放在OSR中。AR=ISR+OSR。
当producer发送一条消息到broker后,leader写入消息并复制到全部follower。消息提交以后才被成功复制到全部的同步副本。消息复制延迟受最慢的follower限制,重要的是快速检测慢副本,若是follower“落后”太多或者失效,leader将会把它从ISR中删除。
因而可知,Kafka的复制机制既不是彻底的同步复制,也不是单纯的异步复制。事实上,同步复制要求全部能工做的follower都复制完,这条消息才会被commit,这种复制方式极大的影响了吞吐率。而异步复制方式下,follower异步的从leader复制数据,数据只要被leader写入log就被认为已经commit,这种状况下若是follower都尚未复制完,落后于leader时,忽然leader宕机,则会丢失数据。而Kafka的这种使用ISR的方式则很好的均衡了确保数据不丢失以及吞吐率。
es的一致性主要有两个方面:
在Elasticsearch和磁盘之间是文件系统缓存。 在内存索引缓冲区中的文档会被写入到一个新的段中,可是这里新段会被先写入到文件系统缓存--这一步代价会比较低,稍后再被刷新到磁盘--这一步代价比较高。不过只要文件已经在缓存中, 就能够像其它文件同样被打开和读取了。
在 Elasticsearch 中,写入和打开一个新段的轻量的过程叫作 refresh 。 默认状况下每一个分片会每秒自动刷新一次。这就是为何咱们说 Elasticsearch是近实时搜索: 文档的变化并非当即对搜索可见,但会在一秒以内变为可见。
这些行为可能会对新用户形成困惑: 他们索引了一个文档而后尝试搜索它,但却没有搜到。这个问题的解决办法是用 refresh API 执行一次手动刷新.
refresh_interval 能够在既存索引上进行动态更新。 在生产环境中,当你正在创建一个大的新索引时,能够先关闭自动刷新,待开始使用该索引时,再把它们调回来.
不一样产品的replication细节不尽相同,可是大的理论是一致的,对于replication除了关注上述的replication相关方式外,还须要额外关注replication相关异常场景,才能作到成熟应用。