NoSQL 数据库中的 CAP 理论

时间 2020-09-14

原文原文链接

传统的 ACID

关系型数据库遵循ACID规则
事务在英文中是transaction，和现实世界中的交易很相似，它有以下四个特性：web

A (Atomicity) 原子性

原子性很容易理解，也就是说事务里的全部操做要么所有作完，要么都不作，事务成功的条件是事务里的全部操做都成功，只要有一个操做失败，整个事务就失败，须要回滚。好比银行转帐，从A帐户转100元至B帐户，分为两个步骤：1）从A帐户取100元；2）存入100元至B帐户。这两步要么一块儿完成，要么一块儿不完成，若是只完成第一步，第二步失败，钱会莫名其妙少了100元。数据库

C (Consistency) 一致性

一致性也比较容易理解，也就是说数据库要一直处于一致的状态，事务的运行不会改变数据库本来的一致性约束。网络

I (Isolation) 独立性

所谓的独立性是指并发的事务之间不会互相影响，若是一个事务要访问的数据正在被另一个事务修改，只要另一个事务未提交，它所访问的数据就不受未提交事务的影响。好比现有有个交易是从A帐户转100元至B帐户，在这个交易还未完成的状况下，若是此时B查询本身的帐户，是看不到新增长的100元的架构

D (Durability) 持久性

持久性是指一旦事务提交后，它所作的修改将会永久的保存在数据库上，即便出现宕机也不会丢失。并发

CAP

C:Consistency（强一致性）分布式

A:Availability（可用性）性能

P:Partition tolerance（分区容错性）大数据

CAP 的 3 进 2 原则

CAP 理论就是说在分布式存储系统中，最多只能实现上面的两点。
而因为当前的网络硬件确定会出现延迟丢包等问题，因此网站

分区容忍性是咱们必须须要实现的。设计

因此咱们只能在一致性和可用性之间进行权衡，没有 NoSQL 系统能同时保证这三点。

CA：传统 Oracle 数据库
AP：大多数网站架构的选择
CP：Redis、Mongodb

注意：分布式架构的时候必须作出取舍。

一致性和可用性之间取一个平衡。多余大多数 Web 应用，其实并不须要强一致性。
所以牺牲 C 换取 P，这是目前分布式数据库产品的方向

主要是一致性与可用性的决择

对于web2.0网站来讲，关系数据库的不少主要特性却每每无用武之地

数据库事务一致性需求

不少web实时系统并不要求严格的数据库事务，对读一致性的要求很低，有些场合对写一致性要求并不高。容许实现最终一致性。

数据库的写实时性和读实时性需求

对关系数据库来讲，插入一条数据以后马上查询，是确定能够读出来这条数据的，可是对于不少web应用来讲，并不要求这么高的实时性，比方说发一条消息之后，过几秒乃至十几秒以后，个人订阅者才看到这条动态是彻底能够接受的。

对复杂的SQL查询，特别是多表关联查询的需求

任何大数据量的web系统，都很是忌讳多个大表的关联查询，以及复杂的数据分析类型的报表查询，特别是SNS类型的网站，从需求以及产品设计角度，就避免了这种状况的产生。每每更多的只是单表的主键查询，以及单表的简单条件分页查询，SQL的功能被极大的弱化了。

经典 CAP 图

CAP理论的核心是：一个分布式系统不可能同时很好的知足一致性，可用性和分区容错性这三个需求，
最多只能同时较好的知足两个。

所以，根据 CAP 原理将 NoSQL 数据库分红了知足 CA 原则、知足 CP 原则和知足 AP 原则三大类：

CA - 单点集群，知足一致性，可用性的系统，一般在可扩展性上不太强大。
CP - 知足一致性，分区容忍必的系统，一般性能不是特别高。
AP - 知足可用性，分区容忍性的系统，一般可能对一致性要求低一些。

BASE

BASE就是为了解决关系数据库强一致性引发的问题而引发的可用性下降而提出的解决方案。

BASE实际上是下面三个术语的缩写：

基本可用（Basically Available）
软状态（Soft state）
最终一致（Eventually consistent）

它的思想是经过让系统放松对某一时刻数据一致性的要求来换取系统总体伸缩性和性能上改观。为何这么说呢，原因就在于大型系统每每因为地域分布和极高性能的要求，不可能采用分布式事务来完成这些指标，要想得到这些指标，咱们必须采用另一种方式来完成，这里BASE就是解决这个问题的办法