tair 是淘宝的一个开源项目,它是一个分布式的key/value结构数据的解决方案。前端
做为一个分布式系统,Tair由一个中心控制节点(config server)和一系列的服务节点(data server)组成,java
tair集群的基本概念:web
tair 分为持久化和非持久化两种使用方式:redis
Tair的存储引擎有一个抽象层,只要知足存储引擎须要的接口,即可以很方便的替换Tair底层的存储引擎。好比你能够很方便的将bdb、tc、redis、leveldb甚至MySQL做为Tair的存储引擎,而同时使用Tair的分布方式、同步等特性。算法
Tair主要有下面三种存储引擎:数组
大数据量导入:数据预排序,按桶分memtable。缓存
tair 的分布采用的是一致性哈希算法,对于全部的key,分到Q个桶中,桶是负载均衡和数据迁移的基本单位。config server 根据必定的策略把每一个桶指派到不一样的data server上,由于数据按照key作hash算法,因此能够认为每一个桶中的数据基本是平衡的,保证了桶分布的均衡性, 就保证了数据分布的均衡性。安全
具体说,首先计算Hash(key),获得key所对应的bucket,而后再去config server查找该bucket对应的data server,再与相应的data server进行通讯。也就是说,config server维护了一张由bucket映射到data server的对照表,好比:服务器
bucket data server
0 192.168.10.1
1 192.168.10.2
2 192.168.10.1
3 192.168.10.2
4 192.168.10.1
5 192.168.10.2
这里共6个bucket,由两台机器负责,每台机器负责3个bucket。客户端将key hash后,对6取模,找到负责的数据节点,而后和其直接通讯。表的大小(行数)一般会远大于集群的节点数,这和consistent hash中的虚拟节点很类似。网络
假设咱们加入了一台新的机器——192.168.10.3,Tair会自动调整对照表,将部分bucket交由新的节点负责,好比新的表极可能相似下表:
0 192.168.10.1
1 192.168.10.2
2 192.168.10.1
3 192.168.10.2
4 192.168.10.3
5 192.168.10.3
在老的表中,每一个节点负责3个桶,当扩容后,每一个节点将负责2个桶,数据被均衡的分布到全部节点上。
若是有多个备份,那么对照表将包含多列,好比备份是为3,则表有4列,后面的3列都是数据存储的节点。
为了加强数据的安全性,Tair支持配置数据的备份数(COPY_COUNT)。好比你能够配置备份数为3,则每一个bucket都会写在不一样的3台机器上。当数据写入一个节点(一般咱们称其为主节点)后,主节点会根据对照表自动将数据写入到其余备份节点,整个过程对用户是透明的。
当有新节点加入或者有节点不可用时,config server会根据当前可用的节点,从新build一张对照表。数据节点同步到新的对照表时,会自动将在新表中不禁本身负责的数据迁移到新的目标节点。迁移完成后,客户端能够从config server同步到新的对照表,完成扩容或者容灾过程。整个过程对用户是透明的,服务不中断。
为了更进一步的提升数据的安全性,Tair的config server在build对照表的时候,能够配置考虑机房和机架信息。好比你配置备份数为3,集群的节点分布在两个不一样的机房A和B,则Tair会确保每一个机房至少有一份数据。当A机房包含两份数据时,Tair会确保这两份数据会分布在不一样机架的节点上。这能够防止整个机房发生事故和某个机架发生故障的状况。这里提到的特性须要节点物理分布的支持,当前是经过可配置的IP掩码来区别不一样机房和机架的节点。
Tair 提供了两种生成对照表的策略:
位置优先策略还有一个问题,假如只有两个机房,机房1中有100台data server,机房2中只有1台data server。这个时候,机房2中data server的压力必然会很是大,因而这里产生了一个控制参数 _build_diff_ratio(参见安装部署文档),当机房差别比率大于这个配置值时,config server也再也不build新表,机房差别比率是如何计出来的呢?首先找到机器最多的机房,不妨设使RA,data server数量是SA,那么其他的data server的数量记作SB,则机房差别比率=|SA – SB|/SA,由于通常咱们线上系统配置的COPY_COUNT=3,在这个状况下,不妨设只有两个机房RA和RB,那么两个机房什么样的data server数量是均衡的范围呢? 当差别比率小于 0.5的时候是能够作到各台data server负载都彻底均衡的。这里有一点要注意,假设RA机房有机器6台,RB有机器3台,那么差别比率 = 6 – 3 / 6 = 0.5,这个时候若是进行扩容,在机房A增长一台data server,扩容后的差别比率 = 7 – 3 / 7 = 0.57,也就是说,只在机器数多的机房增长data server会扩大差别比率。若是咱们的_build_diff_ratio配置值是0.5,那么进行这种扩容后,config server会拒绝再继续build新表。
分布式系统中的可靠性和一致性是没法同时保证的,由于咱们必须容许网络错误的发生。tair 采用复制技术来提升可靠性,而且为了提升效率作了一些优化。事实上在没有错误发生的时候,tair 提供的是一种强一致性,可是在有data server发生故障的时候,客户有可能在必定时间窗口内读不到最新的数据,甚至发生最新数据丢失的状况。
Tair中的每一个数据都包含版本号,版本号在每次更新后都会递增。这个特性能够帮助防止数据的并发更新致使的问题。
如何获取到当前key的version?
get接口返回的是DataEntry对象,该对象中包含get到的数据的版本号,能够经过getVersion()接口得到该版本号。
在put时,将该版本号做为put的参数便可。 若是不考虑版本问题,则可设置version参数为0,系统将强行覆盖数据,即便版本不一致。
不少状况下,更新数据是先get,而后修改get回来的数据,再put回系统。若是有多个客户端get到同一份数据,都对其修改并保存,那么先保存的修改就会被后到达的修改覆盖,从而致使数据一致性问题,在大部分状况下应用可以接受,但在少许特殊状况下,这个是咱们不但愿发生的。
好比系统中有一个值”1”, 如今A和B客户端同时都取到了这个值。以后A和B客户端都想改动这个值,假设A要改为12,B要改为13,若是不加控制的话,不管A和B谁先更新成功,它的更新都会被后到的更新覆盖。Tair引入的version机制避免了这样的问题。刚刚的例子中,假设A和B同时取到数据,当时版本号是10,A先更新,更新成功后,值为12,版本为11。当B更新的时候,因为其基于的版本号是10,此时服务器会拒绝更新,返回version error,从而避免A的更新被覆盖。B能够选择get新版本的value,而后在其基础上修改,也能够选择强行更新。
Version改变的逻辑以下:
version具体使用案例,若是应用有10个client会对key进行并发put,那么操做过程以下:
version分布式锁
Tair中存在该key,则认为该key所表明的锁已被lock;不存在该key,在未加锁。操做过程和上面类似。业务方能够在put的时候增长expire,已避免该锁被长期锁住。
固然业务方在选择这种策略的状况下须要考虑并处理Tair宕机带来的锁丢失的状况。
client 和 config server的交互主要是为了获取数据分布的对照表,当client启动时获取到对照表后,会cache这张表,而后经过查这张表决定数据存储的节点,因此请求不须要和config server交互,这使得Tair对外的服务不依赖configserver,因此它不是传统意义上的中心节点,也并不会成为集群的瓶颈。
config server维护的对照表有一个版本号,每次新生成表,该版本号都会增长。当有data server状态发生变化(好比新增节点或者有节点不可用了)时,configserver会根据当前可用的节点从新生成对照表,并经过数据节点的心跳,将新表同步给data server。当client请求data server时,后者每次都会将本身的对照表的版本号放入response中返回给客client,client接收到response后,会将data server返回的版本号和本身的版本号比较,若是不相同,则主动和config server通讯,请求新的对照表。
这使得在正常的状况下,client不须要和configserver通讯,即便config server不可用了,也不会对整个集群的服务形成大的影响。有了config server,client不须要配置data server列表,也不须要处理节点的的状态变化,这使得Tair对最终用户来讲使用和配置都很简单。
当有某台data server故障不可用的时候,config server会发现这个状况,config server负责从新计算一张新的桶在data server上的分布表,将原来由故障机器服务的桶的访问从新指派到其它有备份的data server中。这个时候,可能会发生数据的迁移,好比原来由data server A负责的桶,在新表中须要由 B负责,而B上并无该桶的数据,那么就将数据迁移到B上来。同时,config server会发现哪些桶的备份数目减小了,而后根据负载状况在负载较低的data server上增长这些桶的备份。
当系统增长data server的时候,config server根据负载,协调data server将他们控制的部分桶迁移到新的data server上,迁移完成后调整路由。
注意:
无论是发生故障仍是扩容,每次路由的变动,config server都会将新的配置信息推给data server。在client访问data server的时候,会发送client缓存的路由表的版本号,若是data server发现client的版本号过旧,则会通知client去config server取一次新的路由表。若是client访问某台data server 发生了不可达的状况(该 data server可能宕机了),客户端会主动去config server取新的路由表。
当发生迁移的时候,假设data server A 要把 桶 3,4,5 迁移给data server B。由于迁移完成前,client的路由表没有变化,所以对 3, 4, 5 的访问请求都会路由到A。如今假设 3还没迁移,4 正在迁移中,5已经迁移完成,那么:
tair 的server端是C++写的,由于server和客户端之间使用socket通讯,理论上只要能够实现socket操做的语言均可以直接实现成tair客户端。目前实际提供的客户端有java 和 C++, 客户端只须要知道config server的位置信息就能够享受tair集群提供的服务了。
Tair还内置了一个插件容器,能够支持热插拔插件。
插件由config server配置,config server会将插件配置同步给各个数据节点,数据节点会负责加载/卸载相应的插件。
插件分为request和response两类,能够分别在request和response时执行相应的操做,好比在put前检查用户的quota信息等。
插件容器也让Tair在功能方便具备更好的灵活性。
Tair从服务器端支持原子的计数器操做,这使得Tair成为一个简单易用的分布式计数器。
Tair还支持将value视为一个item数组,对value中的部分item进行操做。好比有一个key的value为 [1,2,3,4,5],咱们能够只获取前两个item,返回[1,2],也能够删除第一个item。还支持将数据删除,并返回被删除的数据,经过这个接口能够实现一个原子的分布式FIFO的队列。
目前淘宝开源的客户端有C++和Java两个版本,不过tair若是做为存储层,前端确定还需部署Nginx这样的web服务器,以Nginx为例,淘宝彷佛尚未开源其tair模块,春哥(agentzh)也没有公布tair的lua插件,若是想在Nginx里面访问tair,目前彷佛尚未什么办法了,除非本身去开发一个模块。
参考文档: