上周末考完试,这周正好把工做整理整理,而后也把以前的一些素材,整理一番,也当本身再学习一番。
一方面正好最近看到几篇这方面的文章,另外一方面也是正好工做上有所涉及,因此决定写一篇这样的文章。
先是简单介绍概念和现有解决方案,而后是我对这些方案的总结,最后是我本身项目的解决思路。node
在复杂分布式系统中,每每须要对大量的数据和消息进行惟一标识。redis
如在金融、电商、支付、等产品的系统中,数据日渐增加,对数据分库分表后须要有一个惟一ID来标识一条数据或消息,数据库的自增ID显然不能知足需求,此时一个可以生成全局惟一ID的系统是很是必要的。算法
分布式全局惟一ID(数据库的分库分表后须要有一个惟一ID来标识一条数据或消息;特别一点的如订单、骑手、优惠券也都须要有惟一ID作标识;MQ中消息的高可用性(确认消息是否发送成功,是否已发送等)等)
其实分布式全局ID是一个比较复杂,重要的分布式问题(什么问题涉及真正的分布式,高并发后都会比较复杂)。常看法决方案有UUID,Snowflake,Flicker,Redis,Zookeeper,Leaf等。sql
生成一个32位16进制字符串(16字节的128位数据,一般以32位长度的字符串表示)(结合机器识别码(全局惟一的IEEE机器识别号,若是有网卡,从网卡MAC地址得到,没有网卡以其余方式得到),当前时间,一个随机数)。数据库
不须要考虑空间占用,不须要生成有递增趋势的ID,且不在MySQL中存储。安全
Twitter开源,生成一个64bit(0和1)字符串(1bit不用,41bit表示存储时间戳,10bit表示工做机器id(5位数据标示位,5位机器标识位),12bit序列号)服务器
最后生成64位Long型数值(这里指,通常Long数据就是64位bit的)。网络
要求高性能,能够不连续,数据类型为long型。数据结构
主要思路是涉及单独的库表,利用数据库的自增ID+replace_into,来生成全局ID。架构
replace into跟insert功能相似,不一样点在于:replace into首先尝试插入数据列表中,若是发现表中已经有此行数据(根据主键或惟一索引判断)则先删除,再插入。不然直接插入新数据。
建表:
create table t_global_id( id bigint(20) unsigned not null auto_increment, stub char(1) not null default '', primary key (id), unique key stub (stub) ) engine=MyISAM;
(stub:票根,对应须要生成ID的业务方编码,能够是项目名,表名,甚至是服务器IP地址。 MyISAM(MYSQL5.5.8前默认数据库存储引擎,5.5.8及以后默认存储引擎为InnoDB):(此处应当有MyISAM与InnoDB引擎的区别,乃至其余引擎)基于ISAM类型。不是事务安全(没有事务隔离??),不支持外键,没有行级锁。若是执行大量的select,建议MyISAM。 获取数据: # 每次业务可使用如下SQL读写MySQL获得ID号
replace into t_golbal_id(stub) values('a');
select last_insert_id();
扩展:为解决单点问题,启用多台服务器,如MySQL,利用给字段设置auto_increment_increment和auto_increment_offset来保证ID自增(如经过设置起始值与步长,生成奇偶数ID)
数据量不大,并发量不大。
因为Redis的全部命令是单线程的,因此能够利用Redis的原子操做INCR和INCRBY,来生成全局惟一的ID。
能够经过集群来提高吞吐量(能够经过为不一样Redis节点设置不一样的初始值并赞成步长,从而利用Redis生成惟一且趋势递增的ID)(其实这个方法和Flicker一致,只是利用到了Redis的一些特性,如原子操做,内存数据库读写快等)(Incrby:将key中储存的数字加上指定的增量值。这是一个“INCR AND GET”的原子操做,业务方能够定义一个本身的key值,经过INCR命令来获取对应的ID)
不依赖数据库,灵活方便,且性能优于基于数据库的Flicker方案。
Redis集群高可用,并发量高。
利用Redis来生成天天从0开始的流水号。如订单号=日期+当日自增加号。能够天天在Redis中生成一个Key,适用INCR进行累加。
经过其znode数据版原本生成序列号,能够生成32位和64位的数据版本号,客户端可使用这个版本号来做为惟一的序列号。
小结:不多会使用zookeeper来生成惟一ID。主要是因为须要依赖zookeeper,而且是多步调用API,若是在竞争较大的状况下,须要考虑使用分布式锁。所以,性能在高并发的分布式环境下,也不甚理想。
美团的Leaf分布式ID生成系统,在Flicker策略与Snowflake算法的基础上作了两套优化的方案:Leaf-segment数据库方案(相比Flicker方案每次都要读取数据库,该方案改用proxy server批量获取,且作了双buffer的优化)与Leaf-snowflake方案(主要针对时钟回拨问题作了特殊处理。若发生时钟回拨则拒绝发号,并进行告警)。
ObjectID能够算做和snowflake相似方法,经过”时间+机器码+pid+inc”共12个字节,经过4+3+2+3的方式,最终标识一个24长度的十六进制字符。
其实除了上述方案外,还有ins等的方案,但总的来看,方案主要分为两种:第一有中心(如数据库,包括MYSQL,REDIS等),其中能够会利用事先的预定来实现集群(起始步长)。第二种就是无中心,经过生成足够散落的数据,来确保无冲突(如UUID等)。站在这两个方向上,来看上述方案的利弊就方便多了。
技术是无穷无尽的,咱们不只须要看到其中体现的思想与原则,在学习新技术或方案时,须要明确其中一些特性,优缺点的来源,从而进行有效的总结概括。
应用角度来讲:(一方面想要标示符短,便于处理与存储,另外一方面想要足够大,而不会产生冲突。呵呵)。最理想就是追求从0开始,每一个标示符都被使用,且不重复,并且不用担忧并发。呵呵。彻底应该根据当前业务场景来选择,毕竟业务场景在当前是肯定的。若是业务变更较大(好比发展初期,业务增加很快),那就须要考虑扩展性,便于往后进行该模块的更新与技术方案的替换实现(避免一个系统开发一年,用不到一年,那就尴尬了))。
我曾经作过一个“工业物联网”系统,该系统系统是分为三个子系统:终端服务器(用于收集终端传感器数据);企业中控服务器(接收来自多个终端服务器的数据,进行综合查看与控制);云平台服务器(提供上云)。其中就涉及多个终端服务器的传感器数据辨识问题,这里以倾斜传感器数据为例。简述不一样终端服务器的倾斜数据的如何实现全局惟一标识。
简单说,就是终端服务器发送一个数据到企业中控室,企业中控服务器就将该数据保存到数据库中,那么每一个数据在企业中控服务器数据库中都有惟一的ID,而且保持了自增。
优势是实现简单,只须要作好数据收发,与数据的插入工做便可。惟一须要注意的是数据库插入时注意资源互斥,防止出现数据插入异常问题(Springframework生成的Bean默认时单例的)。
缺点是须要实时收发数据,防止数据丢失,数据积压,数据的create_time异常等问题。
简单说,就是终端服务器要发送的数据赋予UUID这样的ID,来确保全局惟一。这样终端服务器就能够和中控服务器保持一样且不冲突的ID了。数据的生成是实如今终端服务器的,而中控服务器只是做为数据的保存与调用(经过统一ID调用)。
优势是不须要数据的实时收发,避免系统在弱网络状况下出现各种异常。
缺点是数据的ID过长,而且没法保持自增。而且在某种程度上带来了数据复杂度,从而提升了系统复杂度。
因为实际业务的需求,如弱网络,数据交互频率跨度大等状况。最终个人实现是先由终端服务器在启动之初,在企业中控服务器注册TerminalId,做为不一样终端服务器的标识。不一样终端服务器接收与保存数据时,都会在每条数据中插入TerminalId,便于企业中控服务器的识别。固然,具体实现当中还有一些细节。如终端服务器在注册时因为网络等状况注册失败,会先创建一个相似UUID的TerminalId来先保存监测数据。当注册成功时(系统会根据TerminalId的长度等特性来判断是否注册失败,是否须要从新注册),会从新修改全部数据的TerminalId,再容许数据上传。
优势是确保了数据在弱网络状况下的正确性,而且实现了自动注册等通用模块的实现。
缺点是最终数据插入企业中控服务器数据库时,并无严格实现数据符合实际时间的增加(如某终端服务器因为网络等状况无法发送数据,等待一段时间后发送了这段时间堆积的数据),但保持了整体增加的趋势。
IT没有银弹,咱们要作的是多去了解现有的技术方案,再产生符合本身需求的技术方案。由于不一样的技术方案都由于其使用场景有着各自的特色,而咱们须要了解各类特色的技术来源(是什么技术造就了这一特色,或者说是什么架构造就了这一特色等),从而构建出最符合本身需求的技术方案。
没有最好,只有最适合。