高并发分布式系统中生成全局惟一Id汇总

时间 2019-11-06

原文原文链接

数据在分片时，典型的是分库分表，就有一个全局ID生成的问题。
单纯的生成全局ID并非什么难题，可是生成的ID一般要知足分片的一些要求：
1 不能有单点故障。
2 以时间为序，或者ID里包含时间。这样一是能够少一个索引，二是冷热数据容易分离。
3 能够控制ShardingId。好比某一个用户的文章要放在同一个分片内，这样查询效率高，修改也容易。
4 不要太长，最好64bit。使用long比较好操做，若是是96bit，那就要各类移位至关的不方便，还有可能有些组件不能支持这么大的ID。java

一 twitter
twitter在把存储系统从MySQL迁移到Cassandra的过程当中因为Cassandra没有顺序ID生成机制，因而本身开发了一套全局惟一ID生成服务：Snowflake。
1 41位的时间序列（精确到毫秒，41位的长度可使用69年）
2 10位的机器标识（10位的长度最多支持部署1024个节点）
3 12位的计数顺序号（12位的计数顺序号支持每一个节点每毫秒产生4096个ID序号）最高位是符号位，始终为0。
优势：高性能，低延迟；独立的应用；按时间有序。缺点：须要独立的开发和部署。redis

原理算法

java 实现代码sql

public class IdWorker {

private final long workerId;
private final static long twepoch = 1288834974657L;
private long sequence = 0L;
private final static long workerIdBits = 4L;
public final static long maxWorkerId = -1L ^ -1L << workerIdBits;
private final static long sequenceBits = 10L;
private final static long workerIdShift = sequenceBits;
private final static long timestampLeftShift = sequenceBits + workerIdBits;
public final static long sequenceMask = -1L ^ -1L << sequenceBits;
private long lastTimestamp = -1L;
public IdWorker(final long workerId) {
super();
if (workerId > this.maxWorkerId || workerId < 0) {
throw new IllegalArgumentException(String.format(
"worker Id can't be greater than %d or less than 0",
this.maxWorkerId));
}
this.workerId = workerId;
}
public synchronized long nextId() {
long timestamp = this.timeGen();
if (this.lastTimestamp == timestamp) {
this.sequence = (this.sequence + 1) & this.sequenceMask;
if (this.sequence == 0) {
System.out.println("###########" + sequenceMask);
timestamp = this.tilNextMillis(this.lastTimestamp);
}
} else {
this.sequence = 0;
}
if (timestamp < this.lastTimestamp) {
try {
throw new Exception(
String.format(
"Clock moved backwards. Refusing to generate id for %d milliseconds",
this.lastTimestamp - timestamp));
} catch (Exception e) {
e.printStackTrace();
}
}

this.lastTimestamp = timestamp;
long nextId = ((timestamp - twepoch << timestampLeftShift))
| (this.workerId << this.workerIdShift) | (this.sequence);
System.out.println("timestamp:" + timestamp + ",timestampLeftShift:"
+ timestampLeftShift + ",nextId:" + nextId + ",workerId:"
+ workerId + ",sequence:" + sequence);
return nextId;
}

private long tilNextMillis(final long lastTimestamp) {
long timestamp = this.timeGen();
while (timestamp <= lastTimestamp) {
timestamp = this.timeGen();
}
return timestamp;
}

private long timeGen() {
return System.currentTimeMillis();
}


public static void main(String[] args){
IdWorker worker2 = new IdWorker(2);
System.out.println(worker2.nextId());
}

}

2 来自Flicker的解决方案
由于MySQL自己支持auto_increment操做，很天然地，咱们会想到借助这个特性来实现这个功能。
Flicker在解决全局ID生成方案里就采用了MySQL自增加ID的机制（auto_increment + replace into + MyISAM）。一个生成64位ID方案具体就是这样的：
先建立单独的数据库(eg:ticket)，而后建立一个表：数据库

CREATE TABLE Tickets64 (
id bigint(20) unsigned NOT NULL auto_increment,
stub char(1) NOT NULL default '',
PRIMARY KEY (id),
UNIQUE KEY stub (stub)
) ENGINE=MyISAM

当咱们插入记录后，执行SELECT * from Tickets64，查询结果就是这样的：数组

+-------------------+------+
| id | stub |
+-------------------+------+
| 72157623227190423 | a |
+-------------------+------+
在咱们的应用端须要作下面这两个操做，在一个事务会话里提交：服务器

REPLACE INTO Tickets64 (stub) VALUES ('a');
SELECT LAST_INSERT_ID();

这样咱们就能拿到不断增加且不重复的ID了。
到上面为止，咱们只是在单台数据库上生成ID，从高可用角度考虑，接下来就要解决单点故障问题：Flicker启用了两台数据库服务器来生成ID，经过区分auto_increment的起始值和步长来生成奇偶数的ID。并发

TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1

TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2

最后，在客户端只须要经过轮询方式取ID就能够了。less

优点：充分借助数据库的自增ID机制，提供高可靠性，生成的ID有序。
缺点：占用两个独立的MySQL实例，有些浪费资源，成本较高。分布式

三 UUID

UUID生成的是length=32的16进制格式的字符串，若是回退为byte数组共16个byte元素，即UUID是一个128bit长的数字，
通常用16进制表示。
算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。
从理论上讲，若是一台机器每秒产生10000000个GUID，则能够保证（几率意义上）3240年不重复
优势：
（1）本地生成ID，不须要进行远程调用，时延低
（2）扩展性好，基本能够认为没有性能上限
缺点：
（1）没法保证趋势递增
（2）uuid过长，每每用字符串表示，做为主键创建索引查询效率低，常见优化方案为“转化为两个uint64整数存储”或者“折半存储”（折半后不能保证惟一性）
四基于redis的分布式ID生成器
首先，要知道redis的EVAL，EVALSHA命令：
原理

利用redis的lua脚本执行功能，在每一个节点上经过lua脚本生成惟一ID。
生成的ID是64位的：

使用41 bit来存放时间，精确到毫秒，可使用41年。
使用12 bit来存放逻辑分片ID，最大分片ID是4095
使用10 bit来存放自增加ID，意味着每一个节点，每毫秒最多能够生成1024个ID
好比GTM时间 Fri Mar 13 10:00:00 CST 2015 ，它的距1970年的毫秒数是 1426212000000，假定分片ID是53，自增加序列是4，则生成的ID是：

5981966696448054276 = 1426212000000 << 22 + 53 << 10 + 41
redis提供了TIME命令，能够取得redis服务器上的秒数和微秒数。因些lua脚本返回的是一个四元组。

second, microSecond, partition, seq
客户端要本身处理，生成最终ID。

((second * 1000 + microSecond / 1000) << (12 + 10)) + (shardId << 10) + seq;
五 MongoDB文档（Document）全局惟一ID

为了考虑分布式，“_id”要求不一样的机器都能用全局惟一的同种方法方便的生成它。所以不能使用自增主键（须要多台服务器进行同步，既费时又费力），
所以选用了生成ObjectId对象的方法。

ObjectId使用12字节的存储空间，其生成方式以下：

|0|1|2|3|4|5|6 |7|8|9|10|11|

|时间戳 |机器ID|PID|计数器 |

前四个字节时间戳是从标准纪元开始的时间戳，单位为秒，有以下特性：

1 时间戳与后边5个字节一块，保证秒级别的惟一性；
2 保证插入顺序大体按时间排序；
3 隐含了文档建立时间；
4 时间戳的实际值并不重要，不须要对服务器之间的时间进行同步（由于加上机器ID和进程ID已保证此值惟一，惟一性是ObjectId的最终诉求）。

机器ID是服务器主机标识，一般是机器主机名的散列值。

同一台机器上能够运行多个mongod实例，所以也须要加入进程标识符PID。

前9个字节保证了同一秒钟不一样机器不一样进程产生的ObjectId的惟一性。后三个字节是一个自动增长的计数器（一个mongod进程须要一个全局的计数器），保证同一秒的ObjectId是惟一的。同一秒钟最多容许每一个进程拥有（256^3 = 16777216）个不一样的ObjectId。

总结一下：时间戳保证秒级惟一，机器ID保证设计时考虑分布式，避免时钟同步，PID保证同一台服务器运行多个mongod实例时的惟一性，最后的计数器保证同一秒内的惟一性（选用几个字节既要考虑存储的经济性，也要考虑并发性能的上限）。

"_id"既能够在服务器端生成也能够在客户端生成，在客户端生成能够下降服务器端的压力。