融云技术分享:解密融云IM产品的聊天消息ID生成策略

本文来自融云技术团队原创分享,原文发布于“融云全球互联网通讯云”公众号,原题《如何实现分布式场景下惟一 ID 生成?》,即时通信网收录时有部分改动。html

一、引言

对于IM应用来讲,消息ID(或称序列号)是个看似不起眼,但很是重要的东西之一。web

消息ID的使用贯穿了IM技术逻辑的方方面面,好比:算法

1)聊天消息的顺序保证;

2)聊天消息QoS送达保证机制时的去重;浏览器

3)特定聊天消息的精确查找和匹配;安全

4)聊天消息的已读未读处理;微信

5)聊天消息的送达回执;网络

6)群聊消息的扩散读拉取标记;session

7)... ...架构

但,IM系统高度个性化的特性(设计上没有统一的标准和思路),包括聊天消息ID的生成算法在内,每一个产品都有自已的思路和考量。并发

常见的消息ID生成策略有:

1)UUID:这种方法简单直观,能够很好的保证惟一性,但对于技术洁癖的人来讲ID长度会有点长;

2)使用时间戳长整数:这个最偷懒,用在吞吐量不大的场景下,凑活也能用,但存在重复的风险,也没法保证分布式下的惟一性;

3)使用twitter开源的snowflake算法:在分布式高并发的状况下,这也是个不错的选择;

4)按用户使用独立的ID生成空间生成顺序的ID:好比微信的消息序列号生成策略就很不错。

从某种意义上来说,消息ID的生成策略决定了IM应用层某些功能实现的难易度,好的消息ID生成策略会让IM产品的开发越作越顺,反之越作越别扭。

本文要分享的是融云即时通信云产品中的聊天消息ID生成算法和策略,一个19字节的ID就能包含:时间戳、消息类型、会话ID、序列号,小ID、大用途,值得借鉴!

免责申明:本文来自融云官方技术团队的分享,仅用于技术交流学习和研究目的,请勿用于非法用途,文中如涉及商业秘密,请告之我处理!

特别说明:仅出于技术研究和学习目的来分享此文,并未收取任何好处,因此此文不是广告,我也不是托。若有不妥,请告之!

学习交流:

即时通信/推送技术开发交流5群:215477170[推荐]

移动端IM开发入门文章:《新手入门一篇就够:从零开发移动端IM》

(本文同步发布于:http://www.52im.net/thread-27...

二、相关文章

《微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)》
《微信技术分享:微信的海量IM聊天消息序列号生成实践(容灾方案篇)》

三、技术背景

对于一套分布式部署的 IM 系统,要求每条消息的 ID 要保证在集群中全局惟一且按生成时间有序排列。如何快速高效的生成消息数据的惟一 ID ,是影响系统吞吐量的关键因素。

那么,融云是如何作到生成全局惟一消息 ID 的呢?

首先须要明确下 ID 生成的核心需求:

1)全局惟一;

2)有序。

四、设计思路

融云消息数据的惟一 ID 长度采用 80 Bit。

每 5 个 Bit ,进行一次 32 进制编码,转换为一个字符,字符取值范围是:数字 “2 ~ 9 ”和字母“A ~ B”。其中,已经去掉容易形成肉眼混淆的,数字 0 和 1 (余下可用的数字是8个),及字母 O 和 I(余下可用的字母是24个),总可用字符就是32个(恰好可按32进制进行编码)。

这样,80 Bit 能够转换为 16 个字符,再加上 3 个分隔符( - ),将 16 个字符分为 4 组,最终获得一个 19 字符的惟一 ID ,形如:“ BD8U-FCOJ-LDC5-L789 ”。 这样设计,便可以保证生成的 ID 是有序的,也能方便阅读。

如上图所示,80 Bit 被分为 4 段。

1)第一段 42 Bit:用于存放时间戳,最长可表示到 2109 年,足够开发者当前使用了。时间戳数据放在高位,能够保证生成的惟一 ID 是按时间有序的,这个是消息 ID 必需要知足的条件。

2)第二段 12 Bit:用于存放自旋转 ID 。咱们知道,时间戳的精度是到毫秒的,对于一套亿级 IM 系统来讲,同一毫秒内产生多条消息太正常不过了,这个自旋 ID 就是在给落到同一毫秒内的消息进行自增编号。12 Bit 则意味着,同一毫秒内,单台主机中最多能够标识 4096( 2 的 12 次方)条消息。

3)第三段 4 Bit:用于标识会话类型。4 Bit ,最多能够标识 16 中会话,足够涵盖单聊、群聊、系统消息、聊天室、客服及公众号等经常使用会话类型。

4)第四段 22 Bit:会话 ID 。如群聊中的群 ID ,聊天室中的聊天室 ID 等。与第三段会话类型组合在一块儿,能够惟一标识一个会话。其余的一些 ID 生成算法,会预留两段,分别用来标识数据中心编号和主机编号(如 SnowFlake 算法),咱们并无这样作,而是将这两段用来标识会话。这样,ID 生成能够直接融入到业务服务中,且没必要关心服务所在的主机,作到无状态扩缩容。

五、代码实现

消息 ID 共占 80 Bit ,计算时咱们分为两部分,高 64 Bit (记为 highBits)和低 16 Bit (记为 lowBits)。

具体的代码实现过程,大体以下。

1)获取当前系统的时间戳,并赋值给消息 ID 的高 64 Bit :

2)获取一个自旋 ID , highBits 左移 12 位,并将自旋 ID 拼接到低 12 位中:

其中,自旋 ID 是一个从 0 到 4095 范围内,顺序递增的数,生成规则以下:

3)上步的 highBits 左移 4 位,将会话类型拼接到低 4 位:

4)取会话 ID 哈希值的低 22 位,记为 sessionIdInt:

5)highBits 左移 6 位,并将 sessionIdInt 的高 6 位拼接到 highBits 的低 6 位中:

6)取会话 ID 的低 16 位做为 lowBits:

7)highBits 与 lowBits 拼接获得 80 Bit 的消息 ID,对其进行 32 进制编码,便可获得惟一消息 ID:

编码规则:从左至右,每 5 个 Bit 转换为一个整数,以这个整数做为下标,便可在下表中找到对应的字符。

六、实际应用

PS:若是感受上面两节介绍的算法思路和代码实现有点抽象,能够直接去看融云的IM产品中的实际消息ID生成状况。

好比,从融云的Demo产品中取出的同一个用户相近时间内的3条单聊消息ID样本:

BD8U-DG1U-5UI5-L789

BD8U-DU6D-2205-L789

BD8U-FCOJ-LDC5-L789

好比,能够直接登录融云的Web产品 http://web.sealtalk.im,在浏览器端研究学习它的消息ID生成状况:

特别说明:仅仅出于技术研究和学习目的来分享此文,并无收到融云的任何好处,因此此文不是广告,我也不是托。若有不妥,请告之!

七、注意事项

融云所使用的这种 ID 生成的方式,须要注意:

1)注意保证自旋 ID 的生成是线程安全的;

2)避免在并发状况下,生成出一样的 ID ;

3)此 ID 生成算法,强烈依赖系统时间,若是系统时间被改小,也可能形成 ID 生成重复。

附录:更多IM开发热门技术文章

《新手入门一篇就够:从零开发移动端IM》
《移动端IM开发者必读(一):通俗易懂,理解移动网络的“弱”和“慢”》
《移动端IM开发者必读(二):史上最全移动弱网络优化方法总结》
《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》
《现代移动端网络短链接的优化手段总结:请求速度、弱网适应、安全保障》
《腾讯技术分享:社交网络图片的带宽压缩技术演进之路》
《小白必读:闲话HTTP短链接中的Session和Token》
《IM开发基础知识补课:正确理解前置HTTP SSO单点登录接口的原理》
《移动端IM中大规模群消息的推送如何保证效率、实时性?》
《移动端IM开发须要面对的技术问题》
《开发IM是本身设计协议用字节流好仍是字符流好?》
《请问有人知道语音留言聊天的主流实现方式吗?》
《IM消息送达保证机制实现(一):保证在线实时消息的可靠投递》
《IM消息送达保证机制实现(二):保证离线消息的可靠投递》
《如何保证IM实时消息的“时序性”与“一致性”?》
《一个低成本确保IM消息时序的方法探讨》
《IM单聊和群聊中的在线状态同步应该用“推”仍是“拉”?》
《IM群聊消息如此复杂,如何保证不丢不重?》
《谈谈移动端 IM 开发中登陆请求的优化》
《移动端IM登陆时拉取数据如何做到省流量?》
《浅谈移动端IM的多点登录和消息漫游原理》
《彻底自已开发的IM该如何设计“失败重试”机制?》
《通俗易懂:基于集群的移动端IM接入层负载均衡方案分享》
《微信对网络影响的技术试验及分析(论文全文)》
《即时通信系统的原理、技术和应用(技术论文)》
《开源IM工程“蘑菇街TeamTalk”的现状:一场虎头蛇尾的开源秀》
《腾讯原创分享(一):如何大幅提高移动网络下手机QQ的图片传输速度和成功率》
《如约而至:微信自用的移动端IM网络层跨平台组件库Mars已正式开源》
《基于社交网络的Yelp是如何实现海量用户图片的无损压缩的?》
《腾讯技术分享:腾讯是如何大幅下降带宽和网络流量的(图片压缩篇)》
《腾讯技术分享:腾讯是如何大幅下降带宽和网络流量的(音视频技术篇)》
《字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8》
《全面掌握移动端主流图片格式的特色、性能、调优等》
《子弹短信光鲜的背后:网易云信首席架构师分享亿级IM平台的技术实践》
《IM开发基础知识补课(五):通俗易懂,正确理解并用好MQ消息队列》
《微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)》
《自已开发IM有那么难吗?手把手教你自撸一个Andriod版简易IM (有源码)》
《融云技术分享:解密融云IM产品的聊天消息ID生成策略》

(本文同步发布于:http://www.52im.net/thread-27...

相关文章
相关标签/搜索