达达O2O后台架构演进实践：从0到4000高并发请求背后的努力

时间 2019-11-20

原文原文链接

一、引言

达达创立于2014年5月，业务覆盖全国37个城市，拥有130万注册众包配送员，日均配送百万单，是全国领先的最后三千米物流配送平台。达达的业务模式与滴滴以及Uber很类似，以众包的方式利用社会闲散人力资源，解决O2O最后三千米即时性配送难题（2016年4月，达达已经与京东到家合并）。 php

达达的业务组成简单直接——商家下单、配送员接单和配送，也正由于理解起来简单，使得达达的业务量在短期能实现爆发式增加。而支撑业务快速增加的背后，正是达达技术团队持续不断的快速技术迭代的结果，本文正好借此机会，总结并分享了这一系列技术演进的第一手实践资料，但愿能给一样奋斗在互联网创业一线的你带来启发。html

（本文同步发布于：http://www.52im.net/thread-2141-1-1.html）算法

二、相关文章

《新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践》数据库

《腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面》后端

《快速理解高性能HTTP服务端的负载均衡技术原理》缓存

《知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路》服务器

《阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史》微信

《阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路》网络

三、技术背景

达达业务主要包含两部分：架构

1）商家发单；

2）配送员接单配送。

达达的业务逻辑看起来很是简单直接，以下图所示：

达达的业务规模增加极大，在1年左右的时间从零增加到天天近百万单，给后端带来极大的访问压力。压力主要分为两类：读压力、写压力。读压力来源于配送员在APP中抢单，高频刷新查询周围的订单，天天访问量几亿次，高峰期QPS高达数千次/秒。写压力来源于商家发单、达达接单、取货、完成等操做。达达业务读的压力远大于写压力，读请求量约是写请求量的30倍以上。

下图是达达在成长初期，天天的访问量变化趋图，可见增加极快：

下图是达达在成长初期，高峰期请求QPS的变化趋势图，可见增加极快：

极速增加的业务，对技术的要求愈来愈高，咱们必须在架构上作好充分的准备，才能迎接业务的挑战。接下来，咱们一块儿看看达达的后台架构是如何演化的。

小知识：什么是QPS、TPS？

QPS：Queries Per Second意思是“每秒查询率”，是一台服务器每秒可以相应的查询次数，是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。

TPS：是TransactionsPerSecond的缩写，也就是事务数/秒。它是软件测试结果的测量单位。一个事务是指一个客户机向服务器发送请求而后服务器作出反应的过程。客户机在发送请时开始计时，收到服务器响应后结束计时，以此来计算使用的时间和完成的事务个数。

四、最初的技术架构：简单直接

做为创业公司，最重要的一点是敏捷，快速实现产品，对外提供服务，因而咱们选择了公有云服务，保证快速实施和可扩展性，节省了自建机房等时间。在技术选型上，为快速的响应业务需求，业务系统使用Python作为开发语言，数据库使用MySQL。

以下图所示，应用层的几大系统都访问一个数据库：

五、中期架构优化：读写分离

5.1 数据库瓶颈愈来愈严重

随着业务的发展，访问量的极速增加，上述的方案很快不能知足性能需求：每次请求的响应时间愈来愈长，好比配送员在app中刷新周围订单，响应时间从最初的500毫秒增长到了2秒以上。业务高峰期，系统甚至出现过宕机，一些商家和配送员甚至所以而怀疑咱们的服务质量。在这生死存亡的关键时刻，经过监控，咱们发现高期峰MySQL CPU使用率已接近80%，磁盘IO使用率接近90%，Slow Query从天天1百条上升到1万条，并且一天比一天严重。数据库俨然已成为瓶颈，咱们必须得快速作架构升级。

以下是数据库一周的qps变化图，可见数据库压力的增加极快：

5.2 咱们的读写分离方案

当Web应用服务出现性能瓶颈的时候，因为服务自己无状态（stateless），咱们能够经过加机器的水平扩展方式来解决。而数据库显然没法经过简单的添加机器来实现扩展，所以咱们采起了MySQL主从同步和应用服务端读写分离的方案。

MySQL支持主从同步，实时将主库的数据增量复制到从库，并且一个主库能够链接多个从库同步。

利用MySQL的此特性，咱们在应用服务端对每次请求作读写判断：

1）如果写请求，则把此次请求内的全部DB操做发向主库；

2）如果读请求，则把此次请求内的全部DB操做发向从库。

以下图所示：

实现读写分离后，数据库的压力减小了许多，CPU使用率和IO使用率都降到了5%内，Slow Query也趋近于0。

主从同步、读写分离给咱们主要带来以下两个好处：

1）减轻了主库（写）压力：达达的业务主要来源于读操做，作读写分离后，读压力转移到了从库，主库的压力减少了数十倍；

2）从库（读）可水平扩展（加从库机器）：因系统压力主要是读请求，而从库又可水平扩展，当从库压力太时，可直接添加从库机器，缓解读请求压力。

以下是优化后数据库QPS的变化图：

▲ 读写分离前主库的select QPS

▲ 读写分离后主库的select QPS

5.3 新情况出现：主从延迟问题

固然，没有一个方案是万能的。

读写分离，暂时解决了MySQL压力问题，同时也带来了新的挑战：

1）业务高峰期，商家发完订单，在个人订单列表中却看不到当发的订单（典型的read after write）；

2）系统内部偶尔也会出现一些查询不到数据的异常。

经过监控，咱们发现，业务高峰期MySQL可能会出现主从延迟，极端状况，主从延迟高达10秒。

那如何监控主从同步状态？在从库机器上，执行show slave status，查看Seconds_Behind_Master值，表明主从同步从库落后主库的时间，单位为秒，若同从同步无延迟，这个值为0。MySQL主从延迟一个重要的缘由之一是主从复制是单线程串行执行。

那如何为避免或解决主从延迟？咱们作了以下一些优化：

1）优化MySQL参数，好比增大innodb_buffer_pool_size，让更多操做在MySQL内存中完成，减小磁盘操做；

2）使用高性能CPU主机；

3）数据库使用物理主机，避免使用虚拟云主机，提高IO性能；

4）使用SSD磁盘，提高IO性能。SSD的随机IO性能约是SATA硬盘的10倍；

5）业务代码优化，将实时性要求高的某些操做，使用主库作读操做。

5.4 主库的写操做变的愈来愈慢

读写分离很好的解决读压力问题，每次读压力增长，能够经过加从库的方式水平扩展。可是写操做的压力随着业务爆发式的增加没有颇有效的缓解办法，好比商家发单起来越慢，严重影响了商家的使用体验。咱们监控发现，数据库写操做愈来愈慢，一次普通的insert操做，甚至可能会执行1秒以上。

下图是数据库主库的压力：

▲ 可见磁盘IO使用率已经很是高，高峰期IO响应时间最大达到636毫秒，IO使用率最高达到100%

同时，业务愈来愈复杂，多个应用系统使用同一个数据库，其中一个很小的非核心功能出现Slow query，经常影响主库上的其它核心业务功能。

咱们有一个应用系统在MySQL中记录日志，日志量很是大，近1亿行记录，而这张表的ID是UUID，某一天高峰期，整个系统忽然变慢，进而引起了宕机。监控发现，这张表insert极慢，拖慢了整个MySQL Master，进而拖跨了整个系统。（固然在MySQL中记日志不是一种好的设计，所以咱们开发了大数据日志系统。另外一方面，UUID作主键是个糟糕的选择，在下文的水平分库中，针对ID的生成，有更深刻的讲述）。

5.5 进一步对主库进行拆分，优化主库写操做慢的问题

这时，主库成为了性能瓶颈，咱们意识到，必需得再一次作架构升级，将主库作拆分：

1）一方面以提高性能；

2）另外一方面减小系统间的相互影响，以提高系统稳定性。

这一次，咱们将系统按业务进行了垂直拆分。

以下图所示，将最初庞大的数据库按业务拆分红不一样的业务数据库，每一个系统仅访问对应业务的数据库，避免或减小跨库访问：

下图是垂直拆分后，数据库主库的压力，可见磁盘IO使用率已下降了许多，高峰期IO响应时间在2.33毫秒内，IO使用率最高只到22.8%：

将来是美好的，道路是曲折的。

垂直分库过程，也遇到很多挑战，最大的挑战是：不能跨库join，同时须要对现有代码重构。单库时，能够简单的使用join关联表查询；拆库后，拆分后的数据库在不一样的实例上，就不能跨库使用join了。

好比在CRM系统中，须要经过商家名查询某个商家的全部订单，在垂直分库前，能够join商家和订单表作查询，以下如示：

分库后，则要重构代码，先经过商家名查询商家id，再经过商家Id查询订单表，以下所示：

垂直分库过程当中的经验教训，使咱们制定了SQL最佳实践，其中一条即是程序中禁用或少用join，而应该在程序中组装数据，让SQL更简单。一方面为之后进一步垂直拆分业务作准备，另外一方面也避免了MySQL中join的性能较低的问题。

通过一个星期紧锣密鼓的底层架构调整，以及业务代码重构，终于完成了数据库的垂直拆分。拆分以后，每一个应用程序只访问对应的数据库，一方面将单点数据库拆分红了多个，分摊了主库写压力；另外一方面，拆分后的数据库各自独立，实现了业务隔离，再也不互相影响。

六、为将来作准备，进一步升级架构：水平分库（sharding）

经过上一节的分享，咱们知道：

1）读写分离，经过从库水平扩展，解决了读压力；

2）垂直分库经过按业务拆分主库，缓存了写压力。

但技术团队是否就此高枕无忧？答案是：NO。

上述架构依然存在如下隐患：

1）单表数据量愈来愈大：如订单表，单表记录数很快将过亿，超出MySQL的极限，影响读写性能；

2）核心业务库的写压力愈来愈大：已不能再进一次垂直拆分，MySQL 主库不具有水平扩展的能力。

之前，系统压力逼迫咱们架构升级，这一次，咱们需提早作好架构升级，实现数据库的水平扩展(sharding)。咱们的业务相似于Uber，而Uber在公司成立的5年后（2014）年才实施了水平分库，但咱们的业务发展要求咱们在成立18月就要开始实施水平分库。

本次架构升级的逻辑架构图以下图所示：

水平分库面临的第一个问题是，按什么逻辑进行拆分：

1）一种方案是按城市拆分，一个城市的全部数据在一个数据库中；

2）另外一种方案是按订单ID平均拆分数据。

按城市拆分的优势是数据聚合度比较高，作聚合查询比较简单，实现也相对简单，缺点是数据分布不均匀，某些城市的数据量极大，产生热点，而这些热点之后可能还要被迫再次拆分。

按订单ID拆分则正相反，优势是数据分布均匀，不会出现一个数据库数据极大或极小的状况，缺点是数据太分散，不利于作聚合查询。好比，按订单ID拆分后，一个商家的订单可能分布在不一样的数据库中，查询一个商家的全部订单，可能须要查询多个数据库。针对这种状况，一种解决方案是将须要聚合查询的数据作冗余表，冗余的表不作拆分，同时在业务开发过程当中，减小聚合查询。

反复权衡利弊，并参考了Uber等公司的分库方案后，咱们最后决定按订单ID作水平分库。

从架构上，咱们将系统分为三层：

1）应用层：即各种业务应用系统；

2）数据访问层：统一的数据访问接口，对上层应用层屏蔽读写分库、分库、缓存等技术细节；

3）数据层：对DB数据进行分片，并可动态的添加shard分片。

水平分库的技术关键点在于数据访问层的设计。

数据访问层主要包含三部分：

1）ID生成器：生成每张表的主键；

2）数据源路由：将每次DB操做路由到不一样的shard数据源上；

3）缓存：采用Redis实现数据的缓存，提高性能。

ID生成器是整个水平分库的核心，它决定了如何拆分数据，以及查询存储-检索数据：

1）ID须要跨库全局惟一，不然会引起业务层的冲突；

2）此外，ID必须是数字且升序，这主要是考虑到升序的ID能保证MySQL的性能；

3）同时，ID生成器必须很是稳定，由于任何故障都会影响全部的数据库操做。

咱们的ID的生成策略借鉴了Instagram的ID生成算法。

咱们具体的ID生成算法方案以下：

如上图所示，方案说明以下：

1）整个ID的二进制长度为64位；

2）前36位使用时间戳，以保证ID是升序增长；

3）中间13位是分库标识，用来标识当前这个ID对应的记录在哪一个数据库中；

4）后15位为MySQL自增序列，以保证在同一秒内并发时，ID不会重复。每一个shard库都有一个自增序列表，生成自增序列时，从自增序列表中获取当前自增序列值，并加1，作为当前ID的后15位。

七、写在最后

创业是与时间赛跑的过程，前期为了快速知足业务需求，咱们采用简单高效的方案，如使用云服务、应用服务直接访问单点DB。

后期随着系统压力增大，性能和稳定性逐渐归入考虑范围，而DB最容易出现性能瓶颈，咱们采用读写分离、垂直分库、水平分库等方案。

面对高性能和高稳定性，架构升级须要尽量超前完成，不然，系统随时可能出现系统响应变慢甚至宕机的状况。

附录：架构设计相关文章汇总

[1] 有关IM架构设计的文章：

《浅谈IM系统的架构设计》

《简述移动端IM开发的那些坑：架构设计、通讯协议和客户端》

《一套海量在线用户的移动端IM架构设计实践分享(含详细图文)》

《一套原创分布式即时通信(IM)系统理论架构方案》

《从零到卓越：京东客服即时通信系统的技术架构演进历程》

《蘑菇街即时通信/IM服务器开发之架构选择》

《腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT》

《微信后台基于时间序的海量数据冷热分级架构设计实践》

《微信技术总监谈架构：微信之道——大道至简(演讲全文)》

《如何解读《微信技术总监谈架构：微信之道——大道至简》》

《快速裂变：见证微信强大后台架构从0到1的演进历程（一）》

《17年的实践：腾讯海量产品的技术方法论》

《移动端IM中大规模群消息的推送如何保证效率、实时性？》

《现代IM系统中聊天消息的同步和存储方案探讨》

《IM开发基础知识补课(二)：如何设计大量图片文件的服务端存储架构？》

《IM开发基础知识补课(三)：快速理解服务端数据库读写分离原理及实践建议》

《IM开发基础知识补课(四)：正确理解HTTP短链接中的Cookie、Session和Token》

《WhatsApp技术实践分享：32人工程团队创造的技术神话》

《微信朋友圈千亿访问量背后的技术挑战和实践总结》

《王者荣耀2亿用户量的背后：产品定位、技术架构、网络方案等》

《IM系统的MQ消息中间件选型：Kafka仍是RabbitMQ？》

《腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面》

《以微博类应用场景为例，总结海量社交系统的架构设计步骤》

《快速理解高性能HTTP服务端的负载均衡技术原理》

《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》

《知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路》

《IM开发基础知识补课(五)：通俗易懂，正确理解并用好MQ消息队列》

《微信技术分享：微信的海量IM聊天消息序列号生成实践（算法原理篇）》

《微信技术分享：微信的海量IM聊天消息序列号生成实践（容灾方案篇）》

《新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践》

《一套高可用、易伸缩、高并发的IM群聊架构方案设计实践》

《阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史》

《阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路》

>> 更多同类文章 ……

[2] 更多其它架构设计相关文章：

《腾讯资深架构师干货总结：一文读懂大型分布式系统设计的方方面面》

《快速理解高性能HTTP服务端的负载均衡技术原理》

《子弹短信光鲜的背后：网易云信首席架构师分享亿级IM平台的技术实践》

《知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路》

《新手入门：零基础理解大型分布式架构的演进历史、技术原理、最佳实践》

《阿里技术分享：深度揭秘阿里数据库技术方案的10年变迁史》

《阿里技术分享：阿里自研金融级数据库OceanBase的艰辛成长之路》

《达达O2O后台架构演进实践：从0到4000高并发请求背后的努力》

>> 更多同类文章 ……

（本文同步发布于：http://www.52im.net/thread-2141-1-1.html）