从濒临解散到浴火重生,OceanBase 这十年经历了什么?

阿里妹导读:谈及国产自研数据库,就不得不提 OceanBase。与不少人想象不一样的是,OceanBase 并不是衔着金钥匙出生的宠儿。相反,它曾无人看好、困难重重,整个团队甚至数度濒临解散。数据库

从千钧一发到浴火重生,OceanBase 这十年经历了什么?今天,咱们一块儿了解它背后鲜为人知的故事。服务器

OceanBase 是彻底由阿里巴巴和蚂蚁金服自主研发、全球首个应用于金融核心业务的分布式关系数据库。OceanBase 的研发始于 2010 年 6 月,由于选择从零开始,研发之路从一开始就磨难重重,中途由于找不到愿意使用的业务,团队曾经濒临解散。并发

最终 OceanBase 仍是跨越了死亡之谷,在蚂蚁金服实现了全面替代 Oracle,成功支撑了过去 5 年“双 11”蚂蚁金服所有核心业务的重压,创造了 25.6 万笔 / 秒支付峰值和 4200 万笔 / 秒请求数处理峰值这一业内全新的纪录。自 2017 年开始,OceanBase 开始走向外部商用,目前已经在数十家商业银行落地,其中包括南京银行、浙商银行、苏州银行、人保健康险等。OceanBase 帮助南京银行共同打造“鑫云 +”互金开放平台,实现贷款交易处理能力 10 倍提高,轻资产模式显著下降成本,从原有的 30~50 元 / 帐户下降到上线后的 4 元 / 帐户。日处理百万笔放款,平均处理时间小于 1 秒,让老百姓借钱更方便,真正实现了普惠金融。框架

站在如今这个时间点上顾盼今昔,蚂蚁金服高级研究员、OceanBase 创始人阳振坤认为,OceanBase 的成功其实有行业和时代的必然性。分布式

时 机

2009 年开始,大量新的非关系型数据库如雨后春笋般涌出,在整个数据库行业掀起了一场空前盛大的 NoSQL 革命,现在赫赫有名的 Redis、MongoDB 皆诞生于那一年。NoSQL 的拥护者们积极提倡使用非关系型的数据存储,从而得到丰富而随需应变的可伸缩性。这时候的关系数据库早已过了而立之年,在此期间虽然曾短暂爆发过一些所谓终结关系数据库的革命,但最终都失败了,丝毫没有动摇到关系数据库的主导地位。高并发

但这一次彷佛与以往不一样,火热发展的云计算带来了对更大规模数据库的需求,而关系数据库的缺点则相应地被愈来愈多人诟病:不可以扩展、容量小、处理能力不够、成本又很是高。在当时的不少人看来,关系数据库的末日是真的要来了。2010 年,NoSQL 革命愈演愈烈,有行业专家发文直指“云计算时代属于 NoSQL,关系数据库已经日薄西山”。大数据

那时阳振坤已经作了两年多的自研分布式系统,十分看好云计算系统的发展机会。同一年,阳振坤加入阿里巴巴,开始了分布式关系数据库 OceanBase 的研发。阿里云

数据库从诞生起已经有几十年的时间了,但基本上它的市场格局就没有多少变化,最先起来的几家厂商今天仍是占据着统治地位。由于数据库很是难被替换,它处在整个产品或者产业链最底层的位置,替换风险很大,但收益相比起来却小得多。这也是为何像 IBM、微软这样的后来者也没法取代 Oracle。这就致使了数据库变成了一个门槛极高、强者恒强的领域,后来者很难居上。前有 Oracle 挡道、后有 NoSQL 数据库追赶,在大部分人看来,那时候怎么也不会是自研关系数据库的好时机,但阳振坤却不这么想。云计算

加入阿里以后,阳振坤发现不管对淘宝仍是支付宝,关系数据库都扮演着十分关键的角色,在使用上根本不可能摆脱。但已有的数据库,不管是商业数据库仍是开源数据库,都有很是多的局限,远远没法知足如淘宝、支付宝这样的互联网和金融业务对高扩展、高并发、高可用和低成本的需求。单机数据库已经走到了尽头,下一步只能走向分布式,而分布式刚好是阳振坤所擅长的。若是能将分布式技术揉到数据库里面,解决单机数据库存在的各类问题,对当时整个互联网的基础设施都会是一个巨大的帮助和进步。阳振坤认为他们遇上了一个“天时地利人和”的好机会。spa

“天时”指的是互联网的爆发式增加对数据库的高并发、大数据量提出了很大的需求,有了需求去推进就会容易得多;“地利”指的是阿里内部从淘宝到蚂蚁金服拥有大量须要使用数据库的场景,OceanBase 能够从不是特别重要的应用场景开始尝试,一步步地将数据库作成关键系统;“人和”指的是当时单机数据库已经走到了尽头,下一步必定是走向分布式,而当时团队成员大可能是研究分布式出身,作的就是本身最擅长的工做。用阳振坤的原话就是:“这是百年不遇的机会,咱们必定要作,并且必定能作成。”

选 择

“其实绝大部分人都很是聪明,或者说智慧都足够,但最终能把事情作成的人却很少。有时候你们在想这我的是大聪明那我的是小聪明,不是说他的智慧不够。若是一我的把他的智慧放在作应该作的事情、须要作的事情、重要的事情上,可能这我的真的就是大聪明。”

“一个不断破格的人”,这是早前某次采访中记者对阳振坤的评价。1984 年阳振坤考入北京大学数学系,硕士师从本系的张恭庆院士,后又转向计算机领域,博士师从计算机系的王选院士。须要强调的是,他修完大学课程只用了 3 年,硕士只用了一年多,成为王选院士博士生的时候他只有 24 岁。1995 年其所在团队研究成果获国家科技进步一等奖(排名第四),1997 年也就是他 32 岁那年被破格晋升为教授。

回想在北大的那些年,阳振坤以为特别感激的是,学数学让他有了一个很好的数学基础,后来转到计算机系之后,碰到了王选老师,又打下了一个比较牢靠的计算机基础,这才有了他后来的今天。做为对阳振坤影响最大的人,恩师王选有两点让他至今受益:一是如何判断一件事情是否有价值,二是“顶天立地”的技术理念,“顶天”就是技术上要不断追求新突破,“立地”就是要把技术作成通用产品,让整个社会都能广泛使用。

其实 2010 年去淘宝的时候,阳振坤根本不知道本身会作什么事情。加入淘宝以后,摆在他面前的有两个选择,一个是加入正在快速发展的淘宝业务团队,去主管技术,这是一条已经能看到很大的发展机会、相对轻松的道路;另外一条是阳振坤后来本身选的,从头组建团队作一个技术平台,也就是今天咱们看到的 OceanBase 数据库。从加入淘宝到选择作自研数据库,一共只花了两个星期的时间。

这不是一个容易的选择,但阳振坤相信本身的判断:“2010 年选这个项目的时候,我是以为这件事情须要作。当时互联网迅速发展带来了对大数据量、高并发的需求,你们对传统单机数据库有很大的抱怨,以为它既没有扩展能力,又没有高并发的能力,成本还很是高,可是互联网根本就离不开关系数据库。这件事情怎么看都是一件应该要作、须要作的事情。”阳振坤没有说出来的是,这件事到底有多难。

那时候阿里巴巴刚开始要“去 IOE”,几乎没人想着说要本身从头作一个数据库。传统关系数据库都是经过外部硬件来保证可用性,用便宜的 PC 机替换高端服务器以后,硬件更容易出故障了,如何保证数据库高可用?高可用和数据一致性如何同时保证?分布式系统怎么同时实现 CAP 的要求?几十年来这么多作数据库的厂商,国内国外基本没有人成功过。并且从公司的业务发展的角度,也不可能等你几年把数据库作出来,再去发展业务,更可行的作法是基于开源作出一些东西,让业务先往前走。所以 OceanBase 立项之初,除了阳振坤和他当时的直属领导,其余人对这个项目要么不关心,要么不同意。从零开始自研分布式关系数据库并全面替换 Oracle,在当时有多少人会相信这真的能作成呢?当时整个淘宝一共只有两三千人,而 Oracle 有十几万人,就算整个淘宝的人所有去作数据库,跟 Oracle 比起来也只是很小很小的一个比例。

在阳振坤看来,若是一件事情几乎全部的人都认为它很重要、须要作,这件事情就已经不是创新了。当全部人都认为这件事情要作的时候,其实作这件事情的时机已通过去了一大半。做为最底层的基础软件设施,数据库须要很长时间的积累,不可能今年作,明年就能真正大规模地用起来。虽然在 2010 年选择作数据库的时候,没有太多人看重和支持,对于团队来讲这可能反而是一件好事。无人关注,反倒给了团队几年积累发展的时间。

阳振坤不仅要自研,还要把 OceanBase 定位成恩师王选所说的“顶天立地”的技术产品——走标准化的路,作一个通用的关系数据库产品,而不是一个仅仅在公司内部使用的产品。每一个公司使用任何产品其实都只用了其中很小的一部分功能,若是只作知足公司自用需求的数据库,可能只须要投入十分之1、五分之一的人力物力时间。而要作成通用产品就意味着必须实现全部功能,这要困可贵多,团队的投入、花费的精力和时间也要大好多倍。但也由于阳振坤最初的坚持,今天的 OceanBase 才得以走出蚂蚁金服,走进多家银行系统。不过这都是后话了。

蛰 伏

“若是找不到愿意使用的业务,数据库系统是作不下去的。”

OceanBase 的第一个客户来自淘宝收藏夹。当时的淘宝收藏夹正处于业务高速发展期,数据库的访问量飞快增加,面临着第二年服务器数量须要翻一倍甚至几倍的局面。业务方忙于寻找解决方案的时候,阳振坤主动找上门去提出了能够用 OceanBase 帮他们解决问题,把服务器数量下降一个数量级。四个月出 Demo,八个月出试用版,一年后系统正式上线,淘宝收藏夹就这样成了第一个吃 OceanBase 螃蟹的业务,新数据库取得了很是好的效果。这时候是 2011 年,收藏夹项目成为了 OceanBase 第一个小小的里程碑。

但在后续一年多的时间里,OceanBase 团队一直在寻找更多业务,也确实有一些业务用了,却再也没有找到像淘宝收藏夹效果这么显著的业务。作数据库难度大、周期长,前几年的投入也许有那么一点点产出,但其实跟投入比几乎微不足道,团队面临的压力可想而知。数据库少不了人力投入,OceanBase 团队从最先只有阳振坤一我的,后来发展到 2012 年已经有 30 多我的了。占了这么多人头,但在公司里却没有足够多、足够重要的业务,没能产生足够大的价值和效益。团队陷入了一个比较困难的时期,甚至数度濒临解散。

当被问及“中间有没有想过这事若是没作成,怎么办?”,阳振坤回答得云淡风轻:“不是每件事都能作成,那太难了。若是每件事在作以前都想着它能不能作成,那最后作成的事就会不多。”

作数据库就像在黑暗中前行,守得住寂寞、担得了压力,甚至要有近乎偏执的性格才可能跨越死亡之谷,到达最终目的地。阳振坤团队中一位新人曾经向他表达过本身的困惑,当时这位新人入职三个月了,由于有太多东西要学,什么也没作出来,而跟他同时入职天猫的新员工才来了一个月,作的系统就已经在线上使用了。阳振坤当时给新人讲了一个故事,他说:“你过三年再看,没有人还记得那个同窗三年前在天猫上把网页作了什么改版,但是三年之后你今天作的东西还会在生产系统中使用。”

破茧

在最困难也最危险的时候,团队迎来了一丝起色。2012 年末,公司把 OceanBase 整个团队调到了支付宝。支付宝属于金融领域,面临的数据库挑战会比其余业务更大,这至关于给了 OceanBase 团队一次从头开始的机会。

2013 年夏天,支付宝也开始启动“去 IOE”,并但愿可以把 Oracle 数据库替换掉。阳振坤又一次主动出击,向当时的主管、也是如今蚂蚁金服的 CTO 程立自荐了 OceanBase 的解决方案。

金融行业数据库,最怕的就是突发故障致使数据丢失,涉及到钱的事,多了少了都是不可接受的。为了解决高可用与主备库数据一致的矛盾,OceanBase 将可用性作到了数据库系统内部,用一主两备或一主多备代替一主一备。主库到备库同步的时候不要求同步到每一个备库,而是同步到包括主库在内的多数库(超过半数),也就是说总共三个库中若是有两个成功了,这个事务就成功了。若是任何一台机器出了问题,这个系统的可用性和数据一致性都是能够保证的。

程立承认了阳振坤提出的方案,OceanBase 团队开始埋头开发,第一个要攻克的目标是支付宝交易库。2014 年双 11,OceanBase 迎来了第一次大考。

大促开始前的凌晨,各个团队都在本身的做战室里热火朝天地准备。当时任蚂蚁金服董事长的彭蕾去了 OceanBase 团队的做战室,问你们:“有没有信心?”阳振坤跟彭蕾开了个玩笑说:“你看咱们窗子都已经打开了,若是等会出问题,咱们就准备从这跳下去。”

在一开始的计划里,双 11 交易流量的 1% 会切给 OceanBase,但由于当时的 Oracle 数据库系统支撑不了汹涌而来的巨大流量,最后 OceanBase 成功支撑了 2014 年双 11 10% 的交易流量。通过了双 11 的考验以后,OceanBase 获得了更多的承认和支持。后来 OceanBase 团队得到了 2015 年蚂蚁金服的 CEO 大奖,这也是第一次由技术团队拿到这个奖。彭蕾但愿借这个奖鼓励那些可以沉下心来、扎扎实实地把一项技术作好作扎实的技术人们。

2015 年春夏,支付宝交易库和支付库都换成了 OceanBase;2016 年,支付宝帐务系统上线,这也标记着 OceanBase 真正在金融系统最核心最关键的领域站住了脚。2017 年,OceanBase 开始走出支付宝、走出蚂蚁金服,在商业银行推广使用,至今已在数十家商业银行上线运行。

从濒临解散到浴火重生,OceanBase 已经走了快十年,但在自研关系数据库这条漫漫长路上,OceanBase 才仅仅走出了一小步。在阳振坤看来,OceanBase 如今“开了很大的一朵花,可是结了很小的一个果”,虽然它已经向全部人证实了通用的分布式关系数据库是可以作成的,并且能真正应用在生产系统中,但今天 OceanBase 的应用还颇有限,远远没有充分发挥它的价值。

变局

现在再回看十年前那场轰轰烈烈的 NoSQL 革命,很难一语断定它到底成功与否。从好的一面来看,在过去十年里,NoSQL 数据库确实取得了很是亮眼的成绩,在软件工程师阵营里愈来愈受欢迎,其中 MapReduce、Bigtable、Cassandra、MongoDB 等都是其中的佼佼者。然而这两年,业界也在从新拥抱 SQL,几乎全部的云计算服务提供商都在提供备受青睐的关系型数据库管理服务:例如 Amazon RDS、Google Cloud SQL、Azure PostgreSQL。对于亚马逊来讲,其兼容 PostgreSQL 和 MySQL 的数据库产品 Aurora 一直是 AWS 历史上增加最快的服务。

Gartner 在 2018 年的操做型数据库管理系统(OPDBMS)魔力象限中推测“到 2020 年,关系数据库技术将继续用于至少 70% 的新应用和新项目。”

从上到下依次为201八、201七、201六、2015年Gartner操做型数据库管理系统魔力象限图

以上是 Gartner 过去四年对操做型数据库管理系统的分析,其中头部领导者 Oracle 和微软一直稳如磐石。正由于数据库领域的理论和工程实践早已成熟,前先后后各家公司作产品和技术的思路都差很少,因此很难突破现有产品的框架,更难以颠覆已有市场上占领先地位的厂商。

但即便是数据库这样很是成熟的细分领域也发生了很多动荡,相比四年前,现在活下来的公司只剩下一半;谷歌凭借 Spanner 从一招鲜玩家杀入到远见者,阿里云一举跻身远见者,且拥有最多的 DBMS 服务品种;亚马逊连年快速上升,现在已经跟 Oracle、微软很是接近。

阳振坤告诉咱们,OceanBase 当初没有选择基于开源或已有的技术思路开发,而是选择走分布式自研这条路,虽然走得艰难,但作成以后就会成为不可替代的优点。过去这十来年正好是分布式系统发展的十来年,转型到分布式已经成为全部人都承认的一个选择。现在,以 Google Spanner、蚂蚁金服的 OceanBase 为表明的分布式关系数据库,不只解决了关系数据库的扩展性问题,也极大地下降了关系数据库的成本(数量级的硬件成本的下降),还提高了可用性。

如今,兼容 Oracle 的工做是 OceanBase 的重中之重。OceanBase 团队的目标是,用两年时间作到 Oracle 业务的平滑迁移,不须要修改一行代码、不须要业务作任何调整就可以将数据库迁移过来。

对于数据库的将来,阳振坤表示:“尽管今天在业界,数据仓库主要依赖的不是关系数据库,但能够看看 Google。今天 Google 的大数据分析 / 数据库仓库基本都统一到了 Spanner,这应该是 5-10 年后产业界的写照。”将来,OceanBase 还会走得更快、更远。


原文连接 本文为云栖社区原创内容,未经容许不得转载。

相关文章
相关标签/搜索