深刻探访支付宝双11十年路,技术凿穿焦虑与想象极限 | CYZONE特写

小蚂蚁说:前端

双11十年间,交易规模的指数级增加不断挑战人们的想象力,而对蚂蚁技术团队来讲,这不只是一场消费盛宴,而是无数次濒临压力和焦虑极限的体验,更是技术的练兵场。现在双11对蚂蚁金服而言,已经毫不仅限于一个技术项目,而更像是一个社会化工程,能够叫作「连贯的,社会化的技术大协做」。数据库

图片描述

图 | 东方IC CYZONE特写,大时代惘闻录图 | 东方IC CYZONE特写,大时代惘闻录安全

支付宝团队不正像那尊红漆雕塑同样?服务器

一面对技术保持着敬畏、谦逊,一面又不得不玩命狂奔。微信

「双11」就在眼下了,但蚂蚁金服的新园区里气氛明朗,人群也没往年那么匆忙。网络

进园区时,出租车司机左手扶稳方向盘,右手比划着说,秋天是杭州最好的季节,固然啦,春天也不赖。阳光猛烈,洒在园区的楼群上,映得金栗色玻璃深邃又清亮。架构

这座新园区里尚有不少事不为人所熟知。运维

每3分钟会有1人在2号楼门口左手边垃圾桶上捻灭烟头,吱呀做响;访客大厅的姑娘天天用胖大海跟人参片泡4壶茶,12个玻璃杯倒扣,杯子把统一偏右30度;园区身着橙色外套的保洁员不间歇地扫落叶,她们天天工做8小时,3班倒,总在推车上预备3个喷壶,以及1个保温杯;每一个花坛里,一般能用竹质夹子够出三个烟头或纸片。分布式

这里的秋天昼夜温差只有6摄氏度,但迟早都有人衣着单薄;穿冲锋衣的外卖员打手机时,话筒离开嘴边20公分,嗓门平均70分贝;下午时分,不少餐馆的员工们蹲在门口抽烟,只有星巴克客流不断,这里的大蛋糕与迷你蛋糕预约时间都是3天,收银员也偶尔会用墨色水笔给姓董的先生标注Mr Wang;员工餐厅天天分四次供餐,楼群间额外排列着18家餐饮门店。性能

楼内有超过1000平米的免费健身房,私教价格仅为外边的一半,穿耐克跑鞋的姑娘天天会带着她的柯基犬来同时使用两台跑步机,尽管她的身型已没什么可挑剔。

当你在下沉广场跟第四我的搭话后,套着夹克衫的保安会盯着看,在你发毛以前问及身份,噢,是记者,别介意,履行职责嘛。

这是造价超过11亿元,面积18万平方米的蚂蚁金服新总部,设施功能齐全,堪堪媲美小型城镇,是 NBBJ 建筑事务所的手笔,也被叫作「蚂蚁Z空间」。

功能强大的综合体建筑容纳了这里的杭州人与新杭州人,注视着他们的每一单生意,每一次创新,这里承载上万人的财富与梦想,也记录着每一个个体的骄傲与焦虑。

双11十年间,交易规模的指数级增加不断挑战人们的想象力,而急速扩张背后,对技术团队来讲,是无数次濒临压力和焦虑极限的体验。

想象力和焦虑最初给蚂蚁金服技术团队结出了一张网,又织就成细密厚实的茧壳。从2010年开始的三四年里,人们总会在双11的消费前端感觉到一些使用体验的卡顿、不温馨,而内里则是这批工程师与欲望、想象力的博弈乃至搏斗,并在不少个逼近焦虑极限的瞬间,不断打破桎梏。

图片描述

2017年8月份,蚂蚁金服正式启用了这座名为「Z空间」的新园区 | 图虫创意

「为了几十秒,值吗?」

杭州入秋的早晨,凉得很,黄勇(花名展一)起个大早,跟几位同事结伴跑了趟灵隐寺。这千年古刹在深山,向来香火旺盛。这几年,寺庙时兴环保,免费发清香,他请了三炷,点上,拜拜。采访时,我问拜的哪位菩萨,黄勇皱皱眉头,乐了,「还真不认识」。

烧香的心但是诚的,何况,来许愿的人,没几个比他的愿望还大,做为今年双11支付保障PM(项目经理),他得事无巨细地操办这个事关几亿人的项目。

每逢双11,蚂蚁金服的项目组成员们总要供上关二爷,穿上红内裤,换上红战袍,存几瓶红酒,烧几炉香。按支付宝双11保障团团长陈亮(花名俊义,技术风险部研究员)的话来讲,这是对技术的敬畏。

可事实上,要敬畏的毫不仅仅是技术这一件事,双11做为枝节空前庞杂的项目,每一个事物的细节上都有无数个随机的可能性,早已超出了人能控制的边界。黄勇能作的就是制定「容灾」机制,尽力去逼近那个不可能到达的「肯定性」。举个例子来讲,在采访当天,黄勇刚刚给全部11月10号晚上要进光明顶(支付宝双11做战室)的成员发了邮件,仔细交代了「若是当晚茶杯在电脑上打翻了怎么办」这个主题。

2012年,负责支付宝双11项目的PM同事从西安请回一尊皮影关公像,大伙以为新鲜,纷纷敬上香烟、酸奶跟水果。自打那会开始,每逢重要的项目启动,总有人提早往公司请关二爷。创业邦此次拜访蚂蚁金服时,做战室里就供着一尊二爷铜像,该上的供也早都摆上了。请二爷彷佛也开始带来好运,那位请铜像的同窗,前年双11还在公司里抽到一次大奖。

某年双11,马云带几位合做伙伴在西溪园区参观,登上光明顶(支付宝双11做战室)的时候,一位女性投资人吃惊地问,大家工程师竟然时兴拜关公?俊义就笑,仍是那个说辞,敬畏。

信仰也好,敬畏也罢,双11显然都值得。十年里,从最初几乎不太被人感知的促销活动,由欲望、情绪、责任感和创造力混合驱动着增加,长成一个不断突破想象力极限的庞然大物。

2009年,首届双11购物节的单日成交额是5000多万元,一个对比是,当年支付宝的日交易额最高突破了12亿元。「记得有几十个品牌参与,当时对它的感受就是,淘宝作了个活动」,支付宝事业群总裁倪行军(花名苗人凤)回忆称。但他没有预料到,全部人都没预料到,从第二年,双11就开始刷新全部人的想象力上限,现在回头端详增加曲线,它在某些年份里维持着数字量级的增速,那线条着实显得陡峭,但想一想吧,处在那个当下,未知和增加给人们心理带来的是更增强烈的冲击感。

在蚂蚁金服CTO程立(花名鲁肃)的记忆里,2010年以后的几年双11,对支付宝技术团队来讲,是像电影《2012》通常的巨大考验,「你把一个船放在那里,上面有个大浪,没人知道能不能扛住,扛住就扛住了,扛不住就没了。」

这艘大船只能提早按既有的想象力建造,但在应对巨浪时,必须临时补救随机出现的漏洞,随机意味着不肯定性,巨大的随机和不肯定性就进一步施加给团队更庞大的压力。程立记得,现任阿里云副总裁李津当时在阿里巴巴集团负责双11项目,「受不了的时候,李津要开车到龙井山上,打开窗户睡一宿,他说压力太大了,要吸氧。」

2010年,第二次迎接双11的支付宝经历了一次后来广为人知的「4秒惊魂」。11日的23时59分30秒,双11结束前半分钟,支付宝核心帐务系统忽然报警,资源行将耗尽。当时整个支付宝的帐务数据库没有进行过任何拆分,一旦系统崩溃,全部业务都会挂掉,对淘宝和支付宝都会形成灾难性损失。在工程师将一个会计系统的应用关掉,释放出来资源时,离数据库崩溃只剩4秒。

单就技术自己,在当时就已是一笔永远测算不清楚的帐。

2012年双11以前,支付宝技术组已经把能想象到的压力测试作了个遍,但当晚高峰期仍是出了岔子,运维工程师巩杰(花名袁越)记得,当时后台一条数据通道设置的阈值过低,致使短暂宕机,但系统认定为没法响应,因而自动将其剔除了,随后服务器一台接一台地挂掉,「跟雪崩似的,致使几十分钟里交易一直在抖动」,直到作了降级,切掉一部分流量以后,系统才恢复正常交易——按程立的说法是,那根保险钨丝被高频交易熔断了,临时搭上一根铜线才应付过去。

此时,过于庞大复杂的系统,人力已经没法完成全面有效的测试了。巩杰说,由于有前两年数据库没法承压的状况,2012年已经在应用和DBA层面作了大量的压力测试,但最终出问题的,偏偏是前面还没压到的「路口」。

采访中,俊义苦笑道,当时每一年双11都信心满满,每一年又都过得提心吊胆。在双11压力最大的那几年,整个支付宝技术团队每一年要花费几个月乃至半年时间来「练兵」,作各类技术结构调整,系统测试。俊义最初产生过疑问,整个团队花费出的绝大部分时间精力,只是为了贡献给双11最高峰的那几秒。

「非得这样吗?」
「值吗?」

但时间会赋予全部本来未知事物以终极的意义,双11正是这样一个把意义逐渐延展开的时代产物。「在当时,淘宝是咱们最大的客户,咱们必须服务好」,俊义说。按照马云早年的讲法,在客户关系以外,淘宝天猫和支付宝更像是夫妻关系,也正是在淘宝天猫的业务倒逼下,支付宝团队的技术能力被空前地激发,一位今年入职的工程师绝不讳言,他入职蚂蚁金服的核心吸引力就是双11,「对工程师来讲,再没有比双11更值得挑战的项目了。」

巩杰也是后来才意识到,某信用卡团队早先在实验室环境里实现的数万笔每秒的交易峰值,早就被支付宝在实战里远远抛在身后。2017年双11,支付宝的交易峰值就达到了25.6万笔/秒。

按照资深技术专家李铮(花名祢衡)的说法,技术团队最近几年已经把双11两天48小时的工做量作了很细致的拆分,“咱们作了很是详尽的做战手册,它有不少的步骤,按不一样的时间点,你要去执行。”

技术以外,双11是个在更普遍的范围内牵扯着不一样部门,不一样团队,不一样企业的庞大协做系统。蚂蚁金服集团副总裁陈亮(花名关胜,品牌与公众沟通部门负责人)记得,某一年的双11当晚十点钟先后,一家国有大行银行的交易系统内的一百万个单号发光了,后续单子没法生成,因而当晚最后两个小时,全部源自该银行的支付订单都没法执行。「总会有你没法预想的问题出现,咱们作好全部准备,剩下只能兵来将挡水来土囤了。」

想一想啊,就比如火箭升空同样,倪行军敲敲桌子说。多少软硬件技术环节,多少个零件组装拆卸,在设计制造的过程当中,只能穷尽全部人脑能够企及的可能性去作测试,但在点火那一刹那,等待它的是圆满功成仍是原地爆炸,你只能束手以待了。

倪行军以为,不管是技术人员拜关公、烧香仍是公关团队的预案,都证实了蚂蚁金服团队对双11的敬畏心。2013年5月,支付宝下线了最后一台IBM小型机,随后逐渐以自主研发的OceanBase数据库替代了Oracle,完成了去IOE工程。现在双11对蚂蚁金服来讲,已经毫不仅限于一个技术项目,而更像是一个社会化工程。程立说,若是为它定义一个清晰的组织概念,能够叫作「连贯的,社会化的技术大协做」。

图片描述

双11做战室里的鲁肃(程立)| 受访者供图

一面敬畏,一面狂奔

蚂蚁Z空间的楼群维持着古怪的几何形状,像个「撅着屁股」的Z字,又像个扭动起舞的水泥巨人。但与外部怪异的建筑设计、杂乱的人流相反,在楼宇内部密布着闸机与证件机器,构建起坚固的秩序和准入流程。室外,巨大的红色人形雕塑朝着人流入口鞠躬,姿态谦逊,气势却浑然不可当。

支付宝团队不正像那尊雕塑同样?一面对技术保持着敬畏、谦逊,一面又不得不玩命狂奔。这十年间,在双11以外,他们也有不少焦虑要去消解。

被问及在支付宝工做十几年间最难忘的瞬间,倪行军和陈亮的首选都是那次年会。2010年1月21日,支付宝公司年会,此前内部并无太多源自自觉的危机感。遥遥领先的市场份额与灼灼亮眼的业务数据,一切看起来十分顺利。

但年会一开场,人们就发现气氛就有些怪异。会场高音喇叭里首先传来指责、抱怨、无奈与批评,这些声音是来自客服电话录音里的客户投诉。

但现场事态发展,彻底不仅是「反思」而已。陈亮到了会场,才收到马云等阿里集团组织部的高管们将要到场的消息。随后,客户满意中心的表明上台,表达了「咱们的体验如何糟糕,用户如何承受着折磨」;BD团队则指出「合做伙伴是如何对支付宝的高指望,同时又是如何的失望和无奈」。

马云现场发火了。「烂,太烂,烂到极点」。

陈亮记得,这是他多年来惟一一次在公开场合看到马云发脾气。马云绝不客气地指出,支付宝在不少问题上太过保守,若是不重视用户体验,「将慢慢死去」。

这显然跟支付宝团队自我评价的结论相去甚远,事实上,在那个时点上,若是横向对比来看,支付宝的产品设计和市场占有率表现毫不算差,团队甚至把2009年定义为「用户体验年」。但回头看,当时在PC端的产品体验确实很不理想,每次支付都须要解决控件、插件、外接U盾一堆问题。

时任阿里巴巴CTO的王坚也给了一句很是严厉的评价,「自娱自乐」。这甚至使倪行军当下有点懵,他记得在年会以后一段时间里,一度陷入严重的自我怀疑,「搞了这么多年技术,怎么变成自娱自乐了?是否是咱们对技术的认知出了问题?」

后来他反应过来,差池是出如今从技术到产品、到业务、再到客户之间的对话环节。作客户体验,单由使命与愿景来驱动不够。他本来认为的应该如何运做,与用户的现实期待之间,鸿沟已现。

整个中国的支付行业按照支付方式演变能够分红三个阶段:2009年-2013年,从网银支付到快捷支付;2014年-2016年,移动支付崛起;2017年-2018年,则是指纹和刷脸支付渐成主流。

现在回头看,那次年会对整个蚂蚁金服公司来讲都是个相当重要的节点,在这次转型的推进下,支付宝从网银支付迈进了快捷支付时代。「生生被逼出来的」,俊义回忆道,「若是那时候没有快捷支付,整个中国移动互联网的进程至少会落后两三年」

微信支付加入以前,支付宝曾有十年时间只能自我调试,寻找发展坐标。而当前者入局,支付宝团队的反应是:哇!咱们有竞争对手了。

「咱们从没有遇过像这样的竞争对手,竞争是很正常的事情,但结局取决于竞争对手的能量,微信支付是很是值得尊敬的一个竞争对手。」陈亮如是说。

微信支付出现,促使蚂蚁金服又一次推动意识形态的提高。现在说来云淡风轻,当时但是风起云涌,情绪百般垂丧。时间回到2014年1月26日,腾讯推出微信红包,后者马上以病毒式传播的方式活跃在微信群内,并在除夕夜全面爆发。数据显示,除夕当天到初八,超800万用户参与了红包活动,超4000万个红包被领取。

与微信红包这面的热火朝天造成明显反差的是,支付宝的「讨彩头」反响平平。后者推出于23日,还早了3天。

「微信一个红包就超过支付宝8年干的事。」这句话很快流传起来,马云后来则用「珍珠港偷袭」评价腾讯推出微信红包一举。

陈亮对这件事情对记忆尤为深入,他参与了支付宝红包的产品讨论。由于也在广东工做过,知道当地有讨红包的习俗,因而他给出了作「讨红包」的建议。但微信作的是「发红包」,陈亮回想,当时讨论过程当中,彷佛也有人提出这一点,但产品设计最终并未将其采纳。

其实,即使支付宝当时采用了发红包的设计,在那一阵上也未必有胜算——没有关系链,没有社群,没有从交易体系到帐户体系的总体准备。但陈亮仍然感到懊悔,控制不住的懊悔,甚至责怪本身技不如人。

眼看着媒体群里纷纷扬扬的红包雨和赞赏声,陈亮都不想上微信了,「不想说话了,不敢说话了」。

他想去友人处寻得开解,想驳斥那句一个红包顶八年的说法,但他刚开口就沉默下去,市场反应已然说明一切。可他仍是在内心翻来覆去地想,怎么咱们没有想到人家那个点子,怎么就没有呢?

但事情过去也就过去了。尽管公司层面的焦虑一直延续到2016年,但陈亮已经学会将焦虑情绪摒除在本身的生活以外。焦虑毫无用处这件事已被证实——前两年的焦虑除了让他本身难受紧张、动做变形外没有产生任何意义。

其实,接受这种量级的竞争,或许某种意义上也是在接受命运馈赠。陈亮后来老是被年轻同事认为对困难事物的感觉很迟钝,他本身以为缘由在于再没有过境况更加艰难的时刻了。再碰到困难时,总有一种消解的情绪在,「最难的时候都过来了,这些算什么?」

而支付产业则更加受益于两家顶级公司的竞争推进,中国支付技术在国际上一骑绝尘。2017年年底,西班牙《世界报》刊文表达了对中国支付产业的见解,给出的结论叫作:「中国的支付革命堪称中国史上最大的技术革新之一。」

图片描述

2018年10月19日晚,蚂蚁金服在Z空间举办HighMa音乐节 | 东方IC

技术的价值观

其实从2010年双11的「4秒惊魂」以前,支付宝技术人员就意识到,使用IOE商用设备(IBM-服务器提供商,Oracle-数据库软件提供商,EMC-存储设备提供商,三者构成了从软件到硬件的企业数据库系统)与开源软件,已经不能适用于双11交易量指数级增加对技术支持的要求,尤为是在谁也不能彻底预设到当晚情况的时候。即便能支撑,成本也将是天文数字。支付宝决定去IOE,自主研发分布式数据库,转云计算,OceanBase项目随即启动。

俊义记得,他在支付宝作的第一个技术改造项目是拆分数据库。当时还不是由于双11,单纯是由于支付宝网站交易量涨得很快,数据库扛不住了,不拆,业务就没法增长。这是在2008年。

2010年,俊义又拆了一次数据库。此次,他将上次拆出的两个数据库中的交易数据库,拆成10个小型机。这时已差很少算是为去IOE铺下基础。但很快,10个小型机也不够用了。

2011年的双11结束后,应用服务器与数据库的链接已到瓶颈,容量没办法再增长,换句话说,IOE集中式强大单点没法知足阿里特别是当时淘宝爆炸式业务增加应用的模式,同时也限制了技术潜力的发挥,另外,因为IOE是专用设备,对机架、电力、网络存在单独设计的要求,成本压力也已经很是大。

从2010年1月启动,到2011年7月完成商品库的去IOE(经历读写分离、去小型机、去Oracle和EMC),再到交易等其余核心系统的去IOE,2013年,支付宝最后一台小型机下线,IOE中的I和E都已经被中国自主研发的技术取代,上云完成阶段性进展,这就像造发动机,意味着双11的交易量不会再受到技术制约。

不过在第一阶段,每一年双11可否顺利经过,仍是有点碰运气。从2014年开始,支付宝开始研发和施行全链路压测技术,这就有点像造飞机时候的风洞,造一个实验室,彻底模拟当天峰值全部的真实环境,对系统进行压力测试。据2018年大促保障副队长巩杰说,全链路压测对真实用户请求的模拟能够达到与双11当天请求90%以上的一致度。这样一来,到了双11当天,平稳度过的几率就极高了,团队因不肯定而产生的焦虑大幅下降。

全链路压测做为消除不肯定性的“大杀器”,已经成为目前测试系统的常规手段,随着系统的升级,使用频率也在下降,李铮记得,全链路压测技术刚刚研发使用的时候,“巴不得天天都作一遍测试”,而今年的双11准备工做里,每周按期作1-2次压力测试已经足够了。

支付宝的双11已是一个巨大的系统工程,已经没法再彻底依赖人脑思考解决全部条线上的问题。因此,李铮以为,“智能化”是另外一个关键词。对系统工程的把控,也正是要辅以智能化全链路压测这类技术手段,才能更加精准高效地解决问题。

11月2日,大促保障团组织了最后一次模拟的全链路压测,万事俱备,只欠东风,就等10日24点一过。

图片描述

苗人凤(左4)与蚂蚁金服同事在双11办公室现场 | 受访者供图

对支付技术来讲,稳定压倒一切,稳定也意味着一切。一如往年,第10年双11,稳定的重要性依然处于第一位置。

稳定以外,支付宝技术团队还有更多追求。在2018年的双11技术保障上,人工干预已经愈来愈少,由于整个保障系统的智能化程度愈来愈高。好比,往年筹备双11时,该配置多少计算资源,如何达到最优化的配置,都须要很是有经验的工程师进行严密计算,并进行反复的压力测试,不断调优。但如今,机器能够自动地进行计算和调优。程立打了个比方,双11的支付保障会愈来愈朝着「自动驾驶」的目标迈进,该往哪开,在哪停,如何躲避风险,保障安全,都是智能的。

新的变化还体如今生物识别支付和区块链技术的应用。

在倪行军的谈论中,支付宝对支付的理解,倾向于支付脱媒,到最后,支付时不须要任何载体,人体自己即为最大媒介,固然,脱媒不可彻底脱离,但生物识别技术是IoT时代用户参与到数字化场景的敲门砖,任何的场景系统都要首先肯定一个所谓的数字身份的问题,而人自己就是最棒的载体,不须要其它的媒介作二次切换。由此,生物识别是能够重塑体验的技术。

据倪行军透露,平日应用场景中的生物识别(包括指纹输入、面部扫描等)支付比例已经超过一半,这反映出总体人群对生物识别技术所对应的新支付体验的接受程度,这信号让他以为,手机应用以外其余生活场景中,扩展生物识别技术用户的时机,已经到来。

今年上半年,生物识别技术真正走向规模化商业化,倪行军的预期是先实现规模化,在终端设备达到百万级规模的基础上,根据用户行为与各商业场景链接的磨合状况,再考虑后续的商业诉求。将来,新技术的应用势必从新定义整个商业流程,新的百万级的商业机会将在此诞生。

今年天猫双11用区块链技术为1.5亿跨境商品提供原产地溯源,包括比利时钻石交易所的钻石这类大额商品。

变化背后是蚂蚁金服的BASIC技术战略演进及开放,Blockchain (区块链)、Aritificial intelligence(人工智能)、Security(安全)、IoT(物联网)和Computing(计算)这五条线索构成对将来更加清晰的想象力。

十年间,蚂蚁金服整个公司都在从中心化向分布式持续变化。

人员能力变得更加均衡。俊义记得,早年在双11和不少技术攻关的关键时刻,总会有几位技术大牛同事站出来,在当下拿出过人的洞察与能力,最终顺利过关。但现在,蚂蚁金服公司的整个技术结构益发庞杂,必须造成全局、众人的工程化做战。

IT架构从IOE变成分布式,再演化出「离在线混部」。去年有25%是自有服务器处理,55%在云上,20%是离线资源;今年这个比例则会更新到60%在云上,在线与离线分别20%,其间,性能较差的离线机房也能执行在线处理,核心在于资源的进一步合理分配。

分布式趋势渐成大势:机房愈来愈多,从杭州拓展到全国各地;应用系统与数据库越扩越多;团队从支付宝技术团队扩至各个产品线,集团运做从前尚可靠寥寥能力拔尖者把握,现在则需层层分解,总体组织协同做战。

「从中心化到分布式」是互联网发展过程当中,近年造成的社会关系形态和内容的一大特征。若是将其视做一种价值观的话,做为一家工程师员工占比超过51%的互联网金融企业,它正在被深深影响、驱动并改变着,企业里大量人、事、物,都在明确地呈现这这种趋势导向,这家价值上千亿美金的企业,也正在成为一个由技术价值观驱动业务、团队革新与发展的经典范本。

相关文章
相关标签/搜索