谁顶住双11的世界级流量洪峰?神龙架构负责人等9位大牛现场拆解阿里秘籍

阿里江湖中,不少资源和技术,如神龙服务器、OceanBase、POLARDB等等,在开源、自研、云这三架马车上造成协同效应,既是内功也是武器。算法

“不是任何一朵云都能撑住这个流量。中国有两朵云,一朵是阿里云,一朵叫其余云。”11月11日晚,阿里巴巴集团CTO行癫(张建锋)不久前表示。数据库

除云以外,要深刻了解阿里的武功路数,必须知道每一个花名背后的武器与绝技。旭卿、观涛、鸣嵩、日照、褚霸、孤星、龙现、行易、镭铭,11月18日,在阿里举办的“双11 背后的技术力量”沙龙活动,这9位阿里技术大牛展现了路数,全面解读双十一背后的武功秘籍。跨域

整个天猫的成交额是2684亿,零点订单峰值达到54.4万笔/秒。这是华山论剑的结果。服务器

自研数据库POLARDB和OceanBase分别处理8700万、6100万笔/秒峰值请求、实时计算处理峰值每秒25.5亿笔、计算平台单日处理970PB数据、12亿笔物流智能化等……2019年双11期间,阿里巴巴打破了诸多技术纪录。网络

核心交易系统100%迁移到云,第三代神龙服务器定义IT行业新的计算范式

双11一个个闪亮的数字的背后有一个比较重要的事情,那就是今年阿里把核心交易系统100%迁移到阿里的公共云上,这是前所未有的、世界级的挑战。架构

要实现100%的迁移,必须提到阿里云的神龙服务器。神龙架构负责人的旭卿(张献涛)介绍,“神龙服务器是阿里云近三年来投入巨大的资源,研发的新一代适合云计算的计算架构的服务器,具有高弹性、高稳定和高性能的能力。”框架

阿里云从2016年开始投入相关研发,2017年10月发布了第一代神龙云服务器。三年内,阿里云从自研芯片开始、到自研设备+Hypervisor、最后成功自研神龙服务器,打通芯片、软件、服务器硬件之间的断层,首次实现了云计算行业性能、资源的零损耗机器学习

阿里云智能基础产品事业部 张献涛(旭卿)

为何阿里云要研发这样一个神龙服务器?

旭卿谈到,在过去十几年间,整个服务器的架构没有太大的变化。所以在云计算、甚至整个IT系统层面,业界都面临历史遗留问题,好比性能损失分布式

究其根本缘由,就是作芯片、服务器、软件的厂商之间没有太多的协同,缺少一个顶层的设计,每个领域,每个厂商都是但愿把本身的东西作得很强,但作强以后对总体系统效率的提高不必定有帮助,这是咱们能够感觉到的。微服务

从这个角度来看,咱们须要对整个计算架构作一些改变、革新和提高,提高总体的计算效率,这是阿里作神龙最初的初衷

为何是阿里云作成了这件事?

“规模到达必定程度的时候,才会真切的感觉到它是一个须要解决的问题,你可能未来只有10台、20台、甚至200台、2000台服务器的时候,资源还跑不满,在这种状况下没有太大的动力去投入上亿资金解决这样一个问题,而今天阿里云的总体规模已经让咱们必须直面这个问题,而且解决这个问题。”旭卿解释道。

旭卿认为,今天神龙正在定义IT行业新的计算范式,它不只仅能实现阿里云的核心系统100%上云,解决虚拟化的性能、资源的开销,而且也可以实现软件、硬件完美融合,它的综合表如今不少业务场景下都是超越物理机的性能表现。

说到物理机,旭卿还介绍了第三代神龙架构,它能够提供的性能很是高,“咱们网络的性能能够作到每秒2500万PPS的转发,这个已是业界标杆的5倍,存储性能其实也作到了100万IOPS,是业界标杆的3倍,因此有了这样一个东西以后,咱们承载双11大促这种业务的话,其实已经比物理机的性能要高不少了。”

“固然最后咱们仍是认为云是IT的集大成者,真正的云计算厂商有责任也有义务引导今天软硬件方面的一些创新,回馈将来的IT技术变革打下基础。”旭卿表示。

AliNLP平台赋能700多个核心业务,客服AI搭载KAN-TTS技术处理70%问题

在语音和视觉方向,阿里也有所准备。达摩院实验室的雷鸣就介绍了阿里的客服AI和视觉AI。

这是基于阿里巴巴真实客服人员的声音定制的电话客服AI,基于今年发布的新一代语音合成技术——KAN-TTS技术,这个技术可使语音合成的效果,和真人录音的接近程度达到97%。阿里经过技术能够把整个定制周期压缩到20天,录音周期就2天左右,这有效减轻了人工客服的负担。

这种AI会不会彻底取代人工客服呢?其实,这种AI并非彻底替代人工,而是人工跟AI协同工做。AI能够解决常规问题,剩下30%的问题则须要人工客服来解决,这是一个比较好的人机协同模式。

从数据来看,阿里巴巴AI天天调用超过1万亿次,服务全球10亿人,日处理图像10亿张,日处理视频120万小时,日处理语音55万小时,日处理天然语言5千亿句。

达摩院在天然语言处理、智能语音、视觉计算等领域夺得40多项世界第一,同时天然语言处理在SQuAD机器阅读评比中精确阅读率首次超过人类,智能语音入选MIT Technology Review2019年全球十大突破性技术。这些技术在双十一的贡献有如下三个方面。

首先是天然语言处理方面,经过AliNLP平台,赋能淘宝、天猫、盒马、国际化等数十个BU的700多个核心业务。双十一重点支持23个业务方,包括阿里妈妈、阿里云、小蜜、菜鸟、新零售、天猫精灵等,在双十一当天,在线调用量超过11亿。

其次是客服AI,阿里小蜜承接了淘宝天猫平台97%的在线服务需求,换算过来至关于8.5万名人工客服小二工做量,其次阿里小蜜今年推出了多项新功能,包括直播小蜜、基于图片的智能问答、多样性文本生成。另外阿里小蜜并非一个单方向的能力,更多的是综合了语音、语言、视觉、翻译等能力,并且小蜜与用户的交互,已经朝着文本、图像、语音等多模态的方向发展。

在视觉方面,拍立淘日处理图片10亿张,今年双十一,视觉AI对拍立淘作了技术升级,从一图一物到一图多物的升级,好比以前只识别一个元素,到今天全身穿搭一次性识别,并且这个技术在计算机视觉领域顶级会议上ICCV 2019上赢得一个冠军。

飞天大数据平台和飞天AI,以技术实现商品和消费者最优匹配

AI不只帮助商品识别、客服与顾客之间的沟通,一样,最重要的消费关系中也有大数据和AI的支撑。

阿里云智能计算平台事业部研究员关涛(观涛)表示,双十一的挑战从商务角度看是商品和消费者最优化匹配的问题,往下则是大数据和AI能力的挑战,

从数据来看,今年双11数据量达到970 PB,这大概是一个什么量级?央视网全部的电视剧和新闻节目的数据量是80 PB左右,对比来看,阿里巴巴经过大数据和AI技术分析出来大概是央视数据量的10倍以上

这样的数据能力背后的平台是什么?就是阿里十年前开始作的飞天大数据平台。在双11中,阿里使用了全自研的一整套平台,平台包括超过10万台规模服务器集群,10+数据中心、10EB级别存储、天天千万级别的大数据和AI计算做业。

在AI方面,关涛介绍了后台的流计算系统,它是一个数据实时计算系统,经过实时计算的模式,可以给系统、商家和消费者很是实时的数据的能力。流计算系统能够经过实时计算和AI预测,支持商家的商业决策。据统计,去年2018年双十一的时候,这样的实时推荐给商家的智能决策,90%都会被商家采用。

实时计算的系统层面,可以支持TPS、天天有超过万级别的在线实时在跑,天天处理超过10 Trillions of Records,包括实时分析、实时预警、实时搜索、在线机器学习、广告实时推荐,这些都是大数据和AI在作的。

另外,还有飞天AI平台,经过处理音频和视频元素,不只能够作到千人千面,对于同一件商品,还能提供上千种不一样的视频封面。

20个工程师贷出3000亿贷款,网商银行融合算力、算料、算法造成核心竞争力

商家可以上新产品和做出商业决策的一大前提是资金到位,这就涉及到网商银行的业务了。

“网商银行其实你们不必定多么熟悉,我去以前都不清楚在作什么。”蚂蚁金服网商银行研究员褚霸说到。

网商银行成立于2009年,前身是阿里小贷。10年后的今天,网商银行总共贷出去3000亿的贷款,而这3000亿贷款就是20个算法工程师完成的。褚霸认为,“20我的就能很漂亮的把这件事完成,我以为科技是最大的功臣。”

可以完成这样一个业绩的网商银行,褚霸却笑称其为“傻子银行”,“由于网商实际上是一家银行,不是作技术的,咱们是一个技术的整合者,前面几位介绍那些技术都是被咱们很好的去整合到今天的系统里面去。”

但其实并非“傻子”,在新的技术,好比说像云延伸的技术引入方面,网商银行其实仍是走在前面的。

还有实时反欺诈技术,这样一整套的技术可以将不良率作到1%或者更低。从金融风险看,业界不良率是5%。“由于今天咱们有各类各样的大数据,AI的计算能力,还有很是优秀的算法工程师可以把这些算力、算料、算法串联起来,造成一个比较核心的竞争力。”褚霸解释道。

在交易中,不可或缺的是记录交易的数据库,其中一大重点的POLARDB不容忽视。

阿里云智能数据库事业部资深技术专家曹伟(鸣嵩)介绍了阿里巴巴数据库发展的历史,通过三个阶段:第一个阶段是使用IOE,使用Oracle;到了201五、2016年开始自主研发POLARDB,再到今年100%上云,全部阿里的核心的交易还有库存等等业务都会使用POLARDB以及咱们的生态,就是物流云都在POLARDB支持今年双十一。

鸣嵩介绍道,咱们2010年作了去IOE这件事情,2013年开始起咱们把全部的Oracle系统下掉,换成AliSQL,今年咱们作了POLARDB,而POLARDB在今年双十一达到8700万次每秒的这么一个峰值TPS,在它的背后咱们有在VLDB、SIGMOD、ICDE上发表的创新技术。

IOT技术、自动化技术和智能算法,实现数字化和智能化的仓储物流

而在物流领域,那些咱们看的见的包裹中都蕴含着哪些看不见的技术。

双11的包裹量从1.52亿到今年的12.98亿,大概提高了8倍,而后双11包裹签售破亿时间点从原来的9天到今天咱们只需2.4天就能够完成一个包裹的投递。

“今年咱们双11整个备货量足能够塞满1000个鸟巢或者16000架A380飞机。菜鸟到如今为止成立了大概6年的时间,这6年其实菜鸟已经把科技塞到将来的每一个毛细血管。”菜鸟北京技术中心资深技术专家陈罡(花名:行易)说道。

首先,在包裹产出也就是仓库上。“菜鸟”用三个技术来达成数字化,即IOT技术、自动化技术和智能算法,确保实现数字化和智能化的仓储能力

例如,每一年双十一,仓库会招收不少临时工,但因业务熟练度问题,临时工培训和熟练完成工做须要耗费大量时间,而今年IOT技术就包含了一个lemo设备,可以让一个临时工在几分钟以内学会怎么操做,经过这个设备,临时工能够在一天以内达到99%的熟练度。

11月12日,阿里巴巴的董事长兼CEO张勇就在仓库里,花了5分钟时间使用了Lemo,他亲自点选了一些订单,而且在10分钟以内就把整个工做流程作完了。

目前,菜鸟在全国的自动化流水线已经超过了5000千米,自动化设备比去年增长了50%以上。在无锡还有一个机器人的生产线,在驿站这边“秒取快递”技术,自助能够经过刷脸取快递等一系列的。另外,电子面单使用率超过99%,大幅度的减小了整个中国的物流成本。

绿色数据中心、开放式网络架构、RDMA高性能网络、弹性跨域访问和自研数据平台,5项绝技纵横江湖

以上大多技术,都须要基础设施去支撑。在基础设施的人眼中,双十一是什么?

阿里云智能基础设施事业部资深技术专家 唐陵波(花名:龙现)谈道,“咱们认为双十一就是华山论剑,阿里毫无疑问是世界第一。可是咱们认为,全部的武功都不是一天练的,创新的内功和赋能的武器才是咱们在华山之巅拿到的利器、基石。

阿里是怎么练内功的呢?这就要看阿里绿色数据中内心一个比较创新的技术,叫液冷服务器,这个技术在2016年上线了1.0版本,如今是2.0,已经在阿里作了大规模的部署。今年双十一,液冷技术可以把每万笔交易量的耗电量降到2度左右。若是全部的交易都放在液冷上实现的话,双11当天能够节约15万度左右的电。

目前,阿里巴巴数据中心已经遍及了200多个国家和地区。这样分布普遍的数据中心被看做是易筋经同样的肋骨,是驱动阿里一切商业行为和商业流量的基础,不只可以支持双十一的峰值并且可以提供弹性的服务。另外,液冷技术近期将会开源。

练完内功再来看屠龙宝刀,也就是阿里的自研服务器,它可以优化阿里应用场景,促进产业生态研进。在存储场景中,龙现重点介绍了AliFlash,它已经普遍运用在存储场景里面,经过硬件的创新和软件技术的结合,阿里如今作到了软件一体化上下的协同设计,在性能和功能上都有突破性的创新。

在阿里百万级的服务器规模背后,怎么让资源可以充分利用?龙现说道,“我以为极致弹性和自动化,是咱们可以支撑这么大规模的服务器,放在咱们本身的数据中内心面的一个最重要的缘由。”

还有被龙现比做倚天剑的自研交换机,自研交换机就是阿里在网络领域的一个重大的技术创新,其实是就是网络界的去IOE,它承担了大部分的核心流量、网络流量,可以让你们感知不到网络的减速或“晃动”,使双11平滑过去。

另外,RDMA网络也是一个重点技术,今年像存储计算分离以后的云盘和核心数据库的核心交易量,在去年的基础上发展了3倍,全部的这一切就是阿里在数据中心网络里面作的几个比较突出的工做。

供应链中也蕴含着太极拳。“你们都知道太极拳是以静制动的,放在企业层面它更多强调的是人的协同。从当初集团决定双11上云使用神龙,到最后上线只有两个月时间,供货、备货、测试都很是紧张,可是供应链的同事经过优化库存、优化流程,而后去帮助供应链厂商优化资源共享,极大的提升了供应链的交付状况,取得了较为满意的结果,有效的支持了双11上云这个目标。”龙现解释道。

总结来看,支持云上双十一的硬核基础设施,共有5项绝技纵横江湖,绿色数据中心、开放式的网络架构、RDMA高性能网络、弹性跨域访问和自研数据平台。

将来将持续拥抱开源,拥抱云原生技术,以技术效率提高商业效率

在过去十几年电商的发展的背后是技术力量的持续发展,电商的发展带给技术巨大的挑战,技术的突破和变革也支撑起电商业务规模的不断壮大和商业场景的拓宽。

阿里巴巴淘系技术部资深技术专家洪海(花名:孤星)谈道,咱们经历了系统架构从集中式到分布式,从中心化到去中心化,从私有云到混合云,今天全面进入阿里云的公有云的过程。在这个业务的高速发展的过程当中,一个个难题放在了技术人的面前,最大的挑战来自双十一,在这个巨大的商业盛况的背后是一层层技术的突破。

网络、服务器、存储这些基础设施多年来发生了翻天覆地的变化,微服务,容器化,数据库等一系列的底层技术和框架的持续演进,带动了电商技术今天在搜索,个性化推荐,视频互动,消息等各个应用领域支撑和链接着数亿消费者。

解决了业务规模增加的技术瓶颈以后成本的问题摆在了阿里人的眼前。为此,电商开始尝试混合云的架构,在大促时短期内租用云的机器进行扩容,进而造成了云单元,另外一方面又利用离线大数据集群和在线集群的错峰互补,造成了混布技术。在这个阶段我容器化技术飞速发展,Pouch容器和Sigma调度系统成为了整个资源管理调度的基石,支撑了数百万的容器的管理和运行。经过这一系列手段,应对双十一峰值的计算资源的成本获得了有效的控制。

在成本问题以后,阿里借助神龙服务器、云的弹性能力、秒级扩容技术、云端一体研发等实现了更有效率和更加开放。

最后,孤星表示,“将来咱们将持续拥抱开源,拥抱云原生技术,全面上云。经过技术效率的提高推进商业更有效率,生态更加开放,让技术创造新商业。


本文做者:温柔的养猫人

阅读原文

本文来自云栖社区合做伙伴“新智元”,如需转载请联系原做者。