技术和商业的碰撞,谈阿里云与天猫双11这十年

摘要: 2009年,发生了两件看似不起眼的事。 初春刚过,阿里云在北京一栋没有暖气的写字楼写下了飞天第一行代码。 同年11月11日,淘宝商城启动了一个叫作双11的促销活动。 谁也没想到,多年之后他们会是如今这模样。算法

2009年,发生了两件看似不起眼的事。数据库

初春刚过,阿里云在北京一栋没有暖气的写字楼写下了飞天第一行代码。缓存

同年11月11日,淘宝商城启动了一个叫作双11的促销活动。安全

谁也没想到,多年之后他们会是如今这模样。服务器

前传网络

2007年淘宝的交易额突破了400亿,技术团队却喜忧参半:现有集中式架构已经捉襟见肘,该如何应对?架构

随即启动的分布式改造得到巨大成功,淘宝全部的业务都作了模块化。并发

尽管此次技术升级在如今看来存在诸多局限性:更多的是为了应对不断增多的图片缓存,在CDN端对海量的图片缓存作了一些限流操做。但就是此次改形成就了历史上第一个双11,2009年双11当天的流量达到了一个高峰,在旧的架构体系下,这几乎是一项不可能完成的任务。负载均衡

一年后,飞天的第一个版本上线,仅有几十台机器的集群开始服务第一个内部客户——阿里金融。运维

图片描述

这些探索让全部人看到了一个趋势:用分布式的方法将传统、昂贵的小型机硬件和软件,替换成通用的X86的服务器集群,虚拟化等技术可让计算可以按量、随时被启动。

流量狂奔:脉冲计算

从计算机诞生到90年代,计算资源都是做为“可计划性”的资源来使用。不管是探索月球,仍是研究基因的奥秘,计算资源自己是可规划的。然而,互联网时代的到来,一个爆发性事件,就有可能挑战整个计算资源,不肯定性如影随形。

毫无疑问,双11就是这样一个典型场景。

2011双11的流量洪峰给技术团队留下了午夜惊魂般难忘的回忆:系统性技术问题,使大量商家可能出现超卖。

过后,这群国内互联网行业最优秀的技术人开始意识到这已经不只仅是一场商业促销活动,更是一次技术大考。

次年,天猫与阿里云、万网宣布联合推出聚石塔平台,率先以云计算为“塔基”,为天猫、淘宝平台上的电商及电商服务商提供IT基础设施。

图片描述

基于阿里云的ECS云服务器、RDS云数据库、SLB负载均衡网络,商家订单源源不断的推送到商家平台上,保障了数据的稳定和延续。这是云计算首次参与双11,而且实现了191亿的交易总额。

飞天的高速成长也给了全部人信心:5年的时间,飞天平台集群规模从1500台到3000台,2013年8月,单集群超越5000台,同时支持多集群跨机房计算……

接下来几年,云计算逐渐成为这场狂欢节中的基石,到2014年,聚石塔上96%的交易使用了阿里云。

2015年开始,双11构建了全球最大的混合云,将公共云和专有云无缝链接。

而这些成果最终成为了全社会的能力:不管是春节在12306抢票,仍是在世界杯期间的狂欢,抑或是微博上的明星八卦,脉冲计算的能力在今天已经变成了常态。

数据平台,计算创造价值

2013年先后,“船票论”在互联网圈极为流行。“船票”成为了人们对于一家公司有没有将来的判断依据。至于如何拿到这张船票,彼时都很是模糊。

然而,移动端带来的海量数据倒是真实存在的,移动端带来的新需求,也推进了阿里云大数据平台的发展。

不为人知的是,2004年,为了从大数据中分析当前情况,并预测将来的趋势,阿里就拥有了第一个大数据仓库,到2008年,淘宝的业务量与数据量已达到2004年的数千倍,为了让数据成为生产资料,从底层重构大数据技术就显得尤其重要。

2010年春,大数据引擎MaxCompute的前身SQL Engine初版上线,运行在当时30台机器的飞天集群上。

2011年,飞天团队开始探索支撑集团内部数仓业务,在1500台机器上并行运行云梯2的生产做业,并取得了不输于Hadoop的性能和稳定性成绩。

飞天5K项目以后,MaxCompute随之进入5000台机器和跨机房调度时代,而且能够在377秒完成100TB的排序。

经过MaxCompute引擎助力,从2014年双11开始,千人千面成为常态。如今,这一产品已经成为阿里巴巴的主力计算平台:

l阿里巴巴集团99%的数据存储以及95%的计算能力使用MaxCompute;

l天天有超过500万个做业在平台上运行;

l2017年双11,MaxCompute单日数据处理超过320PB。

几年过去,“船票论”烟消云散,然而大数据平台带来的价值已显山露水,经过大数据与人工智能算法的结合,MaxCompute已成为ET大脑最重要的组成部分,ET城市大脑自动指挥城市路口信号灯,而且成功应用于马来西亚的交通治理;ET工业大脑推进工厂取得更好的良品率,致力于帮助制造企业提高1%的良品率。

从数字化阿里到数字化城市,MaxCompute能够承载EB级的数据存储能力,成为全球首个100TB规模Bigbench测试经过的大数据计算平台;在公共云上覆盖国内外的十几个国家和地区,专有云上部署超过100+套。

史上最大规模的人机协同

2017年的双11被认为是人类历史上最大规模的人机协同“超级工程”:技术运维、商品推荐、客服、支付、物流等各个环节都引入机器智能。

数据、计算力、算法是人工智能的三大核心要素。飞天在通用计算服务的基础上,开始探索面向人工智能的异构计算。

2017年9月12日,阿里云宣布推出全新一代异构计算加速平台,在行业内第一次覆盖了包括AMD、NVIDIA的GPU和Intel、XILINX的FPGA在内的全部6款主流异构实例,提供最高可达75TFLOPS的算力。

全新的基础设施让全球最大规模的人机协同成为了可能。双11大量AI和视频转码业务部署在ECS的GPU集群之上,包括视频云的视频智能处理、阿里小蜜、拍立淘和新零售的智能供应链管理等AI业务都经过阿里云异构计算GPU昊天平台进行加速。

l ● 阿里巴巴数据中心机器人“天巡”天天在机房巡逻,能接替运维人员以往30%的重复性工做。

l ● AI调度官“达灵”将数据中心资源分配率拉升到90%以上。

l ● 人工智能助手‘阿里小蜜’在双11当天承担95%的客服咨询。

l ● 菜鸟智慧货仓机器人单日可发货超过100万件。

l ● AI设计师“鹿班”,在双11期间设计了4.1亿张商品海报。

l ● 阿里机器智能推荐系统双11当天为用户生成超过567亿个专属“货架”,像智能导购员同样,给消费者“亿人亿面”的个性化推荐。

半年后的武汉云栖大会上,阿里云首次和合做伙伴一块儿展出了AI智能点单设备,在没有任唤醒词的状况下,客户以每秒5个字的速度,向一台机器点单,并频繁更换语句,这台机器对每次对话均做出了精准应答。

如今,这些基础设施以及商业化的产物正服务于各行各业。

飞天2.0支撑2018全社会的双11

若是说最初的技术变革是为了解决平台的流量峰值问题,那么如今新的篇章已经开启,新技术正在引领商业变革。

今年双11期间,阿里云上新增调用的弹性计算能力累计超过1000万核,至关于10座大型数据中心,创造了“脉冲计算”的新纪录。不只如此,飞天2.0的新能力全面支撑双11:

● 阿里云自研神龙弹性裸金属服务器在核心系统中发挥巨大做用。其基于彻底自研的新一代软硬融合的X-Dragon虚拟化架构,兼具物理机和虚拟机优点,解决了高峰值流量下的性能瓶颈。

● 业界首个百万级IOPS的ESSD云盘提供了数十PB的存储规模,应对了史上最大的高并发IO挑战。

● 猫晚网络直播创下带宽峰值记录,阿里云视频云高可靠直播方案完美保障了优酷2500万用户的体验。

● CDN为中国1/3以上的互联网流量提供加速,视频云在海外为Lazada提供直播服务。

● 国内首次大规模IPv6商业应用实践,云、网、端以及应用全面支持IPv6。

● 实时计算Blink处理峰值达到每秒17.18亿条,至关于120万本新华字典的数据量。

● MaxCompute支撑在线流量洪峰12万笔/秒交易,承载45%导购流量。

● 云盾为云上客户提供上千万次风险识别服务,并将DDoS高防技术输出到全球,保障全球业务。

……

图片描述

在这些技术底座之上,整个系统应对流量洪峰更加从容,当天交易额达到创纪录的2135亿。

固然,IoT的登场则为双11创造了更大的想象空间。

在消费侧,IoT技术服务新零售的同时,正在催生新的追踪经济。消费者能够查看进口商品完整的商品溯源实时信息,确保天猫进口商品安全可溯,远洋运输也实时可见。

在制造侧,助力天猫品牌服装厂商数字化接单、下单和备货,个性化生产、柔性化制造,交期准确率近乎100%;对农业生产、运输、销售进行全链路升级。

从线上到线下,从生产制造到物流配送,从国内到海外,阿里云的技术能力延伸到各行各业。而这只是这些新技术应用的冰山一角,云与AI、IoT的有机融合将来还会产生什么化学反应?咱们拭目以待。

结语

从27个品牌参加成交额不过数千万元开始,到如今的千亿级体量,双11已经成为一个将来商业实践的范本,也是新技术的最大试验场,这些新技术逐渐变成全社会的基础能力,撬动一场全球的社会大协做。

相关文章
相关标签/搜索