蚂蚁金服首席架构师何昌华：开源SQLFlow是牛刀初试，实时大数据系统才是将来基石

时间 2019-11-09

标签蚂蚁首席架构师开源 sqlflow 牛刀初试实时数据系统才是将来基石繁體版

原文原文链接

开源 SQLFlow，反哺业界，同时小小秀出 AI 肌肉。数据库

这就是蚂蚁金服近日开源首个将 SQL 应用于 AI 引擎项目 SQLFlow 后，业界给出的反应。安全

SQLFlow，把艰深的 AI 与简单的 SQL 结合起来，大大简化了数据工程师使用 AI 技术的门槛。架构

而研发出 SQLFlow 的，正是蚂蚁金服计算存储首席架构师何昌华带领下的 AI Infra 团队。机器学习

何昌华斯坦福博士毕业，先在 Google 总部工做 7 年，赢得过公司最高技术奖项，其后又在独角兽 Airbnb 工做 2 年，负责后台系统的应用架构。学习

2017 年 5 月，他正式加盟蚂蚁金服，担任计算存储首席架构师，并在 2018 年入选了第 14 批国家“千人计划”专家。大数据

在蚂蚁金服，何昌华的工做是开发新一代计算引擎，搭建金融型数据智能平台。搜索引擎

而 SQLFlow，就是计算引擎主线上的结晶之一。人工智能

不过对何昌华来讲，世界正在巨变，他还要带队探索一些没人作成的事情。spa

好比全实时的大数据智能系统。3d

将来技术基石

大数据的概念，最先来自于搜索引擎行业，由于搜索引擎面对的是人类在互联网上留下的爆炸性增加的庞大数据。

2010 年末，谷歌宣布新一代搜索引擎“咖啡因”正式上线，这项技术的革命性在于，任什么时候刻，世界上的任何网页发生了变化，均可以实时地添加到索引中，用户也能够实时地搜索到，解决了传统搜索引擎的延时问题。

何昌华当时正是咖啡因开发团队的核心技术负责人之一。

他解释，“咖啡因所实现的最核心的功能，就是实时。”

而如今何昌华在蚂蚁金服工做的目标，一样是搭建一个“彻底实时”的大数据处理系统，或称之为大数据智能平台。因为线下生活场景的多样性和复杂性，这是个比构建实时搜索更有挑战性的任务。

他认为，这将成为将来技术的基石。

对于计算机来讲，实时就是在发出请求到返回响应之间的延迟尽可能小，对于大数据处理系统来讲，这还意味着从数据生产到消费的延迟尽量低，全部这些都意味着计算速度和能力的提高。

此前经常使用的大数据计算模型 MapReduce，对数据的处理是“分片式”的，数据的片与片之间有边界的概念，这种批处理的模式不可避免地会带来延时问题。

以搜索的场景为例，假如以天为时间单位对数据进行批处理，那就意味着今天更新的网页，用户明天才能搜索到，调高处理的频率能够部分解决问题，一天两次、一天四次、两小时一次……

虽然能逐步接近“准实时”，但成本也会急剧上升。

要实现真正的实时，就必须打破这种批处理的边界，让数据处理的过程像水流同样，随来随算，随时反馈。

这也催生了后来流式计算引擎的蓬勃发展。

而在何昌华看来，除了快，“实时系统”还有两层重要含义。

第一是 OLTP（联机事务处理）和 OLAP（联机分析处理）的融合。

在以往的观念里，OLTP 对实时性的要求高，OLAP 对时效性的要求不那么高。

举例而言，用支付宝进行一笔交易，须要即时查询和增删记录，就是由 OLTP 来处理的。而对用户行为特征的数据分析，则由 OLAP 来处理。

但如今随着业务场景需求的不断变化，OLAP 的时效性要求也愈来愈高。

例如互联网金融中的风控场景，就须要在完成一笔交易的极短期中，经过分析用户的特征数据判断风险，这要求 OLAP 也要能实时反馈，且反馈结果立刻就可以在线访问。

第二是智能和数据系统的融合。

人工智能和机器学习是大数据应用最热门的领域，而如今绝大多数公司的作法，是将数仓和机器学习平台分开，从数仓取一批数据，放到机器学习平台上去训练模型。

随着业务场景的复杂化和多样化，这种模式逐渐显露问题，由于模型可否实时更新，可否能用更实时的数据来训练模型，直接影响了应对复杂场景的能力。

“数据实时流入、实时训练模型，模型实时上线决策并反馈数据——这一条线若是能彻底打通，对于业务将产生不可估量的价值”，何昌华说。

数据、计算、智能，全部这一切构成了何昌华设想中的“高效率的大数据底盘”，也就是一个融合的实时数据智能平台，或者叫“Big Data Base”，就像曾经数据库成为无数场景的数据底盘同样。

现在，不只是蚂蚁金服或者阿里巴巴集团，在各行各业中，数据驱动的业务都愈来愈多。

但大数据开发的门槛很高，若是每一项业务都从数据开发的底层作起，将会很是耗时耗力。

如何才能让作业务的人有更多精力专一于业务？

何昌华认为这就是“Big Data Base”的使命，一样也是“基石”的含义：

咱们但愿让这件事变得简单——各行各业的从业人员、各条业务线的同窗，在坚实的平台基础上，不须要知道下层的细节，就能够很方便地开发上层应用。

离真正的智能有多远？

下降数据和智能的门槛，这是何昌华对于新引擎和数据智能平台的指望。

目前，他带领团队开发的金融型多模融合计算引擎，已经实现了流计算与图计算、流计算与机器学习的融合打通，距离他设想中的“大融合”愈来愈近了。

何昌华透露团队目标，就是让业务变得“极简”：

将来两到三年，咱们但愿新引擎可以承担实时在线的融合计算任务。基于这个引擎，结合其余开源引擎，咱们就可以构建出一整套数据智能系统。在这个数据智能系统上，业务能够很是轻松地完成从功能开发到产品上线的流程，后续的吸引流量、分析决策等也均可以借助这个平台来完成。

他甚至勾画了一幅很科幻的将来场景：你写一个功能交给引擎，引擎会决定调用多少资源去计算，你无需关心具体的计算过程，结果将会在最短的时间内反馈给你。

当你构想出一种新型业务，数据智能平台会判断须要哪些数据，采用哪一种模型，如何上线，如何运营流量。

这些流程，均可以智能化地自动完成。

这是个更长远的目标。咱们开发出数据处理的能力，将来，任何人均可以使用这种能力，真正实现“数据民主化”。

这样一个融合多种能力的实时数据智能平台，目前在世界上尚未哪家公司能彻底研发出来。

何昌华也谨慎而满怀信心地展望着将来：“咱们也是在探索，若是彻底实现了探索目标，咱们就将真正站到全世界领先的位置。”

无人之境

世界瞬息万变，数据做为物理世界的镜像，理论上是无穷无尽的，问题只在于人类有没有办法去记录和采集它们。

互联网和移动互联网的普及，让人类的行为数据采集成本大大下降。

IoT 传感器设备的普及，让工业生产和社会生活中的数据也可以大量地沉淀下来。

所以在过去的二十年中，数据总量出现了爆炸性的增加。

在整个世界发生数字化巨变的同时，咱们的生活也在悄然改变。

基于数据应用的发展，咱们享受到了一二十年以前没法想象的便捷——电商、O2O、移动支付、智能家居……

但在何昌华看来，数字化还处在很是初级的、在把线下的数据搬到线上的阶段。

真正须要思考的问题，是将来当高度数据化的社会到来时，咱们拥有什么样的能力去处理和应用海量的数据。

这关系到咱们是否可以基于数据作到更多的事，催生出更高的智能，进而推进人类社会向着下一阶段发展。

这就是他回国加入蚂蚁金服所要寻找的答案。

之因此回来，是由于以为在这里作的事，往大一点说，是面向人类社会发展下一阶段的探索。

在这场全新的探索中，和海量的数据打交道是必修课，所以，他反复强调着计算能力的重要性：大数据、人工智能、深度学习……无不须要强大的计算能力，不然，向前的探索步履维艰。

人工智能的发展趋势，也是用更大更高更海量的计算，来模拟人的能力。

“真正的人工智能=数据 + 100 倍的计算”，谷歌最新的人工智能模型水平，换算出来至关于数百块 GPU 持续计算一全年。

何昌华和团队一块儿倾力开发的新一代计算引擎和数据智能平台，其实是高效计算能力和强大数据处理能力的综合载体。

它自蚂蚁金服海量的业务场景和数据之中诞生，初衷是支撑蚂蚁金服的各项业务，但随着技术逐步成熟，它也能够具有多场景下的通用性。

金融属性带来的高可用性和高安全性，让它能够普遍用于其余行业，应对生活服务场景更加不在话下。

这项工做的意义，往大了说，是在推进社会的变革，虽然听上去是个宏大的命题，但它并不是那么高高在上。

“每一项技术都必有它的落脚点。具体到蚂蚁金服，这些技术跟数亿人的平常生活紧密相连。”

每一天，当何昌华本身掏出手机使用支付宝结帐付款时，都能直观地感觉到本身的工做成果。就像他在谷歌工做时，天天也都会使用搜索功能同样：“本身作出的成果，本身天天都在使用，很是切实地感受到技术对生活的改变。”

他这样陈述本身的人生理想。在通往理想的征程中，他既站在技术的最前沿，也身处最为平常的场景中，这两者本就密不可分：

用技术改善人的生活，推进社会和人不断往前进化。

本文做者：生平栗子

阅读原文

本文为云栖社区原创内容，未经容许不得转载。