隐私与AI兼得,蚂蚁金服是如何作到的?


蚂蚁金服在过去十五年重塑支付改变生活,为全球超过十二亿人提供服务,这些背后离不开技术的支撑。在 2019 杭州云栖大会上,蚂蚁金服将十五年来的技术沉淀,以及面向将来的金融技术创新和参会者分享。咱们将其中的优秀演讲整理成文并将陆续发布在“ 蚂蚁金服科技”公众号上,本文为其中一篇。

在人工智能时代,数据是AI领域的石油,若是没有数据很难将AI更好的落地。可是数据孤岛阻碍了数据的获取和利用,蚂蚁金服在三年前开始布局隐私保护机器学习,致力于在保护数据安全和隐私保护的前提下进行机器学习,咱们称之为共享智能。咱们以前分享了共享智能的理念和原理,今天,咱们想聊聊共享智能的发展与应用趋势。算法

人工智能目前存在的难题是鱼与熊掌不可兼得,也就是隐私性跟可用性难以兼顾。若是你想要你的AI系统能发挥做用,就可能须要牺牲隐私。可是,在大量真实场景中,若是作不到同时兼顾隐私和可用性,会致使不少AI落地的困境。数据库

举几个例子。安全

首先是贷款风控,用户想要买房去银行贷款,在银行A可能被断定为“坏人”,没有办法给他进行贷款,由于这个机构持有这我的部分数据,一样的用户到了机构B,这个机构B基于它拥有的部分数据,有可能会给予他贷款,这样矛盾的状况比比皆是,皆是因数据不通致使。网络

在智慧医疗领域,有些罕见病在每一个医院的案例都很少,若是咱们能把各个医院的案例共享起来,就能得到更多的样本数据,从而能够利用AI进行更准确的诊断,可是这个案例里面技术不是最优先的,对医院来讲,它有责任保护患者的隐私,如何确保在共享案例的同时,不泄漏用户的隐私才是首先要解决的。架构

数据孤岛的问题会给AI落地和应用带来不少相似的难题。框架

现实环境中,数据在这个图中是不通的,有的地方可能有一些短暂的连接,绝大部分数据在这个图中处于断开状态。咱们的目标是想打通数据孤岛,用技术的方法解决技术的问题。经过技术保护数据安全的状况下,实现数据的共享和价值的传递。运维

共享智能:可用不可见

对于共享智能,咱们但愿达到的目标是数据可用不可见,在多方参与且各数据提供方与平台方互不信任的场景下,可以聚合多方信息进行机器学习,并确保各参与方的隐私不被泄漏,数据不被滥用。机器学习

为了达到这一目标,咱们使用了不少业界已有的技术,好比学术圈一直在研究的差分隐私、不少大数据厂商在探索的可信执行环境、随着计算力和硬件技术的提高+密码学突破而广受重视的多方安全计算等。还有一些状况,目标数据比较少,但源领域数据较多,咱们采用迁移学习的方法去作数据共享,这个也属于咱们大的技术范畴。布局

具体来看的话,第一种方案是可信执行环境的方案,主要依赖中间的硬件级的保险箱Enclave,双方经过一些密码学的机制,把数据进行加密,加密以后只有在密码箱里面才能解密,解密之后作各式各样的计算,由于密码箱是第三方可信的密码箱,你们不信任彼此的状况下,信任密码箱便可,这样在数据隐私不会泄露的状况下,去作各式各样AI的算法。性能

这种方案依赖可信硬件,经过数据加密的方式,集中传送到可信的平台。对于一些机构,自己就已经上云,把全部的东西都存放在云上面,全部的技术在云上面部署,那么采用这种方式很是快速便捷,同时又能达到很好的隐私保护的效果。

第二种方案是偏软件级别的方案,咱们在中间把数据作相应的处理后再进行计算。好比说像秘密分享的技术,经过把数据拆分完之后,几方经过发送随机数来完成运算,而后能够完成各式各样AI的计算和模型;还有像同态加密这样的方法,在加密后的空间里面作相应的运算来完成AI的计算,中间有一个控制模块来共同完成学习的目标。这个方式自己不涉及到硬件,是偏软件+密码学的方案,中间出去的是随机数/加密中间结果,目前业界隐私+AI结合的方向上,用这个方案相对来讲比较多。

星云 Nebula:共享智能网络

共享智能须要多方参与,咱们设计了星云Nebula共享智能网络架构,对于蚂蚁金服而言,但愿跟合做方共同打造这样的共享智能网络。

网络中存在各式各样的计算节点,可以在某个管理平台中进行触发实现AI计算。这个共享智能网络,能够用不一样的技术完成共享智能的目标,好比,构建联合营销网络,节点之间可任意组网,采用多方安全计算技术来实现联合营销,同时管理节点能够部署在任何的地方;对于某些机构而言,可能没有很强的AI能力和多方计算能力,那他们能够依赖于云这样的技术,将数据放在可信执行环境中,去参与建设这样的网络,经过这样的共享智能技术来解决AI落地最后一千米的难题。

咱们整个计算节点的架构如上图,最底层跟正常环境比较类似,左边是各式各样的可信执行环境,右边是正常的CPU、GPU环境。上面会有统一的API层来屏蔽这些不一样的细节。

再往上面,会有本地的计算,这个计算自己会跟通用的开源框架稍有差别,咱们会把如今流行的版本改为安全的版本,好比安全的XGBoost。中间作MPC的时候,咱们会提供各式各样的技术,混淆电路、OT等等这样的技术,最顶层提供一些可视化跟交互式的接口,普通的用户经过这样的调用就能够完成复杂的多方计算的操做。同时支持各类保护隐私的安全模型推断。

咱们但愿经过这样的架构完成共享智能技术,而且打造了可视化的界面,采用拖拽式的方式就能够快速高效完成整个AI计算的构建。

上述共享智能架构如今已经达到了较好的完备性、易用性和稳定性的目标,在不少的地方已经进行了落地。在完备性方面,咱们实现了功能完备和场景完备,目前主要是支持风控和其它AI典型场景,里面的算法比较全面,涵盖了线性模型、树模型、深度学习、图神经网络等各个方向;在易用性方面,咱们但愿可以更好的推广这种建模技术,同时又能“屏蔽”一些底层技术(可信执行环境、多方安全计算等),下降你们学习使用的成本;在稳定性方面,咱们实现了共享智能计算的集群化,而且支持远程运维。

咱们已经将共享智能上线到大数据智能平台上,下面这个demo,是一个多方安全计算的AI建模展现。

前面预处理部分跟正常的AI建模看起来同样,经过拖拽式操做,把数据进行了预处理之后,送到共享智能建模中,会产生AI运算的结果。经过这种方式可以大幅度下降新技术的使用门槛,方便业务方使用。

蚂蚁金服在共享智能领域里建设了三年多,发布论文超过10篇,得到专利超过80余项,在标准立项上咱们在IEEE共享智能和ITU-T MPC国际标准、CCSA共享智能行业标准以及AIOSS / AIIA共享智能联盟标准方面都在同步推动,也得到了一些创新奖项。

共享智能落地案例

接下来分享三个典型落地案例。

一个是在安全风控领域,联合生态伙伴来创建安全风控网络。生态伙伴使用前面介绍的可信执行环境技术,把数据加密传输到网络中共建这个模型,打击虚假交易、团伙做案等,大幅度提高风控准确率,实现风控网络的净化。经过这样的风控网络平台,使得商家天天新增不少的交易,同时下降资损。

第二个是中和农信,咱们经过数据融合大幅度提升风控性能,把原来传统的线下模式,变成线上自动过审模式,完成授信只需5分钟,8个月累计放款31.9亿,授信成功人数44万人,业务覆盖20+省区,300+县城,10000+个乡村,助力实现农村普惠金融。

第三个是与江苏银行进行的信贷联合风控,还记得咱们前面的例子吗?由于数据不完整,致使风控决策错误,如今经过共享智能技术,双方能够完成共同的模型构建,经过这样的机制实现联合风控,使得效果有大幅度提高。同时在这个过程当中,用户的数据和隐私获得了有效保护。

总的来讲,咱们想构建开放的共享智能网络,但愿有更多的伙伴、机构参与进来,一块儿完成建设,打破数据孤岛,助力AI技术更好的落地和应用。

OceanBase 登顶TPC-C测试榜,实现中国数据库零的突破,想要了解背后的技术细节?欢迎下载电子书《OceanBase TPC-C测试技术解析》,长按识别如下二维码,关注“蚂蚁金服科技”官方公众号,并在对话框内回复“TPCC”,便可免费下载。

相关文章
相关标签/搜索