蚂蚁金服有哪些金融特点的机器学习技术?

在9月27日于杭州云栖小镇召开的云栖大会“金融智能”专场上,人工智能大咖宋乐教授分享了金融特点机器学习在蚂蚁金服的发展与应用。宋乐教授是蚂蚁金服人工智能部研究员,同时也是美国乔治亚理工大学终身副教授和机器学习中心副主任。他仍是国际机器学习协会董事以及多个国际顶级会议的领域主席。算法

机器学习在蚂蚁金服各个场景,已经像水和油同样渗透,驱动着各类各样业务的发展。会议现场,宋乐教授详细介绍了金融特点的机器学习,重点阐述了三方面的技术:面向海量图数据的深度学习系统、自动机器学习系统、多智体对抗强化学习系统。网络

如下为演讲的文字实录:架构

面向海量图数据的深度学习系统

金融场景和互联网其它场景不同的地方是,其数据是一个巨大的金融网络。在这个网络中资金在不一样的个体之间流动。资金流动过程当中涉及到各类各样类型的节点,有用户、商家、公司等角色节点,也有帐号等虚拟节点,还有WIFI设施、终端等设备节点,以及地点等物理节点。同时,这些节点之间的关系和信息交互的类型也能够不一样,从而造成巨大的图。如何对这个图进行机器学习建模,发现其中的有效信息,是很是复杂的过程。框架

懂机器学习的同窗知道,机器学习要对图数据建模,首先须要把数据进行向量表征,例如相似逻辑回归、决策树等模型都须要先对数据进行向量表征。但图数据的输入并非向量表征,它是异构且不规则的,每一个节点的邻居个数不同,链接的关系也不同,这须要一个平台实现图数据到向量表征的转换过程,而后再基于向量表征实现各类各样的机器学习模型。下图展现了一种通用的图向量表征框架。机器学习

图数据进行表征学习以后,就能够作各类各样的应用,例如推荐和决策应用,也能够作一些生成模型。如今有一个在学界比较火的深度学习模型叫作卷积神经网络,其学习过程就是对每一个节点和边用神经网络参数化传播的方式来实现深度神经网络的建模。分布式

蚂蚁金服的图数据很是复杂庞大,能够涉及到上百亿的节点,上千亿的边。怎样把大致量的数据用起来,进行机器学习建模,须要很好的系统架构和平台建设支撑。其中包括,怎样存储这些图数据,从而可以支持快速查询,快速推理;以及在逻辑层怎样组织这些数据,是社交关系网络、资金转移网络仍是媒介网络。有了这些数据的逻辑组织和图数据的存储之后,还要作通用的算子,包括对图进行采样、随机游走和消息传播。而后,基于这些算子的构件,咱们就能够实现各类各样的图深度学习模型,其中既包括基于非监督学习的表征学习模型,也有基于监督学习的表征学习模型。进行表征学习之后,就能够经过机器学习对各类节点、边的类型进行预测,或者时序行为的预测,以及多重目标的预测。基于这些预测模型,咱们能够经过离线学习打分或在线学习打分的方式来支持各类上层金融业务。函数

针对蚂蚁业务海量的数据,除了前面讲的平台的架构设计的思考,还有一些技术上的难点须要解决。咱们可能面临百亿级节点、千亿级边,须要考虑怎么样在图上快速的查询节点,并把节点周围的子图抽取出来,这里会用到咱们的图存储系统GraphFlat和PHStore。有了这个之后,须要设计机器学习的算法,譬如随机采样的算法,而后把图数据变成一个稀疏的或者是稠密的矩阵运算,在GPU和CPU上进行分布式计算。工具

除此以外,为了支持各类各样的金融场景应用,还须要支持对不一样结构的网络建模。一般金融场景涉及到的网络多是没有属性的同构网络;也多是在风控场景常常涉及的异构网络,例如用户和商家之间的资金转移关系;也有多是带有属性的网络。咱们须要用不一样的算法模型来处理不一样结构类型的网络关系,同时不管哪一种类型网络,均可以用一套平台进行建模。目前,咱们已经建设了面向多类型图数据的算法库。包括:性能

  • 面向无属性网络的xGrep,能够针对十亿级节点,千亿级边,数千亿样本进行训练,并研发了分布式随机游走框架和分布式word2vec训练框架;
  • 面向属性网络的GeniePath,这是自适应深度/广度的图神经网络,性能业内领先;
  • 面向异质网络的HeGNN& IGNN,其层次注意力机制提供金融级可解释性,能够自动学习异质信息丰富的语义;
  • 面向知识图谱的KGNN,可对知识图谱进行表达学习,包括图神经网络+图谱模型。

在金融场景不少时候须要具有可解释性,于是须要咱们对训练出来的深度模型进行解释,找出具体是网络上的哪一条边或者哪个节点影响了整个风控系统的决策。为此,咱们定义了各类各样的模型,包括GeniePath能够在深度学习网络中自动搜寻节点的邻居,看哪一个邻居对当前的信息节点的风控有影响;或者是基于HeGNN、IGNN考虑不一样网络层次的影响,甚至是比较粗糙的高层次的网络影响,以及网络的不一样维度的影响。学习

综上所述,一个可用性高的深度图学习平台须要对架构作逻辑的划分,同时中间的每一个划分模块都会有不少技术点,包括系统工程的技术、高性能计算的技术,以及模型算法方面的技术。

上图是两个具体的落地实例。首先,咱们把图深度学习应用到营销场景,经过用户和商家的历史购买行为来预测用户对红包金额的敏感程度,从而对商家红包实现个性化订价,帮助商家更好地分配红包金额,提高营销资金利用效率,这个方法把营销的成本下降了8%。咱们还把深度图学习和知识图谱结合起来应用在企业信贷,提升了授信额度,新增授信额度数百亿。此外,深度图学习平台还在支付、贷款、保险,财富管理等其余场景中均有各类各样的应用。

在互联网金融中,图神经网络是很是有用的新技术,也是蚂蚁金服大力发展的技术方向之一。

自动机器学习系统

除此以外,蚂蚁金服内部有各类各样的机器学习算法应用场景,天天都有成千上万的模型在训练中,可是算法人员投入在模型训练上的时间和精力是有限的,因为产品纷繁复杂,算法人员既要选择深度学习的网络结构又要选择算法的其余超参,这个过程可能还要加入业务知识;随着数据体量的增长,还须要在比较短的时间调好模型,对模型训练的时间要求也愈来愈高,而传统的单纯依靠人工调参很难知足咱们对于模型更新迭代的效率要求。

为了解决这个问题,咱们创建了自动化建模工具AutoML计算平台,可以支持让平台和算法人员一块儿协做,从而加速机器学习模型的建模和寻优过程。为此,咱们在底层基础设施之上实现了不少的算法来实现特征自动化、超参搜索、网络结构搜索以及元学习,从而下降新模型开发的成本。

介绍一个具体的落地案例,叫作autonet,这是针对公司推荐场景大量使用的深度神经网络算法,基本思想是咱们经过将一些之前成功的小的深度神经网络子模块自动化拼装起来,组合构成一个新的网络结构并寻找更高效的模型:一方面将DNN的网络结构自动化的构建起来,另一方面也对最终的建模效果进行提高。产出的模型在相同资源下,和对比的人工设计的模型基本耗时至关,同时在用户拉新的场景取得了很好的效果,动销率提高了14%。

此外,AotuML还有各类各样的落地场景,后面都应用了自动机器学习平台的网络结构搜索、超参搜索、元学习,以及一些端到端的解决方案能力。各类业务场景的机器学习模型,均可以经过这个平台进行优化,提高效率。甚至跨BU的一些业务场景也基于迁移学习来加速机器学习建模的过程。

多智体对抗强化学习系统

上面两点介绍的是咱们的横向技术如何从底层支持各类场景的机器学习模型。接下来介绍的是多智能体强化学习系统在蚂蚁的应用和落地。在实际金融场景中,咱们涉及到的节点不是静态的,例如人和商家的节点在交互过程有博弈、合做、对抗,所以咱们要把对抗学习跟多智能体的强化学习结合起来应用在这些场景。例如反欺诈场景和金融支付的场景,均可以用多智体强化学习的方式来建模。

可是,不少传统的强化学习的方法都是先假设一个模拟器,而后与之不断进行交互来优化强化学习的策略,例以下围棋。但在金融场景,多智能体强化学习涉及到的模拟器并非一个静态的,多是一我的或者是一个机构,因此不存在一个明确好用的模拟器,咱们也不知道多智体在行为中,其奖励函数或者是损失函数是什么。所以,使用传统强化学习硬套金融场景是行不通的,首先要根据现有的金融数据或者是用户行为数据学习到一个simulator及其奖励函数,这样才能在此基础上进行强化学习。

为此,咱们创建了一个多智能体的强化学习平台,中间用imitation learning的方法来学习用户的行为特征,以及他的奖励函数,在此基础上作各类各样的机器学习。

这是一个具体的多智体的强化学习在推荐系统上的应用。不少状况下,用户登陆到一个系统里面,系统会对这个用户进行长期的检查、分析和推荐。好的推荐系统的建模方式不是把用户每次来的行为做为独立的预测问题,而是把它当作强化学习的问题,这样的话,咱们能够针对用户长期的奖励、喜爱进行优化,而不是短时间的推荐,从而让用户长期对推荐的内容感兴趣,产生价值。

这是咱们在人工智能顶会ICML(2019)上的论文,咱们把强化学习这套理论引入到对抗学习里面,用这个方法来学习用户的点击行为,以及点击行为对应的奖励函数,有了用户的行为模型和奖励模型以后,就能够进行大规模的强化学习。

强化学习在蚂蚁金服还有各类各样的应用,咱们还在不断探索和开辟,也欢迎学术界和业界进行更多的交流,共同创新和推进发展。

相关文章
相关标签/搜索