7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。算法
在本次大会上,蚂蚁金服副总裁兼首席数据科学家漆远博士发表了主题为《金融智能的发展与应用》的演讲。漆远表示,蚂蚁金服今年的两个关键词,一个是“开放”,一个是“AI”。数据库
在这次演讲中,漆远从风控系统、智能助理、定损宝等产品案例出发,全面介绍了蚂蚁金服产品背后的 AI 技术。安全
现场,蚂蚁金服的“模型服务平台”首次公开亮相,主打“模型所见即所得”。漆远表示,数据是资产,模型自己也是资产。将来,蚂蚁金服也会将这个平台做为其中一个AI能力向合做伙伴和客户开放。服务器
如下为漆远博士演讲实录:网络
今天很高兴给你们做一个分享,介绍一下AI在蚂蚁金服的发展和应用。app
首先我会讲一讲为何咱们要作AI,为何呢?由于AI离不开场景和数据,为何要场景,由于咱们要解决真正的问题,产生真正有意义的服务。在金融里面咱们有大量的服务,从支付、保险、财富、到风控、微贷等各个领域,其中典型的场景就例如要判断某个小企业是否具有相应的信用可以承受贷款的风险。框架
在全部的场景里面产生了海量的数据,而这些数据成为了人工智能的燃料,使得咱们能够发展和应用一系列的人工智能技术。而这些场景、问题自己又为人工智能带来了挑战,好比说时间敏感要求一笔交易须要毫秒级完成判断。再如海量数据,一天几亿笔的数据,这就须要很是大规模的稳定的风控的系统。还有业务多样性,好比说怎么用迁移学习来发现不一样任务之间的共性。再好比说系统性风险, 系统能够用一个网络来表达,那你怎样从网络的角度分析问题。还有强数据安全和用户隐私保护也是金融业务自己的属性。机器学习
面对这些挑战咱们构建了一个金融智能的平台,从底层的图像理解,以及使用阿里巴巴集团的语音识别能力,在此之上发展了NLP的能力,而后这上面进行机器学习、深度学习,分析时间序列,好比说预测余额宝的利率变化;在最顶层,咱们发展推理和决策的能力,使咱们可以帮助咱们的用户和金融合做伙伴作出明智的决策。工具
在这个金融智能平台中包括了一系列的人工智能技术,好比说强化学习、无监督学习、图推理、共享学习。这些技术具有金融领域的实时对抗性、大规模以及安全加密性。学习
今天讲几个例子,从例子出发讲讲背后的技术。在这以前,我先讲讲蚂蚁金服如今的两个关键词。蚂蚁金服咱们定位为Techfin,而科技公司的一个核心的是什么?是AI。因此今年蚂蚁金服两个关键词,一个是“开放”,一个是“AI”,咱们但愿经过AI驱动全部的业务,同时做为科技公司,咱们技术成熟一个开放一个,因此下面探讨的技术也是探讨如何开放给伙伴。
首先是在安全风控中,里面有用户、设备、商家,他们之间经过资金流动造成互联。传统的风控技术中咱们创建了不少的规则和模型。蚂蚁金服过去十年经过使用大量的机器学习创建强大的风控系统。可是今天咱们但愿进一步地升级风控系统。好比说可信模型,咱们想判断有一笔交易是否存在帐号被盗。而这里面咱们使用了一个跨界的技术,其实就广告CTR预估的技术。 在2014年Facebook广告算法的文章中, 讲的是GBDT+逻辑回归。使用咱们开发的参数服务器技术,咱们把逻辑回归换成了大规模深度学习,使用到风控里面: 经过GBDT产生特征,而后DNN继续学习。 由于在风控里面不少特征咱们没法判断哪些有用哪些没有用,咱们用GBDT产生海量特征而后把这些特征feed给深度学习模型。
前面是说咱们把GBDT和DNN结合起来考虑风控。深度学习往下走,咱们也考虑关系,用户、商家、卖家等的关系,下面我举一个例子,咱们经过embedding技术,把整个关系结合起来,造成图形网络,而后进行监督学习、增强学习。
给你们看看例子,好比说支付宝帐号的帐户(行为),咱们一个网络有好人、坏人,有设备好比说手机、计算机,iPad等,我判断今天这我的是否注册一个垃圾帐号特别简单。咱们能够把整个的图关系经过一个embedding的技术产生一个深度学习的网络,经过机器学习产生一个隐层表达,这个表达不光涵盖了每一个节点自身复杂的特征,同时还对网络结构作了一个encoding。在垃圾帐号的识别上,在经典的Recall-Precision曲线中,Precision越高越好,接近1就是完美。原来的规则是不具可采信的,如今咱们对图使用embedding技术后有一个质的飞跃,Recall在70%、80%的时候,Precision达到90%,而原来的算法Precision在40%几,这基本至关于瞎猜。这个和之前的系统相比,Node2Vec也是很是先进了,咱们在此基础上又作出了明显的提高。
将图的关系和Feature结合起来,能够产生很是Power的模型,用在咱们的模型里面。经过广告的算法提高了系统,咱们进一步学习,将深度学习和图模型结合起来,能够融合网络关系与复杂特征。
下面讲讲另一个方向,在过去的不少年,无论是中国仍是美国,讲起智能助理和机器人都是很是热的话题。这里对话很关键,在蚂蚁金服初始的对话从客服机器人开始,若是你使用支付宝,打开客服小蚂答能够问各类各样的问题,例如你问余额宝收益怎么算,他就给你一个这样一个答复,提供工具输入金额并计算。而后还有财富的理财渠道,你问某个企业业绩怎样就会开始进行舆情分析,舆情分析在金融里面很是多的应用,咱们能够自动分析,海量的舆情在中国国内,为月新闻、周新闻相应地打出舆情分。
下面讲两个技术,在对话机器人里面,在客服里面,假如问了这句话我怎样申请退钱回来,它是没有场景的。在问答系统中要理解它,就要真正知道在问什么,咱们能够根据用户的近期操做,这些操做自己就提供了一个背景和场景。咱们经过LSTM对用户行为轨迹作一个编码,而后整个模型是一个深度排序模型,比较哪一个更类似,经过LSTM创建模型,把怎样申请退钱回来的用户问题,和转帐转错怎么办和为何银行卡转帐被退回来,这两个进行答案匹配。咱们给出正确的选择转帐到帐户错了怎么办。这里有一系列的创新。这些创新今天不一一讲。最后的结果,去年双十一智能客服自助率作到97%。同时今年咱们问题解决率超过了人工客服,机器人回答问题比人回答更为满意。
这里对舆情分析背后技术简单介绍,首先一个特别简单的模型,就是统计这些感情单元,同时又和深度学习的方法结合,最后产生总体的判断,这里面的话使用CNN,k-max pooling能够结合起来,还有TNN,将全部的信息结合起来进行一个综合的评价。
刚才两个例子讲到对话机器人,第一个是客服,第二个是财富号的舆情分析。再就是保险,同时支付宝自己也在进行升级,您对支付宝能够说话,好比说我要给个人同事经过语音进行转帐,自动完成转帐并记录到帐单里面。
下面第三个讲机器学习平台,这是咱们团队在阿里第一年开始作的工做,后来在蚂蚁继续和阿里集团合做开发。如今它是阿里和蚂蚁金服使用最普遍的大规模机器学习平台。2015年咱们用于广告取得很是好的效果,后来用于淘宝推荐,前年用到双11推荐,今年又用到了蚂蚁的风控里面,其实它的核心技术就是咱们可以经过系统和算法的结合,处理海量数据。因此在风控系统里面,咱们能够在一样安全覆盖的状况下,提高召回率,天天一千多万笔能够准确轻松地经过审查。这个平台前年作到了,可是今年才写文章出来。它能支持100亿特征、千亿样本、万亿参数。这是说它能够支持很是多的数据和特征,咱们能从数据中提取价值作出预测。
假设很是多的数据,万亿参数很是耗能耗的,同时须要不少的机器。不少时间的applications,咱们但愿速度比较快比较省能源。在很是很是经典的矩阵分解中,相信不少作相关研究和作开发的同窗都很是了解,若是咱们把矩阵分解和哈希算法作结合,咱们能够处理很是大的矩阵,好比说1亿×1千万的矩阵分解,咱们2小时收敛,从工业界的角度具备很是大的价值。咱们用到了口碑的场景中,点击率的升幅超过120%。
刚才介绍的是机器学习,就是参数服务器,支持深度学习。下面再讲一个技术,咱们的场景是营销,好比说各类各样的商家营销,怎样发,发给谁,这是很是有价值的商业问题。这里面咱们开发了增强学习技术。在这个算法中,咱们有State、Action和Reward的状态,咱们定义了一个空间,State是从多个业务抽取特征,刻画用户状态,Action是对哪些卡片和渠道作了相关决策组合,Reward就是用户的点击和签约行为。整个框架是流式强化学习框架,因此可以实时实现Update。这上面讲了一个流程,好比说花呗准入,好比说它是否点入和签约,整个算法能够在框架上迭代,效果就是在深度学习基础上有更好的效果提高,好比推荐卡片点击率171%的增加和最终签约率149%的增加。
刚才讲了增强学习,讲了深度学习,下面讲另一个例子。若是每一个技术都做为一个好用的工具开放出来,您只想用这个工具而不太深刻技术自己怎么办?咱们开发了一个模型服务平台,将整个模型训练给您可视化,您经过简单的点击、拖拽数据就能产生全部的结果。好比说您是开发应用的,您能够把算法在里面应用之后进行一键部署。固然若是您是开发算法的也能够写出新的算法,例如增强学习等,能够经过统一的平台进行服务。在蚂蚁金服内部,从芝麻信用到网商银行的借贷,到风控都正在全面地使用咱们的平台。
咱们今天讲到了开放与AI,这里讲到蚂蚁金融云和开放平台,但愿咱们的AI技术的能力开放服务于咱们的客户和合做伙伴。
这个模型服务平台简单来讲咱们就是模型所见即所得,不光数据是资产,模型自己也是资产。作到可视化的,对于用户来说,提供给开发人员很是方便的建模方式,很是容易使用,不须要知道某一行公式怎样推导的,而后能够支持A/B测试,能够全流程地效果监控,同时跨团队地合做,而且能够实现多人同时开发。
接下来简单展现训练模型时的一个视频。这是显示的分类结果,这是得出来的树状模型,而后能够进行效果评估,这里能够比较两个算法哪个更好,拆分之后随便选两个算法自动评估,而后能够进行结果对比。咱们之前在学校训练完模型,而后手工测试几个测试集就结束了,而在实际业界应用里一直有新的数据跑,新的预测,必须简洁好用。在咱们说话的时候,这就产生了一个部署的API,你们若是有问题还能够看一个请求示例,示范如何使用这个API。部署完了之后咱们要知道效果好很差,是否是一直稳定,好比咱们要监控信用分,KS值,它是AUC的变种。咱们能够看到它对每一天当时的效果实时进行监控。
刚才讲了总体的从模型训练到数据特征的产生,您能够从各类模块,到训练到部署产生API,到最后效果的监控,全流程地展现。
那下面最后讲一个例子,前几周咱们保险事业部和咱们发布了一个产品叫“定损宝”,作什么呢?出了一个小车祸,照张像,哪里有问题,是撞了一个洞仍是刮蹭进行判断,这是很是复杂的事。咱们不是作 OCR识别,也不是作数字识别,可是咱们要作检测,咱们要检测哪一个部件好比说车门、车灯仍是bumper,咱们要理解这个场景,好比说有一个缝,自己计算机不知道是车上的缝仍是墙上的缝,还必须知道这个问题多么严重,最后是一个决策,将多个数据源结合起来,给用户和定损员一个辅助判断 。
看这张图像,您以为车哪里有问题,我当时看了好久也没看出来,不知道你们怎样? 这里面有什么问题呢?如这里所示,有个特别微小的变形。可是这里咱们要解决几个问题,第一个是问题在哪里,第二个你要把问题分几层,到底有多严重的问题,好比说这是轻度变形。有的变形了你得把整个部件换掉,有的稍微一修就修好了,最后告诉您修多少钱,在您的App里面把北京你所在位置附近的维修店所有选出来告诉您成本,您作一个决策是否要修。 下面举几个咱们遇到的计算机视觉上的挑战。好比部件识别,这里面有多少个部件呢?我不是很专业,不算汽车爱好者,可是能够看出来这里有不少不少部件。全部的部件要找到,而且说有问题你都要看出来。再举个例子,左边一个强反光,强反光是否是有问题呢?咱们要琢磨琢磨。还有,照相的时候人脸都对着框子里照,拍车照片的角度变化大不少 。
这个项目的开始和拿到初步的结果是算法团队和业务同窗通力合做的结果。算法同窗积极学习业务,从开始看不出来图像里车的问题,到如今都快成了专业的图像定损员了。咱们的技术有一系列的流程,从噪音去除到类别识别到目标检测和程度判断,到底多严重,是变形仍是刮蹭。根据不少张图片,最后咱们要作预测结果的综合,综合之后咱们作数据决策辅助,这要打通车的原件数据库来分析,假如这个部件坏了多少钱。全国有4500万案件/年, 60%的案件都是纯外观损伤的,它覆盖了很是大的比例。每一个成本平均150块钱, 能够减小50%的做业量。
今天我介绍了一系列的技术,之前我当老师写NSF proposals,都有两个目标要写,一个是intellectual merits 就是技术的原创性,另一个是broad impact,就是对世界的影响。通常第一个目标咱们都拼命写,第二段都是那种来回贴的那种,为何?由于当时在学校的研究里工业界有距离,缺少直接的对世界产生影响的办法。今天我以为学校能够和工业界合做,工业界有更多的数据,更大的问题更难的挑战,不只应用技术还能够发展技术,今天介绍的只是一部分的技术,咱们还有没有发布的技术。
总结一下,今天讲了深度学习和图的结合,它主要是系统性风险的监测与预测; 智能助理,咱们达到了超越人满意度的智能客服。今天智能助理完成任务基于一系列的场景,由于支付宝咱们是一系列的金融生活服务平台,今天就加上智能的定语叫智能的一系列的金融生活服务平台; 今天也介绍了基于哈希的海量特征提取,彻底是从工业的角度,但愿算得快、便宜和省内存;另外是深度强化学习,在营销与推荐应用。在营销比较关键,若是只是深度学习那么老是给你想要的,可是增强学习您能够探索一个在exploitation 和exploration的平衡:给你之前推荐你看过的相似的,也能够给你没有看到的。
下面说些咱们和其余公司可能都面临的挑战,咱们虽然有不少的数据,可是比起咱们的业务问题复杂度仍是不够,小数据、弱标注的数据的学习就很重要。另外,好比说怎样处理有噪音与不肯定性的推理,专家系统是从逻辑推出来的,可是它不能handle真实世界里的噪音和异常状况,今天讲的Graph Emedding是一条路,但不是仅这一条还有其余的方向。 而后机器学习里面还有一个很重要的问题是模型的可解释性,你要知道为何,那在金融场景有很是多的应用,为何信用分变低了你要给一个交代,就是解释,今天的深度学习缺少解释性。还有如何从观测的而不是随机对比的数据中分析因果分析。还有长期目标与短时间目标映射,怎样把长期的目标和短时间作的目标结合起来。最后,非线性动态网络系统,网络自己在改变 这里和物理学一些概念很相关,同时和图理论很是相关,这对风险、监控和交易都会颇有用。
最后,再次说,蚂蚁是一家作普惠金融的科技公司。咱们主题的是开放与AI, 技术成熟一个开放一个。从客服到模型部署平台到其余的每个案例,包括舆情平台,咱们都很是愿意赋能和服务客户,和咱们的合做伙伴、与咱们的客户共同探讨和创造将来。