前言:宜信技术人物专访是宜信技术学院推出的系列性专题,咱们邀请软件研发行业的优秀技术人,分享本身在软件研发领域的实践经验和前瞻性观点。前端
第一期专访咱们邀请到宜信科技中心AI中台负责人王东老师,从大数据和AI赋能金融业务的角度,分享了中台、大数据、AI等软件研发趋势为业务赋能的经验与思路。算法
王东老师从技术视角到业务视角,在中台的落地契机、AI与大数据关系、AI和大数据技术的落地等方面提出了本身的见解。数据库
记者:不少人将金融行业的发展划分为三个阶段:信息金融时代,主要指银行卡的出现,银行开始作集中的数据管理;互联网金融时代,互联网的发展,使得用户能够经过PC和APP办理金融业务,这一阶段金融机构经过数据平台管理和使用数据;智慧金融时代,也就是如今,金融机构经过大数据和AI技术让金融服务智能化。安全
做为有多年金融行业经验的大数据专家,您认为在这3个阶段里,数据为金融服务赋能的方式出现了哪些变化?分别有哪些典型的产品化表现?架构
王东:按照DIKW体系, 这三个阶段对应的是数据电子化、数据信息化、数据知识化和数据智能化的过程。并发
信息金融时代,金融机构都在进行金融基础设施建设,数据被集中化管理,金融机构从手工劳动和纸质单据中解放出来,提升效率,本质上这是电子化、信息化的一个过程,金融机构的数据进行结构化和梳理,并被分析和使用。这个阶段数据仓库和数据集市的理论体系诞生并获得完善,基于数仓理论体系的软件工具发布,数据的BI分析(使用ETL、创建数据仓库、OLAP分析和可视化报表)在金融机构中最早开始落地并产生价值,基于数据的早期信用卡风控模型开始创建并投入使用。机器学习
互联网金融时代,是数据爆炸的时代,云计算和大数据技术兴起,金融机构面临业务变化快、大数据量、高并发量等各类不一样需求的冲击,前端业务系统进行大规模改造以适应大数据的冲击。数据层面上,企业的数据量已经变得很是庞大,业务变化也很是快,传统的报表迭代速度慢,须要排期,没法知足金融机构的数据分析需求。大数据理论和大数据分布式平台蓬勃发展,基于大数据平台的相关技术让敏捷式报表的概念逐渐成为可能,数据实时化、自助化深刻人心。BI的流程已经大幅缩短,在金融机构的决策中被普遍使用。大数据技术、机器学习等技术在金融领域的引用,催生了大数据风控技术、反欺诈分析、精准营销和个性化推荐、销售渠道优化&产品服务优化、舆情分析等智能应用。分布式
智慧金融时代,是数据知识化和智能化的高级阶段,大数据和AI能力重塑和改造金融服务,创造业务,下降成本,提升效率。金融机构业务部门的数据分析需求进一步增长,商业智能分析产品被业务专家普遍使用在辅助分析、协助决策、智能助理等各个领域。BI分析更加自动化,加强型分析(是数据准备和洞察过程自动化、使用天然语言或语音交互、根据AI分析给出决策建议、利用机器学习和AI管理数据)逐步成为可能。基于大数据和AI提供的各项能力,客服机器人、外呼机器人、智能投顾、智能投研、客户流失预测、绩优销售预测、千人千面的金融产品等变为现实。高并发
记者:智慧金融时代,AI技术在金融服务的落地场景也愈来愈多。您可否以宜信的某一个AI产品为例,简单介绍AI在金融服务业务场景中的落地实践。工具
王东:这里,我就介绍一下咱们智能聊天机器人平台吧。该平台是结合天然语言处理、搜索引擎、会话领域场景的一站式人机对话解决方案,只需简单导入本身的业务问答数据知识,系统的智能模型就会快速学习并生成相应的机器人,建立出定制化的业务咨询专家。
智能聊天机器人平台包含QA聊天机器人、任务机器人、闲聊机器人、人工后台、文档管理、模型管理、会话管理、统计报表等诸多功能。平台支持多租户,对算力、数据和资源进行隔离。对接公司LDAP、SMP、SSO等认证系统,支持功能角色和数据角色,对业务系统无侵入,能够内嵌到公司PC端业务系统中或手机APP中。
以CSC场景为例:CSC的一线同事在平常工做中,天天都会产生大量业务问题须要咨询。此前这些问题经过蜜蜂等IM软件在工做群内进行询问,由CSC客服管理部相关同事支持。但因为问题数量大、涉及业务线多,这些业务咨询每每不能获得迅速解决,影响业务的顺利开展。另外一方面,经过人工进行业务问题支持的工做还存在着响应缓慢、效率不高、成本高昂等问题。最终从客户角度来看,业务问题的没法解决或解决流程不规范,将严重影响客户体验和品牌认知。
使用了智能问答机器人后, 门店客服能够经过智能机器人快速获得一致性答案,经过搜索引擎快速检索到业务文档相关资料,当遇到机器人没法解答问题,能够将问题转入人工后台。让大部分常见问题由机器人代劳,少部分复杂的问题转后台人工处理,经过智能机器人+人工后台的方式,共同提供完整的快捷的一体化用户体验。
因为智能聊天机器人平台是按照平台化方式来建设的,所以很容易推广到公司其余须要智能聊天的场景中,除了CSC客服问答机器人之外,目前已经在公司车贷客服问答、催收业务咨询、财富智能问答、指尖金融家APP和信审业务咨询等领域中上线和使用,成为客服管理重要的平常工具,实现了运营管理智能化从0到1的过程,帮助运营人员减轻压力,提高运营效率。
金融领域正掀起一场智能化的变革,智能聊天机器人在这场变革中将扮演重要角色。众多分析师认为,聊天机器人的商业化应用,其真正潜力正是在金融领域。除了对企业内部业务的智能化支持,更加使人兴奋的是聊天机器人与金融的结合将完全颠覆我的金融服务的形式,相信在不远的未来,智能金融机器人将在客服、咨询、理财、支付等各类场景下提供更加科学而天然、理性兼具人性的服务,这也是咱们平台的最终发展目标。
(更多关于智能聊天机器人的分享,包括智能聊天机器人平台的技术架构、功能实现及应用场景等,将在7月25日(本周四)晚8点,宜信技术沙龙直播分享,请关注。)
记者:智能化的AI产品能够解决复杂多样的业务问题,但面对众多的需求,须要进行优先级排列,您和团队是如何判断业务问题优先级的呢?
王东:就能力分层来讲,咱们认为智慧化AI产品能够分为三层:
最底层——AI平台层:提供在线训练、在线标注、特征工程、自助训练、算法库、训练环境等AI基础设施。服务的对象是AI科学家和数据科学家,为他们提供平台和工具支撑。
中间层——AI服务层:提供语言合成、词法分析、类似度比较、观点抽取、卡证票据类识别等通用AI服务,以及与业务方合做的智能服务项目。服务的对象是咱们各个业务系统,为各个业务系统提供AI能力支持,助力业务发展。
最上层——AI产品层:提供相似智能聊天机器人平台这样的端到端解决方案。服务的对象是咱们的一线业务同事、甚至多是咱们的客户。
从技术难度来讲,最挑战的是最底层-AI平台层,打造一套本身的在线训练平台一直是不少AI科学家和数据科学家所期待的,但打造一套很是好用的在线训练平台并不容易,须要投入大量人力和时间,维护成本也很高,须要增长最新算法库等,对使用的用户要求也比较高,通常都是算法工程师和科学家。咱们的业务方对这个通常没有什么感知。
从业务影响力和优先级来讲,最上层和中间层的优先级会更高一些,这两层主要是为公司一线业务系统服务,会直接或间接触达到一线业务同事或客户,直接产生商业价值和下降成本。
做为AI中台来讲,在有限的人力状况下,咱们会更优先支持最上层和中间层的AI服务,例如:聊天机器人平台、语音合成、主题提取、卡证类识别等通用类AI服务以及与业务方合做的智能服务项目。而对于最底层AI平台,咱们也会在平常工做中,经过积累和沉淀能够复用的工具集,逐步造成相应平台能力。
记者:据悉,宜信的智能聊天机器人平台是基于AI中台研发的,那么AI中台为智能聊天机器人平台的研发提供了哪些优点呢?相比AI中台建设以前,有哪些地方获得了改善?
王东:从AI中台的使命来讲,AI中台承担一些跨领域的、平台级的服务研发和推广,避免烟囱式的开发,强调开发合做、通用性和可复用性。智能聊天机器人平台就是这样一款产品,它具备平台的通用性,能够内嵌到公司各个业务系统中,以天然语言的方式提供问题咨询、任务执行、业务解答等支持,最终达到节省人力,降本增效的目标。
智能聊天机器人在AI中台开发是有诸多好处的:
从人员方面来讲,智能聊天机器人涉及到天然语言处理、语音转换等技术,这须要在NLP和语音识别等专业领域深耕的AI科学家来支持。一方面机器人平台能够借助AI中台的AI科学家经过更好的算法让聊天机器人更加智能,更加多样化,另一方面机器人平台也为AI中台的专业AI人员找到了合适的用武之地和实践场景。
从平台层面来讲,智能聊天机器人所须要的模型服务是能够向下沉淀的,通用化后成为AI中台的AIHub模型服务平台。 这样聊天机器人平台没必要关心模型管理,只须要关注本身聊天机器人领域的事情,例如模型服务、模型编排、模型监控预警等这些模型通用能力的事情交给AI中台的AIHub模型服务平台来解决。实现产品模块边界清晰,并提升复用性和专业度,减小重复建设。
记者:宜信技术学院组织了2次直播分享,主题分别是数据中台和AI中台,您在这两个项目都扮演了重要的角色,如今也愈来愈多的人提到数据中台须要向AI中台演进,您对此怎么看?宜信的数据中台和AI中台之间是什么样的关系?两者之间是如何支持协做的?
王东:数据中台除了提供数据平台自己的两大能力(数据存储和数据计算)之外,还提供了更高级的能力,就是把数据变成一种基础服务提供给业务方,业务方能够以自助的方式在数据中台上获取数据,进行数据处理、数据探索、数据挖掘、分析钻取、多维分析、自助化报表、数据分享等,以快速的实现本身的商业价值。
随着业务的发展,愈来愈多的智能化数据需求被提出,这些智能化需求涉及到模型训练、数据标注、特征工程、模型部署、性能监控等,须要使用机器学习、深度学习等算法支持。数据中台的主要目标仍是服务数据,对于智能化和模型并不能很好地支持,所以AI中台应运而生。
咱们把智能服务的需求抽象出来,造成一个独立的AI中台层。AI中台是一个用来构建智能服务的基础设施平台,对公司所需的模型提供了分布分层的构建能力和全生命周期管理的服务,鼓励各个业务领域基础性、场景性、通用性的AI能力沉淀到平台中,增强模型复用、组合创新、规模化,最终实现降本增效和快速响应业务方。
数据中台和AI中台二者是相互依存,承前启后的关系。
数据中台和AI中台二者都对外提供服务,只是侧重点不一样:数据中台提供各类数据服务(BI报表应用、数据探索等),AI中台提供各类智能服务(模型预测、智能推荐等);
AI中台依托数据中台提供的数据能力和工具集,加速AI相关服务的开发和复用,来应对前台智能业务需求。有了数据中台清洗好的数据,搭建智能项目事半功倍;
数据中台也须要使用AI中台的智能化能力使得数据使用更加平民化和智能化。例如加强型BI分析:通用天然语言交互方式,下降BI使用门槛;经过AI分析给出参与建议,帮助普通用户在没有数据专家的状况下有效访问数据;加强型数据管理:利用机器学习来管理数据,包括数据质量、元数据管理;主数据管理等。
记者:从去年开始,彷佛每一个公司都在谈中台,但其实不少人对中台的具体价值还不是很理解,从宜信的数据中台和AI中台这两个项目来看,中台在赋能业务方面有哪些优点?请您举几个例子具体介绍。
王东:在“以用户为中心”的思想指导下,企业须要快速响应、挖掘、引领⽤户的需求,借助平台化的力量能够事半功倍。后台并不为前台而生,要么很差用,要么变动速度跟不上前台的节奏。就算是新建的后台系统,由于其后台管理的属性(考虑到企业安全、审计、合规、法律等限制)致使不能适应前台快速开发的需求。前台和后台就像是两个不一样转速的⻮轮,前台要快速响应,后台则要求越稳定越好。
所以中台应运而生,中台存在的目的就是更好地服务前台,进而更好地响应服务。在宜信,数据中台和AI中台也一样是为了更好更快地服务前台而存在:
以数据中台为例:业务领域组数据团队须要紧急制做一批报表,不但愿排期,部分报表须要T+0时效性。数据来源是异构数据库,对数据时效性要求很高,须要对数据处理后并展现报表。使用数据中台,业务方不须要关心数据的异构性,不管是实时数据仍是批量数据,只须要懂SQL,业务方均可以在数据中台上申请数据,自助地写SQL进行处理数据清洗、数据处理,最后,经过配置和写SQL生成本身须要报表,不用等排期,彻底自助快速完成。
以AI中台为例:AI中台的智能聊天机器人平台,对接第一个业务方是从零开始,从研发平台、模型研发、数据对接、到使用上线第一期,花了6个月的时间,第二个业务方享受到平台的优点,直接导入数据,进行验证和对接后,4个月实现上线第一期,以后的业务方更快2个月上线,最近的一个业务方达到3周就上线的速度,体现了平台的复用性带来的便捷和快速响应业务方需求的能力。
中台将前台业务中相对稳定的能力固化和沉淀下来,并共享给有须要的其余业务方使用,从而实现快速响应业务需求、下降成本和支持业务方进行规模化创新。
记者:以您的经验来看,什么样的企业须要建设数据或者AI中台?或者说企业在何时应该要建设中台,是否有什么明显的信号?好比说企业到了什么样的阶段或者遇到什么样的问题。
王东:企业启动本身的数据中台和AI中台建设,是与企业当时的业务发展阶段相关的。
不少企业在早期业务发展过程当中,为了解决一些当时的业务问题,快速上线了不少功能,要么垂直的、个性化的业务逻辑与基础系统耦合太深,横向系统之间、上下游系统之间交叉逻辑错综复杂。要么缺少统一规划,建设了许多高度类似的系统,大量重复建设,但又不通用,用户体验不统一。 这样致使在新业务、新市场的拓展过程当中,系统无法直接复用,甚至无法快速迭代。
咱们称为 “重复造轮子”和“烟囱式架构”,本质上是企业在早期高速发展过程中,为了快速解决当时的业务问题,而欠下了许多技术债务。这些历史技术债务积重难返,当企业进入成熟期以后,发现这些问题的存在,严重影响了企业的运行效率和运营成本。大多数提出中台战略或是建设大中台的企业,都面临过相似的困境。
中台化建设做为一种产品设计思想或者系统架构思想,对于任何一家即将或者正在面临业务高速增加的企业来讲,都值得借鉴,对目前业务当中大量可复用的功能和场景进行梳理,为业务的高速增加作好准备,同时也起到了降本增效的目的。
这个过程很像是在飞行过程当中修发动机。一方面,知道飞机发动机已经存在一些问题,须要修理; 另一方面,还在飞行过程当中,飞机还要飞,还要支持业务发展,不可能将发动机停了。这个过程是有必定难度,还要抢时间,为下一次业务发展作好准备。
经过机制化、产品化等方式,将企业内部具备通用性的数据、功能、产品进行统一规划和开发,从而更好地帮助前台业务部门更多地关注业务,提升业务运营效率,进而提高企业竞争力,是企业中台化建设的目标。
记者:前面您也讲到,智能聊天机器人平台的研发要基于数据中台所提供的数据挖掘和处理能力,能够说AI产品的研发和应用离不开大数据技术的支撑。那您认为大数据技术与AI应用落地之间是一种什么样的关系?
王东:纵观此次人工智能的浪潮,能够说是算法、大数据等技术和硬件多方面的因素促成的。一方面算法层面有了进一步突破,更重要的是大数据相关技术的成熟,使得数据的获取变得容易,大数据计算变得可能,之前许多不可能完成的事情,如今能够经过大数据的算力来进行学习和训练。再结合如今GPU、AI芯片以及传感器等硬件技术,使得须要大规模计算的深度学习训练能够完成,这些都直接致使了AI应用的快速落地和处处开花。
以互联网AI应用为例,互联网巨头是使用大数据标注并落地AI应用的最先受益者。AI应用最先应用在搜索引擎(Google、百度)、广告系统(Ebay)、电子商务网站(阿里)等,它们都是大数据的产生方和使用方,而后是在拥有大数据流的社交平台(Facebook,腾讯),到如今使用大数据技术在垂直细分领域作个性化推荐平台(头条、快手)。一方面你们在使用这些互联网平台,另一方面你们也在进行免费的大数据标注。
以商业AI应用为例,商业机构经过激活已有的大数据,并结合AI算法创造商业价值。医疗机构经过已有病历实现疾病诊断/鉴别、个性化治疗/行为矫正、临床决策支持系统、流行病爆发预测等, 金融机构经过已有交易数据,进行大数据风控、个性化营销、智能投顾、智能投研等。这些都是大数据与AI紧密结合的产物。
以实体世界AI应用为例,经过获取实体世界的数据,实现智能化,带来新的应用、新的商机。经过大数据、AI与汽车行业结合,诞生了自动驾驶、路径规划、实时路况、危险预警等应用;大数据与商业零售结合,收集海量顾客信息,结合AI技术,用于精准营销、店铺选址、库存规划、个性化服务等。大数据、AI技术与智慧城市、智能安监、环境治理、教育等诸多领域结合后,都带来了大量新的应用和商业机会。
所以,不管是传统的数据挖掘、仍是机器学习、深度学习,全部的模型都离不开大量的数据,能够说大数据技术是AI应用的养料和土壤,大数据技术催生了AI应用的落地。
记者:最后一个问题咱们来聊聊AI的应用前景吧。您以为如今AI技术是否已经成熟到能够大规模落地应用了?以金融行业举例的话,您认为要真正实现AI技术在金融服务中的全面落地,如今还缺乏什么?好比技术方面、数据资源方面等。
王东:最近对AI应用讨论得挺多,有如下几种观点:
“速胜论”:理由是基于深度学习技术的爆发式进步,由AlphaGo完胜人类职业围棋顶尖水平为导火索,在图像领域(图像识别、人脸识别、视频识别等)、语音领域(语言识别、语言合成、智能翻译等)取得了巨大的成功,火热的人工智能带来了不少机会,资本的大量涌入,市场上涌现了一大批 AI 初创公司,同时媒体的大肆宣扬,好比说「人类要被机器人取代」「机器开始威胁人类」等等,致使一部分人对AI技术已经可以大规模普及和落地充满信心。
“投降主义论”:随着进一步研究发现,许多问题并无解决。例如开放领域的聊天机器人不够聪明,总体有待增强。主要缘由在于天然语言理解的发展进程并无咱们想象中快,深度学习也彷佛没有解决这个问题,能够与人类对话交流的机器人好像从未出现过。有外媒甚至评论道:“我不肯定能不能说聊天机器人死了,由于我不知道它是否活过。”除了上述的一些成功领域,深度学习也并无解决其余全部领域的问题。
了解到人工智能历史的同行都知道,其实人工智能至今经历了三次大的热潮。每次都经历了开始是“人类要毁灭了”,后来是“骗子”的过程。
实际上,在一个特定领域的优秀表现,并不能表明 AI 技术无所不能。一样的,在通用领域不能解决的问题,不表明特定领域不能解决。
我更加相信“持久战论”,罗马历来都不是一天可以建成的,技术的突破也必然会经历必定时间的积累。AI技术在金融服务中的落地,我比较赞同宜信CTO向江旭先生提的观点“大胆拥抱,当心实践”。
首先须要选择金融领域的业务痛点,并经过AI技术来解决这些痛点,把很是炫酷的AI技术落实到实际业务需求中,而不是为炫酷而炫酷。就目前而言,咱们的AI中台会选择在智能机器人和知识图谱构建上发力。智能聊天机器人能为公司内外提供专业领域的知识解答,知识图谱能为各业务方提供智能问答、智能搜索、精准营销等。最重要的是,咱们但愿按照平台化的方式去建设它们,但愿建设知识图谱的方法论、工具和平台可复用。
目前在落地过程当中,除了搭建AI中台相关平台之外,花费时间最多的是与数据相关的过程,不管是模型训练,仍是知识图谱构建,不少时间用在获取数据和探索数据。
对于普通的模型训练,须要多个维度的数据,AI科学家须要对这些数据进行观察和探索,通常这些数据都是结构化数据,这个问题会随着数据中台的成长,数据聚集愈来愈多后,获得逐步的解决。数据中台提供自助化探索数据的能力,可以大幅减小获取数据和探索数据的时间和成本。
对于图谱构建和天然语言处理,咱们不少的金融数据保存为非结构化的数据和语料,例如pdf文档、表格数据、扫描图片等,一方面要求数据中台或数据平台可以提供非结构化数据的获取能力,另外一方面也要求AI中台提供对这种非结构化数据进行在线标注、在线提取的平台级能力。
嘉宾介绍
王东:宜信科技中心AI中台团队负责人
北京大学软件工程专业硕士,宜信科技中心AI中台团队负责人,目前负责宜信AI中台平台的建设工做。研究领域方向包括开放AI平台建设、智能聊天机器人、实时数据归集和处理、大数据平台研发和推广等。拥有10年以上金融和互联网企业基础系统和数据类研发经验。宜信敏捷大数据栈DBus开源项目负责人,CUBRID-cluster开源项目发起人。曾任韩国最大搜索引擎公司——Naver资深工程师,多年负责CUBRID-cluster分布式数据库引擎和CUBRID数据库引擎研发工做。