内容来源:宜信技术学院第3期技术沙龙-线上直播|AI中台——智能聊天机器人平台主讲人:宜信科技中心AI中台团队负责人王东前端
导读:随着“中台”战略的提出,目前宜信中台建设在思想理念及架构设计上都已经取得了不少成果。宜信是如何借助中台化的思想打造“AI中台”及相关的智能产品呢?本次直播,宜信科技中心AI中台团队负责人王东老师分享了宜信AI中台的具体实施路径,并重点介绍了AI中台的智能产品——智能聊天机器人平台,包括智能聊天机器人平台的背景理念、设计思想、技术架构和应用场景,该平台能提供什么样的能力,以及它如何快速地支持业务方,提供一种以中台化的思想来建设智能产品的实践思路。python
——————web
前两期技术沙龙分别分享了宜信AI中台和数据中台的建设实践,本次分享将先回顾AI中台的整体设计和实施路径,以及AI中台与数据中台的关系,再详细介绍基于中台思想建设的智能聊天机器人平台,包括其技术架构、技术原理、核心功能点、应用场景以及应用效果。算法
随着业务的不断发展,业务处于不一样的发展阶段,对数据的需求也从刚开始的可用-知足BI分析,到后来的易用-敏捷化分析,到如今的好用-数据智能化。例如前台系统提出客户细分、个性化推荐、智能问答、模型预测等需求,后台数据探索须要进行关联分析、聚类分析、持续分析等,这些都向咱们提出了数据智能化的需求。数据库
数据中台除了提供平台能力之外,还提供了一些更高级的能力,好比把数据变成一种基础服务提供给业务方,业务方能够以自助的方式在数据中台上获取数据、进行数据处理、数据探索、数据挖掘、分析钻取、多维分析、自助化报表、数据分享等,以快速实现本身的商业价值。api
随着业务的发展,愈来愈多智能化的数据需求被提出,这些智能化需求涉及到模型训练、数据标注、特征工程、模型部署、性能监控等,须要使用机器学习、深度学习等算法支持。数据中台的主要目标仍是服务数据,对于智能化和模型并不能很好地支持,所以AI中台应运而生。安全
咱们把智能服务的需求抽象出来,造成一个独立的AI中台层。AI中台是一个用来构建智能服务的基础设施平台,对公司所需的模型提供分布分层的构建能力和全生命周期管理的服务,鼓励各个业务领域将基础性、场景性、通用性的AI能力沉淀到平台中,增强模型复用、组合创新、规模化,最终实现降本增效和快速响应业务方的目的。微信
既然提到了数据中台和AI中台,不少人会问:数据中台和AI中台是什么关系呢?restful
数据中台和AI中台二者是相互依存、承前启后的关系。网络
首先,数据中台和AI中台都对外提供服务,只是侧重点不一样。
其次,数据中台和AI中台是相互依存,相互支持的。
在过去,不少算法团队更像是算法外包团队,根据不一样业务线的需求,各自构建阵地,逐个攻克目标。这样的形式虽然也取得了不少成绩,但存在重复建设、效率有限的问题。
咱们将这些问题总结以下:
这些都是AI中台须要解决的痛点,针对以上痛点,咱们但愿:
总结起来就是:可复用化、服务统一化、对接数据中台、流程角色优化、运行监控化和资源管控化,最终让AI中台成为一个强大的AI能力支持中心,根据业务需求快速提供火力支援,迅速完成商业价值。
下面介绍AI中台的平台架构。
最下面是数据中台,提供数据处理、数据分析、数据管理、数据安全、数据服务等能力。最上面是业务前台,包括各条业务线。AI中台处于数据中台和业务前台的中间位置。
如图所示,整个AI中台由几个模块组成:
上图展现AI中台的能力架构。咱们以能力的角度来描述AI中台对外输出。除了前文介绍的服务运行能力、监控预警能力、资源管理能力(就是图中左边的几个模块)之外,咱们把AI中台的能力分为4层:
好比数据获取能力、在线训练能力、在线标注能力、特征工程能力、自助训练能力等。这些能力是经过AI工具集和AIlab来实现的。
这层的用户主要包括:
AI技术层主要提供:AI基础能力,包括词法分析、语音合成、文章分类、图像识别等,这些本质上是AI技术NLP、语音、图像、视频等大分类里的能力。
AI业务层主要提供AI技术与业务相结合后能提供的能力,好比:评论观点提取、文章标签、卡证类识别、人脸识别、视频审查等。
AI技术层和业务层的区别在于:AI技术层主要提供AI基础能力,好比NLP、CV、语音、视频等。而AI业务层主要是将AI技术与具体的业务场景结合起来,例如身份证识别、学历识别、验证码识别等。
这两层的用户是:业务团队的应用开发人员,能够直接调用智能服务,从而实现业务场景智能化,例如:短文本类似度、语言合成、票据识别等。
这一层以产品的形式对外提供服务,例如:智能机器人产品、知识图谱产品等。
这层的用户是:公司的业务人员或公司的直接客户,他们经过直接使用产品就能够得到结果, 例如:机器人。
上面3层都属于AI资产。从影响力角度来看,产品层的影响力最大,依次下来是业务层、技术层,最后是平台层。咱们在AI中台的实施路径上,也会按照这个优先级去构建和实施。
数据中台的口号是平民化和敏捷化。AI中台的口号是开放化。
AI中台的建设思路是但愿多方联合,公开透明,普遍参与,协商一致促进AI能力沉淀,增强AI服务复用,降本增效。
咱们更加关注于通用性的AI需求,为各个领域的AI应用团队提供通用化智能服务。强调平台性和可复用性,鼓励基础类、场景类AI服务的通用化、平台化。
普遍支持大中小业务领域AI应用团队面临的大量智能业务需求,提供模型学习平台与模型运行监控托管服务以及通用的AI工具,方便前台业务快速上线智能应用。在实施过程当中也会充分利用包括数据中台在内的现有技术资源,并根据业务需求强弱和重要性来肯定实施路线。
咱们但愿AI再也不是锦上添花,而是必备的能力,让开发者从新回归到业务的理解和创意的赛道上来,关注本身的业务逻辑。AI能力将会所有开放给开发者和使用者,这些能力包括语音、视频、天然语言处理、知识图谱等,咱们会将这些能力封装好,开发者直接调用就能够。
基于中台化思想,咱们是如何建设机器人平台的?
智能聊天机器人,是一种经过天然语言模拟人类进行对话的程序。
目前,特定场景和领域的聊天机器人已经展示出了很高的天然语言理解与处理能力,例如:小度、Siri、小爱同窗等。
智能聊天机器人能够代替企业中相对固化、重复的人力密集型任务或流程,包括:
典型的应用场景:智能聊天机器人除了能够闲聊之外,还能够用在问答做为问答机器人,回答专业领域的问题;做为任务机器人完成线上,甚至部分线下的任务;做为推荐机器人,推荐文章、音乐、产品;做为助理机器人,集成以上各类功能。
智能聊天机器人能够对外提供客户服务、对内进行业务辅助,实现全方位的效能提高,降本增效。
智能聊天机器人的本质是会话式UI。会话式UI是经过会话形式将已有数据、功能、服务展现给用户。
会话式UI与传统UI相比,具备独特的优点。
正如三星实验室高级设计师Golden Krishna所说:“最好的界面就是没有界面”。不少人认为语音交互比聊天机器人的干扰更小,能提供更好的使用体验。
这也是致使各类智能音箱在市场反响火爆的缘由,语音交互已经走进千家万户、世界各地。
目前会话式UI与业务系统紧密集成,是发展的主要趋势。经过集成各个业务系统,能够打造出专属的业务助手。如上图所示,咱们能够将报表查看、指令集成、知识图谱查询、查询邮件等诸多服务集成到业务系统中,而且提供权限审核的功能,从而打造一个专属的业务助理。
一些行业预测认为:
Gartner预测到2020年:50%的分析查询会经过搜索、天然语言处理或语音生成,或自动生成。一线业务工做人员经过天然语言处理和会话分析,来进行分析和使用商业智能产品的使用率从35%提高到50%以上。
接下来详细介绍聊天机器人建设的过程。
智能聊天机器人建设是有难度的,好比机器人的智能化核心开发须要必定的AI研发能力;机器人须要全套的模型封装,以及数据管理、任务调度、权限控制等工程能力的支持等;各业务线均有普遍的需求,一个个实施起来将是很漫长的过程。
若是按照一条线一条线建设的方式,如图所示,AI同事和平台同事支持第一个业务时,没有其余业务线的需求进来,按照项目的支持可以快速响应需求,这时的体验是很好的;而对于第二个业务来讲,此时因为AI同事和平台同事正在支持第一个业务,第二个业务线的功能就会有所缺失,能够看到图中业务线B的机器人少了一条腿,这时就产生了等待;到第三条业务线,已经进入了需求排期阶段,AI同事和平台同事对该业务线的支持就颇有限了;一样的,后续的业务线都将处于等待状态,尽管业务方很生气,可AI同事和平台同事已经疲于奔命。
由此能够看出这种烟囱式机器人研发的缺点:耗时长、成本高。
那么如何才能高效地支持这些需求呢?
以中台化思惟来建设智能聊天机器人平台。经过平台化的建设、复用化的思想,使得咱们的聊天机器人成为聊天机器人制造工厂。
咱们在构建智能聊天机器人平台的过程当中,将各个业务线的需求和能力都集成到平台中,提供给不一样业务线使用,各业务线都复用这些能力,而且提供数据权限的高度隔离。
最后达到机器人流水式生产,管理功能高度复用,业务用户高速接入,迅速赋能所有领域。
智能聊天机器人平台的设计考量包括如下几个方面。
既然咱们用平台化方式去建设,就必然面临一些问题:平台化的好处是能够复用,事半功倍;缺点是难以兼容个性化。因此咱们在平台建设过程当中,要同时考虑什么样的功能属于平台、什么样的功能属于租户、什么样的功能属于公司,把公共的功能进行沉淀、把租户的功能进行定制化,这样才能既兼顾平台化的事半功倍,又能知足个性化的需求。
上图所示是智能机器人平台的系统架构。
整个平台是微服务架构,支持容器化,支持使用Conductor模型编排,用MQTT协议以解决APP端网络不稳定的问题。
前文介绍了机器人平台的背景、设计理念和技术架构,接下来介绍机器人平台的核心原理和主要功能点。
智能聊天机器人最核心的部分是对话引擎,对话引擎包括:自动语音识别(ASR)、天然语言理解(NLU)、对话管理(DM)、天然语言生成(NLG) 和文本到语音合成(TTS)。
其中,天然语言理解(NLU)的目标是将文本转换成语义表示,文本中的单词语义并不重要,重要的是文本转化成了语义信息。简单来讲,就是将人的语言转化成机器能够理解的结构化的完整的语义,让机器理解人的语言。
咱们一般说的NLP天然语言处理实际上是一个大的集合,包含了NLU天然语言理解和NLG天然语言生成,而且包含了它生成上面的处理部分和下面的应用阶段,因此NLU和NLG都是NLP的一个子集,它们不是平级的关系。
DM是对话管理系统的大脑,负责更新对话状态。对话引擎的难点在NLU和DM。
总的来讲,这些技术都是属于天然语言处理技术(NLP,Natural Language Processing),本质上咱们须要使用NLP技术来解决聊天机器人的问题。
对于用户的一个问题,须要将这个天然语言问题经过一个模型(这个模型是咱们用机器学习基于大量数据训练和概括得出来的),转换为机器能理解的数据形式(咱们将这种数据形式称之为向量)。
NLP技术除了用于智能聊天机器人之外,还用在不少领域,例如:句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、对话系统等领域。
智能聊天机器人是由多个机器人组成,包括问答机器人、闲聊机器人、任务机器人等,人工后台以及文档库之间协做完成任务,最终选择最优答案返回给用户。
如图所示,用户提一个问题过来:
若是这个问题机器人不能解答,就会转入人工后台,或转到搜索引擎进入文档的搜索检索,最终将最优答案返回。
QA机器人的本质是:假设用户提了一个问题Q,QA机器人须要从已有的QA数据库中寻找最合适的QA对返回,QA机器人会进行QQ类似度计算和QA匹配度计算,经过综合类似度与匹配度,找到最适合的一组QA对 (Qi, Ai),即最佳答案返回。
常见的网络模型包括RNN和CNN模型。例如双层编码(Decoder)的长短时间记忆模型(LSTM)。这种模型在不少场景下都比较好用,网络模型的主要缺点是须要必定数量的样本。
在语料比较小的状况下,将问题进行拆分,分为两个阶段:
它的优势是在语料比较小的状况下效果不错。
这里以QQ匹配来介绍QA机器人原理。
QQ匹配包括几个部分:句向量化、类似度计算、类似度排序。
句向量咱们是经过词袋模型和同义词扩展来表示的。
什么是词袋模型?词袋模型就是忽略文本里的词序、词法、句法,只将它看作一个词的集合,把它当成一个词袋。
还引入了同义词扩展。在实际的问题中,不一样的词可能存在不一样的问法,但其语义相同,因此进行一些同义词等价,这样就造成了词向量。向量的值是TF-IDF值,用于表示权重。
TF-IDF模型(term frequency–inverse document frequency,词频与逆向文件频率)。TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。TF-IDF的主要思想是,若是某个词或短语在一篇文章中出现的词频高,而且在其余文章中不多出现,则认为此词或者短语具备很好的类别区分能力,适合用来分类。
TF-IDF有两个值,一个是词频率,另外一个是IDF(inverse document frequency,逆向文件频率)。如图中的计算方式。
举个例子,库中10000篇文档,10000篇提到“母牛”,其中10篇提到“产奶量”,好比一篇关于“母牛的产奶量”的文字,这篇文章有100个词,“母牛”出现5次,“产奶量”出现2次)。
经过计算发现,虽然“母牛”的词频率很高,但IDF值很低,最后“母牛”的TF-IDF很低,也就是说这个词不具太大的标识度。而“产奶量”这个词的词频率不高,但它的辨识度很高,最终它的TF-IDF也很高。
具体执行过程如图所示,首先拿到一个语句,进行分词、去停用词、去重,获得一个词序列。而后遍历每个词进行TF-IDF计算,若是在同义词表里,就计算词TF-IDF并求平均值;若是在词库中,就计算TF-IDF值;若是不在词库中,就直接忽略,最后造成词对应的TF-IDF值,并将Value向量单元化。
接下来咱们要计算向量和向量之间的距离,这里咱们采用余弦距离。计算方式如图所示。
当两个词向量的余弦值接近1的时候,两个词向量类似,也就是两个句子相关。不然就不相关。经过计算余弦值来最终达到判断句子的类似度。
上文介绍的QQ匹配是属于一种基于检索的聊天机器人,另外一种对应的分类是基于模型生成的表情机器人。
基于检索的聊天机器人:
生成模型的聊天机器人:
目前的现状是,在商业领域,工业级标准仍是会使用基于检索的机器人,适合特定领域内、问题集合有限,还有一些变体,好比知识图谱、基于KG的机器人、基于搜索引擎的机器人。而生成模型的机器人,是学术界研究的重点,在商业领域,它会做为检索式机器人的补充形式,二者结合使用,
闲聊机器人主要是进行客观话题讨论,用户对聊天机器人进行一些情感表达,回答问候、情感和娱乐等信息。闲聊处理由两个组件组成:
海量的闲聊语料,能够从在线论坛、微博对话、甚至别的通用机器人爬取,虽然从各个地方爬取,也须要审核,以知足用户需求。
闲聊机器人的要求是:简单闲聊、结果可控、快速开发。因此实现上咱们基于AIML构建闲聊机器人。
AIML是由Richard Wallace发明的一种语言。他设计了一个名为 A.L.I.C.E.(Artificial Linguistics Internet Computer Entity 人工语言网计算机实体)的机器人,并得到了多项人工智能大奖。AIML是一种为了匹配模式和肯定响应而进行规则定义的XML格式。
AIML的能力很灵活,如图所示,能够基于模板匹配、任意字符匹配、元素提取、一个问题多个答案、划分主题等。
AIML来做为知识载体的好处是灵活、人性化强。缺点是在知识的编写方面门槛高,好比闲聊库的扩充方面的问题等。
好在有现成的AIML编辑软件,如:SimpleAIMLEditor,GaitoBotAIMLEditor等。
AIML语言的规范也在不断升级,最新版本AIML2.0。
任务机器人(Task-Bot) 的关键技术是基于意图识别与语义槽提取。
举个例子,A说“帮我订一个今天下午3点到4点的会议室吧?要大一点的。”机器人识别出来这是一个任务,而这个任务要完成必须三个语义槽:时间、地点、大小。
通过分析发现A的任务请求中缺少一个语义槽-地点,因而触发机器人反问“请问您要预订哪一个职场的会议室?”,A补充了地点后,机器人联动会议预约系统,进行会议室预约,完成任务并反馈结果给A。
这个过程涉及了:意图识别、关键参数提取、多轮对话&对话管理、配置化、对接外部系统。
以上图的一个实际例子来看,这个例子是根据身份证号查询归属地。
场景机器人能够说是任务机器人更高级的版本,它是基于预置规则驱动完成场景任务。
上图示例中,销售人员G想查客户李国强的信息,机器人给出相应信息后,根据预设的场景,触发后台配置的一个业务推荐流程,根据这个流程,销售人员能够得到适合李国强客户的产品推荐、了解相关产品状况、进行话术演练等,原本只是一个聊天过程,跳转到特定的场景以及业务相关的联动,这就是场景机器人。场景机器人的场景和相关业务跳转都是能够配置的,这样能够达到动态化地支持不一样的场景。
场景机器人与场景绑定、结合场景相关话术和跳转规则,能够作:客户画像查询、产品信息查看、场景演练、面见话术等,还能够进行交叉销售、客户关联查询。
KG机器人,即知识图谱机器人,本质上是一种语义网络,其结点表明实体或者概念,边表明实体、概念之间的各类语义关系。KG机器人是基于知识图谱推理给出结果,也是基于检索型机器人的一种。
相较于纯文本,知识图谱在问答系统中具备如下优点。
这些优点都促使咱们在构建智能聊天机器人平台时使用知识图谱来做为问答系统的知识来源。
举个例子,这是保险的知识图谱,包含了:查询实体属性-平安境内旅行险一个月多少钱?查询关系以及属性-能保骨折,且承保时间在5年以上的保险有哪些?查询简单关系-平安境内旅行险能保意外骨折吗?查询复杂关系-想买一个能保骨折,而且可以在海口市的三甲医院报销的保险。
这些本质上都是在进行图查询,查询实体的属性,查询实体和实体之间的关系等。
知识图谱机器人构建过程当中:
当用户问问题时候,把问句转化成图计算,机器人经过知识图谱进行查询计算,并转化为答案反馈给用户。
除了上述各类机器人以外,聊天机器人平台还涉及到模型编排和模型管理的部分。好比有的业务只须要QA机器人,这时经过预处理,调用QA机器人,通过角色权限过滤就能够提供服务了。有的场景可能须要多种机器人进行合做,这就涉及到路由/群发,群发机器人的结果还要进行融合合并。
模型编排,将不一样的模型进行组合,以可视化的方式对调用的模型顺序进行编排,支持拖拽式配置。
模型自己是须要服务化的。咱们的实际模型自己是一些python服务,咱们将这些python服务进行封装,进行服务的统一管理,这样的话就能够对模型定义统一的接口,还能够进行自动化的更新,好比经过定时模型训练去更新此模型,其余模型不受影响,如上图所示的模型手动更新和自动更新。同时咱们能够进行单元测试和链路测试。
目前平台已可以支持:
聊天机器人平台主要功能包括如下几个方面。
机器人预置了web交互页面,支持机器人所有的功能。包括对话、留言反馈、转人工、查看历史消息;可直接嵌入PC端和APP端业务系统等。
在上图的例子中能够看到,前面部分是咱们的常见问题列表,用户问了一个问题,而后找到一个匹配该问题的答案。若是用户给出的问题比较简单,如上图,只给出“宜人贷”,就没办法命中一个独立的问题,这时除了匹配答案之外,还会给出一些与该问题相关联的问题,这种咱们称之为关联问题。也能够转到搜索引擎,经过搜素引擎的相关问题。
实际上,对于检索模型的聊天机器人而言,当FAQ中没有合适的答案,咱们返回的是FAQ中与问句最相近问句-答案对中的问句,而不是答案,这样能够从用户提问中获得更多信息,以便返回更真实的答案。咱们在实践中发现,用户经过这样的关联,只须要几回点击就能找到真正想要的答案,其满意度会获得提高。
这是机器人的知识库,知识库包含了一些分类信息,支持相应的数据角色、文档的数据颜色格式,还包含浏览编辑、全文检索、问题分类、批量上传、语料生成、水印生成等功能。
这是机器人的人工后台。人工后台上线后,用户能够跟人工后台的客服人员聊天,在这个过程当中也能够上传图片。与机器人问答不一样的是,机器人模式中用户只能发文字,而与客服人员聊天,能够上传文档、插入表情、请求评价等。在这里还能够作快捷回复、查看知识库、文档库、客户自己的信息,还有一些智能回答。
这是客服工做台的功能,能够从队列里调出相应的客户进行会话,解决不了的问题能够转交给别的工做台的客服解答。
接着来看会话管理。上图左边是这我的对应的历史聊天信息,咱们能够检索并定位到他认为回答很差的问题,进行在线快速补充添加新问题。每个问题的评分都会显示,既能帮助算法同事,也能帮助运营同事进行在线信息维护。
机器人平台还提供数据统计和分析功能,这一功能是基于Davinci数据可视化工具完成的,能够自定义数据指标,好比机器人服务时长、服务执行度等。还能够进行报表统计:会话统计、文档QA统计,人工后台服务分析、用户提问句云、活跃度排名、用户积分、用户行为覆盖、使用明细。
机器人平台还提供通用化模型运行托管平台,它是一个高可用运行架构,能够进行模型封装、发布、启停、更新管理,还包括自动数据更新机制、统一服务访问接口等。
机器人平台提供多租户和角色权限管理的功能,而且在公司里提供用户的自动导入,经过配置相应的角色和权限,自动导入成机器人的用户角色权限。这样一来,就不用维护用户自己了,能够跟不一样的业务系统直接对接。
机器人平台的其余功能,诸如任务配置、闲聊配置、积分管理、对接外部系统等功能此处不一一展开。
如图所示为智能聊天机器人平台的发展阶段,咱们已经彻底了前面阶段的机器人功能建设,包括问答、人工后台等。目前咱们处于第三阶段向第四阶段演进的过程,最终咱们但愿达到业务领域系统性CUI整合,即经过机器人会话,以场景式机器人的方式展现给客户,成为机器人助理。
智能客服机器人的初衷是解决客服管理部的痛点。
宜信有不少线下门店,这些门店中的销售人员有大量的问题,涉及到政策、法规、流程、管理等众多方面,这些问题都会经过内部沟通工具蜜蜂或邮件集中到客服管理部来解答。
引入智能客服机器人之后,80%的问题被机器人拦截,剩下的20%转到人工后台,减轻了客服管理人员的压力。
智能客服机器人目前服务于全部一线的客服同事,成为客服管理重要的平常工具。客服人员只须要经过手机就能够操做,实现了运营管理智能化从0到1的过程,帮助运营人员减轻压力,提高运营效率。
财富销售过程当中涉及到不少产品(基金、保险等),须要了解产品知识、政策法规、销售话术等。同事但愿能有一个知识型的助手,协助解答在销售过程当中遇到的诸多知识盲点,提升专业度。
咱们计划使用聊天机器人小助手与现有手机app结合,实现产品、客户、知识一站式服务。
如上图所示,财富智能助手并非直接调用机器人平台,而是经过API方式调用机器人平台,而后去询问各类支持销售的问题。
目前财富智能助手机器人覆盖全部一线销售和业务支持人员,解决投前、投中、投后、销售政策等问题,提升了业务专业度、响应速度,提高业务拓展效率。
第三个场景是保险智能机器人。微信用户存在大量相关问题咨询,使用人员来回答的话疲于应付,回答也不专业,人力成本很高,但愿经过机器人对售前类问题提供咨询服务,代替人工,完成售前信息交互,大幅减小人员成本,提升回答准确的和精准度。
如图所示,保险智能机器人基于第三方知识库提供查询:包括保险类术语查询、疾病库查询、险种查询、医院库等保险知识大全;基于知识图谱和推理的1~3度内查询等,例如:条款明细请问这款产品有犹豫期吗?我孩子5岁能够买这款产品吗?重疾险都包那些疾病?还能够作常见售前售后意图判断、保险费用预计算。
最后一个场景是AIOps智能运维机器人,AIOps是一个很大的话题,涉及到海量数据的存储、分析和处理。数据包括:历史数据、流数据、日志数据、时序数据、异常数据等。整个系统由许多小工具集成成为一个大系统。AIOps还包含自动模式发现和预测、异常检查、根因分析等须要模型支持等方面。
这里咱们主要关注入口:文本输入。
在平常运维中,当出现异常时,运维同事收到手机、邮件或短信报警,但愿经过手机APP,以天然语言方式查看得到当前系统状态、随时随地了解当前系统,甚至能够经过运维执行命令来解除故障。
好比能够经过手机APP调用任务机器人去查询后台系统中网络占用的一个时序图,把这个图以报表的方式返回到前端。使用机器人能够有效下降信息过载问题,调用相关接口,直接找到目前最重要的问题并返回。当发现系统出现故障时,能够经过机器人发送命令,重启服务解除故障。
Q1:语音外呼机器人如何用数据驱动作话术质量评估?好比:要定位哪些话术节点高频发生客户无回应、打断或投诉等,但机器人语音播报里是含多个变量参数的,并且文本会话存储是按ASR识别音转文的,和配置机器人时的固定话术格式不同,这样一来致使句子量级很是庞大,这种如何统计呢?
A:语音外呼机器人实际上是一个统称,通常来讲会具体到一个领域,而且和特定场景相结合。好比:电销促销机器人、售后快递送货机器人、语音催收机器人等。
以售后快递送货机器人为例,机器人经过语音电话通知客户,将快递送到家或者指定快递柜等。
在这种特定场景里,主要是要进行话术编排,费时间的也是在话术编排上,须要充分结合业务场景特色,由机器人向客户发问,对客户可能回答的方式进行归类(与具体业务方一块儿根据现有人工话术可能的回答进行分类)和统计,这样就方便对无回应、投诉等话术进行评估了。
最终用户的回答都会被引导到有限的话术逻辑中,从而达到电话外呼的目的。句子量级庞大,但话术是有限的,不会特别巨大(咱们目前场景中的话术都是和业务方一块儿合做总结的)。
另外,这种场景机器人的配置页面与分享中提到的任务机器人还不彻底同样,有其单独的话术编排配置。
Q2:老师提到使用similarity的chatbot,请问这样的chatbot只是作intent识别吗,对于slots的填充是怎样处理的呢?
A:基于类似度的模型用于问答和闲聊机器人。任务机器人的处理基于专门的意图识别模型和实体识别模型来作。
意图识别模型,因为咱们要作的是通用化、自助化、弹性化,因此设计了一个轻量级的自训练意图识别框架,基于用户提出的少许语料,经过句子成分分析提取特征,并对特征进行分析而成,其中主要涉及到语言学知识,少许统计学习方法,优势是自训练需求算力不多、解释性强、准确率高、用户彻底能够随意添加各种新的任务。
槽值提取基于NER和意图识别中的句子成分分析开展。NER自带通用的时间、地点、人名、组织等实体识别,通用实体因为语料充足,其识别利用了ML、DNN等模型。此外考虑到专业领域里的专有槽值实体(例如合同号、公司内部部门名称、员工编号等等),咱们容许用户自行配置列表实体、正则实体等。
Q3:第二种使用模型对intent和slots识别,请问里面的slots识别是character-level的仍是word-level的?若是是word-level的,怎样处理cut-word不许带来的问题?
A:槽值中通用实体的识别基于word-level,专有的实体识别比较复杂,常见的情景中若是是列表实体,那么咱们在分词阶段已经将列表实体名称加入分词表;正则实体直接作正则匹配。
之因此采用这种NER方式,主要就是下降用户每次新建任务、实体后模型框架自训练的开销,使其能够迅速动态加载新的意图识别和槽值提取task。
Q4:第一个机器人从开发到上线用了六个月,机器人平台开发用了多久呢?
A:由于是按照平台化的思惟去建设,实际上第一个机器人开发的时候,机器人的模型部分和机器人平台是同步进行的,团队成员包括算法同事和平台研发同事,以两周一个小版本的速度,在与第一个客户一直保持密切交流的状况下,随时改善用户体验,总共花了6个月的时间,初版的机器人模型和平台同时完成。
初版主要包含QA机器人、QA库管理、文档库管理、会话管理、模型自动更新等主要功能。闲聊机器人、任务机器人等都是后面版本迭代增长的。
其实机器人模型、QA库不断完善、模型自动更新、问题反馈、统计报表等都是一个统一的总体。单纯只重视任何一方面,例如只重视算法模型,忽略特定业务场景的语料,忽略运营的支持,都会致使机器人很差用,体验差。在实际运营中,算法、平台和运营都须要造成闭环,进行有效沟通。这样才能把平台和机器人建设得更好用。
来源:宜信技术学院