将来已来！阿里小蜜AI技术揭秘

时间 2019-12-10

原文原文链接

1.双11的挑战与服务模式的转型

在全球人工智能领域不断发展的今天，包括Google、Facebook、Microsoft、Amazon、Apple等互联公司相继推出了本身的智能私人助理和机器人平台，智能人机交互成为各大公司在人工智能战场上激烈竞争的入口级领域。智能人机交互经过拟人化的交互体验逐步在智能客服、任务助理、智能家居、智能硬件、互动聊天等领域发挥巨大的做用和价值。

在2015年7月，咱们阿里也推出了本身的智能私人助理-阿里小蜜，一个围绕着电子商务领域中的服务、导购以及任务助理为核心的智能人机交互产品。经过电子商务领域与智能人机交互领域的结合，提高传统电商领域的能效，带来传统服务行业模式的变化与体验的提高。

1.1智能人机交互带来服务行业模式的变化

传统的服务行业是一我的力密集型的行业，就拿咱们阿里巴巴双11狂欢节来讲，不管是对于阿里直接对外的服务(消费者服务和商家服务)仍是淘宝商家的服务都面临着当天服务量的巨大井喷，人力扩容成为每一年阿里以及商家巨大的挑战。传统人力密集型服务模式(以自营客服、外包客服和云客服为主的服务模式)亟待被颠覆和改变，围绕着以阿里小蜜产品为核心，经过智能人机交互与人工服务相结合的模式才是将来真正的服务模式。机器经过智能化技术处理掉绝大部分的简单、重复等可识别处理的问题，对于解决不了的问题流向人工，让人提供更有温度也更加专业的服务。经过智能+人工相结合的模式探索，在今年的双11期间，阿里小蜜总体智能服务量达到643万，其中智能解决率达到95%，智能服务在整个服务量(总服务量=智能服务量+在线人工服务量+电话服务量)占比也达到95%，成为了双11期间服务的绝对主力。

框架

1.2 智能人机交互带来服务体验的提高

在体验维度，因为机器的运算速度远超于人，所以智能人机交互能够带来提高：智能交互相比人工能够达到急速的秒级体验，而人的服务一般须要必定时间的回复等待。而且在互动领域，智能人机交互也带来了一种新的模式和新的玩法，带来更多价值。

dom

2. 阿里小蜜及阿里小蜜平台介绍

阿里小蜜是电子商务领域的智能私人助理，基于阿里海量消费和商家数据，结合线上、线下的生活场景需求，以智能+人工的模式提供智能导购、服务、助理的拟人交互业务体验。

1.在跨终端、多场景领域支持多轮交互、多模交互(文本、语音和图像)和问题推荐预测；

2.支持多模型(文本模型、客户模型、语音识别和图像识别)识别客户意图；

3.支持多领域识别和路由分流；

阿里小蜜总体体系图以下：

机器学习

经过1年多阿里小蜜在阿里业务体系内的不断尝试和摸索，今年在电子商务生态圈范围内，在基于千牛的买卖家生态圈、基于钉钉的企业生态圈上，咱们将阿里小蜜进行平台化开放，同时赋能给咱们商家和企业用户。将来咱们指望经过不断的领域数据和技术模型的积累，可以在阿里其余生态圈(例如：阿里云)逐步进行开放，赋能更多电子商务生态圈领域。

阿里小蜜平台结构图以下：

分布式

阿里小蜜在各个领域系统示例截图：

性能

3. 阿里小蜜技术实践

3.1 智能人机交互系统

智能人机交互系统，俗称：chatbot系统或者bot系统，咱们核心须要作的事情是理解人类的语言意思，进而给予合理的答案或者Action。

人机交互基本流程以下：

学习

其核心部分就是NLU(天然语言理解)，经过对话系统处理后最后经过天然语言生成的方式给出答案。一段语言如何理解对于计算机来讲是很是有难度的，例如：“苹果”这个词就具有至少两个含义，一个是水果属性的“苹果”，还有一个是知名互联网公司属性的“苹果”。所以在阿里小蜜这样在电子商务领域的场景中，咱们先采用分领域分层分场景的方式进行架构抽象，而后再根据不一样的分层和分场景采用不一样的机器学习方法进行技术设计。首先咱们将对话系统从分红两层：

1.意图识别层：识别语言的真实意图，将意图进行分类并进行意图属性抽取。意图决定了后续的领域识别流程，所以意图层是一个结合上下文数据模型与领域数据模型不断对意图进行明确和推理的过程；

2.问答匹配层：对问题进行匹配识别及生成答案的过程。在阿里小蜜的对话体系中咱们按照业务场景进行了3种典型问题类型的划分，而且依据3种类型会采用不一样的匹配流程和方法：

1.问答型：例如“密码忘记怎么办？”→ 采用基于知识图谱构建+检索模型匹配方式

2.任务型：例如“我想订一张明天从杭州到北京的机票”→ 意图决策+slots filling的匹配方式

3.语聊型：例如“我心情很差”→ 检索模型与Deep Learning相结合的方式

3.2 阿里小蜜意图识别的技术方案

一般在乎图识别领域咱们将其抽象成为机器学习中的分类问题来解决，在阿里小蜜的技术方案中除了传统的文本特征以外，考虑到自己在对话领域中存在语义意图不完整的状况，咱们也加入了用实时、离线用户自己的行为及用户自己相关的特征，经过深度学习方案构建模型，对用户意图进行预测。以下图：

阿里云

在基于深度学习的分类预测模型上，咱们有两种具体的选型方案：一种是多分类模型，一种是二分类模型。多分类模型的优势是性能快，可是对于须要扩展分类领域是整个模型须要从新训练；而二分类模型的优势就是扩展领域场景时原来的模型均可以复用，能够平台进行扩展，缺点也很明显须要不断的进行二分，总体的性能上不如多分类好，所以在具体的场景和数据量上能够作不一样的选型。总体的基本技术思路就是将行为因子与文本特征分别进行Embedding处理，经过向量叠加以后再进行多分类或者二分类处理。这里的文本特征维度能够选择经过传统的bag of words的方法，也可以使用Deep Learning的方法进行向量化。具体以下图：

人工智能

目前主流的智能匹配技术分为以下4种方法：

1 基于模板匹配(Rule-Based)

2.基于检索模型(Retrieval Model)

3.基于统计机器翻译模型(SMT)

4.基于深度学习模型(Deep Learning)

在阿里小蜜的技术场景下，咱们采用了基于模板匹配，检索模型以及深度学习模型为基础的方法原型来进行分场景(问答型、任务型、语聊型)的会话系统构建。

问答型：基于知识图谱构建+检索模型匹配方式特色：有领域知识的概念，且知识之间的关联性高，而且对精准度要求比较高基于问答型场景的特色，咱们在技术选型上采用了知识图谱构建+检索模型相结合的方式来进行核心匹配模型的设计。

知识图谱的构建咱们会从两个角度来进行抽象，一个是实体维度的挖掘，一个是短句维度进行挖掘，经过在淘宝平台上积累的大量属于以及互联网数据，经过主题模型的方式进行挖掘、标注与清洗，再经过预设定好的关系进行实体之间关系的定义最终造成知识图谱。基本的挖掘框架流程以下：

spa

挖掘构建的知识图谱示例以下：

基于知识图谱的匹配模式具有如下几个优势：

1 在对话结构和流程的设计中支持实体间的上下文会话识别与推理

2.一般在通常型问答的准确率相对比较高(固然具有推理型场景的须要特殊的设计，会有些复杂)

一样也有明显的缺点：

1.模型构建初期可能会存在数据的松散和覆盖率问题，致使匹配的覆盖率缺失；

2.对于知识图谱增量维护相比传统的QA Pair对知识的维护上的成本会更大一些；

所以咱们在阿里小蜜的问答型设计中，仍是融入了传统的基于检索模型的对话匹配。

其在线基本流程分为：

1.提问预处理：分词、指代消解、纠错等基本文本处理流程；

2.检索召回：经过检索的方式在候选数据中召回可能的匹配候选数据；

3.计算：经过Query结合上下文模型与候选数据进行计算，经过咱们采用文本之间的距离计算方式(余弦类似度、编辑距离)以及分类模型相结合的方式进行计算；

4.最终根据返回的候选集打分阈值进行最终的产品流程设计。

离线流程分为：

1.知识数据的索引化；

2.离线文本模型的构建：例如Term-Weight计算等。

检索模型总体流程以下图：

任务型：意图决策+slots filling的匹配方式

特色：有领域知识的概念，每一个任务负责独立的业务流程，任务之间相对互斥性强，精准度要求高。基于任务型的特色，在技术选型上，咱们采用了意图决策+slot filling的方式进行会话匹配设计。首先按照任务领域进行本体知识的构建，例如机票的领域本体知识场景以下：

在问答匹配过程当中结合上下文模型和领域数据模型不断在Query中进行slot属性的提取，并循环进行本体意图树的不断填充和修改，直到必选意图树填充完整后进行输出。以下图：

语聊型：检索模型与Deep Learning相结合的方式

特色：非面向目标，语义意图不明确，一般期待的是语义相关性和渐进性，对准确率要求相对较低。

面向open domain的聊天机器人目前不管在学术界仍是在工业界都是一大难题，一般在目前这个阶段咱们有两种方式来作对话设计：一种是学术界很是火爆的Deep Learning生成模型方式，经过Encoder-Decoder模型经过LSTM的方式进行Sequence to Sequence生成，以下图：

一种是Generation Model(生成模型)：

1.优势：经过深层语义方式进行答案生成，答案不受语料库规模限制；

2.缺点：模型的可解释性不强，且难以保证一致性和合理性回答。

另一种方式就是经过传统的检索模型的方式来构建语聊的问答匹配。

Retrieval Model(检索模型)：

1.优势：答案在预设的语料库中，可控，匹配模型相对简单，可解释性强；

2.缺点：在必定程度上缺少一些语义性，且有固定语料库的局限性。

所以在阿里小蜜的聊天引擎中，咱们结合了二者各自的优点，将两个模型进行了融合造成了阿里小蜜聊天引擎的核心。先经过传统的检索模型检索出候选集数据，而后经过Seq2Seq Model对候选集进行Rerank，重排序后超过制定的阈值就进行输出，不到阈值就经过Seq2Seq Model进行答案生成，总体流程以下图：

4 智能交互将来的展望

目前的人工智能领域任然处在弱人工智能阶段，特别是从感知到认知领域须要提高的空间还很是大。智能人机交互在面向目标的领域已经能够与实际工业场景紧密结合并产生巨大价值，随着人工智能技术的不断发展，将来智能人机交互领域的发展还将会有不断的提高，对于将来技术的发展咱们值得期待和展望：

1.数据的不断积累，以及领域知识图谱的不断完善与构建将不断助推智能人机交互的不断提高；

2.面向任务的垂直细分领域机器人的构建将是以后机器人不断爆发的增加点，open domain的互动机器人在将来一段时间还须要不断提高与摸索；

3.随着分布式计算能力的不断提高，深度学习在席卷了图像、语音等领域后，在NLP(天然语言处理)领域将会继续发展，在对话、QA领域的学术研究将会持续活跃；

在将来随着学术界和工业界的不断结合与积累，期待人工智能电影中的场景早日实现，人人都能拥有本身的智能“小蜜”。

[ 此帖被琴瑟琵琶在2017-06-22 13:47从新编辑 ]

原文连接