Expander-基于Graph的机器学习软件

时间 2019-11-06

标签 expander 基于 graph 机器学习软件繁體版

原文原文链接

近来机器学习日新月异使计算机系统可以解决现实世界中的复杂问题。其中之一即是谷歌的大规模、基于图的机器学习平台。这一技术使用了半监督式学习方法，目前已经在谷歌大量的产品中获得应用，其中就包括内置在谷歌最新手机Pixel中的聊天应用Allo。谷歌研究团队最近发表了两篇论文介绍这一技术。算法

　　近来机器学习日新月异使计算机系统可以解决现实世界中的复杂问题。其中之一即是谷歌的大规模、基于图的机器学习平台，这是由 Google Research 的 Expander 团队制做的。不少你平常使用的谷歌产品及功能背后，都有基于图的机器学习，这是一种强大的工具，可以用于收件箱提醒、Allo 智能信息回复等功能，基于图的机器学习和深度神经网络一块儿，为 Google Photos 最新的图像识别系统提供动力。网络

　　在最低的监督下学习框架

　　深度学习和机器学习近来的成功主要能够归功于这样一些模型，它们在通过大规模（一般几百万的）带标签的数据训练之后，展示出了极高的预测能力。咱们把这种机器学习模型叫作“监督学习”，由于它须要监督，也就是由人加了标签的数据进行训练。（相对的，直接在原始数据上运做，不须要任何监督的机器学习方法则被称为无监督学习。）机器学习

　　可是，任务越是困难，越是难以找到足够多的带有标签的高质量数据。实际上，对于每一个新的任务都采集带标签数据是一件不可能的事情，须要花费超出想象的时间和精力。由此，Expander 团队才有了开发新技术，用最少的监督支持大规模机器学习应用的想法。分布式

　　Expander 团队的技术受人类如何在已有知识（带标签数据）和全新、未知的观察结果（不带标签的数据）之间架起理解的桥梁的启发。被称为“半监督”学习的这种方法，使系统可以在稀疏数据集上训练。基于图的半监督学习方法重要的优点在于，系统在学习的时候同时吸取带有标签的和不带标签的数据，这样有助于改善数据的底层结构，此外，多种不一样的信号能很轻松地混合在一块儿（好比带有原始特征的知识图谱相关信息），用单一的图表示，系统能够一次性学习。相比之下，神经网络方法通常是先使用带标签的数据训练，而后再向系统输入不带标签的数据。函数

　　图学习：它是如何工做的？工具

　　在其核心，Expander的平台结合了半监督机器学习和大规模基于图的学习，经过创建一个多图数据表征，这些数据表征上的节点分别对应于某个物体或者概念以及边，链接着具备类似性的概念。学习

　　图通常包含标签数据（带有已知输出种类或者标签的节点）以及非标签数据（没有标签的节点）。Expander的框架随后执行的是半监督学习，经过在图中传播标签信息，来联合性地标注全部节点。优化

　　提及来容易作起来难。研究者必需要1）在最少的监督下（好比，只用少许的标签数据），进行大规模的高效学习，2）在多模式的数据中进行操做（好比，异构表征或者多源数据）以及3）解决难度较高的预测任务（好比，大型的、复杂的输出空间），涉及到高维数据，这些数据可能会是噪声数据。翻译

　　在整个学习进程中，其中一个最要的要素是图以及链接的选择。图有各类各样的大小和形状，能与多种来源进行结合。研究者观察发现，从结合来自多种类表征数据（好比，图像像素、物体种类和聊天反应信息，例如Allo中的PhotoReply）的信息进行多图学习，会带来很好的效果。Expander 团队的图学习平台能够直接从数据中自动地生成图，这些数据都是基于推断或者已知的数据要素间关系的。数据能够是结构的（好比，推理数据）或者非结构的（好比，从原始数据中提取的稀疏或者密集特征表示）。

　　为了理解Expander的系统是如何学习的，能够思考下面的图像例子：

　　在图中，有两种类型的节点：“灰色”表明非标签数据，同时彩色节点表明的是标签数据。节点数据间的关系经过边进行表示，每个边的粗细程度表明的是链接的强度。在这一个图表上，咱们能明确地表示出半监督学习的难题：预测图表中每个节点的颜色（红或者蓝）。须要说明的是，图的结构和颜色选择是根据任务做出的。好比，在研究团队最近发表的论文中，研究者开发了一个收件箱智能回复功能，邮件信息就被表示为节点，而颜色则表明着用户回复的语义类型，（好比对，太好了，颇有趣）。

　　Expander 图学习框架把这一任务当成一种优化问题进行解决。在最简单的层次，它学习图像中每个节点的颜色标签，这样，相邻的标签就能基于相互之间链接的强度来分配类似的颜色。一个较为幼稚的办法是尝试一次性所有学完标签分配，这种方法并不能扩展到大型的图上。另外一个方法是，经过把标签节点的颜色传递给相邻节点，而后重复这一过程，这一问题能够获得正式的优化。在每一步中，经过观察其相邻的节点颜色，一个非标签的节点能够被分配一个标签。研究者能够经过这个方法升级每个节点，反复操做，一直到整个图都变成彩色。这一过程在优化类似的难题时很是有效，而且，循环的次序也被转化为一个独特的解决方案。在图传播最后的解决方案看起来像这样：

　　实际上，咱们使用了复杂的优化函数来定义整个图的结构，其中包含了半监督图学习的额外信息和限制条件，最终导向难度更大的非凸问题。

　　为了解决这一挑战，在去年发表的论文“ Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation”（使用流近似的大规模分布式半监督学习）中，研究者描述了一种全新的方法。论文介绍了一种流算法（ streaming algorithm），以分布式的方法，处理相邻的节点中传播的信息，这使得在大规模的图中进行工做成为可能。此外，它还解决了另外一个实际的问题，特别是，它保证了空间的复杂性或者系统的内存要求保持在一个稳定的状态，无论任务有多难。好比，无论预测标签的数量是2（正如上面的例子）或者100万或者10亿，整个系统使用的都是相同数量的内存。这让大范围的采用成为可能，好比天然语言理解、机器感知、用户建模，甚至是涉及多模型的学习任务，例如文字、图片和视频的输入。基于图的语言学习能经过剩余词汇发现情感类型（比入， ROTFL的标签是“有趣”，由于这个屡次反射的词与“笑”这个词有关）。

　　学会幽默的语言图（Language Graph）

　　基于图的机器学习的一个使用样例是情绪标记（emotion labeling），邮箱智能回复（Smart Reply for Inbox）里也有这项语言理解任务，目标是要将天然语言文本根据细微的情绪分类。首先，一个神经网络被用于一个语料库，学会词嵌入（word embeddings），也就是一个对每一个词含义的数学向量表征。而后，用稠密嵌入向量构建一个稀疏图，节点表明单词，链接（边）表明词与词之间的语义关系。用相似的嵌入向量计算出边的强度，忽略掉其中类似度很低的边。

　　基于图的机器学习的应用

　　Expander 团队的机器学习系统现在被用于超大规模的图（含有几十亿个节点和几万亿条边），进行识别和概念理解，对象包括天然语言、图像、视频和问询（queries），驱动了提醒、问题回答、语言翻译、视觉物体识别、对话理解等应用。

　　Allo 发布之后，千千万万用户都体验到了 Expander 团队开发的系统提供的智能消息技术。此外，这种技术不只仅用于云当中的大规模模型，好比 Android Wear 上周开放的 on-device 智能回复功能，在从此咱们还但愿将其用于解决互联网规模的问题。