图神经网络的表达能力与 Weisfeiler-Lehman 测试

云栖号资讯：【点击查看更多行业资讯】
在这里您能够找到不一样行业的第一手的上云资讯，还在等什么，快来！
算法

你有没有这样的一种感受，图深度学习就是一堆启发式的东西，有时会起做用，但没有人知道为何。在本文中，做者讨论了图同构问题，图同构测试的 Weisfeiler-Lehman 启发式，以及如何用它来分析图神经网络的表达能力。这是关于图神经网络表达能力的系列三篇文章中的第一篇。在第二部分中，他将讨论如何脱离 Weisfeiler-Lehman 层次结构；在第三部分中，他将建议为何重温整个图同构框架多是个好主意。express

前文回顾：《图深度学习：成果、挑战与将来》网络

传统的前馈网络（多层感知器）是已知的通用逼近器：它们能够将任何平滑函数近似到任何所需的精度。对于相对最近才出现的图神经网络，其表示特性还不是很了解。人们在实验中常常会观察到，图神经网络在某些数据集上表现出色，但同时在其余数据集上的表现却使人失望。为找到这种行为的根源，咱们必须回答这样一个问题：图神经网络有多强大？架构

其中挑战之一是，应用程序中遇到的图是乱序和离散结构（分别是节点和边缘特征以及连通性）的组合，所以，这个问题能够用不一样的方式提出。一种可能的表述是图神经网络是否可以区分不一样类型的图结构。这是图论中的一个经典问题，称为图同构问题，目的是肯定两个图在拓扑上是否等价【1】。两个同构图具备相同的连通性，不一样之处只是它们节点的排列。app

使人惊讶的是，图同构问题的精确复杂度类别是未知的。咱们不知道它在多项式时间内是可解的，也不知道它是 NP 彻底（ NP-complete）的，有时被归因于一种特殊的“ GI 类”【2】框架

Weisfeiler-Lehman 测试。 Boris Weisfeiler 和 Andrey Lehman 【3】在 1968 年发表的具备开创性意义的论文中提出了一种有效的启发式方法，即 Weisfeiler-Lehman 测试。最初被认为是图同构问题的多项式时间解【4】。一年后发现了一个反例；然而，从几率意义上看，Weisfeiler-Lehman 测试彷佛适用于几乎全部的图【5】。dom

对两个同构图上执行 Weisfeiler-Lehman 测试的示例。花括号表示多组。算法在颜色不变后中止，并生成输出（颜色直方图）。这两个图的输入相等代表它们多是同构的。机器学习

Weisfeiler-Lehman 测试基于迭代图从新着色【6】（图论中的“颜色”是指一个离散节点标签），并从全部颜色相同的节点开始。在每一步中，该算法将节点及其邻域的颜色聚合为多集【7】，并将聚合的颜色多集散列为惟一的新颜色。当达到稳定的着色时，算法即中止。若是在这一点上两个图的着色不一样，则认为这两个图是非同构的。可是，若是着色是相同的，这些图可能（但不必定）是同构的。换句话说，Weisfeiler-Lehman 测试是图同构的一个必要但不充分的条件。有一些非同构图的 Weifeiler-Lehman 测试能够产生相同的着色，所以认为它们“多是同构的”；听说在这种状况下，测试失败了。下图就显示了一个这样的例子：分布式

Weisfeiler-Lehman 图同构测试失败的两个非同构图，从它产生的相同着色能够明显看出。在化学中，这些图表明两种不一样化合物的分子结构，十氢化萘（左）和双环戊基（右）。图摘自【14】。函数

图同构网络。Keyulu Xu【9】和 Christopher Morris【10】（至少在两年前，Thomas Kipf 在他的博客中曾提到）注意到，Weisfeiler-Lehman 测试与图消息传递神经网络【8】有着惊人的类似之处，后者是一种对图进行相似卷积运算的方式。在消息传递层中，经过聚合相邻节点的特征来更新每一个节点的特征。聚合和更新操做的选择相当重要：只有多集内射函数才能使其等同于 Weisfeiler-Lehman 算法。一些文献中经常使用的聚合器选择，例如，最大值或均值，实际上严格来讲没有 Weisfeiler-Lehman 强大，而且没法区分很是简单的图结构：

图结构的示例，不能用最大值来区分，但能够用均值聚合器（第一和第二）来区分，而且既不能用最大值也不能用均值（第一和第三）来区分。缘由在于，以这种方式从黑色节点的邻居聚合的特征将是相同的。图改编自【9】。

Xu 提出了一种聚合和更新函数的选择，使消息传递神经网络与 Weisfeiler-Lehman 算法等价，称之为图同构网络（Graph Isomorphism Networks，GIN）。这和标准的消息传递神经网络同样强大。可是，比起一个新的架构，主要的影响是在一个简单的设置中系造成表达能力的问题，这可能与图论中的一个景点问题有关。这一想法已经激发了许多后续研究。

Weisfeiler-Lehman 层次结构。对 Xu 和 Morris 的结果进行扩展的一个方向是使用更强大的图同构测试。由 László Baba 提出的 k-WL 测试是 Weisfeiler-Lehman 算法的高阶扩展，该算法适用于 k 元组而不是单个节点。除了等价的 1-WL 和 2-WL 测试以外，对于任何 k≥2，(k+1)-WL 严格强于 k-WL，即存在 k-WL 失败而 (k+1)-WL 成功的图的例子，但反之则否则。所以，k-WL 是一个层次结构或愈来愈强大的图同构测试，有时被称为 Weisfeiler-Lehman 层次结构【10】。

设计遵循 k-WL 测试的图神经网络是可能的，所以严格来讲，比消息传递架构更强大。其中一个这样的第一个架构，k-GNN，是由 Morris【11】提出的。传统消息传递神经网络和高阶 GNN 之间的关键区别在于它们是非局部的，由于 k-WL 算法是在节点的 k 元组上进行操做的。这对算法的实现及其计算和内存复杂性都有重要的影响：k-GNN 须要 𝒪(nᵏ) 内存。做为一种下降复杂性的方法，Morris 设计了一种基于局部邻域汇集的 k-GNN 局部版本，但它的表现能力不如 k-WL。

在 2019 年 9 月，我有幸参与了 Haggai Maron 在魏茨曼科学研究学院（Weizmann Institute）的博士论文答辩，他提出了略有不一样的高阶图架构。Maron 基于 k 阶张量【12】定义了一类不变图网络（Invariant Graph Network，IGN），并证实了它们与 k-WL 同样强大。IGN 源自 k-WL 的不一样变体【10】，而且就其复杂性而言，与 k-GNN 相比更有优点。尤为是，等价于 3-WL 的 IGN“只有”二次元的复杂度，这多是惟一一种实用的图神经网络架构，严格的说，它比消息传递更强大，但与前者的线性复杂度仍相去甚远【16】。
从理论的角度来看，可证实功能强大的图神经网络提供了一个严格的数学框架，能够帮助解释和比较不一样的算法。已经有不少后续工做使用图论和分布式局部算法的方法扩展了这些结果【14】。

然而，从实践的角度来看，这些新的架构几乎没有什么重大影响：例如，最新的基准测试【15】代表，最近被证实功能强大的算法实际上性能并不如旧的技术。这在机器学习中并很多见，由于理论和实践之间每每存在很大差距。其中一个解释多是基准自己的缺陷。但也许更为深入的缘由是，更好的表达能力并不必定提供更好的泛化（有时偏偏相反），此外，图同构模型可能没法正确地捕捉特定应用程序中图类似性的实际概念，我想在下一篇文章中讨论这一点。能够确定的是，这一领域的研究工做是卓有成效的，它为其余学科搭建了桥梁，并带来了之前在图深度学习领域未使用过的方法。

参考文献
【1】即在两个图的节点之间存在一个保边双射（edge-preserving bijection）。
【2】所以，图同构多是 NP- 中间复杂度类。对于一些特殊的图族（如树、平面图或有界最大度图），存在多项式时间算法。
【3】《图的标准型化简及其代数》（The reduction of a graph to canonical form and the algebra which appears therein），B. Weisfeiler、A. Lehman，1968 年，Nauchno-Technicheskaya Informatsia 2(9):12–16。英文版、俄文版：文中包含了一个双关语，以一种不寻常的西里尔字母（Операция „Ы“）的形式出现，指的是三年前前苏联的同名电影。另请参阅这篇博文中一个流行的论述。Lehman 有时也被拼写成“Leman”，然而，鉴于这个姓氏的日耳曼起源，我更喜欢前者更准确的变体。
【4】 I. Ponomarenko， Weisfeiler Lehman 写的原始论文。提供了这篇经典论文的历史背景。他指出，这项研究的动机来自于化学应用。
【5】《随机图同构》（Random graph isomorphism），L. Babai 等人，1980 年，SIAM J. Computing 9(3):628–635。
【6】 Weisfeiler 和 Lehman 的原始论文实际上描述了 2-WL 变体，但它等价于 1-WL，也被称为色彩细化算法。做为一个历史性的注释，这样的算法早在 20 世纪计算化学中就已为人所知，参见 H.L.Morgan。《为化学结构生成独特的机器描述——化学文摘社（Chemical Abstracts Service，CAS）开发的一种技术》（The generation of a unique machine description for chemical structures — a technique developed at chemical abstracts service ），1965 年， J. Chem，Doc. 5(2):107–113，这是摩根分子指纹在化学中普遍应用的基础。
【7】多集是一个集合，其中，同一个元素可能出现屡次，但元素的顺序并不重要。
【8】《量子化学中的神经信息传递》（Neural message passing for quantum chemistry），Gilmer 等人，2017 年，Proc. ICML。
【9】《图神经网络有多强大？》（How powerful are graph neural networks?），K. Xu 等人，2019 年，Proc. ICLR。
【10】 Weisfeiler-Lehman 测试存在多重变体，它们具备不一样的计算和理论特性，并且属于至关混乱：建议读者清楚地理解不一样做者对“k-WL”一词的确切含义。有些做者，路 Sato 和 Maron，就区分了 WL 和“民俗”WL（FWL）测试，这两种测试的主要不一样之处在于色彩细化步骤。k-FWL 测试等价于 (k+1)-WL。Morris 使用的集合 k-WL 算法是另外一种变体，具备较低的内存复杂度，但严格弱于 k-WL 算法。
【11】《 Weisfeiler 和 Leman Go 神经网络：高阶图神经网络》（Weisfeiler and Leman go neural: Higher-order graph neural networks），C. Morris 等人，2019 年，Proc. AAAI。
【12】《不变图网络和等变图网络》（Invariant and equivariant graph networks），H. Maron，2019 年，Proc. ICLR.
【13】《可证实功能强大的图神经网络》（Provably powerful graph neural networks），H. Maron 等人，Proc. NeurIPS。另请参阅做者的博文。
【14】《图神经网络表达能力研究综述》（A survey on the expressive power of graph neural networks），R. Sato，2020 年，arXiv: 2003.04078。提供了有关不一样 Weisfeiler-Lehman 测试和等价图神经网络结构的一个很是全面的回顾，并提供了与分布式计算算法的连接。
【15】《基准图神经网络》（Benchmarking graph neural networks），V. P. Dwivedi 等人，2020 年，arXiv: 2003.00982。
【16】更准确地说，消息传递的复杂性与边数呈线性关系，而不是与节点数呈线性关系。在稀疏图中，状况大体相同。在稠密图中，边数能够是 𝒪(n²)。出于这一缘由，Maron 认为他的架构能够用于稠密图。
【17】从历史上讲，Weisfeiler-Lehman 的形式主义在机器学习社区中并不新鲜。《图的快速子树核》（Fast subtree kernels on graphs），N. Shervashidze 和 K. M. Borgwardt 合著的开创性论文，2009 年，Proc. NIPS，就我所知，在深度神经网络的复苏以前，该论文是第一个使用这种架构的，比本文所讨论的工做早了近十年。
做者介绍：
Michael Bronstein，伦敦帝国理工学院教授，Twitter 图机器学习研究负责人，CETI 项目机器学习领导、Twitter 图机器学习负责人、研究员、教师、企业家和投资者。

【云栖号在线课堂】天天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/zhibo

当即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-07-08
本文做者：Michael Bronstein
本文来自：“InfoQ”，了解相关信息能够关注“InfoQ”