CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽、交互到共生

时间 2020-06-14

原文原文链接

纵观视觉与语言在这六年间的飞速发展史，它就仿佛是两种不一样文化（计算机视觉与天然语言处理）的碰撞与交融。这里每一种文化最初的进化都是自洽的，即独立地演化造成一套完备的视觉理解或语言建模体系；演化至今，咱们当前所迎来的则是两种文化间的交互，自此视觉理解和语言建模再也不是简单串联的两个模块，而是经过互相的信息传递成为共同促进的一个总体；对于视觉与语言的将来，则必定是聚焦于二者更为本质和紧密的共生，它所渴望的，将是挣脱开数据标注的桎梏，在海量的弱监督甚至于无监督数据上找寻二者间最为本质的联系，并以之为起源，如「道生一，一辈子二，二生三，三生万物」通常，赋予模型在各类视觉与语言任务上的生命力。

This monkey on the back of horse

Disney made the best cake of all time using projection

Tiny squid flopping around on the rocky bottom of fish tankgit

注：为了更好地便于读者理解和推进视觉语言领域的发展，将这几年咱们关于视觉与语言的表明性工做（LSTM-A [1]，GCN-LSTM [2]，HIP [3]，X-LAN [4]）进行开源，这些对应的源码都在 GitHub 上陆续公开（https://github.com/JDAI-CV/im...），敬请关注！github

缘起

视觉与语言，即视觉内容理解和天然语言表达，本来分属于计算机视觉（CV）和天然语言处理（NLP）两个不一样的研究领域。然而在 2014 年，图像描述生成（Image Captioning）猛然打破了二者间的壁垒，凭借着机器翻译中经典的 encoder-decoder 模型一下贯通了从视觉内容到语言表达的转换，为 CV 和 NLP 领域的后继者同时打开了一个不一样模态交叉融合的新世界。算法

与机器翻译中不一样天然语言间的转化相仿，图像描述生成任务能够提炼为从一种视觉语言（图像特征表达）到天然语言（描述语句）的转换。现今主流的图像描述生成算法的原型均可归纳为两个模块：视觉编码器（Visual Encoder）和语言解码器（Language Decoder）。前者负责对视觉内容的理解，将视觉语言编码为富含语义信息的特征表达，后者则依据编码后的特征表达来解码出相应的语言描述。网络

自洽

各自文化的起点都是从蹒跚学步的孩童开始，渐渐造成一个完备自洽的体系。对于视觉和语言也是如此。身处深度学习的浪潮之中，视觉和语言各自也都在不断地往前进步，譬如由底层纹理到高层语义的视觉内容理解（Visual Understanding），亦或是由单个词出发演化至整个词序列的语言建模（Language Modeling）。性能

在这一阶段的视觉与语言模型本质上是视觉编码器和语言解码器的简单串联。以图像描述生成任务举例，该阶段的研究重心每每是如何从图像视觉内容中解析出更多的高层语义信息，并将这些语义信息融入到视觉编码的过程当中，以加强编码器输出的视觉特征表达。这一研究思路也正是咱们在前三年一系列工做的脉络，即属性（Attributes）-> 关系（Relation）-> 结构（Hierarchy）。学习

如上图，首先是 2017 年咱们尝试在视觉内容编码的过程当中引入高层的语义属性，它不只包含图像中显著的物体，也具有背景中的场景信息。在获取高层语义属性后，咱们不只能够在特征层面将语义属性特征融合至编码特征中（LSTM-A [1]），也能够将识别的语义属性词直接「拷贝」到解码出的描述中（LSTM-C [5]）。接着在 2018 年，受到 Bottom-Up [6] 中经过物体检测器获取高性能的物体区域特征的启发，咱们进一步去挖掘物体和物体之间的关系（GCN-LSTM [2]），构建出物体间语义和空间的关系图，从而促进对图像的理解。尽管物体间关系图有效地引入了物体间关系的语义信息，但依然没法充分表达整个图像所包含的丰富语义。故在 2019 年，咱们提出了一种多层次的树形语义结构（HIP [3]），它囊括了从语义分割后的物体实例到检测后的物体区域再到整个图像的不一样层级之间的语义信息。经过这样一种树形结构能够实现对物体不一样层次间语义关联性的编码，以解码出更为精准的描述文本。测试

交互

视觉与语言发展的第一阶段自洽能够看作是每一个文化独立的发展史，所衍生的算法模型也大可能是视觉编码器和语言解码器的简单串联。然而没有一种文化能够在发展中独善其身，互相调和与交互将是必然。所以现今的视觉与语言渐渐步入交互的阶段，目的是促进视觉编码器和语言解码器间的信息交互。大数据

注意力机制（Attention Mechanism）是不一样模态间最典型的信息交互手段。它能够经过每一时刻解码器的隐状态来推断当前编码器中须要关注的图像区域，以此帮助编码器更好地理解图像内容。以下图，早期的注意力机制 soft-attention [7] 会依据条件特征 Q（解码器当前的隐状态）与每个图像局部区域特征 K 的线性融合来获取该区域对应的注意力权重，再将每个注意力权重做用于局部区域特征 V 实现图像特征的聚合编码。在这两年也涌现了多种升级版本的注意力机制，好比自顶向下的 top-down attention（Bottom-Up [6]）、同时捕捉多种注意力的 multi-head attention（Transformer [8]）和利用门控进一步过滤注意力的 attention on attention（AoANet [9]）。ui

当咱们回顾传统的注意力机制时，能够发现它每每利用线性融合来进行跨模态的特征交互学习，因此其本质只挖掘了不一样模态间一阶的特征交互，大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的做用。针对这个问题，咱们在最新的 CVPR 2020 工做 X-LAN [4] 中打造了一个能实现高阶特征交互的注意力机制 X-Linear attention。它能够利用双线性融合技术去挖掘不一样模态间二阶乃至更高阶的特征交互信息，以加强跨模态的内容理解。编码

同时，该 X-Linear attention 能够做为一个灵活的插件接入到目前流行的各类图像描述生成模型中，极大地提高编码器和解码器在模态内和跨模态间的特征交互能力。咱们也在最为权威的 COCO 在线评测系统上对所设计的图像描述生成系统进行测试，在多个指标上均达到世界第一的水平（以下图）。

共生

尽管视觉内容的理解能够随着各类高性能网络的设计和语义的深刻挖掘不断升级，视觉和语言间交互的方式也已经从传统的 soft-attention 演化到捕捉高阶信息交互的 X-Linear attention，但视觉与语言的技术发展依然逃脱不了深度学习对于训练数据的贪婪。COCO12 万+的图像，约 60 万的人工标注语句，自然制约了图像描述生成技术进一步的发展。不管是对于更多物体的理解仍是对于更普遍语言的表达，亦或是更精细更本质的视觉-语言匹配，都须要更细粒度、更大规模的视觉与语言标注数据来支撑。那么如何打破这一视觉语言数据的壁垒？如何突破当前算法的瓶颈？

当人们对某种文化进行反思甚至于迷茫的时候，就意味着一个新的起点将应运而生。所以在当下，视觉与语言也须要迎来一个新的阶段，其目的是在更广大的数据上挖掘出二者间最为本质的共生特质，从而促进不一样模态间更为自由的转换。具体而言就是咱们须要在海量的弱监督甚至于无监督视觉语言数据上去习得二者间最为本质的联系，而后再赋予模型在各类视觉与语言任务上的生命力。

目前刚刚兴起的视觉语言预训练（Vision-language pre-training）或许能够成为破局的关键。借助于海量网页自动抓取的视觉语言数据，如 Conceptual Captions 和 Auto-captions on GIF，咱们能够预训练一个通用的编码器-解码器模型。正是由于在海量数据上所学会的视觉语言共生特质，该预训练模型能够全方位地赋能各类视觉与语言的下游任务，打破每个下游任务中视觉与语言训练数据的限制，实现了「大一统」的视觉与图像间跨模态理解与转换。目前，京东 AI 研究院的这些技术已在京东应用落地。例如商品图像搜索和图像审核等场景，同时也正尝试将视觉与语言技术融入任务驱动型多模态加强对话中，旨在提高人机交互效率和用户体验。

结语

好奇心是我的或者组织创造力的源泉，在权威图像描述生成评测集 COCO 上的成绩彰显了京东 AI 研究院在视觉与语言领域的世界领先水平。京东智联云将一面以智能供应链、「新基建」等为抓手，帮助政府、企业、我的进行数字化、网络化、智能化转型，成为了与零售、物流、数字科技组成了京东四大核心业务版图，是京东对外技术与服务输出的核心通道。一面以「ABCDE」技术战略为基础，保持前沿的技术技术研究和好奇心，即「以人工智能（AI）为大脑、大数据（Big Data）为氧气、云（Cloud）为躯干、物联网（Device）为感知神经，以不断探索（Exploration）为好奇心」。

参考文献

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.

[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.

欢迎点击“更多”了解京东智联云！