ACM MM顶会论文 | 对话任务中的“语言-视觉”信息融合研究

目标导向的视觉对话是“视觉-语言”交叉领域中一个较新的任务,它要求机器能经过多轮对话完成视觉相关的特定目标。该任务兼具研究意义与应用价值。日前,北京邮电大学王小捷教授团队与美团AI平台NLP中心团队合做,在目标导向的视觉对话任务上的研究论文《Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue-commentCZ》被国际多媒体领域顶级会议ACMMM 2020录用。git

该论文分享了他们在目标导向视觉对话中的最新进展,即提出了一种响应驱动的视觉状态估计器(Answer-Driven Visual State Estimator,ADVSE)用于融合视觉对话中的对话历史信息和图片信息,其中的聚焦注意力机制(Answer-Driven Focusing Attention,ADFA)能有效强化响应信息,条件视觉信息融合机制(Conditional Visual Information Fusion,CVIF)用于自适应选择全局和差别信息。该估计器不只能够用于生成问题,还能够用于回答问题。在视觉对话的国际公开数据集GuessWhat?!上的实验结果代表,该模型在问题生成和回答上都取得了当前的领先水平。github

背景

一个好的视觉对话模型不只须要理解来自视觉场景、天然语言对话两种模态的信息,还应遵循某种合理的策略,以尽快地实现目标。同时,目标导向的视觉对话任务具备较丰富的应用场景。例如智能助理、交互式拾取机器人,经过天然语言筛查大批量视觉媒体信息等。算法

图1 目标导向的视觉对话

研究现状及分析

为了进行目标导向的和视觉内容一致的对话,AI智能体应该可以学习到视觉信息敏感的多模态对话表示以及对话策略。对话策略学习的相关工做有不少,如Strub等人[1]首先提出使用强化学习来探索对话策略,随后的工做则着重于奖励设计[2,3]或动做选择[4,5]。可是,它们中的大多数采用了一种简单的方式来表示多模态对话,分别编码两个模态信息,即由RNN编码的语言特征和由预训练CNN编码的视觉特征,并将它们拼接起来。微信

好的多模态对话表示是策略学习的基石。为了改进多模态对话的表示,研究者们提出了各类注意机制[6,7,8],从而加强了多模态交互。尽管已有工做取得了许多进展,可是还存在一些重要问题。框架

  1. 在语言编码方面,现有方法的语言编码方式都不能对不一样的响应(Answer)进行区分,Answer一般只是附在Question后面编码,因为Answer只是Yes或No一个单词,而Question则包含更长的词串,所以,Answer的做用很微弱。但实际上,Answer的回答很大程度决定了后续图像关注区域的变化方向,也决定了对话的发展方向,回答是Yes和No会致使彻底不一样的发展方向。例如图1中经过对话寻找目标物体的示例,当第一个问题的答案“是花瓶吗?”为“是”,则发问者继续关注花瓶,并询问能够最好地区分多个花瓶的特征;当第三个问题的答案“部分为红色吗?”为“否”,则发问者再也不关注红色的花瓶,而是询问有关剩余候选物体的问题。
  2. 在视觉以及融合方面的状况也是相似,现有的视觉编码方式或者采用静态编码在对话过程当中一直不变,直接和动态变化的语言编码拼接,或者用QA对编码引导对视觉内容的注意力机制。所以,也不能对不一样的Answer进行有效区分。而如前所述,当Answer回答不一样时,会致使图像关注区域产生很是不一样的变化,通常地,当回答为“是”时,图像会聚焦于当前对象,进一步关注其特色,当回答为“否”时,可能须要再次关注图像总体区域去寻找新的可能候选对象。

响应驱动的视觉状态估计器

为此,本文提出一个响应驱动的视觉状态估计器,以下图2所示,新框架中包含响应驱动的注意力更新(ADFA-ASU)以及视觉信息的条件融合机制(CVIF)分别解决上述两个问题。ide

图2 响应驱动的视觉状态估计器框架图

响应驱动的注意力更新首先采用门限函数极化当前轮次Question引导的注意力,随后基于对该Question的不一样Answer进行注意力反转或保持,获得当前Question-Answer对对话状态的影响,并累积到对话状态上,这种方式有效地强调了Answer对对话状态的影响;CVIF在当前QA的指导下融合图像的总体信息和当前候选对象的差别信息,从而得到估计的视觉状态。函数

答案驱动的注意力更新(ADFA-ASU)

视觉信息的条件融合机制(CVIF)

响应驱动的视觉状态估计器用于问题生成和回答

ADVSE是面向目标的视觉对话的通用框架。所以,咱们将其应用于GuessWhat ?!中的问题生成(QGen)和回答(Guesser)建模。咱们首先将ADVSE与经典的层级对话历史编码器结合起来以得到多模态对话表示,然后将多模态对话表示与解码器联合则可获得基于ADVSE的问题生成模型;将多模态对话表示与分类器联合则获得基于ADVSE的回答模型。性能

图3 响应驱动的视觉状态估计器用于问题生成和回答示意图

在视觉对话的国际公开数据集GuessWhat?!上的实验结果代表,该模型在问题生成和回答上都取得了当前的领先水平。咱们首先给出了ADVSE-QGen和ADVSE-Guesser与最新模型对比的实验结果。学习

此外,咱们评测了联合使用ADVSE-QGen和ADVSE-Guesser的性能。最后,咱们给出了模型的定性分析内容。咱们模型的代码即将可从ADVSE-GuessWhat得到。ui

表1 QGen任务性能对比,评测指标为任务成功率

表2 Guesser任务性能对比,评测指标为错误率

图4 问题生成过程当中响应驱动的注意力转移样例分析

图5 ADVSE-QGen对话生成样例

总结

本论文提出了一种响应驱动的视觉状态估计器(ADVSE),以强调在目标导向的视觉对话中不一样响应对视觉信息的重要影响。首先,咱们经过响应驱动的集中注意力(ADFA)捕获响应对视觉注意力的影响,其中是保持仍是移动与问题相关的视觉注意力由每一个回合的不一样响应决定。

此外,在视觉信息的条件融合机制(CVIF)中,咱们为不一样的QA状态提供了两种类型的视觉信息,而后依状况地将它们融合,做为视觉状态的估计。将提出的ADVSE应用于Guesswhat?!中的问题生成任务和猜想任务,与这两个任务的现有最新模型相比,咱们能够得到更高的准确性和定性结果。后续,咱们还将进一步探讨同时使用同源的ADVSE-QGen和ADVSE-Guesser的潜在改进。

参考文献

  • [1] FlorianStrub,HarmdeVries,JérémieMary,BilalPiot,AaronC.Courville,and Olivier Pietquin. 2017. End-to-end optimization of goal-driven and visually grounded dialogue systems. In Joint Conference on Artificial Intelligence.
  • [2] Pushkar Shukla, Carlos Elmadjian, Richika Sharan, Vivek Kulkarni, Matthew Turk, and William Yang Wang. 2019. What Should I Ask? Using Conversationally Informative Rewards for Goal-oriented Visual Dialog.. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for ComputationalLinguistics,Florence,Italy,6442–6451. https://doi.org/10.18653/v1/P...
  • [3] JunjieZhang,QiWu,ChunhuaShen,JianZhang,JianfengLu,andAntonvanden Hengel. 2018. Goal-Oriented Visual Question Generation via Intermediate Re- wards. In Proceedings of the European Conference on Computer Vision.
  • [4] Ehsan Abbasnejad, Qi Wu, Iman Abbasnejad, Javen Shi, and Anton van den Hengel. 2018. An Active Information Seeking Model for Goal-oriented Vision- and-Language Tasks. CoRR abs/1812.06398 (2018). arXiv:1812.06398 http://arxiv.org/abs/1812.06398
  • [5] EhsanAbbasnejad,QiWu,JavenShi,andAntonvandenHengel.2018.What’sto Know? Uncertainty as a Guide to Asking Goal-Oriented Questions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4150–4159.
  • [6] Chaorui Deng, Qi Wu, Qingyao Wu, Fuyuan Hu, Fan Lyu, and Mingkui Tan. 2018. Visual Grounding via Accumulated Attention. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 7746–7755.
  • [7] Tianhao Yang, Zheng-Jun Zha, and Hanwang Zhang. 2019. Making History Matter: History-Advantage Sequence Training for Visual Dialog. In Proceedings of the IEEE International Conference on Computer Vision. 2561–2569.
  • [8] BohanZhuang,QiWu,ChunhuaShen,IanD.Reid,andAntonvandenHengel. 2018. Parallel Attention: A Unified Framework for Visual Object Discovery Through Dialogs and Queries. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4252–4261.

做者简介

本文做者包括徐子彭、冯方向、王小捷、杨玉树、江会星、王仲远等等,他们来自北京邮电大学人工智能学院智能科学与技术中心与美团搜索与NLP中心团队。

招聘信息

美团搜索与NLP部,长期招聘搜索、推荐、NLP算法工程师,坐标北京/上海。欢迎感兴趣的同窗发送简历至:tech@meituan.com(邮件注明:搜索与NLP部)

想阅读更多技术文章,请关注美团技术团队(meituantech)官方微信公众号。