自适应注意力机制在Image Caption中的应用

时间 2020-12-30

原文原文链接

Introduction 目前大多数的基于 Attention 机制的 Image Captioning 模型采用的都是 encoder-decoder 框架。然而在 decode 的时候，decoder 应该对不同的词有不同的 Attention 策略。例如，“the”、“of”等词，或者是跟在“cell”后面的“phone”等组合词，这类词叫做非视觉词（Non-visual Word），更多依