M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

时间 2020-12-23

标签 ------多模态相关------ VQA 计算机视觉深度学习人工智能栏目 C&C++ 繁體版

原文原文链接

Paper : https://arxiv.org/abs/1911.06258 Code : https://ronghanghu.com/m4c/ 基于多模式 transformer 结构以及图像中文本的丰富表示形式。通过将不同模态嵌入到共同的语义空间中，自然地将不同的模式融合在一起，在该空间中，自我注意被应用于模式间和模式内上下文。使用动态指针网络进行迭代答案解码，从而允许模型通过多步预测

>>阅读原文<<