M4C:Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA ---论文阅读笔记

Paper : https://arxiv.org/abs/1911.06258 Code : https://ronghanghu.com/m4c/ 基于多模式 transformer 结构以及图像中文本的丰富表示形式。 通过将不同模态嵌入到共同的语义空间中,自然地将不同的模式融合在一起,在该空间中,自我注意被应用于模式间和模式内上下文。使用动态指针网络进行迭代答案解码,从而允许模型通过多步预测
相关文章
相关标签/搜索