SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

时间 2020-12-23

原文原文链接

Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空间图定义每一个视觉实体只看相邻的实体，多头自注意力层的每个头都专注于关系的不同子集。每个头都考虑局部上下文，而不是将注意力分散在所有视觉实体中；避免学习多余的特征在TextVQA数据集中大约有13% 的问题