SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空间图定义每一个视觉实体只看相邻的实体,多头自注意力层的每个头都专注于关系的不同子集。 每个头都考虑局部上下文,而不是将注意力分散在所有视觉实体中; 避免学习多余的特征 在TextVQA数据集中大约有13% 的问题
相关文章
相关标签/搜索