从Transformers学习跨模态编码器表示《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》

时间 2021-01-13

原文原文链接

目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论一、文献摘要介绍 Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between