LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记

时间 2021-01-13

原文原文链接

文章目录 1. 文章概要 2. 模型体系结构 2.1 Input Embeddings 2.2 编码器 2.3 输出表示 3. 预训练任务 3.1 Language Task: Masked Cross-Modality LM 3.2 Vision Task: Masked Object Prediction 3.3 跨模态任务 4. 实验结果文章下载地址：. 1. 文章概要视觉 - 语言推理