LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记

文章目录 1. 文章概要 2. 模型体系结构 2.1 Input Embeddings 2.2 编码器 2.3 输出表示 3. 预训练任务 3.1 Language Task: Masked Cross-Modality LM 3.2 Vision Task: Masked Object Prediction 3.3 跨模态任务 4. 实验结果 文章下载地址:. 1. 文章概要 视觉 - 语言推理
相关文章
相关标签/搜索