通用的图像-文本语言表征学习：多模态预训练模型 UNITER

时间 2020-12-30

原文原文链接

通用的图像-文本语言表征学习：多模态预训练模型 UNITER 导读：联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础，一般通过联合处理多模态输入，得到用于实现对视觉和文本的理解。但是，这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Concep

>>阅读原文<<