通用的图像-文本语言表征学习:多模态预训练模型 UNITER

通用的图像-文本语言表征学习:多模态预训练模型 UNITER   导读: 联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础,一般通过联合处理多模态输入,得到用于实现对视觉和文本的理解。但是,这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Concep
相关文章
相关标签/搜索