【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations

时间 2021-01-12

原文原文链接

利用BERT联合学习视觉和语言之间的信息。 Visual-Linguistic BERT的主干是多模态Transformer attention 模块，以视觉和语言嵌入特征作为输入。在输入中，每个元素要么来自输入句子的单词，要么来自输入图像的某个区域(RoI)，以及某些特殊元素[CLS]、[SEP]、[END]等用来消除不同的输入格式的歧义。不同于BERT只将语言元素作为输入，VL-BERT将视

>>阅读原文<<