视觉理解论文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS

时间 2021-04-10

原文原文链接

背景这是微软亚研院的工作，将纯文本设定的bert扩展到visual-linguistic场景，从预训练到fine-tune，可以用于多个下游任务。摘要作者提出了一个可预训练的用于学习视觉-语言任务通用表征的模型VL-BERT，VL-BERT以transformers为主干，可以同时接受V、L特征作为输入。预训练任务使用了包括visual-language数据集Conceptual Capti

>>阅读原文<<