视觉理解论文系列(三)VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS

背景 这是微软亚研院的工作,将纯文本设定的bert扩展到visual-linguistic场景,从预训练到fine-tune,可以用于多个下游任务。 摘要 作者提出了一个可预训练的用于学习视觉-语言任务通用表征的模型VL-BERT,VL-BERT以transformers为主干,可以同时接受V、L特征作为输入。预训练任务使用了包括visual-language数据集Conceptual Capti
相关文章
相关标签/搜索