基于Bert的Vison-Language多模态网络

时间 2021-01-06

原文原文链接

多模态任务 VQA 用自然语言对给定图片作相关提问. Image-text retrieval 图像-文本跨模态检索,任务是根据语言描述,从候选中选定相关的图片, 反之亦然, 即也可以给定图片选文本.数据集如MSCOCO ,Flickr30K. VCR, Visual Commonsense Reasoning 不太明白, 先搬过来. Given an image, the VCR task p