基于Bert的Vison-Language多模态网络

多模态任务 VQA 用自然语言对给定图片作相关提问. Image-text retrieval 图像-文本 跨模态检索,任务是根据语言描述,从候选中选定相关的图片, 反之亦然, 即也可以给定图片选文本.数据集如MSCOCO ,Flickr30K. VCR, Visual Commonsense Reasoning 不太明白, 先搬过来. Given an image, the VCR task p
相关文章
相关标签/搜索