多模态,常用数据集

VQA Visual Question Answeing. 看图并回答用自然语言表述的相关问题. 问题包括选择题,数字题, 开放题. The goal of visual question answering (VQA) (Antol et al., 2015) is to answer a natural language question related to an image. We tak
相关文章
相关标签/搜索