Transfer Learning via Unsupervised Task Discovery for Visual Question Answering论文解读

这篇文章虽然也是VQA的,但和之前看的类型完全不一样,文章研究的问题也几乎没有被探索过,所以还是有很多地方看不太明白,在这里仅发表自己的看法,若有不对的地方,还望多多指教! 引入 人类看到和理解的视觉场景是基于不同视觉概念。例如,从一张椅子的单一图像中,人类毫不费力地识别出不同的视觉概念,如它的颜色、材料等。 风格、用途等。这种不同的视觉概念可能与自然语言中定义每个视觉概念的识别任务的不同问题有关
相关文章
相关标签/搜索