MUREL: Multimodal Relational Reasoning for Visual Question Answering笔记

一、论文信息 论文地址:https://arxiv.org/abs/1902.09487 代码地址:github.com/Cadene/ murel.bootstrap.pytorch 二、论文模型 2.1 预处理部分         这篇文章没有具体说明预处理的部分,但是看模型框架图可以发现,处理视觉特征使用的是Faster-RCNN,处理问题特征使用的是GRU。然后得到N个dv维的image
相关文章
相关标签/搜索