《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》笔记

专业调参20年。。。 这是ICCV2017上的一篇文章(文章链接),代码在github上的地址:链接,pytorch版本在这里。 文章里面实现的模型结构示意图: 项目页的笔记: 要使用他们给出的代码的话就要先看下vqa-mcb项目里面的要求,因为代码是基于这个项目开发的。注意因为代码里面的MFB和MCB有点不同,所以caffe版本要用这里给出的,并且要在使用代码的时候禁用掉CuDNN(因为CuDN
相关文章
相关标签/搜索