《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》笔记

时间 2021-01-02

原文原文链接

专业调参20年。。。这是ICCV2017上的一篇文章（文章链接），代码在github上的地址：链接，pytorch版本在这里。文章里面实现的模型结构示意图：项目页的笔记：要使用他们给出的代码的话就要先看下vqa-mcb项目里面的要求，因为代码是基于这个项目开发的。注意因为代码里面的MFB和MCB有点不同，所以caffe版本要用这里给出的，并且要在使用代码的时候禁用掉CuDNN（因为CuDN