读书笔记---Explain Images with Multimodal Recurrent Neural Networks

时间 2020-12-24

原文原文链接

之前的方法将image caption任务看成检索任务，对句子和图像提取特征，并将他们映射到相同的语义嵌入空间，只能对数据集中已经存在的图像进行注释，不能描述先前看不到的对象和场景。这篇文章提出了一个多模式递归神经网络模型（m-RNN）用于解释图像的内容。这个模型根据已经给出的图片和之前生成的单词来预测下一个单词。m-RNN主要是由两个子网络组成的：用于句子的深度递归网络和用

>>阅读原文<<