读书笔记---Explain Images with Multimodal Recurrent Neural Networks

     之前的方法将image caption任务看成检索任务,对句子和图像提取特征,并将他们映射到相同的语义嵌入空间,只能对数据集中已经存在的图像进行注释,不能描述先前看不到的对象和场景。      这篇文章提出了一个多模式递归神经网络模型(m-RNN)用于解释图像的内容。这个模型根据已经给出的图片和之前生成的单词来预测下一个单词。m-RNN主要是由两个子网络组成的:用于句子的深度递归网络和用
相关文章
相关标签/搜索