Guiding the Long-Short Term Memory Model for Image Caption Generation

指导长时记忆以生成图像字幕 摘要:在这项工作中,我们专注于图像标题生成的问题。 我们提出了长期短期记忆(LSTM)模型的扩展,简称为gLSTM。 特别是,我们将从图像中提取的语义信息作为额外输入添加到LSTM块的每个单元中,目的是将模型引向更紧密地耦合到图像内容的解决方案。 此外,我们探索了用于波束搜索的不同长度归一化策略,以防止偏爱短句。 在各种基准数据集(例如Flickr8K,Flickr30
相关文章
相关标签/搜索