Show and Tell: A Neural Image Caption Generator 翻译

时间 2020-12-23

原文原文链接

摘要自动描述图像的内容是连接计算机视觉和自然语言处理的人工智能中的一个基本问题。在本文中，我们提出了一个基于深度重构架构的生成模型，它结合了计算机视觉和机器翻译方面的最新进展，可以用来生成描述图像的自然语句。训练该模型以最大化训练图像给出的目标描述句子的可能性。在几个数据集上的实验显示模型的准确性和它从图像描述中学到的语言的流畅性。我们的模型通常是相当准确的，我们从定性和定量两方面进行验证。例如

>>阅读原文<<