伯克利人工智能研究项目：为图像自动添加准确的说明

时间 2020-12-29

原文原文链接

人类可以很容易地推断出给定图像中最突出的物体,并能描述出场景内容,如物体所处于的环境或是物体特征。而且,重要的是,物体与物体之间如何在同一个场景中互动。视觉描述的任务是开发视觉系统来生成图像中物体的上下文描述。视觉描述是具有挑战性的,因为它不仅需要识别对象目标,还有其他视觉元素,如行动和属性,然后构建一个流利的句子去描述图像中的对象,其属性及行动(如：棕熊站森林里的一颗石头上)。视觉描述现状 L

>>阅读原文<<