视觉语言两开花!谷歌提出全新视觉语言桥梁-3

小老虎在动物园指着人类开心地说道。 对动物而言可能有些夸张,但是人类在进行事物的描述时,大多都是一边指着目标物体,一边进行语言的描述吗? 来自谷歌研究院的学者们以此为基础提出了“定位叙事”图像标注方法,在传统图像描述标注方法的基础上,巧妙的利用鼠标轨迹为每个单词都提供了较为密集的视觉基础,可以作为一个更为细粒度的图像监督信号,与此同时,定位叙事还连接了四种模态的数据,包括图像、语音描述、文字描述和
相关文章
相关标签/搜索