Learning deep representations of fine-grained visual descriptions

时间 2021-01-02

原文原文链接

Abstract 最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的补充信息是属性-描述类与类之间的共享特征的手动编码向量。尽管算法表现很好，但是属性任然是有局限的：更细粒度的识别需要相当多的属性属性不提供自然语言界面（attributes do not provide a natural language interface）（不能显式的表示？）