Learning deep representations of fine-grained visual descriptions

Abstract 最先进的zero-shot视觉识别将学习视为图像和补充信息的联合问题。其中对视觉特征来说最有效的补充信息是属性-描述类与类之间的共享特征的手动编码向量。尽管算法表现很好,但是属性任然是有局限的: 更细粒度的识别需要相当多的属性 属性不提供自然语言界面(attributes do not provide a natural language interface)(不能显式的表示?)
相关文章
相关标签/搜索