《论文阅读》Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

留个笔记自用 Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning 做什么 Cross-modal retrieval between videos and texts,跨模态检索,简单来说就是根据一段描述文字检索出展现出这段文字内容的视频 做了什么 这篇文章将一句话看成三个层级,即全局转局部,首先是Events事件
相关文章
相关标签/搜索