多模态在内容理解的应用

2020 年机器学习趋势:建立统一的跨媒体多模态内容理解内核 描述类任务(表示,转换,对齐,融合) 视频描述 1 Predicting Visual Features from Text for Image and Video Caption Retrieval:输入原始图像,图像标题和众多描述图像的句子,将它们映射到隐空间并合成视频描述。 2 Watch, Listen, and Describ
相关文章
相关标签/搜索