文字图像处理之跨模态检索和VQA视觉问答

以下内容全是学习自一位学长的读书笔记!!!! 1.跨模态检索 他的定义就是将一个模态的数据(我暂且将认为是图片)作为查询去检索了一个与之相关的模态(我认为可以是视频)的数据,作为查询接过来返回。 一般会将模态分为: 1.自然语言处理(这就是传说中自然语言呀,写和说) 2.视觉信号(也就是图片和视频) 3.声音信号(对声音的编码和韵律) 这就像在输入文字的搜索引擎上面找对应的图片和视频,这就是跨模态
相关文章
相关标签/搜索