视觉-语言双流BERT模型之VilBERT学习笔记

继 2018 年谷歌推出BERT 模型获得巨大成功之后,业界把BERT的思想迁移到视觉、视频任务中的例子越来越多,出现了很多融合的BERT模型。其中,ViLBERT模型是为视觉-语言任务训练非任务专用的视觉语言表征的BERT融合模型。最近,在做文本-视频语义相关性匹配,调研、学习了这篇文章,记录下来学习的笔记,方便后面回顾,温故而知新。 论文作者:Jiasen Lu, Dhruv Batra, D
相关文章
相关标签/搜索