视觉-语言双流BERT模型之VilBERT学习笔记

时间 2021-01-17

原文原文链接

继 2018 年谷歌推出BERT 模型获得巨大成功之后，业界把BERT的思想迁移到视觉、视频任务中的例子越来越多，出现了很多融合的BERT模型。其中，ViLBERT模型是为视觉-语言任务训练非任务专用的视觉语言表征的BERT融合模型。最近，在做文本-视频语义相关性匹配，调研、学习了这篇文章，记录下来学习的笔记，方便后面回顾，温故而知新。论文作者：Jiasen Lu, Dhruv Batra, D

>>阅读原文<<