多模态bert-基于双流的bert 笔记 ViLBert、LXMERT、IMAGEBERT

时间 2021-01-06

原文原文链接

ViLBert paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 基于双流的 ViLBERT，在一开始并未直接对语言信息和图片信息进行融合，而是先各自经过 Transformer 的编码器进行编码。分流设计是基于这样一个假设，语言的理解本