多模态bert-基于双流的bert 笔记 ViLBert、LXMERT、IMAGEBERT

ViLBert   paper: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 基于双流的 ViLBERT,在一开始并未直接对语言信息和图片信息进行融合,而是先各自经过 Transformer 的编码器进行编码。分流设计是基于这样一个假设,语言的理解本
相关文章
相关标签/搜索