Multimodal——Paper笔记：Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

时间 2021-01-02

原文原文链接

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web 关键字：BERT、迁移学习、预训练文章简介这篇文章中了今年ECCV（2020），还是spotlight，挺牛X的了。虽然还是吃的transformer的老本（自从出现了transformer，多模态领域就像找到了突破点一样，各种使用transf