Multimodal——Paper笔记:Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web 关键字:BERT、迁移学习、预训练 文章简介 这篇文章中了今年ECCV(2020),还是spotlight,挺牛X的了。虽然还是吃的transformer的老本(自从出现了transformer,多模态领域就像找到了突破点一样,各种使用transf
相关文章
相关标签/搜索