CVPR 2020 | ActBERT: 自监督多模态视频文字学习

  自监督特征学习近年来已有如火如荼的发展,并从单模态的自监督学习,如图片自监督特征学习,视频自监督特征学习,蔓延到多模态,利用图片与文字或者视频与文字的关联性进行特征学习。  利用图片与文字关联性进行自监督学习已有非常多优秀的工作,如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。这类工作的数据源一般是 Conceptua
相关文章
相关标签/搜索