基于BERT的多模态应用:图像,视频如何通过BERT处理

基于BERT的多模态应用:图像,视频如何通过BERT处理 本次分享的是结合了预训练的语言模型BERT和视觉方面的结合。分为单流模型和双流模型。单流模型指在训练开始前融合多模态数据,双流模型是先对多模态数据进行独立编码,在进行融合。 文本介绍的1-4模型为单流模型,5-6为双流模型。 1. VideoBERT: A Joint Model for Video and Language Represe
相关文章
相关标签/搜索