《VideoBERT: A Joint Model for Video and Language Representation Learning》

论文地址: https://arxiv.org/pdf/1904.01766.pdf 这是一篇将BERT结合video来学习跨模态表示的经典之作。该工作将video中提取出的特征向量通过聚类的方法离散化,继而在文本token的基础上增加视觉token,一起学习视觉和文本信息。 1 方法 1.1 视频文本数据处理(video and language processing) 针对video的处理,首
相关文章
相关标签/搜索