《VideoBERT: A Joint Model for Video and Language Representation Learning》

时间 2020-12-30

原文原文链接

论文地址： https://arxiv.org/pdf/1904.01766.pdf 这是一篇将BERT结合video来学习跨模态表示的经典之作。该工作将video中提取出的特征向量通过聚类的方法离散化，继而在文本token的基础上增加视觉token，一起学习视觉和文本信息。 1 方法 1.1 视频文本数据处理（video and language processing）针对video的处理，首