预训练是AI未来所需要的全部吗？

时间 2020-12-30

原文原文链接

2019-12-30 10:16:55 今天，我们生活在一个由大量不同模态内容（文本、图像、视频、音频、传感器数据、3D 等）构建而成的多媒体世界中，这些不同模态的内容在具体事件和应用中具有高度相关性。跨模态任务也越来越多，涉及多个模态的数据的交互，例如图像和视频的检索，字幕，视频摘要，文本到图像和视频的预测与合成，语言驱动的时空动作定位，以及视觉常识推理等等。因此，跨模态学习日益引起了学术界

>>阅读原文<<