挑战和未来

时间 2021-01-12

原文原文链接

挑战无非三方面：首先，信息量大，不是简单的词语就能概括视频的内容。一图胜千言，仅一张图片就包含大量信息，难以用几个词来描述，更何况是短视频这种富媒体形态。其次，维度多，视频是视觉听觉多模态信息融合载体。多模态深度语义理解能让机器更深地理解短视频背后的含义，然而也面临着很多挑战，例如图像像素如何与语音波形或声谱图产生相关性。最后，业内始终缺乏大规模的数据集。更大、更具挑战性的数据集，必然

>>阅读原文<<