挑战和未来

挑战无非三方面: 首先,信息量大,不是简单的词语就能概括视频的内容。 一图胜千言,仅一张图片就包含大量信息,难以用几个词来描述,更何况是短视频这种富媒体形态。 其次,维度多,视频是视觉听觉多模态信息融合载体。 多模态深度语义理解能让机器更深地理解短视频背后的含义,然而也面临着很多挑战,例如图像像素如何与语音波形或声谱图产生相关性。 最后,业内始终缺乏大规模的数据集。 更大、更具挑战性的数据集,必然
相关文章
相关标签/搜索