[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

声明:本文为个人观点,如有不同意见,希望评论区指出,共同进步。 文章核心思想: 作者首先给了一个问题,简单概括就是一段话。 给你一个图像和一个音频,你要怎么把无声图像中的对象和对应音频中发出的声音给匹配起来,在一个音频中,声音往往是多个声源共同发出的,如何才能把声源中的K个发声源和图像中的K个发声源头给他组合到一起呢?就比如一个视频,一直一个画面,有鸡有鸭,但没有声音,这时候,给你一个音频,有鸡叫
相关文章
相关标签/搜索