[短]粗读CVPR2019论文 Deep Multimodal Clustering for Unsupervised Audiovisual Learning

时间 2020-12-24

标签机器学习繁體版

原文原文链接

声明：本文为个人观点，如有不同意见，希望评论区指出，共同进步。文章核心思想：作者首先给了一个问题，简单概括就是一段话。给你一个图像和一个音频，你要怎么把无声图像中的对象和对应音频中发出的声音给匹配起来，在一个音频中，声音往往是多个声源共同发出的，如何才能把声源中的K个发声源和图像中的K个发声源头给他组合到一起呢？就比如一个视频，一直一个画面，有鸡有鸭，但没有声音，这时候，给你一个音频，有鸡叫

>>阅读原文<<