声源分离之人声与伴奏分离(人生艰难啊)

之前做的工作,也是用的这个原理,但效果不太好,主要是场景复杂,并不是简单的人声唱歌,同时伴奏也清晰。 很正常,在伴奏乐器较多的情况下,比如鼓和电声等诸多混音(现在很多,也很正常),这种情况要么有类似的训练数据,要么理论/原理上能解决这种问题。今天又重新整理了一下,感觉还是挺难了,训练了2万次左右吧,主要是训练的数据场景简单,而处理的对象复杂,所以效果不乐观,这也在意料之中。如下示例: 原声立体声,
相关文章
相关标签/搜索