作者基于CPC的自监督预训练方法提出了改进版本,解决了原CPC配置中encoder通过batch normalization 泄露信息的问题,并用一层Transformer layer 提升了phoneme 的表征能力。最终得出的主要结论是:通过改进版cpc学习到的表征可以跨语音使用,并能够取得甚至超过有监督预训练的效果。
实验配置:将编码后的特征经过线性分类器做音素分类。
评判标准:ABX score 通过估计不同语音片段彼此接近的概率来衡量不同音素之间的可分性。
文章总结: 通过改进版CPC编码的向量可在跨语言的数据集上均取得不错的效果,解决了一些小语种训练数据少的问题。