语音领域的「ImageNet时刻」为何迟迟不来?

目前在计算机视觉领域已经有了一个普遍认识,那就是 ImageNet 预训练对于下游任务的有效性,来自 silero.ai 的俄国数据科学家 Alexander Veysov 将这一现状称为实现了「ImageNet 时刻」。那么它在语音领域是否存在呢?在本文中 Alexander Veysov 给出了否定的回答,并讨论了目前语音领域业界和学界存在的弊病,解释了为何迟迟未能实现「ImageNet 时刻
相关文章
相关标签/搜索