CTC原理

不搞语音识别得人开这个论文确实有点费劲,结合上图,思考一下语音识别的场景,输入是一段录音,输出是识别的音素, 输入的语音文件的长度和输出的音素个数之间没有一一对应关系,通常将语音文件「分片」之后,会出现多对一的关系。这个场景在「翻译问题」和「OCR问题」中也普遍存在。 本文的特点是,提出来一种end-to-end的方法,直接将语音转问音素。不需要添加规则/后处理等过程。 文章目录 [展开] 几个定
相关文章
相关标签/搜索