CTC理解

原文:https://distill.pub/2017/ctc/ 考虑语音识别。我们有一个音频剪辑和相应转录本的数据集。不幸的是,我们不知道文本中的字符如何与音频对齐。这使得训练语音识别器比乍看起来要困难。没有这种对齐,我们就无法使用简单的方法。我们可以设计一个规则,比如一个字符对应十个输入。但是人们的语速不同,所以这类规则总是可以打破的。另一种选择是手动对齐每个字符在音频中的位置。从建模的角度来
相关文章
相关标签/搜索