语音识别

语音识别

  声明:本文章只用于个人总结,视频链接为https://www.bilibili.com/video/BV1nE411K7Tm?p=2

  语音辨识,我们需要一个模型,他的输入是声音讯号,输出是语音转换出来的文字,其构造如下图所示。

在这里插入图片描述

  

  其中对于speech和text有如下规定:

  Speech : a sequence of vector(length T,dimension d)

  Text: a sequnence of token(length N,V different tokens)

  对于输入的声音,会被表示成一串输出的vector,其长度为T,维度为d。对于输出的文字,会被表示成一串token,其长度是N,其中有V种不同的tokens。一般来说T>N。

1 Token

  其中token有Phoneme(a unit of sound)、Grapheme(smallest of a writing system)、wordMorpheme(the smallest meaningful unit)、Byte等。

1.1 Phoneme(a unit of sound)

  早些时候Phoneme用的很多,但其有很多缺点,Lexicon不能凭空冒出来,需要做大量的人工积累;对于不同的语言可能有不同的Phoneme结果,但很难一一对应。

  举个例子对于一个句子其对应的输出可能是

在这里插入图片描述

  根据对应的Lexicon(word to phonemes),可以有如上的辨识结果。

在这里插入图片描述

1.2 Grapheme(smallest of a writing system)

  在英文里面所谓书写的基本单位是26个英文字母,但在做语音辨识的时候,光是把所有的英文字母当做token是不够的,还需要加入一个空白符号作为分隔。

  假如有如下识别结果

在这里插入图片描述

  这表示有13个字符输出(包括空格),其中种类肯定是超过26种,因为除了26个字母以外,token还需要空白等符号。

  但此种方法不需要用到Lexicon,相比Phoneme省去了一些麻烦。

1.3 Word

在这里插入图片描述

  用词汇来做语音辨识输出结果的基本单位可能不太好,因为对于某些语言的V会特别大。

1.4 Morpheme(the smallest meaningful unit)

  Morpheme是语言可以传达意思的最小单位(< word > grapheme)。

  比如 unbreakable→"un" “break” “able”。

1.5 使用情况

  下图是19年超过100篇论文中使用到不同的token的统计结果。可以看到使用较多的是graphemephoneme

在这里插入图片描述

1.6 其他理想token

在这里插入图片描述

2 Speech

  对于Acoustic Feature,在前面说过用一系列向量表示。

在这里插入图片描述

  对于一个声音讯号中,向量在如下图中表示。可以看到25ms表示成一个向量,相邻向量之间有重叠部分。

在这里插入图片描述

3 语音识别的观点

在这里插入图片描述

  Seq-to-seq 是其中一个观点,如上图所示。

在这里插入图片描述

  HMM 是其中另一个观点,如上图所示。

  根据不同的观点,现提出如下五个模型:

  • Listen,Attend,and Spell (LAS)
  • Connectionist Temporal Classification (CTC)
  • RNN Transducer (RNN-T)
  • Neural Transducer
  • Monotonic Chunkwise Attention (MoChA)

  关于各个模型的细节将在之后的学习总结中写出。