ML - 语音 - 语音合成

语音合成

语音合成,又称文语转换(Text-To-Speech)技术,能将任意文字信息转化为相应语音朗读出来。
语音合成设计声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术。
为了合成高质量的预研,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还需要对文字的内容有很好的理解,这也涉及到自然语言理解的问题。

语音合成应用场景

服务机器人、客服系统、智慧家具、出行导航、阅读软件

语音合成系统

语音合成系统的完整整过程是将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。其中:
(1)语音学处理,分词、字音转换等,以及一整套有效的韵律控制规则。
(2)语音合成技术,能按要求实时合成出高质量的语音流。

语音合成处理流程

在这里插入图片描述

文本分析

语音识别中的文本分析主要的工作是把文本数据转换成语音内部表示(Phonemic Internal Representation)。具体内容包括:
文本归一化:对形形色色的自然文本数据进行预处理或者归一化,包括句子的词例还原,非标准词,同形异义词排歧等
语音分析:文本归一化之后的下一步就是语音分析。方法包括发音词典,字位-音位转换规则。
韵律分析:分析文本中的平仄格式和押韵规则,包括:韵律的结构,韵律的突显度,音调。

语音合成方法

在语音合成技术的发展过程中,早期的研究主要是采用参数合成的方法,而后随着计算机技术的发展又出现了波形拼接的合成方法。

参数合成

Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只要精心调整参数,它们可以合成非常自然的语音。但是准确提取共振峰参数比较困难。

波形拼接

基音同步叠加(PSOLA)方法,使基于时域波形凭借方法合成的语音在音色和自然度上有了大大提高。自然度比LPC方法或共振峰合成器的自然度要高,并且基于PSOLA方法的合成器结构简单,易于实时实现。