TTS语音合成

 什么是TTS?

Text To Speech ,语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。

做个比较,当机器的“脑子”里想到了一段内容时,或者是看到了一段话时,知道哪些字应该怎么读:

  1. 拆解文字,得到音素的时长、频率变化,就和我们有时拆解文字的偏旁、前后缀来获得文字发音一样
  2. 知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来知道哪些字的组合会是一个词,将这段内容按照人类容易理解的方式说出来
  3. 在说出来的过程中还会结合这个人的说话习惯、发音特色、口音特点等,得到一段人类特性明显的语音。(Google 已经做出了很想人类的机器声音

和人类学说话一样,机器也需要通过大量的语音片段作为“听力材料”,才能学会发音技巧。以及还得学会一些语言规则,比如语法和韵律,才能像人类一样,说话语气、语境,能表达出字面之外的表意。不然,机器只会说出生硬、没有情感、不连贯的话(就像一些动漫或游戏作品中机器人角色的对话)。

音合成技术目前主要应用在读书软件、导航软件、对话问答系统等中。

 

常见的第三方平台

百度AI,科大讯飞...

http://ai.baidu.com/tech/speech/tts?track=cp:ainsem|pf:pc|pp:chanpin-yuyin|pu:yuyin-yuyinhecheng-pinpai|ci:|kw:10003538

https://www.baidu.com/link?url=IyCma66rgrZjER-paAgrHkAvRq5Xw39vtlPxqfX_ZOu&wd=&eqid=8cde5ae1003cfe86000000035cede6be

 

百度百科版本

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

https://baike.baidu.com/item/%E8%AF%AD%E9%9F%B3%E5%90%88%E6%88%90

维基百科版本

语音合成是人类语音的人工生成。用于此目的的计算机系统称为语音计算机或语音合成器,并且可以用软件或硬件产品实现。甲文本到语音(TTS)系统转换正常语言文本转换成语音; 其他系统呈现符号语言表征,如将语音转录为发音。

 https://en.wikipedia.org/wiki/Speech_synthesis

 

                                         


 

 

                                                                                                                             by .k

 

关注"编程v",每一天涨一点

STAY HUNGRY & STAY FOOLISH