深度对话语音行业专家李秀林:十年坚守初心,加入创业公司

[ 导读 ] 李秀林向亿欧介绍道,标贝科技已经从数据服务型公司升级为语音合成技术整体解决方案的公司,其业务从原本的音频、图像、文本等数据加工处理,拓展至语音合成技术领域。


如果你是网游重度患者,那你一定听过“你好,恭喜走出新手村,尽情享受你的修仙之旅吧”;如果你在驾驶时开启了手机地图导航,那你一定听过“前方路口左转,请驶入辅路”;还有银行排队叫号时“请6666号到第6号窗口办理业务”。我们都知道,这些声音的来源一定不是真人,而是机器。那么冷冰冰的机器是如何发声的呢?这就涉及到“语音合成”技术。

语音合成技术从业趋势,独乐乐不如众乐乐

与语音识别、语义理解这两项技术相比,语音合成似乎稍显低调。为帮助从业者更深入的了解这项技术的就业与创业趋势,亿欧日前采访了一位具有10余年从业经验的语音合成领域老兵——李秀林。

在10余年语音相关技术研发以及学术研究期间,中科院博士李秀林申请了一系列语音技术的相关专利,包括文本处理、韵律预测、声学模型、拼接系统、模型自适应、神经网络、情感合成等多个方面。

对于这位老兵,亿欧最为钦佩的地方并不在于其技术积累与专业能力,而是他不论经历行业高峰还是低谷,都能始终坚持初心。李秀林回忆,自其从业以来,语音合成行业的发展可总结为3个阶段:

第一阶段是在2006年以前,彼时语音合成的主要方法是采用拼接合成技术,用聚类的方法进行数据分类,或者通过决策树去做目标参数的预测,从而选择合适的声学片段进行拼接。

第二阶段是在2006年-2012年间,基于HMM的统计参数模型逐渐成为语音合成技术的热点,也由此产生了一波研究热潮。然而这种方法虽然具有模型小,对硬件要求低的优点,但声音的质量较差。该方法主要应用在硬件能力较差或者网络不稳定的场景,比如导航系统。

到2010年,由于当时整个语音领域无论是在需求端还是技术端均无法取得重大的突破,尤其是语音识别的性能无法达到预期效果,造成了研发经费被削减、人才大量流失的困境,包括语音识别和语音合成在内的整个语音领域陷入了低谷期。此时,担任松下研发中心高级研发经理的李秀林,并没有“随波逐流”到热门的技术领域,而是一直埋头苦干,潜心钻研。

第三阶段从2012年-2013年开始,神经网络技术有了明显的突破,深度学习成为了一个有实用价值的工具,语音领域逐渐复苏,人才不断回归,创业公司如雨后春笋般成长起来。

与此同时,李秀林决定放弃原有的舒适环境,离职松下,加入百度,迎接新的挑战。

任职百度期间,李秀林带领团队先后完成了在线语音合成、离线语音合成系统的研发,使语音合成技术在百度的多条业务线得以应用。随后,李秀林开始专心攻克百度小说频道这一特定场景。由于小说的内容丰富,情感起伏大,朗读时需要更强的表达能力。但当时的情感合成技术还停留在较为初级的阶段,难以实际应用。

针对这种情况,李秀林博士开创了一个完全不同的技术路线,利用基于篇章的、情感更丰富的、更大规模的语音数据(数百小时),通过高精度自动预处理技术对数据进行处理和建模,实现了具有情感表达能力的高质量合成系统。这一突破性研究引起了百度CEO李彦宏及多位高管的注意,他们为此大力赞扬并推广语音合成技术。2016年,这一项目获得了百度最高奖的奖项。

人生总是要不断地攀登高峰,且李秀林认为,百度的产品交互多为“滑屏”式,语音合成业务能够触达的用户并不多。因此,2016年李秀林加入滴滴并任职滴滴研究院语音团队负责人兼首席算法工程师。2018年,李秀林博士辞去滴滴职位加入国内语音合成技术公司标贝科技,任联合创始人兼CTO。谈及原因,李博士表示正好可以同语音合成的发展趋势一并解释。

李秀林介绍说,在滴滴工作可以为导航及智能客服业务服务,但是即便百度与滴滴的用户群体很大,语音合成技术实际上能够触达的用户还是十分有限的。或者说,语音合成技术的真正价值并没有被发挥出来。

语音合成的需求并不仅仅存在于百度滴滴这样的巨头或独角兽身上,很多中小型企业也存在语音方面的需求。但是,这些中小企业虽然有能力开发出非常火爆的应用,却往往难以支撑语音研发所需的巨大投入成本。如何解决呢?

这就需要有一个专门生产声音的公司与之合作,从需求分析到声音采集再到最后完整的语音合成解决方案,全方位地帮助这些中小型企业提升用户体验,同时也能帮助各行各业享受语音合成技术带来的效果红利。李秀林认为,用语音合成技术服务于B端用户,其创造的价值一定远远大于仅服务于某一家公司,也势必是语音合成领域未来的发展趋势。

从数据到整体解决方案,标贝科技业务大跨步

那么,李秀林博士为何选择牵手标贝科技?

可能在很多人眼里,标贝科技还是一家做数据标注的公司。

李秀林向亿欧介绍道,标贝科技已经从数据服务型公司升级为语音合成技术整体解决方案的公司,其业务从原本的音频、图像、文本等数据加工处理,拓展至语音合成技术领域。李秀林之所以看好标贝科技的业务拓展,其原因可分为内与外两个方面。

从内部来看,标贝科技拥有专业标注团队和大量自有数据,其数据加工能力已经达到业内领先水平。基于这一优势,可以开展大量的实验去持续提升合成效果,不断进行创新突破。李秀林认为,想要模拟出优质的声音,数据量与数据加工流程是极其关键的基础,标贝科技由数据标注与加工起家,其原有业务可使语音合成的前期工作更为得心应手。

从外部来看,标贝科技原有的数据服务已经不能满足部分用户的需求。通过这次业务拓展,标贝科技不再只为用户提供数据处理这一前期准备工作,而是包括需求分析、语料设计、语音采集、数据处理、线上服务、效果评估的完整业务链。这不仅代表标贝科技在业务上的前进,也意味着标贝科技能够为用户提供更为完整、更为优质的整套语音合成服务,使更多的产品在专业语音合成技术的加持下体验更优。

技术赋能合作方,标贝科技着力打造“声音超市”

标贝科技做语音合成业务具有一定的先天优势,但是对于新业务的探索仍无法掉以轻心。李秀林博士又为何认为标贝科技能够做好语音合成业务呢?

标贝科技语音合成业务包括音库制作和纯文本标注。音库制作包含多语种的合成音库录制,基于语音文件的音字标注、韵律标注、音节音素标注等内容;纯文本标注包含基于文本进行分词、词性、多音字、韵律、数字符号标注等。为满足以上功能,标贝科技设计了一套专业化的业务流程:


语料设计:前期针对客户需求制定不同的语料设计方案,不同领域采用特定的语料。

语音采集:这一环节的核心是对录音质量的把控。发音人在录音棚长时间录制,一个音节的理解错误都会影响语音质量,这时就需要有专人、全程监督,确保源头语音素材就是高品质。

数据处理:标贝科技通过计算机程序预处理,再交由人工进行完善。数据处理的工作十分复杂,如若全部人工标注,低效且不现实,但是通过程序预标再由人工检测,其工作效率便可以大大提高。

评测:为帮助客户找到影响合成效果的问题点,标贝科技基于对语音合成系统的理解,可以免费为用户提供专业的分析评测报告,从文本处理、韵律层级预测、声学参数和声码器四个方面进行分析,帮助其快速找出问题所在。

在介绍标贝科技语音合成业务时,李秀林向亿欧提到一个新名词——声音超市。即在标贝科技提供的声音平台上,各公司可以自由地挑选声音,并根据调用情况进行缴费。同时,标贝科技还可以为有需求的大型企业提供定制化业务。


在用户方面,标贝科技选择的是教育、泛娱乐以及涉及人机交互业务的B端公司。之所以做这样的选择,李秀林介绍原因如下:语音合成的用户体验会受到整个交互环节的影响,例如在语音识别环节,机器是否能够正确地识别出用户所说?在语义理解环节,机器是否能够准确的分析出用户意图,并匹配出最为优质的答案?标贝科技仅仅能够解决语音合成这一个环节,在机器给出错误回答的条件下,通过声音的安抚,减少用户的不满意程度。也因此,标贝科技会选择受语音识别与语义理解影响较少的环节去开展业务,例如教育领域的故事机,泛娱乐领域的配音等。

李秀林加入标贝科技后,将带领标贝科技语音合成团队致力于做出足够媲美真人的声音。现阶段的重点,是用尽可能少量的数据和语料覆盖到尽可能多的语言现象,即强化学习。

无论语音合成领域处于高峰还是低谷,李秀林始终坚持初心,希望能够生成 “以假乱真”的声音。李秀林对亿欧表示,“声音是日常沟通交流的重要载体,想要让大家在各种场景下都能享受到很好的声音体验,要让声音以假乱真,其苛求度非常高。”

现阶段标贝科技希望用语音合成技术为合作方赋能。标贝科技为B端用户提供优质的语音合成服务,再由此辐射到更为广泛的C端人群,“数据服务技术,技术改变生活”,我们期待标贝科技更为真实的“声音”!

                                                                                                                                                                                    

标贝科技 • 音领智能未来

专注于智能语音交互

提供智能语音整体解决方案和数据服务