语音交互事关将来,国内外已经很多公司在抢蛋糕了,大公司收购、投资、合做不断,就可见一斑。目前,基本上全部的巨头都有涉足。算法
2014 年 7 月,有消息称,苹果正在联系多位语音识别技术的专家,正在招聘经理、小组负责人、研究员,极可能将成立一支强大的语音识别团队,并最终取代如今的 Siri 技术服务商 Nuance。过去几年中,苹果招聘了多名此前供职于 Nuance 的的高层次语音技术研究员,包括前研究副总裁拉里·吉利克 (Larry Gillick)、Siri 的项目经理贡纳尔·艾弗曼(Gunnar Evermann)、微软语音识别项目高管亚历克斯·阿赛洛(Alex Acero)。浏览器
在 2013 年,苹果收购了自动语音识别公司 Novauris Technologies。Novauris 是英国研究机构 Dragon Systems 旗下的附属公司,以语音听写识别著称,成立于 2012 年。固然,怎么能忘了最著名的那笔收购呢,2010 年 4 月,以 1.5~2.5 亿美圆收购了 Siri。网络
Google 在 2014 年收购了 SR Tech Group 的多项语音识别相关的专利,其中包括“ 搜索引擎语音界面” 和“ 修改、更新语音识别项目系统”的专利。app
Google 一直致力于投资语音搜索技术,以期与苹果公司的 Siri 展开竞争。2011 年,Google收购语音通讯技术公司SayNow 和语音合成技术 Phonetic Arts。 其中,SayNow 建立于 2005 年,能够把语音通讯、点对点对话、以及群组通话和 社交应用整合在一块儿,支持的设备包括 PC 浏览器、智能手机乃至座机。被收购时,有 1500 万用户,旗下产品包括 SayNow Phone,SayNow 广播,Big Call 以及 Chit Chat 等。机器学习
语音交互解决方案服务商 Wit.ai 要作的就是重写互联网的语音层,简单地在第三方 App 中加入几行代码来为它生成一个语音交互界面,就能把语言转化成能够操做的数据。正如移动支付公司 Stripe 经过几行代码就为网站解决了线上支付问题同样。Wit.ai 称,它比 Siri 更灵敏精确,不须要开发者先期投资,或训练数据集,并且能够应用在移动应用程序 (iOS、Android 等平台)、穿戴设备和机器人以及几乎任何你能够想到的智能设备。被收购时,Wit.ai 成立才 18 个月,吸引了 6000 多名开发者,建立的应用超过了数百个。这次收购有助于提升 Facebook 总体对天然语言的理解能力。学习
除了 Wit.ai,Facebook 还在 2013 年收购了语音识别公司 Mobile Technologies。MT 建立于 2001 年,在 2009 年推出了 Jibbigo 应用,容许用户在 25 种语言中进行选择,使用一种语言进行语音片断录制或文本输入,而后将翻译显示在屏幕上,根据你选择的语言大声读出来。网站
2011 年,Amazon收购语音识别公司Yap。Yap 成立于 2006 年,主要提供语音转文本服务,表明应用是 Yap 语音邮件。利用 Yap 的技术亚马逊创建本身的语音技术平台,服务于亚马逊的网上搜索和客户服务等领域。搜索引擎
2012 年,Amazon 收购语音技术公司 Evi。Evi 是一家应该创业公司,原名 True Knowledge,在得到了 Nuance 语音识别技术的受权后,基于自主的天然语言搜索引擎开发了一款与苹果 Siri 相似的应用。人工智能
2013 年,Amazon 收购语音技术公司 Ivona Software。Ivona 是一家波兰公司,是 Nuance 的竞争对手,主要作文本语音转换,被收购时支持 17 种语言 44 种声音。翻译
2013 年,英特尔收购了语音识别技术公司 Indisys。这是一家西班牙公司,但自称一直在作多语音。在计算语言学、人工智能、认知科学和机器学习领域有研究,很多西班牙公司都采购了他们家的技术。此外,他们还开发了与苹果 Siri 类似的助手界面。
关于三星和 Nuance 的绯闻已经传了段时间。Nuance 的语音识别技术在智能手机、电视和 GPS 导航设备上都有普遍应用,好比苹果的 Siri 就是用的它的技术;其余一些企业级市场也有须要用到语音识别的地方,好比医院里的电子病历业务,医生直接口述就能生成电子病历。2013 年 9 月份时,Nuance 还同三星达成合做。
2013 年 12 月,雅虎收购了天然语言处理技术初创公司 SkyPhrase。Gmail 和 Twitter 的相关技术支持就是 SkyPhrase 提供的,容许用户跟机器说“人话”获得个性化的搜索结果。好比“NANA 发的带图微博”,或者“Jane 发给个人包含照片的电子邮件”——这样复杂的信息 Siri 是理解不动的。SkyPhrase 还开发了两款应用,其中一款能让用户查看梦幻足球的比分统计数据,另外一款应用与 Google Analytics 整合发挥做用。
为了推雅虎语音助手,雅虎还找到了合做伙伴Robin Labs,后者主要作天然语言识别和导航。除开发本身的私人助手的导航应用外,如今它还为客户提供语音助手白标产品的开发。”也就是说,理论上讲,每一个应用均可以添加一个特定的语音助手模块。既然雅虎语音助手实际上是 Robin Labs 开发的,那它会被收购么?
其实,除了这些大公司和被他们收购的小公司,还有几家初创公司作的也挺有意思。好比,下面这两家。
Beyond Verbal 是一家以色列公司,成立于 2012 年,在情绪识别领域一直领先。Beyond Verbal 系统建立的算法能够经过识别音域变化,从而分析出像愤怒、焦虑、幸福或知足等情绪,心情、态度的细微差异也能被识别到。Beyond Verbal 的情绪识别系统能够分析出 11 个类别, 400 个复杂情绪的变量。
2013 年 1 月,他们开发的情绪识别 app moodies 在 iOS 平台发布;2014 年 8 月,他们开发了 moodies 的安卓版。2013 年 5 月,得到了 280 万美圆融资;2013 年 7 月,又得到了 100 万追加融资。2014 年 9 月,又追加了 330 万美圆种子融资。
在 2014 年耶路撒冷召开的 TEDMEDLive 上,就引入了 Beyond Verbal 的技术来对全部与会人员的情绪进行分析,进而总结整个会议的总体反馈状况。
英国的初创企业 EI Technologies 也是一家作语音情绪识别的公司,能够分析人声的音调,监控用户的情绪。以前从孵化器 Wayra London 和英国政府的 Technology Strategy Board 拿到了 15 万英镑的种子期融资。
目前系统可识别 5 种基本情绪:高兴、悲伤、惧怕、愤怒及无感情。识别的准确率约为 70-80% 左右,这个数字要高于人类 60% 的平均水平。而受过训练的心理学家的判断准确率约为 70%,从这些数据来看,EI 的算法准确率已经很是可观。其将来目标是进一步提升到 80-90%。
经过识别并恰当响应语言内容和情绪来加强天然语言处理算法彷佛是人工智能系统的下一步发展方向。《银翼杀手》里面的复制人的致命缺陷正是缺少“移情(empathy)”能力。如今这三家公司的技术正帮助机器朝着具有“移情”能力迈出一小步—首先学会感觉人类的情绪。不过这也是个庞大又复杂的工程。