TOP100summit 2017：亚马逊Echo音箱可以语音识人，华人工程师揭秘设计原理

时间 2020-01-01

标签 top100summit summit 亚马逊 echo 音箱可以语音华人工程师揭秘设计原理繁體版

原文原文链接

2017年，人工智能的消费产品落地聚焦在了智能音箱上，谷歌、亚马逊纷纷推出智能音箱产品，国内的阿里巴巴推出天猫精灵，小米推出小米AI音箱。智能音箱经过语音能够发出指令，将来可能成为智能家居的入口，经过语音控制家里的其余智能设备。算法

几个月前谷歌的语音识别应用推出支持个性化语音识别功能，而本周三，也就是10月11日，亚马逊的Echo音箱也具有了这项功能。segmentfault

当不一样的人对着音箱说话时，能够自动识别身份，提供好比我的专属的音乐播放列表、个性化购物等功能。总之，能够经过声音来识别人，让语音控制更进一步。机器学习

亚马逊Echo音箱背后是亚马逊的Alexa智能语音技术，陈亚是一位华人工程师，是亚马逊Alexa机器学习团队的资深工程师，负责语音识别、语义理解模型的搭建及优化。关于Alexa的技术内涵壹佰案例特地与陈亚进行了交流。分布式

语音识人的技术原理工具

若是在不少人的空间里，让Alexa知道是谁在说话，使用的是铆钉语音检测的思路，开始经过Alexa来唤醒系统，使用一个RNN从中提取锚定嵌入，记录语音特征，接下来用另外一个RNN从后续的请求语句中提取语音特征，基于此获得一个端点决策。学习

陈亚介绍，Alexa是首个经过语音指令驱动的AI语音助理软件，只须要呼叫“Aleca”，就能够对已经链接数百个应用的Alexa下达工做指令，好比播放音乐、查找资料、启动其余智能设备或者购物等。优化

如今Alexa并不仅是一个语音识别工具，已经变成了一个很成熟的操做系统，将来有可能取消传统的手机屏幕，经过语音就能够进行操做。人工智能

Alexa的深度学习技术原理spa

Alexa的开发进行了大规模的深度学习，一我的成长到16岁耳朵听声音的时间大概只有14016小时，而Alexa的深度学习是将几千个小时的真实语音训练数据存储到S3中，使用EC2云上的分布式GPU集群来训练深度学习模型。操作系统

在训练模型方面，Alexa使用几个逼近算法减小更新规模，随着GPU线程的增长，训练速度也会加快，每一秒能够处理大约90分钟的语音。人耳16年能够听1.4万个小时的语音，而Alexa使用3小时就能够完成。

Alexa的语音识别系统主要包括信号处理、声学模型、解码器以及后处理等4大模块，首先将收集的声音进行信号处理，再将语音信号转化到频域，从10毫秒的语音中提取特征向量提供给声学模型，声学模型负责把音频分红不一样的音素，解码器能够得出几率最高的一串词串，通过后处理把单词组合成容易读取的文本。

Alexa与其余语音识别应用的优点

陈亚介绍到，Alexa之因此可以占据终端市场70%的市场份额，是由于亚马逊客户至上的文化信仰。Alexa可以取得成功，是由于从产品设计到开发管理模式等方面都坚持客户至上的原则，进行用户体验革新，下降智能家居门槛，创建Alexa生态。

即将在11月9日开幕的第六届TOP100全球软件案例研究峰会上，陈亚将以分享嘉宾的身份出席，从产品设计的角度分享亚马逊用户至上理念引导的产品设计思路，以及亚马逊对人工智能和机器学习的探索经验。点击进入TOP100官网查看会议信息。