泡沫下的破浪者,智能语音产品到底落地何处?

前言:

现在的科技在各个方面的发展都很是的迅速,愈来愈多“不切实际”的幻想也在被实现!而做为现代人信息获取以及沟通需求最为方便快捷的路径-智能语音,这条路就摆在咱们面前。微信

演讲嘉宾:
盛京,阿里云达摩院-机器智能技术专家学习

达摩院语音组成立于2014年,具备语音识别、语音合成、声纹识别、天然语言处理、语音交互等等的能力。优化

如下内容根据演讲嘉宾视频分享以及PPT整理而成。阿里云

本次主要内容分为四部分:
一.公共云方案
二.智能语音本地化部署方案
三.智能互动大屏
四.语音自学习平台spa

1、公共云方案

在公共云方面,服务于集团34个BU,107个业务,包括手淘、支付宝、菜鸟、钉钉、口碑、高德、UC、优酷土豆、天猫精灵等;除了内部外,还有映客直播、一号互联等用户。3d

从2014年手淘上线后,咱们的语音识别覆盖了各类各样的场景。这里面有单纯的手机APP,也有车载,包括18年的时候,包括地铁经过语音购票、甚至最新款的汽车。cdn

给你们具体介绍下,服务于客服方面,咱们是如何利用智能语音能力的?视频

 

在智能客户领域,咱们两个最典型的的案例就是支付宝95188和菜鸟的1518。
支付宝是一个呼入的场景,他是一个电话的、智能的客服。你们若是有打过支付宝电话的必定知道,打完以后,电话另外一方会说“请用一句话来描述您的问题”。这时候您能够说:“个人密码忘了”,这时候会有机器人和你对话,告诉你具体的方法。这个就是支付宝电话客服的应用场景。blog

 

那么呼出场景,就是菜鸟的智能语音助手,去年双11的时候,我本人就接到过菜鸟打来的电话,他会说:先生,您的某某快递放在小区的蜂站了。若是您说能够,他会礼貌的挂机;若是您说不能够的,他会问你:先生,您何时在家,我会把快递给您送过去等等。图片

这两个应用都节省了大量的人力,在双11时,支付宝智能客服自主率达到了97%;菜鸟机器人替200W快递员打电话。在过去11快递员工做主要就是打电话,如今经过菜鸟助手,就能解决绝大多数问题。

2、智能语音本地化部署方案

除了刚刚介绍的公共云的状况,咱们在本地化部署上也有不少应用的场景。
咱们提供的主要是一套软件,有能力的开发公司能够把咱们语音的能力集成到大家的产品中,这样咱们能够共同深刻打造各行各业各个场景下的解决方案。
咱们提供的能力包括 语音识别、语音合成、MRCP、防串音、最重要的还有语音自学习平台。

咱们最主要的是聚焦于语音的核心能力,紧靠行业伙伴,咱们是一块儿打造产品的。
咱们和友商的区别主要是:友商作语音产品都是端对端的,全部东西都是本身作;而咱们只作最核心的,语音识别或者语音合成。而后把能力开放出来,让合做伙伴基于这样的能力来作各类各样的应用。

 

咱们本地化部署方案的标杆是有:智慧法院的一个解决方案,目前咱们深度合做了法院领域头部的ISV,包括了华宇、云嘉等等。

咱们标杆案例有浙江高院、福建高院等等,覆盖了300家法院,有超过1万家法庭应用了咱们语音识别。

 

这是咱们在法院的一些场景,所作的一些事情。同时全国的几大互联网法院,包括第一家杭州互联网法院,北京、广州互联网法院,用的都是咱们的语音识别。

 

在智能客服领域,咱们联合阿里小蜜,和ISV为中国移动、中国平安作了智能电话机器人、外呼以及金牌话术。

金牌话术仍是要再提一下,在客服领域,不一样人的交流沟通能力也不同的,反馈到结果上就是有的人业绩比较好,有的人差一些。咱们金牌话术要作的就是:基于客服和客户的聊天,来把沟通弄技巧挖掘出来。每当你和客户交流的时候,就会提示你应该怎么说,应该作什么样的引导。

3、智能互动大屏

除了刚才介绍的客服和司法,咱们还有达摩院全球独创多模态语音交互方案,可以实如今强噪音环境下的免唤醒人机交互。
好比说在公共空间,地铁购票、肯德基点餐,都可以经过咱们这套解决方案实现人机交互,咱们这个产品的优点,就是强噪音语音环境下的语音识别、同时免唤醒、以及长句子的流失理解。
这套语音交互产品模式就是:咱们提供软硬件一体的套件,再加上定制的外壳,咱们有一个官方标准的,合做伙伴也能够根据各类需求来定制,以后咱们就能够对接到客户的系统里面。
这时候就能有各行各业的应用,好比对接客户的支付系统。图书管理系统、导航系统。

 

这套方案的标杆案例就是:上海地铁语音售票机。
• 2018年3月已正式落地上海南站和汉中路地铁站
• 全球第一台地铁语音售票机
• 在地铁真实嘈杂环境下语音识别准确率超过96%

上海地铁语音售票机介绍视频点击播放

4、语音自学习平台

最后咱们来介绍下—语音自学习平台
之因此提供语音自学习平台,是由于咱们在与客户接触中,听到客户不少对语音识别的建议。首先语音识别是一个非标输出的软件,部署到客户现场的时候,可能因为麦克风、口音等等,致使识别率很差;或者领域不匹配,好比客户有一些专业的用语,咱们本身的模型可能覆盖不到。

 

因此我咱们提供了语音自学习平台。独特优点主要在于:能够经过自助来添加语料的方式来进行优化,能够输入词、句子、篇章,具有分钟级的训练速度,并且操做很简单,能够一键式完成。
语音自学习平台主要包括三部分:

 

泛热词
北京女子图片→北京女子图鉴

类热词(人名、地名等)
原告以不该选公司→原告与布衣轩公司
咱们能够看到,若是你不作任何的优化,很容易出现各类混淆错误。

定制化语言模型
提供的是整个的篇章,好比说有些公司有内部的材料,好比说客服行业,咱们可能有一些产品介绍、文档之类的,都是长篇的文本,咱们就能够定制化语言模型来优化。

 

以上就是咱们今天讲的主要内容,你们若是有兴趣能够持续关注咱们!

下面是咱们的QA环节:

1. 语音产品收费
公有云都是支持免费试用的,按照文档一步步操做,就能够建立本身的语音识别程序。
点击试用
2. 咱们语音有哪些类型?
a) 实时语音识别:实时反馈结果
b) 一句话识别:应用在搜索的场景下
c) 录音文件转写:相较于实时语音识别,速度很快

3.教育行业有哪些语音场景?
在过去,咱们没法落实每堂课的知识点,若是有了智能语音,咱们能够把老师讲的内容所有转成文字,再经过必定的质检规则来判断老师是否作到位了;同时相似于儿童学英语行业,口语评测之类的也会有一些需求。

相关连接:

PPT地址:敬请期待
产品地址:https://ai.aliyun.com/nls
上海云栖大会主论坛孙权现场直播连线上海南站
点击观看语音点餐机介绍视频
点击观看真机演示视频

 

原文连接 更多技术干货 请关注阿里云云栖社区微信号 :yunqiinsight

相关文章
相关标签/搜索