对国际化企业来讲语言问题是亟待突破的重要关口。面对海量的文本翻译任务,昂贵低效的人工翻译显然不能知足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键。阿里翻译团队在机器翻译领域作了大量技术储备,并针对咱们所处的电子商务领域进行算法优化,进而打造阿里巴巴本身的机器翻译平台。算法
目前阿里翻译API已经正式上线阿里云平台,让全部的阿里云用户能够申请使用阿里翻译的最新技术成果啦,今天就让咱们一块儿进入机翻黑科技时间-解密阿里翻译。数据库
阿里翻译积极助力集团国际化、全球化业务,不只在电商业务场景有着扎实的积累和优质的服务能力,同时也在不断拓展创新业务场景,借助AI技术赋能产品和服务。后端
目前已为集团内十几条业务线提供机器翻译和本地化支持,覆盖了Alibaba.com 、 AliExpress 、 Lazada 、钉钉、阿里云、优酷、支付宝、菜鸟、天猫精灵、高德、飞猪等众多产品。缓存
1.1跨境电商解决方案网络
阿里机器翻译深刻剖析“网站/APP本地化”、“引流拉新”、“到站搜索”、“用户转化”、“支付物流”、“留存复购”等全链路环节,提供多类的翻译和语言服务,积极提高业务价值。架构
如下是部分链路环节介绍:并发
1.1.1搜索翻译机器学习
跨境电商中目前搜索引擎主要基于英文作索引,须要将本地用户输入的搜索词进行语种识别而后再翻译成英文,经过英文进行索引匹配,返回搜索结果,这是保障多语言流量转化率的关键环节,直接影响多语言电商GMV。异步
除跨语言搜索翻译外,目前阿里翻译在搜索自动化上支持完整的人工解决方案,可以针对电商平台高流量top search query快速提供人工语种识别&翻译结果,干预生效,同时挖掘搜索业务低转化的badcase search query并快速人工修正翻译结果的能力,快速提高转化指标。分布式
1.1.2商品翻译
跨境电商中须要对全站商品信息进行多语言化,包括商品标题、商品详情、商品评论等内容进行翻译。其中商品标题是用户获取商品信息的重要途径,在商品标题翻译场景上,经过对源语言是中文或者英文的标题进行NER识别,并根据不一样业务方的业务规则对识别后的标题根据成分进行从新改写生成,改写后再翻译成目标语种。对商品的购买转换率有很是重要的影响。
商品详情是用户阅读商品信息的主要内容,包括商品属性、商品描述等信息,商品属性是商品的关键信息,机器翻译系统会经过翻译记忆将关键信息进行高质量存储提升翻译准确率,这部份内容可以帮助用户更好的了解商品各类规格材质,有效帮助用户进行购买决策。
因为网站买家来自全球各地,因此用户对商品的评价信息也是来自多国多语言,网站提供选项将多语言评论信息勾选统一翻译成英文的功能,帮助买家更好了解其余买家对商品的评价反馈信息。
1.1.3沟通翻译:
网站买卖家都是来自世界各地,因此对商品的基本信息,售前咨询,售后服务都须要进行基本的语言沟通,这是翻译最基本的应用场景,经过提供实时机器翻译同时可以对翻译结果进行后编辑,提高翻译后译文的质量。能够帮助电商网站大大提高购买转化和售后投诉等等问题。
1.2网站国际化解决方案
阿里翻译目前服务集团内数十个业务方的产品国际化及本地化需求,支持数十种语言的人工精翻,实现网站本地化的标准化、自动化、中台化。
1.3 人机结合翻译解决方案
目前现有机器翻译质量还不完美的前提下,对于一些对质量要求极高的内容经过适当加入人工翻译的力量能够快速达成业务目标,目前阿里翻译拥有上百家语言供应商和数十万我的译者的庞大翻译资源,能够针对重点商品进行高效快速的低成本人工翻译,对快速启动新业务起到了不可或缺的做用。
1.4创新服务场景解决方案
阿里翻译沉淀了优质的跨境语料数据库,充分利用先进的机器翻译算法技术和海量的数据资源,深度打磨机器翻译质量和产品体验,并积极拓展机器翻译业务的产品形态,将各项机器翻译技术产品化,如语音翻译、会场同传、实时沟通等新产品和服务形态。
阿里巴巴实时语音翻译,于18年初随阿里AI军团一同出征美国CES(国际消费电子展),在拉斯维加斯精彩亮相,成功吸引了国内外众多媒体和观众的目光。
在线上快速发展以及随着集团开始全面国际化的背景下,阿里机器翻译平台通过多年的打磨逐渐造成本身的体系。
2.1高性能高并发服务能力
当前在线机器翻译系统提供SMT和NMT两种翻译模型,近两年来因为硬件计算能力的大幅提高和深度机器学习的普遍使用,在翻译质量上NMT翻译质量已经远超传统的SMT模型,不过NMT在计算上的复杂使得NMT在速度上也远慢于SMT。NMT解码速度的提高是系统提供高吞吐,低延迟服务的关键。
2.1.1 分布式并行翻译
当前机翻平台承接的业务至关大的一部分翻译需求为大本文和网页,将这些请求按照对应的格式进行结构化的解析,而后经过分句模型把篇章级的请求分隔为句子级别,而后再分布式批量调用解码服务,这样不只能大幅提升分布式缓存的命中率,环节性能压力同时也能大幅下降长文本的翻译延迟。
2.1.2 Inference优化
今年NMT已经成了翻译行业的一个标配,随着这种技术的普及也给系统性能带来了新的挑战。这一年多基于GPU的NMT优化极大的提升了系统的解码速度,对系统的解码速度有数倍的提高。
2.1.3 SMT和NMT混合解码
根据实际业务场景,咱们发如今处理商品页的时候会出现大量短句,并且这些短句的NMT翻译结果还不如SMT的翻译结果,因此在调用decoder前经过一个策略模块来决策调用SMT或者NMT,从而减小NMT的吞吐量,极大的减小了GPU资源的消耗同时也提高了翻译质量。
2.2 服务全球化以及高可用的保障
2.2.1 全球多机房部署
阿里集团的涉及到的多语言翻译业务需求遍及全球,为了更好的支持不一样地域的翻译需求同时能尽可能减少因为地域带来的访问延迟,翻译平台实现了全球中国、俄罗斯、美国、新加坡多机房部署。 不只实现了单地域的多机房容灾同时还支持跨地域全球容灾。
2.2.2 多场景差别化支持
阿里翻译接入的场景比较多状况也比较复杂,不一样的应用场景对系统的要求也不尽相同,因此针对不一样的应用场景实现了同步和异步两套处理机制,架构上实现两种不一样的对外接口,可是机翻引擎保持同一套代码同一套服务,
同步:
接收到请求后实时的调用后端引擎,可以作到实时返回,用于对rt要求高的场景,另外经过多级缓存进一步的提升吞吐量和下降rt。
异步:
大文本商品翻译和离线翻译场景。经过metaq消息队列实现异步化,经过不一样的消息队列来对应用设置不一样的优先级,使用信号量来控制不一样队列消费的线程数,动态的解决翻译热点时消息堆积问题。
2.3 Transformer 新型神经网络结构
阿里机器翻译基于业界最新的Transformer结构进行了网络结构的改进和对词语位置信息的充分利用,全面改进了机器翻译的性能。
2.4 多模态服务能力
现阶段的机器翻译已不只仅局限于文字到文字的翻译, 多模态的翻译已成为发展趋势。将多模态的信息如语音、图像、类目等经过神经网络进行融合,并利用Attention机制将信息加以聚焦,能够得到良好的效果。阿里翻译实时语音翻译demo在云栖大会、CES展会上都有亮眼的表现。
介绍了技术能力和如此广阔的应用场景,接下来详细介绍下咱们到底应该如何接入使用?
一、打开阿里云主页(https://www.aliyun.com),在导航栏选择产品-人工智能-机器翻译,进入天然语言处理页面选择开通服务
二、勾选阅读并赞成协议,单击当即开通
三、进入天然语言处理控制台,选择购买资源包
四、购买对应的资源包,购买量越大单价越便宜。
五、购买完成后就能够进行调用了。可在API调试界面进行调试
六、机器翻译调用说明文档
七、代码调用示例
八、代码调用失败示例,查看错误信息
为了更好地迎接国际化带来的挑战, 阿里翻译团队在将来还有着很大的想象空间,在翻译模型上会向“统一化,多任务化,多模态化”方向发展,产品形态上除了目前基于文本的翻译外,会扩展跟多模态的翻译产品,例如语音翻译、图像翻译等领域,同时仍是针对具体应用场景例如搜索、实时沟通、旅游推出相关接口服务,在服务部署上也会针对客户需求推出定制化私有化部署的能力,助力企业解决国际化过程当中的语言问题。
了解更多阿里云AI产品请戳:http://click.aliyun.com/m/100...
本文做者:云攻略小攻
本文为云栖社区原创内容,未经容许不得转载。