Subword模型

之前的Neural Machine Translation基本上都是基于word单词作为基本单位的,但是其缺点是不能很好的解决out-of-vocabulary(OOV即单词不在词汇库里)的情况,且对于单词的一些词法上的修饰(morphology)处理的也不是很好。中文是不带空格分隔的。一个自然的想法就是能够利用比word更基本的组成来建立模型,以更好的解决这些问题。 OOV(未登录词) 网络流行
相关文章
相关标签/搜索