论文阅读:Neural Machine Translation with Byte-Level Subwords

文章简介: 基于字符,子词,词的机器翻译几乎都是以词频top-k数量建立的词典;但是针对字符相对杂乱的日文和字符较丰富的中文,往往他们的罕见词难以表示; 本文提出采用字节级别的字词BBPE(byte-level BPE),不会出现oov的词;比纯用字节表示更方便,比只用字符表示又效果更好;当BBPE和BPE性能接近时,词典size只是BPE的1/8; 主要方法: 整体思想是,把文本表示生字节级别的
相关文章
相关标签/搜索