Subword三大算法

Subword三大算法 一、 概述 SubWord算法如今已成为一个重要的NLP模型的提升算法。其主要优势如下: 传统词表示方法无法很好地处理未知和罕见词汇 传统的tokenization不利于模型学习词缀之间的关系 Character embedding作为OOV的解决方案粒度太细 Subword粒度在词与字符之间,能很好地平衡OOV问题 二、 BPE 优缺点 优点:可以有效平衡词汇表大小和步数
相关文章
相关标签/搜索