【cs224n-10】Information from parts of words (Subword Models)

    在之前我们处理机器翻译等任务时,我们通常使用基于word单词作为基本单位进行模型的训练;但基于word单词的缺点是不能很好地处理单词不在词库中的情况,即out-of-vocabulary;并且对词法(morphology)的修饰处理也不是很好。因此我们很自然地可以想到可以使用更基础的组成来建立模型,比如英文中的字母,中文中的字。下文主要讲述4种典型方式。 一. Character-Leve
相关文章
相关标签/搜索