HMM中文分词_CodingPark编程公园

文章介绍 新词识别OVV是中文分词一大难点,为此我们从词语级模型切换到字符级模型,将中文分词任务转换为序列标注问题。 作为新手起步,我们尝试了最简单的序列标注模型----隐马尔可夫模型 HMM中文分词流程 映射 标注集:将标注集{B,M,E,S}映射为连续的整形id 词表:将字符映射为另一套id, 语料转换 我们必须把语料库转换为(x,y)二元组才能训练HMM 训练 HMMTrainer #tra
相关文章
相关标签/搜索