自制基于HMM的中文分词器

不像英文那样单词之间有空格做为自然的分界线, 中文词语之间没有明显界限。必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤便是所谓的中文分词。python 主流中文分词方法包括基于规则的分词,基于大规模语料库的统计学习方法以及在实践中应用最多的规则与统计综合方法。算法 隐马尔科夫模型(HMM)是中文分词中一类经常使用的统计模型, 本文将使用该模型构造分词器。关于HMM模型的介绍
相关文章
相关标签/搜索