读书笔记2之中文分词流程HanLP

  句子切分: 系统读取带分词的字符串。输入的是一个句子或者一篇文章。如果是篇章则系统会首先进行句子切分,然后调用多线程,对每个切分的句子再进行分词。 导入词典: 根据输入的配置信息,导入相应的词典。 进入粗分阶段:    首先,对句子进行字符级切分,即将输入的句子切分为单个UTF-8编码的字符数组 然后,一元切分。查询核心词典,将字符切分的结果与词典最大匹配,匹配结果,包括词形、词性、词频等信息
相关文章
相关标签/搜索