Nutch中文分词总结

时间 2021-08-15

标签 lucene Apache Ant XML 算法栏目 Apache 繁體版

原文原文链接

1 中文分词介绍中文分词是在做检索类系统时需要重点考虑的一个因素。Nutch的本土化过程也需要更改对中文分词的支持。目前，Nutch中文分词方式大致有两种方式：一是修改源代码。这种方式是直接对Nutch分词处理类进行修改，调用已写好的一些分词组件进行分词。二是编写分词插件。这种方式是按照Nutch定义的插件编写规则重新编写或者添加中文分词插件。以上两种方式都是可取的。目前，由于开源社区的活

>>阅读原文<<