不同规则的中文分词对Lucene索引的影响

不同规则的中文分词对Lucene索引的影响<?XML:NAMESPACE PREFIX = O /> 田春峰 在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。 在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。 这里主要对比以下3种中文切分对lucene 索引的影响。 第一种:默认的单字切分; 第二种:二元切
相关文章
相关标签/搜索