【Lucene】构建索引

  Lucene索引的过程是什么? step1 收集待索引的原文档 从数据库、web等获取原文档。   step2 将原文档交给分词组件(Tokenizer) 此过程叫做Tokenize,得到的结果称为Token。   会做如下几件事: 1.将文档分成一个个独立的单词 2.去除标点 3.去除停词(stopword)   step3 将得到的Token交给语言处理组件(Linguistic Proc
相关文章
相关标签/搜索