coreseek索引的词项的列表

  • --buildstops <outputfile.text> <N> 像创建索引同样扫描索引对应的数据源,产生一个最终会被加入索引的词项的列表。换种说法,产生一个用这个索引能够检索的词项的列表。注意,这个选项使indexer并不真正更新指定的索引,而只是“伪装”建在立索引似地处理一遍数据,包括运行sql_query_pre或者sql_query_post选项指定的查询。outputfile.txt文件最终会包含一个词表,每行一个词,按词频排序,高频在前。参数N指定了列表中最多可出现的词项数目,若是N比索引中所有词项的数目还大,则返回的词项数就是所有词项数。客户端应用程序利用这种字典式的词表来提供“您是要搜索。。。吗?(Did you mean…)”的功能,一般这个选项与下面要讲的--buildfreqs选项一同使用。示例:
    $ indexer myindex --buildstops word_freq.txt 1000
    这条命令在当前目录产生一个word_freq.txt文件,内含myindex这个索引中最经常使用的1000个词,且最经常使用的排在最前面。注意,当指定了多个索引名或使用了--all选项(至关于列出配置文件中的全部索引名)时,这个选项对其中的最后一个索引发做用。
  • --buildfreqs 与 --buildstops一同使用 (若是没有指定 --buildstops 则--buildfreqs也被忽略). 它给--buildstops产生的词表的每项增长一个计数信息,即该词在索引中共出现了多少次,这在创建停用词(stop words,出现特别广泛的词)表时可能有用。在开发“您是要搜索。。。吗?(Did you mean…)”的功能时这个选项也能帮上忙,由于有了它你就能知道一个词比另外一个相近的词出现得更频繁的程度。示例:
    $ indexer myindex --buildstops word_freq.txt 1000 --buildfreqs
    这个命令将产生一个相似于上一条命令的word_freq.txt ,但不一样在于,每一个词的后面都会附加一个数字,指明在指定的索引中这个词出现了多少次。


最后会产生的文档,能够提供更多搜索方面的模糊匹配 sql

相关文章
相关标签/搜索