全文搜索引擎的工做原理理论上很简单,关键技术就是“分词”,算法
文本数据:Lucene.Net只能对文本信息进行检索,因此非文本信息要么转换成为文本信息,要么你就死了这条心吧!数据库
分词算法:将一句完整的话分解成若干词汇的算法 常见的一元分词(Lucene.Net内置就是一元分词,效率高,契合度低),二元分词,基于词库的分词算法(契合度高,效率低)...搜索引擎
切词:将一句完整的话,按分词算法切成若干词语spa
好比:"不是全部痞子都叫一毛" 这句话,若是根据一元分词算法则被切成: 不 是 所 有 痞 子 都 叫 一 毛 blog
若是二元分词算法则切成: 不是 是所 全部 有痞 痞子 子都 都叫 叫一 一毛索引
若是基于词库的算法有可能:不是 全部 痞子 都叫 一毛 具体看词库文档
索引库:就是存储索引数据的库,简单的理解成一个提供了全文检索功能的数据库(把须要全文检索的数据存入索引库),见下图所示:效率