搜索引擎基础知识

1.倒排索引算法

    又称反向索引。它将文档中的词作为关键字,创建词与文档的映射关系。能够经过对倒排索引的检索,能够快速获取包含这个词的文档列表。这对任何搜索引擎来讲都是相当重要的。搜索引擎

2.分词排序

    分词就是将句子或者段落进行切割,从中提取出包含固定语义的词。索引

3.中止词文档

   在不一样语言中都包含了不少使用频率特别高的词汇,若是这些词汇都被创建到索引中进行索引的话,搜索引擎就没有意义了。所以,中止词须要被忽略掉。搜索

4.排序语言

    当输入一个关键词进行搜索的时候,可能会命中许多文档,搜索引擎的价值在于帮助用户快速定位到须要的文档,所以,须要将相关度大的内容放在前面。这就须要有适当的排序算法,通常来讲,名字标题的文档比命中内容的文档有更高的相关性。命中屡次的文档比命中一次的文档有更高的相关性。商业的搜索引擎的排序算法还会融入广告,竞价排名等因素,通常属于商业机密广告