搜索引擎的原理以及倒排索引技术

1、搜索引擎的原理 (1)、抓取数据 (2)、临时存储 (3)、清洗数据。不符合规则的清理掉,符合规则的建立索引。 2、倒排索引技术 主要就是对文章进行切词,然后再对每一个单词建立索引。以后就可以通过搜索一个词返回这个词所对应维度文章内容。 (1)、对文章进行切词,切成一个个的词。(NLP:自然语言处理) (2)、对所有的词给出唯一的编号。 (3)、建立倒排索引的列表,列表里存储的都是文章的ID,
相关文章
相关标签/搜索