搜索引擎的索引和搜索

对于网络蜘蛛技术和排序技术请参考做者其它文章[1][2],这里以Google搜索引擎为例主要介绍搜索引擎的数据索引和搜索过程。 数据的索引分为三个步骤:网页内容的提取、词的识别、标引库的创建。 服务器 互联网上大部分信息都是以HTML格式存在,对于索引来讲,只处理文本信息。所以须要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信 息,同时记录文本的版面格式信息[1]。词的识别是搜索
相关文章
相关标签/搜索