搜索引擎的工作流程

搜索引擎工作的大体流程是什么样子呢?我们可以理解为三段式。 一.网页搜集 网页搜集,其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛(google称之为机器人)来说,他们感兴趣的页面分为三类: 1.蜘蛛从未抓去过的新页面。 2.蜘蛛抓去过,但页面内容有改动的页面。 3.蜘蛛抓取过,但现在已删除了的页面。 那么如何行之有效的发现这三类页面并进行抓取,就是spider程序设计的初衷与目的。那么这里就涉及到
相关文章
相关标签/搜索