搜索引擎

搜索引擎大致可以分为四个部分:搜集、分析、索引、查询。 搜集:利用爬虫爬取网页。 搜索引擎把整个互联网看作数据结构中的有向图,把每个页面看作一个顶点。如果某个页面中包含另外一个页面,那我们就在这两个顶点之间连一条有向边。可以找一些权重比较高的网页,按照广度优先的策略,不停地从队列中取出链接,然后爬取对应地网页。 1.待爬取网页链接文件:links.bin(支持断电续爬) 可能内存中队列的链接会越来
相关文章
相关标签/搜索