关于搜索引擎:搜集、分析、索引、查询。

1. 图的遍历方法有两种,深度优先和广度优先。搜索引擎中的爬虫是通过广度优先策略来爬取网页的。搜索引擎为什么选择广度优先策略,而不是深度优先策略呢? 搜索引擎要优先爬取权重较高的页面,离种子网页越近,较大可能权重更高,广度优先更合适。 2. 大部分搜索引擎在结果显示的时候,都支持摘要信息和网页快照。你知道如何改造吗? 摘要信息: 增加 summary.bin 和 summary_offset.bi
相关文章
相关标签/搜索