网络爬虫基本原理(二)

四、更新策略     互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种:     1.历史参考策略     顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。     2.用户体验策略     尽管搜索引擎针对于某个查询条件能够返回数量巨大的结果,但是用户往往只关注前几页结
相关文章
相关标签/搜索