网络爬虫实现的原理

    一、爬行策略         深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、OPIC策略、Pagerank策略。        二、网页分析算法       (1)基于用户行为的网页分析算法: 根据用户对网页的访问行为及其评价            (2)基于网络拓扑的网页分析算法: 结构关系          网页粒度的分析算法          网页块粒度的分析算法  
相关文章
相关标签/搜索