常见网络爬虫的类型

1.通用网络爬虫(General Purpose Web Crawler)数据库  爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求很是高。应用于大型搜索引擎中,有很是高的应用价值。 通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块等构成。 通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。 2.聚焦网络爬虫(Foc
相关文章
相关标签/搜索