一个简单的爬虫流程及实现

时间 2019-12-07

原文原文链接

爬虫在数据采集方面有不少不错的应用，互联网就是数据的海洋，掌握好这一工具对与得到更多更宏观的数据有很大的意义。html 一个简单的爬虫包括五个主要的部分node 1 spider_main 一个调度的逻辑redis 2 url_manager url的管理器，复杂url的得到和去重，这一部分深度的能够利用redis的队列，以及深度广度优先原则数据库 3 html_parser html的解析

>>阅读原文<<