Python爬虫基础

1. 爬虫简介 爬虫:一段自动抓取互联网信息的程序。 价值:互联网数据,为我所用! 2. 简单爬虫架构 Python简单爬虫架构 Python简单爬虫架构的动态运行流程 3. URL管理器 RUL管理器 管理待爬取RUL集合和已抓取URL集合。 防止重复抓取、防止循环抓取 实现方式 内存 如Python中: 待爬取URL集合:set() 已爬取URL集合:set() 关系数据库 如MySQL: u
相关文章
相关标签/搜索