python 爬虫总结

一,爬虫是什么 爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于咱们有价值的信息。html 二,爬虫的基本构架 爬虫分为五个基本构架:web 调度器:至关于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工做。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,经过内存、数据库、缓存数据库来实现。
相关文章
相关标签/搜索