Python爬虫学习笔记 -2

时间 2020-12-21

原文原文链接

爬虫学习笔记 2 实践 1. 爬取网页的整体思路一句话概括就是想办法遍历所有打开文章内容的链接。 Created with Raphaël 2.2.0 获取初始URL 爬取页面获取新的URL 抽取新的URL放入URL队列中读取新的URL，下载网页是否满足停止条件结束 yes no 1.2 选取内容网站我选择的是偶然看到的一个小网站，内容丰富，结构也不复杂，更没有各种反爬机制。练手是可以的

>>阅读原文<<