Python爬虫学习笔记 -2

爬虫学习笔记 2 实践 1. 爬取网页的整体思路 一句话概括就是想办法遍历所有打开文章内容的链接。 Created with Raphaël 2.2.0 获取初始URL 爬取页面获取新的URL 抽取新的URL放入URL队列中 读取新的URL,下载网页 是否满足停止条件 结束 yes no 1.2 选取内容网站 我选择的是偶然看到的一个小网站,内容丰富,结构也不复杂,更没有各种反爬机制。练手是可以的
相关文章
相关标签/搜索