简单爬虫学习

简单爬虫 项目流程: 1、确定爬取目标;入口地址,页面元素的审查元素地址,是否完整,(不完整就需要拼接) 2、分析爬取目标:url格式;数据格式;网页编码; 3、编写代码; 4、运行代码; 爬虫的架构: 1、爬虫调度器; 2、url管理器; 3、网页解析器; 4、网页下载器; 爬虫调度器: url管理器: 功能:实现url的新增,查找,删除,更新这些功能。 实现方式: 1、set():将待爬取和已
相关文章
相关标签/搜索