python爬虫之一_基本架构

本文内容来源于慕课网爬虫视频 一 python爬虫基本架构 1.1 基本架构 一个完整的爬虫程序包含以下以下四个部件:调度器、URL管理器、网页下载器、网页解析器。 调度器: 调用其他组件,并控制目标数据输出; URL管理器: 保存待爬取、已爬取URL,要防止爬取重复的URL; 网页下载器: 根据URL下载HTML页面或多媒体内容,对于动态页面要考虑执行js; 网页解析器: 解析HTML页面中的文
相关文章
相关标签/搜索