爬虫+Python_抻透

1、爬虫架构: 2、运行流程: 3、URL管理器 3.1 功能 1)将新URL添加到爬取列表 2)判断是否重复 3)获取待爬取URL 4)判断是否有待爬取内容 5)将URL从待爬取到已爬取 3.2 实现方式 1)内存:set() 方法 2)关系数据库 3)缓存数据库redis:set 4、网页下载器 4.1 功能 将互联网的URL解析成HTML文件,存储到本地文件或内存字符串 4.2 基本插件 P
相关文章
相关标签/搜索