搜狗词库爬虫(2):基础爬虫框架的运行流程

系列目录: 搜狗词库爬虫(1):基础爬虫架构和爬取词库分类 项目Github地址:https://github.com/padluo/sogouSpider 各模块对应的内容如下: getCategory.py,提取词库分类ID和名字,以字典形式返回。 SpiderMan.py,爬虫调度器。 UrlManager.py,URL管理器。 HtmlDownloader.py,网页下载器。 HtmlPa
相关文章
相关标签/搜索