python网络爬虫(9)构建基础爬虫思路

阅读目录 目的意义 功能模块 设计思路 主文件设计 HTML下载器设计 HTML解析器设计 URL管理器设计 数据存储器设计 目的意义 基础爬虫分5个模块,使用多个文件相互配合,实现一个相对完善的数据爬取方案,便于以后更完善的爬虫做准备。 这里目的是爬取200条百度百科信息,并生成一个html文件,存储爬取的站点,词条,解释。 本文思路来源书籍。其代码部分来源书籍。https://book.dou
相关文章
相关标签/搜索