python3 使用re、requests、pymongo三个模块,爬取豆瓣读书小说内容的全部信息,并将内容保存到CSV或者mongodb中文件中

python中的爬虫中的requests和re模块,是咱们很常见的两个模块,今天用这两个模块,爬取豆瓣读书一个页面上的全部书名以及做者名 ,因为多页爬取和单页的原理类似,这里不作多解释。 豆瓣读书为静态页面,分析较为容易,只需找到页面url变化规律便可。html #!/usr/bin/env python # -*- coding: utf-8 -*- # author:albert time
相关文章
相关标签/搜索