python从入门到放弃篇26(lxml.etree库，urllib.request库，构造xpath路径，构造url）实现翻页爬取豆瓣书简介并保存数据

时间 2021-01-06

标签 python xpath 栏目 Python 繁體版

原文原文链接

今天，我研究了构造url和xpath路径的方法实现翻页爬取数据。觉得还可以，不过还是存在一些问题，没有我想的那么理想，因为，目前只实现了爬取每一页的第一本书及其书评。我等有时间会再去研究。第一步，我们要先导入各种需要的库。之所以导入时间库，是为了控制爬取速度，基本的爬虫对抗反爬手段，还有一个目的就是不要瞬间多次请求网页资源，容易导致网页崩溃（道德问题）。第二步，我们打开百度搜索，搜索豆瓣，出

>>阅读原文<<