python从入门到放弃篇26(lxml.etree库,urllib.request库,构造xpath路径,构造url)实现翻页爬取豆瓣书简介并保存数据

今天,我研究了构造url和xpath路径的方法实现翻页爬取数据。觉得还可以,不过还是存在一些问题,没有我想的那么理想,因为,目前只实现了爬取每一页的第一本书及其书评。我等有时间会再去研究。 第一步,我们要先导入各种需要的库。 之所以导入时间库,是为了控制爬取速度,基本的爬虫对抗反爬手段,还有一个目的就是不要瞬间多次请求网页资源,容易导致网页崩溃(道德问题)。 第二步,我们打开百度搜索,搜索豆瓣,出
相关文章
相关标签/搜索