用Python写的开源爬虫网站，秒搜全部豆瓣好书

时间 2019-12-06

标签 python 写的开源爬虫网站全部豆瓣好书栏目 Python 繁體版

原文原文链接

程序员在提高本身的道路，大多仍是会选择阅读编程书籍这一途径，但找到一本好书就没那么容易了。python

经过查看各大销售网站的销量数据和评价，以及豆瓣评分和评价人数，能够帮助咱们更快的挖掘出经典的计算机书籍，还有那些被人们忽视的好书。git

最近在GitHub上发现了一个网站，是中国科学院自动化研究所的一大神(lanbing510)用Python写的一个爬虫，他在16年的时候就爬下了豆瓣全部的读书数据并作了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚程序员

后来lanbing510再次爬了一遍豆瓣读书的数据，总共更新了3232088本图书信息，共2138386KB，并将其开源github

为何说它很好用呢?猿哥演示一遍你就知道了： web

能够看出这网站的界面很是简洁，没有花里花哨的内容，只有干货，你能够直接经过关键字、分数、和评价人数这三个选项进行搜索，好比咱们能够搜索关键字：编程;分数：9.0;评价人数：100人以上django

查找结果的显示方式有按照分数排序和人数排序两种，按照分数排序的截图以下：编程

按照评价人数排序的截图以下：浏览器

除了以上演示的操做，这个网站并实现了如下功能：ide

能够爬下豆瓣读书标签下的全部图书
按评分排名依次存储
存储到Excel中，可方便你们筛选搜罗，好比筛选评价人数>1000的高分书籍;可依据不一样的主题存储到Excel不一样的Sheet
采用User Agent假装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封

也就是说你不只能够在网站上搜索，还能经过下载各种目下的Excel书单文件，直接在Excel中搜索学习

效果截图以下：

最后附上网站地址：http://sobook.lanbing510.info

GitHub地址：https://github.com/lanbing510/DouBanSpider

你们在学python的时候确定会遇到不少难题，以及对于新技术的追求，这里推荐一下咱们的Python学习扣qun：784-758-214，这里是python学习者汇集地！！同时，本身是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、数据挖掘等，零基础到项目实战的资料都有整理。送给每一位python的小伙伴！每日分享一些学习的方法和须要注意的小细节*