网络爬虫-抓取1000W百度文库doc文档

时间 2021-01-20

标签网络爬虫百度文库爬虫 gevent协程 1000W数据百度文库下载栏目系统网络繁體版

原文原文链接

今天抓取的是百度文库doc文档，但是要求确实随机的1000万份文档并存为txt文本，下载百度文库的开源项目已经有了，那么去哪里找到1000万个百度文库doc文档的url呢，并且在短时间内下载下来。因为爬虫是一个IO密集型业务，所以使用协程效率则最高，第一时间想到了gevent。首先分析百度文库的url https://wenku.baidu.com/search?word=%BD%CC%CA%

>>阅读原文<<