网络爬虫-抓取1000W百度文库doc文档

今天抓取的是百度文库doc文档,但是要求确实随机的1000万份文档并存为txt文本,下载百度文库的开源项目已经有了,那么去哪里找到1000万个百度文库doc文档的url呢,并且在短时间内下载下来。 因为爬虫是一个IO密集型业务,所以使用协程效率则最高,第一时间想到了gevent。 首先分析百度文库的url https://wenku.baidu.com/search?word=%BD%CC%CA%
相关文章
相关标签/搜索