数据处理流程总结

时间 2021-01-01

原文原文链接

爬虫： 1.工具 python requests包，伪造header，IP池代理 2ThreadPoolExecutor模块，多进程抓取未成功获得的网页池。做一个爬取成功URL池listyes 和不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行 #多线程 def multithreading(): number =