数据处理流程总结

爬虫: 1.工具 python requests包,伪造header,IP池代理 2ThreadPoolExecutor模块,多进程抓取未成功获得的网页池。 做一个爬取成功URL池listyes 和 不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行     #多线程     def multithreading():         number =
相关文章
相关标签/搜索