python爬取gif发源地

时间 2021-01-22

标签多进程爬虫 gif爬取分文件夹保存 BeautifulSoup requests 栏目 Python 繁體版

原文原文链接

今天又改进了半天的代码，之前的下载下来就在一个大文件夹里，现在采取分文件夹爬取，对于编码，采用了html=response.text.encode(‘iso-8859-1’).decode(‘utf-8’) 这种形式，先将html转换为unicode编码，再转化为utf-8编码。这样就能够提取出没有乱码的汉字了，将其定为文件夹里的分文件夹名。分别爬取。想看爬取思路的看我上一篇博文，这里不再赘述。

>>阅读原文<<