python爬取gif发源地

今天又改进了半天的代码,之前的下载下来就在一个大文件夹里,现在采取分文件夹爬取,对于编码,采用了html=response.text.encode(‘iso-8859-1’).decode(‘utf-8’) 这种形式,先将html转换为unicode编码,再转化为utf-8编码。这样就能够提取出没有乱码的汉字了,将其定为文件夹里的分文件夹名。分别爬取。想看爬取思路的看我上一篇博文,这里不再赘述。
相关文章
相关标签/搜索