以前在想CSDN与博客园那个写做更适合本身,后来发现彷佛博客园更适合本身(主要是由于他更专一于博客,使用它写博客更加天然,流畅)。个人第一个博客主题是解决python的中文乱码。html
以前在想爬取平凡的世界小说的内容,突然发现出现了中文乱码,想了好几个办法仍是不行,最后求助于广大网友,找到了一个比较好的方法,与诸君共享。如有其余疑问请参考这篇博客:https://blog.csdn.net/Winterto1990/article/details/51217363。python
这是个人代码:ide
import requests import chardet from bs4 import BeautifulSoup #爬取目标网页 url='http://www.pingfandeshijie.net/di-yi-bu-01.html' #头部分不用该部分也行 user_agent='Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50' headers={"User-Agent":user_agent} r=requests.get(url=url,headers=headers) r.encoding='gbk2312' #获取网页后这里设置编码格式gbk是繁体,gbk2313是简体 demo=r.text soup=BeautifulSoup(demo,'html.parser',from_encoding='gbk') print(soup.find_all('p'))
代码中有两处使用到编码设置,通过检验,其实只有第一次的编码是有效的(抱歉,第一次写不会改)。代码的标注很清楚,若是有什么疑问能够给我留言,你们一块儿解决。编码