中文乱码一直是程序处理中不可避免的问题,既然绕不过就想办法解决它!java
通俗逻辑:python
- 源文件编码格式,'ascii,utf-8,gbk';
- python读取格式设置,encoding=‘utf-8’;
- 在程序处理中经过encode(‘utf-8’),decode(‘utf-8’),或者u''.join();
- 文件输出(txt,excel,csv等)编码设置;
固然,咱们还会用到,# -*-coding:utf-8 -*- 在第一,二行进行标识。编辑器
可是咱们仍是会遇到问题,好比说,中文输出时遇到乱码(一万个那啥啊.......)没办法,只能找解决办法。编码
- 遇到问题:
- 读取txt,通过处理,输出csv,csv遇到乱码。
- 解决办法:
df.to_csv("data.csv",encoding="utf_8_sig") # 直接利用"utf_8_sig",才能在excel中显示中文
0. 开源的编辑器实在是恶心的要死
- 考虑到不少时候咱们须要对数据处理结果进行进一步操做,统一块儿见,应该将整个过程用utf-8进行规范化
- 总的来讲:就中文处理来讲。
- 原始数据txt尽可能使用无bom格式进行存储。
- Excel数据输出时候,编码格式用GBK或UTF-8-SIG