python2 读写文件(txt,csv)乱码解决

中文乱码一直是程序处理中不可避免的问题,既然绕不过就想办法解决它!java

通俗逻辑:python

  1. 源文件编码格式,'ascii,utf-8,gbk';
  2. python读取格式设置,encoding=‘utf-8’;
  3. 在程序处理中经过encode(‘utf-8’),decode(‘utf-8’),或者u''.join();
  4. 文件输出(txt,excel,csv等)编码设置;

固然,咱们还会用到,# -*-coding:utf-8 -*- 在第一,二行进行标识。编辑器

可是咱们仍是会遇到问题,好比说,中文输出时遇到乱码(一万个那啥啊.......)没办法,只能找解决办法。编码

  • 遇到问题:
    • 读取txt,通过处理,输出csv,csv遇到乱码。
  • 解决办法:
df.to_csv("data.csv",encoding="utf_8_sig") # 直接利用"utf_8_sig",才能在excel中显示中文

 

  •  解决思路:见下表
  •  
  • 总结:

     0. 开源的编辑器实在是恶心的要死

  1. 考虑到不少时候咱们须要对数据处理结果进行进一步操做,统一块儿见,应该将整个过程用utf-8进行规范化
  2. 总的来讲:就中文处理来讲。
    1. 原始数据txt尽可能使用无bom格式进行存储。
    2. Excel数据输出时候,编码格式用GBK或UTF-8-SIG
相关文章
相关标签/搜索