解决python2.x文件读写编码问题

时间 2019-11-16

标签解决 python2.x python 文件读写编码问题栏目 Python 繁體版

原文原文链接

转自: https://xrlin.github.io/%E8%A7%A3%E5%86%B3python2.x%E6%96%87%E4%BB%B6%E8%AF%BB%E5%86%99%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98/

python2.X版本在处理中文文件读写时常常会遇到乱码或者是UnicodeError错误，正以下面的程序所示:python

#coding=utf-8
# test.txt是一个以gbk2312编码（简体中文windows系统中的默认文本编码）的文本文件

# 文本写入
with open('test.txt', 'a') as f:
  f.write('test') # 正常写入
  f.write('测试') # 正常写入,乱码
  f.write（u’测试') # 写入错误，触发UnicodeEncodeError异常

# 文本读取
with open('test.txt') as f:
  for line in f:
    print line, type(line)  # 输出test娴嬭瘯, <type 'str'>

因为脚本源文件中的字符为utf-8编码，而文本文档中的字符为gb2312编码，因此以str类型字符串直接写入文件，此时str字符串的编码与文件编码不一样，致使乱码。直接str类型参数传递给write方法容易致使乱码问题，直接传递Unicode类型字符串做为write的参数，会致使UnicodeEncodeError错误，这是由于python2在写入unicode字符串时会自动尝试转码为ascii编码，而ascii编码并不能处理中文。知道了问题的根源，首先想到的解决方法就是对源字符串按照文件进行编码，保证编码正确。git

# 解决方法1
with open('test.txt', 'w') as f:
  f.write('测试'.decode('utf-8').encode('gb2312'))
  f.write(u'测试‘.ecode('gb2312')

若是是str类型的字符串，须要使用decode(由于我在脚本中设定#coding=utf8,因此使用decode(‘utf-8’))将其改变为python内部使用的Unicde编码而后使用encode转换成对应的编码类型。github

读写操做都须要进行编码转换是个容易致使错误并且烦人的问题，python中提供了codecs这个内置天然语言处理模块方便咱们进行不一样编码语言的处理，codecs模块的open方法能够指定encoding参数设定文件的编码格式，之后codecs会自动处理文件的读写编码问题，读取的字符串和写入时的字符串参数统一使用python的Unicode类型。使用codecs的open方法代替原来的open方法发能够摆脱烦人的文件编码问题。windows

with codecs.open('test.txt', 'w', encoding='utf-8') as f:
  f.write(u'测试')
with codecs.open('text.txt', encoding='utf-8') as f:
  for line in f: 
   print line, type(line) # output： 测试<type 'unicode'>