Python读取 csv文件中文乱码处理

时间 2019-11-30

原文原文链接

需求：
按行解析读取csv文件存入关系型数据库——主要是中文字体解析；
遇到的问题：
直接解析出来的数据为list形式，并且编码格式为unicode;
解决问题：
前提了解：
　中文编码的规则 —— GB2312

　　字符串在Python内部的表示是unicode编码，在作编码转换时，一般须要以unicode做为中间编码，即先将其余编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另外一种编码。数据库

　　decode的做用是将其余编码的字符串转换成unicode编码，如str1.decode(‘gb2312’)，表示将gb2312编码的字符串转换成unicode编码。字体

　　encode的做用是将unicode编码转换成其余编码的字符串，如str2.encode(‘gb2312’)，表示将unicode编码的字符串转换成gb2312编码。编码

示例以下：
filepath:文件绝对路径
with open(filepath, mode='rb') as f:
    reader = csv.reader(f)
    # i 设置按行获取数据
    for i, rows in enumerate(reader):
        try:
            # 解决读取csv文件中文格式乱码——gb2312只支持普通中文字符
            row1 = [row1.decode('GB2312').encode('utf-8') for row1 in rows]
        except:
　　　　　　　#存在繁体时
            #gbk支持繁体中文和日文假文
            row1 = [row1.decode('GBK').encode('utf-8') for row1 in rows]