pandas读取csv文件中文乱码问题

一、为何会出现乱码问题,用什么方式编码就用什么方式解码,因为csv不是用的utf-8编码,故不能用它解码。python

经常使用的编码方式有 utf-8,ISO-8859-一、GB18030等。编码

 

二、中文乱码缘由:spa

通常的csv文件若是使用 code

data = pd.read_csv("data__361_46.csv", encoding='utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte

若此时改成blog

data = pd.read_csv('sample.csv', encoding='ISO-8859-1')

此时再也不报错,可是中文字符解析异常,出现下列错误:utf-8

 

 三、有两种解决办法:it

(1)用记事本打开csv文件,另存为,编码格式改成utf-8而后用utf-8读取文件。io

(2)用 csv编码的 “GB18030” 解码方式读取文件。class

另外,因为python不支持中文,故通常在全部python代码开头第一行加上#coding=utf-8 乱码

相关文章
相关标签/搜索