最近使用python处理文本数据导入oracle数据库。因为数据库是gbk编码的,致使处理文件编码问题困扰我两天的时间。
我用了两个白天加两个晚上研究,程序直接在linux下用python运行程序成功,加入crontab后运行不成功,一开始觉得是linux环境变量问题。
再尝试了各类办法未解后,在凌晨2点忽然想到,既然可以运行,而且报错是出如今执行sql语句的时候,那么环境变量应该没问题,应该仍是链接数据库insert的时候出现问题。
由此,把问题重点转移到了cx_oracle上面。也就是经过cx_oracle向数据库插入数据是出现编码问题。这个我也经过select时候中文乱码,验证了判断问题点正确,
至此,问题的解决方案就很明了啦!我只须要在cx_oracle客户端编码设定和数据库的编码一致就能够了。
如下是从网上查找到的设定客户端cx_oracle编码的方法:
用python链接Oracle须要处理数据导出,和txt文件数据导入数据库,导出是中文老是乱码,文件导入数据库是,中文数据就会报错,提示编码错误。
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-5: ordinal not in range(128)
最后发现是oracle客户端的字符编码设置不对。
要解决此问题须要一下两个方面注意处理:
一、根据数据库不一样的编码设定,编写的python脚本中须要相对应的加入以下几句:
import os
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
或者
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.ZHS16GBK'
这样select出来的中文显示没有问题。
二、要可以正常的insert和update中文,还须要指定python源文件的字符集密码和oracle一致。
------------------------------------------------------------------------------- html
例子:python
- # -*- coding: utf-8 -*-
-
- import os
- os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' #或者os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'
-
-
-
- import cx_Oracle
- db = cx_Oracle.connect(username/passwd@host:port/sevicename)
- cursor = db.cursor()
- #其余操做
-
- db.commit()
- db.close()
参考:linux
客户端的NLS_LANG设置及编码转换sql
①在Oracle客户端向服务器端提交SQL语句时,Oracle客户端根据NLS_LANG和数据库字符集,对从应用程序接传送过来的字符串编码进行转换处理。若是NLS_LANG与数据库字符集相同,不做转换,不然要转换成数据库字符集并传送到服务器。服务器在接收到字符串编码以后,对于普通的CHAR或VARCHAR2类型,直接存储;对于NCHAR或NVARCHAR2类型,服务器端将其转换为国家字符集再存储。数据库
①在Oracle客户端向
服务器端提交SQL语句时,Oracle客户端根据NLS_LANG和数据库字符集,对从应用程序接传送过来的字符串编码进行转换处理。若是NLS_LANG与数据库字符集相同,不做转换,不然要转换成数据库字符集并传送到
服务器。服务器在接收到字符串编码以后,对于普通的CHAR或VARCHAR2类型,直接存储;对于NCHAR或NVARCHAR2类型,服务器端将其转换为国家字符集再存储。