(转)oracle字符集与汉字

Oracle与汉字问题与字符集

分类: oracle 425人阅读 评论(0) 收藏 举报

      Oracle字符集引发的几个问题,常见的就是汉字占多少个字节,其次就是字符集致使数据库启动失败以及索引失效等问题html

汉字占多少个字节?sql

select length('ABCDE中文字符串FG'),lengthb('ABCDE中文字符串FG') from dual;数据库

就能够知道,一个汉字占了几个字节,也能够查看数据库的字符集session

select * from nls_database_parameters where parameter ='NLS_CHARACTERSET';oracle

当NLS_CHARACTERSET=AL32UTF8时(UTF-8是变长编码,每一个Unicode代码点按照不一样范围,能够有1-3字节的不一样长度
NLS_LENGTH_SEMANTICS=BYTE时,一个汉字表明三个字节
NLS_LENGTH_SEMANTICS=CHAR时,一个汉字表明一个字节
当NLS_CHARACTERSET=US7ASCII时(字符集为单字节)
NLS_LENGTH_SEMANTICS=BYTE时,一个汉字表明两个字节
NLS_LENGTH_SEMANTICS=CHAR时,一个汉字表明两个字节函数

Oracle与汉字问题相关的函数工具

注意:计算长度的几个方法区别以下:post

LENGTH(string1) 返回以字符为单位的长度.
LENGTHB(string1) 返回以字节为单位的长度.
LENGTHC(string1) 返回以Unicode彻底字符为单位的长度.
LENGTH2(string1) 返回以UCS2代码点为单位的长度.
LENGTH4(string1) 返回以UCS4代码点为单位的长度.测试

substr,substrb均为字符串截取函数,都带有三个参数,第一个参数为所要截取的字符串,第二个参数为strart(索引均从1开始),第三个参数为length。
substr是按照字来算的,而substrb()是按照字节来算编码

关于substr,substrb的例子举例:

SQL> select substr('今天是个好日子',3,5) from dual;
----------
是个好日子
SQL> select substrb('今天是个好日子',3,5) from dual;
-----
天是
结论是substr是按照字来算的,而substrb()是按照字节来算的。看下面的例子:
SQL> select substr('abcdef',3,4) from dual;
----
cdef
SQL> select substrb('abcdef',3,4) from dual;
----
cdef
分析:对于字母来讲,substr与substrb做用时同样的,但对于汉字来讲,substr是按字来取值,而substrb是按字节来取值,当所取长度为奇数时,则自动舍弃最后一位字节。
相似的还有,
length与lengthb 长度计算函数 
select length('你好') from dual         ----output:2
select lengthb('你好') from dual       ----output :4

Instr与Instrb 字符串查找函数 instr(原字符串,查的字符串,起始位置,第几个匹配) 返回字符串位置,找不到返回0 .
select instr('日日花前长病酒','花前',1,1) from dual     ----output:3
select instrb('日日花前长病酒','花前',1,1) from dual     ----output:7

 Oracle字符集

安装数据库的时候能够设置字符集,不一样版本可能默认的字符集是不同的(以Oracle 9i为例子)

首先查看字符集:(注意:修改数据库字符集时必须谨慎,修改以前必定要为数据库备份。因为不能回退这项操做,所以可能会形成数据丢失或者损坏)

SQL> select name,value$ from props$ where name like '%NLS%';

NAME                           VALUE$
------------------------------ ------------------------------
NLS_LANGUAGE                   AMERICAN
NLS_TERRITORY                  AMERICA
NLS_CURRENCY                   $
NLS_ISO_CURRENCY               AMERICA
NLS_NUMERIC_CHARACTERS         .,
NLS_CHARACTERSET               US7ASCII
NLS_CALENDAR                   GREGORIAN
NLS_DATE_FORMAT                DD-MON-RR
NLS_DATE_LANGUAGE              AMERICAN
……………….
NLS_NCHAR_CHARACTERSET         AL16UTF16
NLS_RDBMS_VERSION              9.2.0.4.0

20 rows selected.
SQL> select name,dump(name) from eygle.test;

NAME   DUMP(NAME)
------------------------------------------------------
测试     Typ=1 Len=4: 178,226,202,212
Test      Typ=1 Len=4: 116,101,115,116


2 rows selected.

转换字符集,你只能在新字符集是旧字符集严格超集的状况下使用这种方式转换。所谓超集是指:当前字符集中的每个字符在新字符集中均可以表示,并使用一样的代码点好比不少字符集都是US7ASCII的严格超集.

若是不是超集,将得到如下错误:

  1. SQL> ALTER DATABASE CHARACTER SET  ZHS16CGB231280;  
  2. ALTER DATABASE CHARACTER SET  ZHS16CGB231280*ERROR at line 1:ORA-12712: new character set must be a superset of old character set  

转换字符集,数据库应该在RESTRICTED模式下进行:

  1. <p>c:\>sqlplus "/ as sysdba"  
  2.   
  3. SQL*Plus: Release 9.2.0.4.0 - Production on Sat Nov 1 10:52:30 2003  
  4.   
  5. Copyright (c) 1982, 2002, Oracle Corporation.  All rights reserved.  
  6.   
  7.   
  8. Connected to:  
  9. Oracle9i Enterprise Edition Release 9.2.0.4.0 - Production  
  10. With the Partitioning, Oracle Label Security, OLAP and Oracle Data Mining options  
  11. JServer Release 9.2.0.4.0 - Production  
  12.   
  13. SQL> shutdown immediate  
  14. Database closed.  
  15. Database dismounted.  
  16. ORACLE instance shut down.  
  17. SQL> STARTUP MOUNT;  
  18. ORACLE instance started.  
  19.   
  20. Total System Global Area   76619308 bytes  
  21. Fixed Size                   454188 bytes  
  22. Variable Size              58720256 bytes  
  23. Database Buffers           16777216 bytes  
  24. Redo Buffers                 667648 bytes  
  25. Database mounted.  
  26. SQL> ALTER SESSION SET SQL_TRACE=TRUE;  
  27.   
  28. Session altered.  
  29.   
  30. SQL> ALTER SYSTEM ENABLE RESTRICTED SESSION;  
  31.   
  32. System altered.  
  33.   
  34. SQL> ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0;  
  35.   
  36. System altered.  
  37.   
  38. SQL> ALTER SYSTEM SET AQ_TM_PROCESSES=0;  
  39.   
  40. System altered.  
  41.   
  42. SQL> ALTER DATABASE OPEN;  
  43.   
  44. Database altered.  
  45.   
  46. SQL> set linesize 120  
  47. SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;  
  48. ALTER DATABASE CHARACTER SET ZHS16GBK  
  49. *  
  50. ERROR at line 1:  
  51. ORA-12721: operation cannot execute when other sessions are active  
  52.   
  53.   
  54. SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;  
  55. ALTER DATABASE CHARACTER SET ZHS16GBK  
  56. *  
  57. ERROR at line 1:  
  58. ORA-12716: Cannot ALTER DATABASE CHARACTER SET when CLOB data exists  
  59.   
  60. 在Oracle9i中,若是数据库存在CLOB类型字段,那么就不容许对字符集进行转换  
  61. </p>  

这时候,咱们能够去查看alert<sid>.log日志文件,看CLOB字段存在于哪些表上:

  1. ALTER DATABASE CHARACTER SET ZHS16GBK SYS.METASTYLESHEET (STYLESHEET) - CLOB populatedORA-12716 signalled during: ALTER DATABASE CHARACTER SET ZHS16GBK...   

对于不一样状况,Oracle提供不一样的解决方案,若是是用户数据表,通常咱们能够把包含CLOB字段的表导出,而后drop掉相关对象,
转换后再导入数据库;对于系统表,能够按照如下方式处理:

[html] view plain copy
  1. SQL> truncate table Metastylesheet;Table truncated.   
  2. SQL> ALTER SESSION SET SQL_TRACE=TRUE;  
  3. Session altered.  
  4. SQL> ALTER DATABASE CHARACTER SET ZHS16GBK;  
  5. Database altered.  
  6. SQL> ALTER SESSION SET SQL_TRACE=FALSE;  
  7. Session altered.  

在9.2.0中,转换完成之后,能够经过运行catmet.sql脚原本重建Metastylesheet表:

SQL> @?/rdbms/admin/catmet.sql

经过Metastylesheet表来测试不一样字符集的影响。

提示:
经过设置sql_trace,咱们能够跟踪不少数据库的后台操做,这个工具是DBA经常使用的“利器”之一。
咱们简单看一下数据库更改字符集时的后台处理,我提取了主要的更新部分。
经过如下跟踪过程,咱们看到数据库在更改字符集的时候,主要更新了12张数据字典表,修改了数据库的原数据,这也证明了咱们之前的说法:
这个更改字符集的操做在本质上并不转换任何数据库字符,只是简单的更新数据库中全部跟字符集相关的信息。

  1. update col$ set charsetid = :1   
  2. where  
  3.  charsetform = :2  
  4.   
  5.   
  6. update argument$ set charsetid = :1   
  7. where  
  8.  charsetform = :2  
  9.   
  10.   
  11. update collection$ set charsetid = :1   
  12. where  
  13.  charsetform = :2  
  14.   
  15.   
  16. update attribute$ set charsetid = :1   
  17. where  
  18.  charsetform = :2  
  19.   
  20.   
  21. update parameter$ set charsetid = :1   
  22. where  
  23.  charsetform = :2  
  24.   
  25.   
  26. update result$ set charsetid = :1   
  27. where  
  28.  charsetform = :2  
  29.   
  30.   
  31. update partcol$ set spare1 = :1   
  32. where  
  33.  charsetform = :2  
  34.   
  35.   
  36. update subpartcol$ set spare1 = :1   
  37. where  
  38.  charsetform = :2  
  39.   
  40.   
  41. update props$ set value$ = :1   
  42. where  
  43.  name = :2  
  44.   
  45.   
  46. update "SYS"."KOTAD$" set SYS_NC_ROWINFO$ = :1   
  47. where  
  48.  SYS_NC_OID$ = :2  
  49.   
  50. update seq$ set increment$=:2,minvalue=:3,maxvalue=:4,cycle#=:5,order$=:6,  
  51.   cache=:7,highwater=:8,audit$=:9,flags=:10   
  52. where  
  53.  obj#=:1  
  54.   
  55. update kopm$ set metadata = :1, length  = :2   
  56. where  
  57.  name='DB_FDO'  

注意:经过前面 ” ALTER DATABASE CHARACTER SET” 方式更改字符集时,Oracle至少须要更改12张数据字典表,而这种直接更新props$表的方式只完成了其中十二分之一的工做,潜在的完整性隐患是可 想而知的。并且经过更新props$表的方式修改字符集,在Oracle7以后就不该该被使用.

相关文章
相关标签/搜索